Напоминание

Кодирование текстовой информации


Автор: Логинова Виктория Леонидовна
Должность: учитель информатики
Учебное заведение: МБОУ СОШ № 142
Населённый пункт: Новосибирск
Наименование материала: Методическая разработка
Тема: Кодирование текстовой информации
Раздел: среднее образование





Назад





Автор: Логинова Виктория Леонидовна,

учитель информатики МБОУ СОШ № 142,

г. Новосибирск


Текстовая информация

-
это информация, выраженная с помощью естественных или формальных языков в письменной форме.
Для кодирования 1 символа используется 1 байт информации
66 букв

русского

алфавита

52 буквы

английского

алфавита

0-9

цифры

Знаки

препинания

1 байт

256

символов

При
двоичном кодировании текстовой

информации
каждому символу ставится в соответствие своя уникальная последовательность из восьми нулей и единиц, свой уникальный код от 00000000 до 11111111 (десятичный код от 0 до 255).
Присвоение символу конкретного двоичного кода – это вопрос соглашения, которое фиксируется в кодовой таблице.
Кодовая таблица
– таблица, в которой устанавливается соответствие между числовыми кодами и символами.


0 – 32
функциональные клавиши и операции: перевод строки, ввод пробела и т.д.
33 – 127
интернациональные: соответствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.
128 – 255
национальные (кириллица), т.е. в национальных кодировках одному и тому же коду соответствуют различные символы.
В первые годы развития компьютерной техники трудности кодирования текстовой информации были вызваны отсутствием необходимых с т а н д а рто в код и р о ва н и я . В н а с т оя щ е е в р е м я , н а п р о т и в , существующие трудности связаны с множеством одновременно действующих и зачастую противоречивых стандартов. Для английского языка, который являет ся неофициальным международным средством общения, эти трудности были решены. Институт стандартизации США выработал и ввел в обращение
систему

кодирования

ASCII
(American Standard Code for Information Interchange – стандартный код информационного обмена США).

Для кодировки русского алфавита были разработаны несколько вариантов кодировок:
КОИ-8
(Код Обмена Информацией, восьмизначный) – другая популярная кодировка российского алфавита, распространенная в компьютерных сетях на территории Российской Федерации и в российском секторе Интернет.


Windows-1251
– введена компанией Microsoft, с учетом широкого распространения операционных систем (ОС) и других программных продуктов этой компании в Российской Федерации она нашла широкое распространение.





i N 2  i k I т   .

Задача 1.
Считая, что каждый символ кодируется одним байтом, определите, чему равен информационный объём следующего высказывания Жан-Жака Руссо:
Тысячи путей ведут к заблуждению, к истине – только

один.
Ответ дайте в битах.

Решение:
Определим количество символов, включая пробелы и знаки препинания - 57. Так как каждый символ кодируется одним байтом, то информационный объем равен 57* 1 байт = 57 байт=57* 8 бит = 456 бит

Задача 2.
Статья, набранная на компьютере, содержит 32 страницы, на каждой странице 40 строк, в каждой строке 48 символов. Определите размер статьи в ко дировке КОИ-8, в которой каждый символ кодиру ется 8 битами.

Решение:
Найдем количество символов в статье: 32 · 40 · 48 = 61440 символов. Один символ кодируется одним байтом 61440*1=61440 байт. Переведем в Кб. 61440/1024 = 60Кб.

Задача 3.
В одной из кодировок Unicode каждый символ коди руется 16 битами. Определите размер следующего предложения в данной кодировке:
Вознёсся выше он гла­вою непокор­ной Алекса­н

др­ийского столпа­.


Решение:
Каждый символ кодируется 16 битами или двумя байтами. Всего символов 59, включая пробелы. Следовательно, 59*2 = 118 байт =118*8 = 944 бит.
1. Статья, набранная на компьютере, содержит 16 стра ниц, на каждой странице 30 строк, в каждой строке 32 символа. Определите информационный объём статьи в одной из кодировок Unicode, в которой каждый символ кодируется 16 битами. 2. В одной из кодировок Unicode каждый символ кодиру ется 16 битами. Определите размер следующего предло жения в данной кодировке:
Слух обо мне пр­ойдёт по

всей Руси великой.


В раздел образования