- Представление текстовой информации в памяти компьютера
- Информационный объём фрагмента текста
- знать функции кодовых таблиц
- знать способы нахождения информационного объёма сообщения
- уметь находить информационный объём фрагмента текста
- Перечислите виды информации, обрабатываемые компьютером.
- В каком виде информация представлена в памяти компьютера?
- Что такое информационный объём сообщения?
- Назовите единицы измерения информационного объёма.
- Что такое алфавит и его мощность?
Представление текстовой информации в памяти компьютера
Текстовая информация включает в себя символы: буквы, цифры, знаки препинания, скобки, пробел и т. д. Записывая текст, пользователь использует множество всех символов — алфавит. В алфавите, как правило, используется определённое число символов, что называют его мощностью.
Тексты вводятся в память компьютера с помощью клавиатуры. На клавишах написаны привычные для человека символы. В оперативную память они попадают в форме двоичного кода.
Разрядность — длина двоичного кода, отводимая для кодирования одного символа, обозначается как i, мощность алфавита — N, тогда имеем формулу:
.
Мощность компьютерного алфавита равна 256, тогда из предыдущей формулы получаем , следовательно, бит (1 байт) — вес одного символа данного алфавита.
Этот восьмиразрядный двоичный код позволяет получить 256 различных кодовых комбинаций.
Найти соответствие между символами и кодовыми комбинациями помогают кодовые таблицы — специальные таблицы, подчиняющиеся международным стандартам кодирования символов.
Во всех кодовых таблицах первые 128 символов одинаковые:
- 0−32 — управляющие символы (позволяют удалить предыдущий символ Delete, BackSpace, переводят строки, ставят пробел);
- 33−127 — изображаемые символы (латинские буквы, знаки препинания, цифры
и т. д.); - 128−255 — буквы национального алфавита.
В 70-х годах XX века американскими учёными был разработан и внедрён особый стандартный код для обмена информацией ASCII (American Standard Code for Information Intercharge). Его использовали для передачи информации как с помощью компьютерных средств, так и некомпьютерных (например телеграф).
Прописные и строчные буквы латинского алфавита, цифры, знаки препинания, знаки арифметических действий, специальные символы являются изображаемыми символами в кодировке ASCII.
Таблица 1. Кодировка ASCII
Стандарт ASCII был создан для передачи текста, состоящего из букв латинского алфавита, однако существовала необходимость в передаче текста другого вида.
Несогласованность действий в разработке расширений привела к тому, что для большинства языков было придумано сразу по несколько кодовых таблиц, что способствовало появлению недопонимая при кодировании информации. В связи с этим каждой кодовой таблице давались название и номер.
Русскому алфавиту соответствовали примерно 10 кодовых таблиц.
Проблемы использования 8-битной кодировки, а именно невозможность работы сразу с несколькими алфавитами (языками), постоянная потребность в перекодировке привели к тому, что в 1991 году был создан новый стандарт кодирования символом — Юникод или Unicode (шестнадцатиразрядная кодировка), с помощью которого появилась возможность применять символы любых языков мира.
Пользователю нет необходимости перекодировать текстовые документы самостоятельно, это делают специальные программы-конвентеры, встроенные в операционную систему или приложения.
Информационный объем фрагмента текста
В предыдущих параграфах было сказано, что информационный объем сообщения есть I, который равен произведению количества символов K в сообщении на информационный вес символа:
.
Исходя из разрядности кодировки, информационный вес символа текста, создаваемого на компьютере, может быть равен 8 битам при восьмиразрядной кодировке или 16 битам, если кодировка шестнадцатиразрядная.
Пример 1
Каждый символ кодируется одним байтом. Определите, чему равен информационный объём сообщения: «Век живи, век учись!»
Решение
Посчитаем количество символов в сообщении, будем учитывать буквы, знаки препинания и пробелы. Всего 20 символов. Каждый символ кодируется 1 байтом.
Пример 2
Найти объём (в Мбайтах) текстовой информации в учебнике по информатике, если используется кодировка ASCII.
Решение
Запишем условие. Для оценки в байтах объёма текстовой информации в учебнике по информатике, состоящем из 288 страниц, на каждой из которых в среднем 35 строк по 55 символов (включая пробелы), необходимо найти общее число символов.
Пример 3
В энциклопедии 23 тома, в каждом из которых порядка 800 страниц. На одной странице размещается в среднем 60 строк по 100 символов (включая пробелы) в каждой. Найдите объём текстовой информации в энциклопедии. Считайте, что при записи использовался алфавит мощностью 256 символов.
Решение
Так как , тогда бит.
Контрольные вопросы
1. Что такое кодовая таблица? Какую информацию она содержит?
2. Для чего используются кодировки ASCII и Unicode?
3. Чем отличается восьмиразрядная кодировка от шестнадцатиразрядной?
4. Найдите информационный объём текста, если используется шестнадцатиразрядная кодировка: дважды два — четыре.
Вопрос 4
Ответ: 40 байт, если учитывать точку в конце.