- Программы оптического распознавания текста
- Компьютерные словари и программы-переводчики
- знать основные функции программ распознавания документов
- знать принцип работы компьютерных словарей и программ-переводчиков
- уметь приводить примеры программ распознавания документов, программ-переводчиков
За многовековую историю человечество накопило огромное количество знаний, большая часть из которых хранится на бумажных носителях. При создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий от бумажного к электронному документообороту используют системы оптического распознавания символов.
В памяти компьютера можно сохранить огромное количество информации, что позволяет создать электронные словари, которые обеспечивают не только перевод информации, но и орфографическую проверку написания слов на различных языках.
Программы оптического распознавания текста
Иногда возникают ситуации, когда отсканированный и сохранённый в памяти компьютера документ необходимо подправить, внести дополнительную информацию. Но как это сделать, если перед нами отсканированное изображение, а не текстовый документ? Возникает проблема: отсканированный документ есть изображение, состоящее из точек (пикселей), а не из текста. Перепечатка текста займёт слишком много времени, поэтому были разработаны специальные прикладные программы распознавания символов и текста.
Программы распознавания символов и текста — это программы, с помощью которых осуществляется ввод больших текстов в память компьютера путём распознавания текста.
Из рисунка видно, какие операции может выполнить данная программа:
- сканировать в MS Word;
- файл (PDF/изображение) в MSWord;
- сканировать и сохранить изображение;
- сканировать в PDF с возможностью поиска;
- фото в MS Word.
ABBYY FineReader может распознать информацию на 179 языках, включая случаи использования сразу двух языков в тексте. В процессе работы текст проверяется на орфографию, а результаты могут быть экспортированы в различные программы, например, MS Word, Excel, PowerPoint или Outlook.
Преобразование бумажного документа в электронный вид происходит в пять этапов:
- Сканирование документа (кнопка Сканировать).
- Сегментация документа (кнопка Сегментировать) — разбиение страницы на блоки текста.
- Распознавание документа (кнопка Распознать).
- Редактирование и проверка результата (кнопка Проверить).
- Сохранение документа (кнопка Сохранить).
Компьютерные словари и программы-переводчики
Компьютерные словари предназначены для перевода текста с одного языка на другой.
В настоящее время существует огромное количество компьютерных словарей, включающих в себя десятки тысяч слов и выражений.
Компьютерные словари представляют собой быстро работающую компьютерную программу, имеющую поиск, в то время как бумажный эквивалент будет иметь вид толстой книги, в которой долго и проблематично искать необходимый перевод слова.
Компьютерные словари включают в себя:
- Множество языков для перевода информации;
- Словари, содержащие переводы специфических терминов из различных областей знаний (техника, медицина и др.);
- «Быстрый набор» — выпадающий список похожих слов, словосочетаний;
- Воспроизведение слов (не во всех).
Компьютерные словари можно установить на компьютер или мобильное устройство. Также можно использовать on-line версии словаря в сети Интернет.
Для перевода текстовых документов применяются
программы-переводчики, которые могут оказать огромную помощь в обработке информации на иностранных языках по различным отраслям знаний.
В настоящее время наиболее распространёнными программами машинного перевода являются системы PROMT, Stylius, Сократ, Magic Gooddy и др.
Минусы компьютерного перевода:
- иногда допускают смысловые и стилистические ошибки;
- неприменимы для перевода художественных произведений.
Контрольные вопросы
1. Каким образом происходит распознавание символов и текста?
2. Перечислите этапы распознавания текста с помощью программы ABBYY FineReader.
3. Есть ли у компьютерных словарей преимущества по отношению к бумажным словарям?