Конспект урока "Распознавание текста и системы компьютерного перевода" 7 класс (Босова Л.Л.)

Урок информатики в 7 классе ФГОС
(Босова Л.Л.)
Тема: Распознавание текста и системы компьютерного перевода
Класс: 7 (3 человека)
Учитель: Яковлева Раиса Васильевна
Продолжительность урока:45 минут
Тип занятия: Комбинированный урок (6-й урок из 9 запланированных уроков в
разделе 4 «Обработка тексовой информации»). Предыдущее занятие: «Визуализация
информации в текстовом документе»; следующее занятие: Практическая работа №10
«Распознавание текстовых документов»
Психолого-педагогическая характеристика особенностей класса:
7 класс, 3 обучающихся; 1 мальчик и 2 девочки. Возраст обучающихся: 14-15 лет.
Отношение к учебе положительное, мотивация к обучению высокая. Успеваемость –
100 %, качество обучения – 100%. Пропусков занятий без уважительной причины нет.
Взаимоотношения в классе открытые, доброжелательные, направленные на
взаимопомощь. Трудностей в общении у обучающихся между собой, и между
обучающимися и педагогами не возникает. Конфликтность в отношениях отсутствует. В
классе ровный, дружелюбный эмоциональный фон, хороший настрой на учебу.
Форма занятия: индивидуальная, фронтальная
Цели:
1. Предметные формирование навыков работы с программами оптического
распознавания документов, компьютерными словарями и программами-переводчиками;
2. Метапредметные – широкий спектр умений и навыков использования средств
информационных и комуникационных технологий для работы с текстовой инормацией;
3. Личностные формирование понимания социальной, общекультурной роли в
жизни современного человека навыков работы с программным обеспечением,
поддерживающим работу с текстовой информацией
Задачи урока:
1. Расширение представлений о технологии оптического распознавания текстовых
документов;
2. Расширение представлений о компьютерных словорях и программах-переводчиках.
В результате проведения занятия формируются следующие ЗУН:
1. Приобретут знания о программах оптического распознавания доуменов,
комньютерных словарях и программах переводчиках.
2. Закрепят навыки работы с программами оптического распознавания документов,
компьюерными словарями и програмами-переводчиками.
В результате проведения занятия формируются следующие компетенции:
коммуникативная, личностное самосовершенствование, самообучение и самоорганизация,
использование информационных технологий для решения профессиональных задач.
Учебный материал, подлежащий усвоению, актуализации, закреплению:
Программы оптического распознавания документов
Для ввода текстов в память компьютера с бумажных носителей используют сканеры и
программы распознавания символов.
Одной из наиболее известных программ такого типа является ABBYY FineReader. Вместо
сканера можно использовать цифровой фотоаппарат или камеру мобильного телефона.
Компьютерные словари и программы-переводчики
Компьютерные словари выполняют перевод отдельных слов и словосочетаний. Для перевода
текстовых документов применяются программы-переводчики.
Компьютерные словари обеспечивают мгновенный поиск словарных статей. Они могут быть
установлены на компьютер как самостоятельные программы, бывают встроенные в
процессоры, существуют в онлайн режиме в сети Интернет. Для перевода больших текстов
используются программы-переводчики.
Ведущие методы урока:
обучения–проблемно-поисковый, практический, преобразовательный,
систематизирующий;
мотивации–АМО;
контроля – самоанализ, взаимоанализ.
Педагогические технологии: проблемного обучения, групповая.
Обеспечение занятия:
оборудование АРМ преподавателя (ПК, проектор, акустическая система,
интерактивная доска, принтер, сканер), АРМ обучающихся: 5 ПК; подключение к Интернет.
программное обеспечение – ОС Windows, офисный пакет MSOffice (Word, PowerPoint,
Publisher), программы CuneiForm и Dicter.
( ссылки на закачку программ 1) CuneiForm -
http://programdownloadfree.com/load/text/scanning_recognition/ocr_cuneiform/74-1-0-131
2) Переводчик Dicter http://softobase.com/ru/dicter
Список литературы и источников:
1. ФГОС Босова Л.Л., Босова А.Ю. Информатика 7 класс . 3-е издание.- М.:
БИНОМ. Лаборатория знаний, 2015. – 223 с.: ил.
2. ФГОС Информатика 7-9. Методическое пособие. Босова Л.Л., Босова А.Ю.
М.: БИНОМ. Лаборатория знаний, 2015. – 472 с.: ил.
3. Лазарев, Тимофей Васильевич. Образовательные технологии новых
стандартов: настольная книга современного педагога. Ч. 1: Технология АМО:
высокая мотивация обучающихся, качественное формирование УУД и
компетентностей, удовольствие от процесса и результатов обучения /
Т.В. Лазарев. – Петрозаводск: Verso, 2012. 255 с. – (Серия "Это – ты").
Врем
я
Содержание занятия
Деятельность
преподавателя
обучающихся
1
2
3
4
5
Фаза 1 «Начало образовательного мероприятия»
1
1. Этап «Инициация»
Начальная формула
вежливости
Приветствует
обучающихся
Приветствуют
преподавателя
2 мин.
«Психологическая
поддержка»
Преподаватель
произносит слова шёпотом.
Становятся в круг,
берутся за руки,
повторяют за
преподавателем хором
вслух: «Мы умные! Мы
дружные!
Мы
внимательные! Мы
старательные!
Мы отлично
учимся и всё у нас
получится!»
2
2.Этап «Погружение в тему»
10 мин.
«Домино»
Учитель раздает равное
количество карточек «домино».
Учитель на доске
вывешивает стартовую
карточку.
Ученики по очереди
выходят к доске и крепят
свою карточку «домино»
Фаза 2 «Работа над темой»
3
3. Этап «Инпут» (интерактивная лекция)
8 мин.
«Цепочка»
Учитель излагает
материал, прелагая учащимся
выходя по очереди к доске
располагать операции
распознавания текста в
программе ABBYY FineReader
по порядку
выходят по очереди
к доске, располагают
операции распознавания
текста в программе
ABBYY FineReader по
порядку
4
4. Этап «Проработка содержания темы»
20мин.
«Тендер»
Учитель предлагает
выполнить практическую
работу: Заказ создания памяток
о том как нужно вести при
различнызхЧС
Ученики создают памятки
Фаза 3 «Завершение образовательного мероприятия»
7
5. Этап «Эмоциональная разрядка» (разминка)
«Мостик дружбы
Учитель просит
учащихся придумать и показать
мостик дружбы, счастья,
радости, мечты (при помощи
рук, ног, туловища,
соприкоснувшись головами,
ладошками и т.д.), втроем, (т.к.
класс маленький всего 3
человека).
все берутся за руки,
делают круг и поднимают
руки вверх, изображая
«Мостик дружбы».
6. Этап «Рефлексия»
«Кубик Блума»
Учитель бросает кубик
ученику. Выпавшая грань
укажет: какого типа вопрос
следует задать. Удобнее
ориентироваться по слову на
грани кубика с него и
должен начинаться вопрос.
Ученики отвечают
на вопросы
Слайд 11
Ход урока
Фаза 1 «Начало образовательного мероприятия»
Организационный этап (2 мин.)
Здравствуйте, ребята! Очень рада видеть Вас на своем занятии. Давайте окажем
друг другу«Психологическую поддержку».Давайте встанем в круг, возьмёмся за
руки. Повторяйте за мнойхором вслух: «Мы умные! Мы дружные!Мы
внимательные! Мы – старательные! Мы отлично учимся и всё у нас получится!». Спасибо.
3. Этап «Вхождение в тему урока» (мотивация, целеполагание)(10 мин.)
АМО «Домино»
Ребята, нас попросили создать на компьютере памятки о том, как нужно вести себя
при различных чрезвычайных ситуациях (по ОБЖ). Я нашла в учебнике ОБЖ
информацию по теме. Наши памятки должны выглядеть так (показывает образец).
Давайте вместе подумаем, что нам нужно для того, чтобы создать такую памятку.
Учащиеся отвечают: нужен текстовый редактор.
Учитель – Вы видите, что образец памятки содержит отдельные элементы документа.
Давайте повторим их и правила их оформления на ПК, которые мы изучили на прошлых
уроках. Для этого сыграем в «домино»*. (приложение №1)
Учитель дает задание – создать памятку по ОБЖ, максимально похожую на образец,
представленный в учебнике. Что для этого необходимо?
Учащиеся отвечают: для этого можно использовать сканер и специальную программу, а
затем отформатировать документ.
Фаза 2 «Работа над темой»
3. Этап «Инпут» (интерактивная лекция) (8 мин)
АМО « Цепочка»
Учитель излагает материал, предлагая учащимся выходя по очереди к доске (или
стенду) располагать операции распознавания документа в программе ABBYY FineReader
по порядку. К концу лекции на доске получается полный алгоритм действий при работе с
программой («цепочка»), который в течение выполнения практического задания остается
доступным ребятам в качестве инструкции или подсказки. (приложение №2)
4. Этап «Проработка содержания темы»(15 мин.)
АМО «Тендер»»
Сейчас мы с вами проведем деловую игру: Вы все получили заказ на создание
памятки. Перед вами стоит одна и таже задача создать памятку, соревнуясь, чья работа
будет сделана лучше и правильнее (больше соответствует образцу) Получите инструкцию
по выполнению работы за ПК и образец памятки по ЧС.(приложение № 3)
Фаза 3 «Завершение образовательного мероприятия»
5. Этап «Эмоциональная разрадка» (5 мин)
АМО «Мостик дружбы»
Учитель просит учащихся придумать и показать мостик дружбы, счастья, радости,
мечты (при помощи рук, ног, туловища, соприкоснувшись головами, ладошками и т.д.),
втроем, (т.к. класс маленький всего 3 человека). Заканчивается упражнение тем, что все
берутся за руки, делают круг и поднимают руки вверх, изображая «Мостик дружбы».
6. Этап «Рефлексия» (5 мин.)
АМО «Кубик Блума»
А сейчас, в конце нашего урока, давайте подведем итоги: всё ли получилось,
узнали ли Вы новую нужную информацию, получили новые навыки работы,
профессиональный опыт.
Для этого я буду бросать кубик ученику. Выпавшая грань укажет: какого типа
вопрос следует задать. Удобнее ориентироваться по слову на грани кубика с него и
должен начинаться вопрос. (приложение№4)
Инструктирование по выполнению домашнего задания
Ребята! Запишем домашние задание: §. 4.5 с. 177 Вопрос №7(записать в РТ. с.
125) РТ. №205
Ребята! Мне было очень приятно работать с Вами. Спасибо за урок. До свидания!
Приложение №1
Приложение №2
Компьютерные словари.
1. Стираются информационные границы между странами и народами, у человека
появляется возможность общаться в буквальном смысле слова со всем миром. Все это
приводит к тому, что многие люди различных профессий начинают общаться с
иностранными коллегами, читать справочную и другую специальную литературу на
иностранном языке. Но далеко не каждый человек свободно владеет иностранными
языками.
Словари необходимы для перевода текстов с одного языка на другой. Первые
словари были созданы около 5 тысяч лет назад в Шумере и представляли собой глиняные
таблички, разделенные на две части. В одной части записывалось слово на шумерском
языке, а в другой — аналогичное по значению слово на другом языке, иногда с краткими
пояснениями.
Современные словари построены по такому же принципу. В настоящее время
существуют тысячи словарей для перевода между сотнями языков (англо-русский,
немецко-французский и так далее), причем каждый из них может содержать десятки
тысяч слов. В бумажном варианте словарь представляет собой толстую книгу объемом в
сотни страниц, где поиск нужного слова является достаточно трудоемким процессом.
Компьютерные словари могут содержать переводы на разные языки сотен тысяч
слов и словочетаний, а также предоставляют пользователю дополнительные возможности.
Во-первых, компьютерные словари могут являться многоязычными, так как дают
пользователю возможность выбрать языки и направление перевода (например, англо-
русский, испано-русский и так далее).
Во-вторых, компьютерные словари могут кроме основного словаря
общеупотребительных слов содержать десятки специализированных словарей по
областям знаний (техника, медицина, информатика и др.).
В-третьих, компьютерные словари обеспечивают быстрый поиск словарных
статей: «быстрый набор», когда в процессе набора слова возникает список похожих слов;
доступ к часто используемым словам по закладкам; возможность ввода словосочетаний и
др.
В-четвертых, компьютерные словари могут являться мультимедийными, то есть
предоставлять пользователю возможность прослушивания слов в исполнении дикторов,
носителей языка.
Системы машинного перевода.
Происходящая в настоящее время глобализация нашего мира приводит к
необходимости обмена документами между людьми и организациями, находящимися в
разных странах мира и говорящими на различных языках.
В этих условиях использование традиционной технологии перевода «вручную»
тормозит развитие межнациональных контактов. Перевод многостраничной документации
вручную требует длительного времени и высокой оплаты труда переводчиков. Перевод
полученного по электронной почте письма или просматриваемой в браузере Web-
страницы необходимо осуществить немедленно, и нет возможности и времени пригласить
переводчика.
Системы машинного перевода позволяют решить эти проблемы. Они, с одной
стороны, способны переводить многостраничные документы с высокой скоростью (одна
страница в секунду) и, с другой стороны, переводить Web-страницы «на лету», в режиме
реального времени. Лучшими среди российских систем машинного перевода считаются
PROMT и «Сократ».
Системы машинного перевода осуществляют перевод текстов, основываясь на
формальном «знании» языка (синтаксиса языка — правил построения предложений,
правил словообразования) и использовании словарей. Программа-переводчик сначала
анализирует текст на одном языке, а затем конструирует этот текст на другом языке.
Современные системы машинного перевода позволяют достаточно качественно
переводить техническую документацию, деловую переписку и другие
специализированные тексты. Однако они неприменимы для перевода художественных
произведений, так как не способны адекватно переводить метафоры, аллегории и другие
элементы художественного творчества человека.
Вопросы:
Зачем нужны программы - переводчики?
По какому принципу построены компьютерные словари?
Какие тексты нецелесообразно переводить с помощью компьютерных
переводчиков?
2. С помощью сканера достаточно просто получить изображение страницы текста в
графическом файле. Однако работать с таким текстом невозможно: как любое
сканированное изображение, страница с текстом представляет собой графический файл -
обычную картинку. Текст можно будет читать и распечатывать, но нельзя будет его
редактировать и форматировать. Для получения документа в формате текстового файла
необходимо провести распознавание текста, то есть преобразовать элементы графического
изображения в последовательности текстовых символов.
Преобразованием графического изображения в текст занимаются специальные
программы распознавания текста (Optical Character Recognition - OCR).
Современная OCR должна уметь многое: распознавать тексты, набранные не
только определенными шрифтами (именно так работали OCR первого поколения), но и
самыми экзотическими, вплоть до рукописных. Уметь корректно работать с текстами,
содержащими слова на нескольких языках, корректно распознавать таблицы. И самое
главное корректно распознавать не только четко набранные тексты, но и такие,
качество которых, мягко говоря, далеко от идеала. Например, текст с пожелтевшей
газетной вырезки или третьей машинописной копии. Само собой, распознать текст это
еще полдела. Не менее важно обеспечить возможность сохранения результата в файле
популярного текстового (или табличного) формата скажем, формата Microsoft Word.
Как видим, для того, чтобы получить электронную, готовую к редактированию
копию любого печатного текста, программе OCR необходимо выполнить «цепочку» из
множества отдельных операций.
Сначала необходимо распознать структуру размещения текста на странице:
выделить колонки, таблицы, изображения и так далее. Далее выделенные текстовые
фрагменты графического изображения страницы необходимо преобразовать в текст.
Если исходный документ имеет типографское качество (достаточно крупный
шрифт, отсутствие плохо напечатанных символов или исправлений), то задача
распознавания решается методом сравнения с растровым шаблоном. Сначала растровое
изображение страницы разделяется на изображения отдельных символов. Затем каждый
из них последовательно накладывается на шаблоны символов, имеющихся в памяти
системы, и выбирается шаблон с наименьшим количеством отличных от входного
изображения точек.
При распознавании документов с низким качеством печати ашинописный текст,
факс и так далее) используется метод распознавания символов по наличию в них
определенных структурных элементов (отрезков, колец, дуг и др.).
Любой символ можно описать через набор значений параметров, определяющих
взаимное расположение его элементов. Например, буква «Н» и буква «И» состоят из трех
отрезков, два из которых расположены параллельно друг другу, а третий соединяет эти
отрезки. Различие между данными буквами в величине углов, которые образует третий
отрезок с двумя другими.
При распознавании структурным методом в искаженном символьном изображении
выделяются характерные детали и сравниваются со структурными шаблонами символов.
В результате выбирается тот символ, для которого совокупность всех структурных
элементов и их расположение больше всего соответствует распознаваемому символу.
Наиболее распространенные системы оптического распознавания символов, например,
ABBYY FineReader и CuneiForm от Cognitive, используют как растровый, так и
структурный методы распознавания. Кроме того, эти системы являются
«самообучающимися» (для каждого конкретного документа они создают
соответствующий набор шаблонов символов) и поэтому скорость и качество
распознавания многостраничного документа постепенно возрастают.
Программы для распознавания текста вы можете приобрети отдельно или получить
бесплатно вместе с купленным вами сканером.
Возможно, самая известная программа для распознавания текстов это FineReader от
компании ABBYY. Именно эту программу чаще всего вспоминают, когда речь заходит о
системах распознавания.
FineReader позволяет распознавать тексты, набранные практически любыми
шрифтами, без предварительного обучения. Особенностью программы FineReader
является высокая точность распознавания и малая чувствительность к дефектам печати,
что достигается благодаря применению технологии "целостного целенаправленного
адаптивного распознавания".
FineReader имеет массы дополнительных функций, которые простому пользователю,
возможно, и без надобности, но зато производят впечатление на определенные группы
покупателей. Так, одним из козырей FineReader является поддержка неимоверного
количества языков распознавания 176, в числе которых вы найдете экзотические и
древние языки, и даже популярные языки программирования.
Но далеко не все возможности включены в самую простую модификацию
программы, которую вы можете получить бесплатно вместе со сканером. Пакетное
сканирование, грамотная обработка таблиц и изображений для всего этого стоит
приобрести профессиональную версию программы.
Все версии FineReader, от самой простой до самой мощной, объединяет удобный
интерфейс. Для запуска процесса распознавания вам достаточно просто положить
документ в сканер и нажать единственную кнопку (мастер Scan & Read) на панели
инструментов программы. Все дальнейшие операции сканирование, разбивку
изображения на «блоки» и, наконец, собственно распознавание программа выполнит
автоматически. Пользователю останется только установить нужные параметры
сканирования.
Качество распознавания во многом зависит от того, насколько хорошее изображение
получено при сканировании. Качество изображения регулируется установкой основных
параметров сканирования: типа изображения, разрешения и яркости.
Сканирование в сером является оптимальным режимом для системы распознавания.
В случае сканирования в сером режиме осуществляется автоматический подбор яркости.
Если Вы хотите, чтобы содержащиеся в документе цветные элементы (картинки, цвет
букв и фона) были переданы в электронный документ с сохранением цвета, необходимо
выбрать цветной тип изображения. В других случаях используйте серый тип изображения.
Оптимальным разрешением для обычных текстов является - 300 dpi и 400-600 dpi
для текстов, набранных мелким шрифтом (9 и менее пунктов).
После завершения распознавания страницы FineReader предложит пользователю
выбор: сканировать и распознавать дальше (для многостраничного документа) или
сохранить полученный текст в одном из множества популярных форматов от
документов Microsoft Office до HTML или PDF. Можно, впрочем, сразу же перебросить
документ в Word или Excel, и уже там исправить все огрехи распознавания (без ни
обойтись просто невозможно). При этом FineReader полностью сохраняет все особенности
форматирования документа и его графическое оформление.
После обработки документа сканером получается графическое изображение
документа ( его графический образ). Но графический образ еще не является текстовым
документом. С точки зрения компьютера, документ после сканирования превращается в
набор разноцветных точек, а вовсе не в текстовый документ.
Проблема распознавания текста в составе точечного изображения решается с помощью
специальных программных средств, называемых средствами распознавания образов.
Имеется значительное число программ, предназначенных для этой цели.
Современные алгоритмы распознавания текста не ориентируются ни на конкретный
шрифт, ни на конкретный алфавит. Большинство программ способно распознавать текст
на нескольких языках.
Программа FineReader предназначена для распознавания текста на русском,
английском, немецком и многих других языках.
Программа имеет ряд удобных возможностей. Она позволяет объединять
сканирование и распознавание в одну операцию, редактировать распознанный текст и
проверять его орфографию.
Окно программы
1. Строка меню.
2. Панели инструментов.
3. Рабочая область.
Панель в нижней части рабочей области содержит фрагмент графического документа
в увеличенном виде. С ее помощью можно оценить качество распознавания.
Остальную часть рабочей области занимают окна документов. Здесь располагается
окно графического документа, подлежащего распознаванию, а также окно текстового
документа, полученного после распознавания.
Панель инструментов Стандартная содержит кнопки для открытия документов и
для операций с буфером обмена.
Панель Инструменты используют при работе с исходным изображением. В
частности она позволяет управлять сегментацией документа.
Элементы управления панели Форматирование используют для изменения
представления готового текста или при его редактировании.
Порядок распознавания текстовых документов.
1. Первый этап работы – сканирование. На этом этапе используют сканер.
2. Второй этап работы – сегментация текста. В бумажном документе текст не всегда
располагается в фиксированном порядке. Он может располагаться а несколько
колонок, содержать иллюстрации и пояснения к ним. Поэтому, прежде, чем
включать в документ, его разбивают на блоки, содержащие цельные фрагменты.
Блоки распознают последовательно. Полученный текст включается в документ в
порядке нумерации блоков.
3. Последний этап работы программы – распознавание. Этот этап не требует
вмешательства пользователя.
Распознанный текст отображается в отдельном окне в виде форматированного
текстового документа. Он теряет связь с исходным изображением и может
редактироваться и форматироваться независимо от него.
Полученный текст можно сохранить в виде форматированного документа.
Предусмотрена возможность прямой передачи полученного текста в программы
текстового процессора Word или в буфер обмена.
Вопросы:
Зачем нужны программы распознавания текста?
Как происходит распознавание текста?
Какие программы распознания текста вы знаете? Какими пользовались?
Какое разрешение является оптимальным для сканирования текста, изображений?
Приложение № 3
Критерии оценки работы:
Оценка работы:
актуальность и новизна предлагаемых решений
объем разработок, количество и значимость работы
уровень самостоятельности
качество оформления результата
требования к оформлению:
гармоничность цветовой гаммы (цвет фона и шрифта),
единый стиль слайдов,
наглядность шрифта,
размещение и комплектование объектов,
Работа оценивается следующим образом:
- оценка «5» ставится, если:
- учащийся самостоятельно выполнил все этапы решения задач на ПК;
- работа выполнена полностью и получен верный ответ или иное требуемое представление
результата работы;
- оценка «4» ставится, если:
- работа выполнена полностью, но при выполнении обнаружилось недостаточное
владение навыками работы с ПК в рамках поставленной задачи;
- правильно выполнена большая часть работы (свыше 85 %);
Приложение №4
Назови.
Предполагает воспроизведение знаний. Это самые простые вопросы. Ученику
предлагается просто назвать термин, перечислить использованные на уроке
программы, оборудование и т.д.
Почему.
Это блок вопросов позволяет сформулировать причинно-следственные связи, то
есть описать процессы, которые происходят с указанным предметом, явлением.
Например, «Почему использование программы ABBYY FineReader не дает
сразу идеальный документ, и его нужно редактировать и форматировать?»
Объясни.
Это вопросы уточняющие. Они помогают увидеть проблему в разных аспектах
и сфокусировать внимание на всех сторонах заданной проблемы.
Например, «Ты действительно думаешь, что ABBYY FineReader позволяет получить
грамотно оформленный документ за короткое время?»
Предложи.
Ученик должен предложить свою задачу, которая позволяет применить ABBYY
FineReader. То есть, ученик должен объяснить, как использовать то или иное знание на
практике, для решения конкретных ситуаций.
Придумай.
Это вопросы творческие, которые содержат в себе элемент предположения,
вымысла. Например, «Как еще можно использовать свое умение работать с
программой ABBYY FineReader?»
Поделись.
Вопросы этого блока предназначены для активации мыслительной
деятельности учащихся, учат их анализировать, выделять факты и следствия,
оценивать значимость полученных сведений, акцентировать внимание на их оценке.
Вопросам этого блока желательно добавлять эмоциональную окраску. То есть,
сконцентрировать внимание на ощущениях и чувствах ученика, его эмоциях, которые
вызваны названной темой.
Например, «Поделись, что ты чувствуешь, после того, как научился работать
программе ABBYY FineReader?» Или «Почему ты выбрал именно этот вариант
форматирования документа?» z