Презентация "Кодирование символьной информации"
Подписи к слайдам:
Для обработки текстовой информации на компьютере необходимо представить ее в двоичной знаковой системе.
Для кодирования каждого знака требуется количество информации, равное 8 битам, т. е. длина двоичного кода знака составляет восемь двоичных знаков.
Каждому знаку необходимо поставить в соответствие уникальный двоичный код из интервала от 00000000 до 11111111 (в десятичном коде от 0 до 255
Человек различает знаки по их начертанию, а компьютер - по их двоичным кодам. При вводе в компьютер текстовой информации происходит ее двоичное кодирование, изображение знака преобразуется в его двоичный код.
Пользователь нажимает на клавиатуре клавишу со знаком, и в компьютер поступает определенная последовательность из восьми электрических импульсов (двоичный код знака).
Код знака хранится в оперативной памяти компьютера, где занимает одну ячейку.
В процессе вывода знака на экран компьютера производится обратное перекодирование, т. е. преобразование двоичного кода знака в его изображение.
Различные кодировки знаков. Присваивание знаку конкретного двоичного кода - это вопрос соглашения, которое фиксируется в кодовой таблице. В существующих кодовых таблицах первые 33 кода (десятичные коды с 0 по 32) соответствуют не знакам, а операциям (перевод строки, ввод пробела и т. д.).
ASCII — базовая кодировка текста для латиницы
Первоначально для персональных компьютеров был взят за основу так называемый ASCII-код разработанный и стандартизированный в США в 1963 г. (American Standard Code for Information Interchange).
Этот код содержит 7 бит информации и в нем можно представить 128 различных комбинаций для кодирования символов. Этого вполне достаточно для того, чтобы закодировать заглавные и строчные буквы латинского алфавита, цифры, знаки препинания и ряд специальных и управляющих символов.
Информация в Internet до сих пор передается в 7 битном коде. Затем к 7-ми битному добавили еще один – восьмой бит, что позволило закодировать еще 128 символов (всего 256), которые предназначались для символов псевдографики и национальных шрифтов, которые опять-таки могут иметь в своей основе латиницу, кириллицу (напр. Болгарский, Русский) или другое (напр. Греческое) начертание символов – расширенный ASCII-код.
Присвоение символу конкретного двоичного кода – это вопрос соглашения, которое фиксируется в кодовой таблице.
- Первые 32 кода (с 0 до 31) Символы с номерами от 0 до 31 принято называть управляющими. Их функция – управление процессом вывода текста на экран или печать, подача звукового сигнала, разметка текста и т.п.
- Коды от 32 до 127. Стандартная часть таблицы (английский). Сюда входят строчные и прописные буквы латинского алфавита, десятичные цифры, знаки препинания, всевозможные скобки, коммерческие и другие символы. Символ 32 - пробел, т.е. пустая позиция в тексте. Все остальные отражаются определенными знаками.
- Коды с 128 по 255 являются национальными, т.е. в национальных кодировках одному и тому же коду соответствуют различные символы. Кодовая страница в первую очередь используется для размещения национальных алфавитов, отличных от латинского. В русских национальных кодировках в этой части таблицы размещаются символы русского алфавита.
К сожалению, в настоящее время существует более 6 различных кодовых таблиц для русских букв, поэтому тексты созданные в одной кодировке, не будут правильно отображаться в другой.
- КОИ-8
Хронологически одним из первых стандартов кодирования русских букв на компьютерах был код КОИ – 8 («Код обмена информационный – 8 битный»).
KOI-8 — это восьмибитная кодовая страница, совместимая с ASCII. Разработана для кодирования букв кириллических алфавитов.
Была широко распространена как основная русская кодировка в Unix-совместимых ОС и в электронной почте, однако к концу 2010 г. с распространением Юникода, постепенно вышла из употребления.
2. CP 866
Для работы в среде операционной системы MS-DOS используется «альтернативная» кодировка, в терминологии фирмы Microsoft – кодировка CP 866. (Code Page 866).
Данная кодировка является расширением кодировки ASCII
3. Windows-1251
Windows-1251 (CP 1251) («CP» означает «Code Page»). Все Windows – приложения, работающие с русским языком, поддерживают эту кодировку.
Представляет собой набор символов и кодов, является стандартной 8-битной кодировкой для русских версий Microsoft Windows до 10-й версии.
В прошлом пользовалась довольно большой популярностью. Была создана на базе кодировок, использовавшихся в ранних «самопальных» русификаторах Windows в 1990—1991 гг. совместно представителями «Параграфа», «Диалога» и российского отделения Microsoft.
В современных приложениях отдается предпочтение Юникоду (UTF-8). На 7 июля 2016 лишь на 1.8% всех веб-страниц используется Windows-1251.
4. MacCyrillic (MAC)
Кодировка MacCyrillic используется только на компьютерах "Макинтош".
Благодаря отсутствию псевдографики и "верхних" управляющих символов эта кодировка включает довольно много полезных символов; кроме того, присутствуют все дополнительные буквы, необходимые для записи украинского, белорусского, македонского и сербского языков.
5. ISO 8859-5
Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку под названием ISO 8859 – 5.
ISO 8859-5 — 8-битная кодовая страница из семейства кодовых страниц стандарта ISO-8859 для представления кириллицы.
Имеются буквы многих языков, использующих кириллицу, однако в целом ISO 8859-5 — не очень удобная кодировка, поскольку в ней отсутствуют многие нужные символы, такие как тире (—), кавычки-ёлочки («»), градус (°) и др.
Порядок символов этой кодовой страницы использовался при размещении букв кириллицы в наборе символов Unicode (со сдвигом вверх на 864 позиции).
Применение
ISO 8859-5 широко применяется в Сербии и иногда в Болгарии на юниксоподобных системах.
6. UNICODE
Юникод (Unicode) — стандарт кодирования символов, позволяющий представить знаки почти всех письменных языков.
Стандарт предложен в 1991 году некоммерческой организацией «Консорциум Юникода» (Unicode Consortium, Unicode Inc.).
Стандарт отводит на каждый символ не один байт, а два, и поэтому с его помощью можно закодировать не 256 символов, 216=65 536 различных символов. Эту кодировку поддерживает платформа Microsoft Windows и Microsoft Office (вставка символов).
Применение этого стандарта позволяет закодировать очень большое число символов из разных письменностей: в документах Unicode могут соседствовать китайские иероглифы, математические символы, буквы греческого алфавита, латиницы и кириллицы, при этом становится ненужным переключение кодовых страниц.
Стандарт состоит из двух основных разделов:
1. универсальный набор символов (UCS, universal character set)
2. семейство кодировок (UTF, Unicode transformation format).
Универсальный набор символов задаёт однозначное соответствие символов кодам — элементам кодового пространства, представляющим неотрицательные целые числа.
Семейство кодировок определяет машинное представление последовательности кодов UCS.
РАЗЛИЧНЫЕ ФОРМАТЫ ТЕКСТОВЫХ ФАЙЛОВ Формат файла или тип файла определяет способ кодирования информации в файле (перевода в двоичный код). В текстовом файле помимо кодировки символов кодируются операции, обеспечивающие форматирование текста. В различных текстовых редакторах символы форматирования кодируются по разному, документы различных текстовых редакторов имеют разный формат (тип). ОСНОВНЫЕ ФОРМАТЫ ТЕКСТОВЫХ ФАЙЛОВ- TXT (Text Only). Это старейший текстовый формат, аналоги современного блокнота были еще на первых ПК. Является наиболее универсальным. Документы txt открываются текстовыми редакторами, работающими в любой операционной системе. Формат очень простой и не содержит ничего, кроме текста. Форматирование не поддерживается — сохраняются только абзацы, отступ и заглавные буквы. Поэтому файлы-txt отличаются маленькими размерами. Формат устойчив к повреждениям. При повреждении части файла можно восстановить или обработать остальную часть документа. 2. DOC (Document) Формат редактора MS Word 97-2003. Использует кодировку UNICODE. Сегодня формат doc предоставляет огромные возможности по обработке текста и вставке в документ различных изображений, диаграмм, таблиц, ссылок. Может включать в себя сценарии и макросы. Но формат является закрытым, многие документы в этом формате корректно отображаются только в самой программе MS Word. 3. RTF (Rich Text Format). Специально разработан программистами компаний Microsoft и Adobe для обмена файлами между пользователями. Может быть открыт и обработан на любой платформе. Поддерживается многими приложениями. Документы rtf поддерживает сложное форматирование. Помимо текста может содержать различные рисунки, таблицы, вставки и сноски. В нем могут использоваться несколько видов шрифтов. Формат устойчив к повреждению файлов. Так как в rtf не используются макросы, он считается более безопасным чем формат doc.
4. HTM, HTML (Hyper Text Markup Language). Формат разметки Web-страниц. Содержит управляющие коды (тэги) языка разметки гипертекста.
5. DOCX Формат редактора Microsoft Office 2007 и следующих версиях.
Впервые был применен в MS Word 2007. Его главное отличие от формата doc — использование zip-компрессии для уменьшения объема файла.
Представляет собой архив с данными, содержащий помимо текста в формате XML, изображения, стили текста, форматирование и другие данные.
Причем текстовые файлы и графика хранятся в отдельных документах. Чтобы увидеть содержимое docx-файла можно изменить его расширение на zip и открыть в любом архиваторе.
Чтобы открыть документ-docx в ранних версиях Word, необходимо скачать и установить «Пакет обеспечения совместимости Microsoft Office для форматов файлов Word, Excel и PowerPoint»
6. ODT/ODF (Open Document Format)– формат для текстового редактора Write пакета свободный офис (OpenOffice) Это открытый формат, который может использоваться без ограничений и является альтернативой форматам Microsoft. 7. CHM – формат файла, который используется для хранения нескольких файлов формата html. Создан для замены формата справочной системы. Может иметь ссылки, по которым возможен переход на другую страницу.Информатика - еще материалы к урокам:
- Вариант с досрочного ЕГЭ по информатике 2019
- Презентация "Режимы работы компьютеров"
- Тест "История появления и развития вычислительной техники" 10 класс
- Контрольная работа "Моделирование и формализация" 8 класс
- План-конспект "Интернет: работа с поисковыми системами" 9 класс
- Презентация "Внутренняя структура вычислительной машины"