Вопрос-22. Кодирование русского текста
В первых ЭВМ для кодирования текста отвели 7 бит. 27=128. Этого количества вполне хватало для кодирования всех строчных и прописных букв латинского алфавита, десяти цифр и различных знаков и скобок. Именно такой, 7-битной, является таблица символов ASCII (сокращение от American Standard Code for Information Intercange -- американский стандартный код для обмена информацией). В таком файле не могут быть представлены буквы, отличные от латиницы. Когда возникла необходимость кодировать национальные алфавиты, то 128 символов стало недостаточно. Было решено перейти на кодирование с помощью 8 бит (т. е. одного байта). В результате количество символов, которые можно закодировать таким образом стало равно 28=256. При этом символы национальных алфавитов располагались во второй половине кодовой таблицы. Так появился стандарт ISO 8859, содержащий множество кодировок для наиболее распространенных языков. Среди них была и одна из первых таблиц для кодировки русских букв -- ISO 8859-5. Задачи передачи текстовой информации по сети вынудили разработать еще одну кодировку для русских букв, названную Koi8-R (код отображения информации 8-битный, русифицированный). Рассмотрим ситуацию, когда письмо, содержащее русский текст, отправлено по электронной почте. Случалось, что в процессе путешествия по сетям письмо обрабатывалось программой, которая работала с 7-битной кодировкой и обнуляла восьмой бит. В результате такого преобразования код символа уменьшался на 128, превращаясь в код символа латинского алфавита. Возникла необходимость повысить устойчивость передаваемой текстовой информации к обнулению 8 бита. К счастью, значительное число букв кириллицы имеет фонетические аналоги в латинском алфавите. Например, Ф и F, Р и R. Есть несколько букв, совпадающих даже по начертанию. Расположив русские буквы в кодовой таблице таким образом, чтобы их код превышал код аналогичных латинских на число 128, добились того, что потеря 8-го бита превращала текст хотя и в состоящий из одной латиницы, но все равно понимаемый русскоязычным пользователем.
Далее наступила эра персональных компьютеров и операционной системы MS DOS. Как выяснилось, кодировка Koi8-R для нее не подходила (так же, как и ISO 8859-5), в ее таблице некоторые русские буквы находились на тех местах, которые многие программы предполагали заполненными псевдографикой (горизонтальные и вертикальные черточки, уголки и т. д.). Поэтому была придумана еще одна кодировка кириллицы, в таблице которой русские буквы "обтекали" со всех сторон графические символы. Назвали эту кодировку альтернативной (alt), поскольку она была альтернативой официальному стандарту -- кодировке ISO-8859-5. Неоспоримым достоинством этой кодировки является то, что русские буквы в ней расположены в алфавитном порядке. После появления ОС Windows от фирмы Microsoft выяснилось, что альтернативная кодировка по некоторым причинам для нее не подходит. Снова передвинув русские буквы в таблице, получили кодировку Windows 1251 (Win-1251). Но компьютерные технологии постоянно совершенствуются и в настоящее время все большее число программ начинает поддерживать стандарт Unicode, который позволяет кодировать практически все языки и диалекты жителей Земли. Для кодирования символов используется диапазон чисел от нуля до 65 536. Такой широкий диапазон позволяет представлять в численном виде символы языка людей из любого уголка планеты. Итак, в различных ОС предпочтение отдается разным кодировкам. Для того чтобы стало возможным чтение и редактирования текста, набранного в другой кодировке, используются программы перекодирования русского текста. Некоторые текстовые редакторы содержат встроенные перекодировщики, позволяющие читать текст в различных кодировках (Word и др.).
СЖАТИЕ ДАННЫХ Сжатие данных необходимо для удешевления хранения информации. Особенность большинства данных — избыточность. Под этим понятием понимаются разные значения: в теории лингвистики под избыточностью понимается количество слов, которое можно выбросить без ущерба для смысла, в теории информации — количество случайно удаленных букв, при котором возможно однозначное восстановление информации. Избыточность зависит от: 1. Национальных особенностей языка 2. Типа данных (наиболее избыточны видеоданные, графические данные, текст). Сжатию могут подвергаться файлы, папки и даже диски. Существует три способа уменьшения избыточности данных. Это изменение содержания данных, изменение структуры данных, либо то и другое вместе. Если при сжатии данных происходит изменение их содержания, то при восстановлении данных не происходит их полного восстановления. Такой метод сжатия применяется для данных, при которых формальная утрата части информации не приводит к значительному снижению потребительских свойств. Этот прием сжатия применим к видеозаписям, музыкальным записям, аудиозаписям и рисункам. Методы сжатия с частичной потерей информации не применимы к текстовым данным. Характерными форматами сжатия с частичной потерей информации являются форматы:.JPG для графических данных,.MPG для видеоданных,.МР3 для звуковых данных. Если при сжатии данных происходит только изменение структуры, то метод сжатия полностью обратим. Обратимые методы применяются для сжатия любого типа данных. Характерные форматы сжатия без потери информации это GIF,.TIF,.PCX для графических данных,.AVI для видеоданных,.ZIP,.ARJ,.RAR,.LZH,.LH,.CAB для любых типов данных. Данные различного типа имеют свои оптимальные алгоритмы сжатия. Алгоритм RLE применим для сжатия графических данных, его эффективность не зависит от объема данных. Для текстовых данных его эффективность не велика. В некоторых случаях он используется для сжатия таблиц, имеющих фиксированную длину полей.В основу метода положен принцип выявления повторяющихся последовательностей данных и замены их простой структурой, в которой указывается код данных и коэффициент повтора.
Алгоритм KWE применяется для сжатия текстовых данных. В данном алгоритме сжатые данные помещаются в таблицу имеющую вид словаря. На кодировку слова используется двухбайтовая единица. Алгоритм эффективен для англоязычных текстов и файлов баз данных. Для русского языка, имеющего большое количество приставок, суффиксов окончаний и большую длину слова эффективность метода невысока. Алгоритм Хаффмана применяется для любого типа данных. В основе метода лежит кодировка битовыми группами. Перед началом сжатия проводится частотный анализ кода документа и выявляется частота повтора каждого символа. Чем чаще встречается тот или иной символ, тем меньшим количеством битов он кодируется. Для сжатия данных в операционной системе MS DOS используется программные средства PKZIP, RAR, ARJ, для Windows это WinZIP, WinARJ, WinRAR, 7-Zip, ZipItFast!. Эти программные средства кроме простого сжатия файлов способны извлекать файлы из архивов, создавать новые архивы, добавлять файлы в имеющийся архив, создавать самораспаковывающиеся архивы, тестировать целостность структуры архива, полностью или частично восстанавливать поврежденные архивы, защищать архивы от просмотра и несанкционированной модификации, создание так называемого распределенных архивов, просматривать архивный файл без извлечения их из архива, защищать паролем архивный файл, выбирать и настраивать коэффициент сжатия информации. 24.Самораспаковывающиеся архивы. При передаче архивированного файла потребителю предполагается наличие у него программного средства необходимого для извлечения исходных данных из архива. Если таких средств у него нет, создается самораспаковывающийся архив. Он создается на базе обычного архива путем присоединения к нему небольшого программного модуля. Сам архив получает расширение.EXE, характерное для исполняемых файлов. После создания такого архива его необходимо проверить, т.е. выполнить запуск файла.
Распределенные архивы. Бывают случаи, что файл в архивированном виде имеет размер больший, чем емкость дискеты. В этом случае, возможно его распределение в виде фрагментов на нескольких носителях.Некоторые программные средства архивации, например WinZIP сразу выполняет разбиение на дискету, другие WinARJ, WinRAR выполняют предварительное разбиение архива на фрагменты заданного размера на жестком диске. Затем их можно скопировать на внешние носители.Известно, что дискета является достаточно ненадежным носителем, поэтому лучше хранить копию архива в двух экземплярах. Защита архивов осуществляется путем создания пароля. Так как программные средства, используемые для восстановления утраченного пароля или взлома защиты информации, используют методы прямого перебора, надо стремиться максимально увеличить число символов в пароле, использовать знаки препинания и символы русского алфавита.Просмотр архивного файла без его распаковки необходим для обеспечения безопасности при работе с незнакомыми файлами либо файлами, поступившими через Интернет.Уплотнение носителей происходит за счет сжатия данных путем изменения их структуры. При уплотнении носителей никакого физического увеличения емкости не происходит. Пользователь практически не замечает разницы в работе с обычным и уплотненным носителем. Степень сжатия данных во многом определяется типом данных и поэтому наблюдаемое приращение емкости носителя не является величиной постоянной и непрерывно меняется в зависимости от того, какой тип данных добавляется на носитель. Уплотнению может подвергаться как винчестер, так и дискета. При этом не обязательно уплотнять все дисковое пространство. Соотношением между уплотненным и неуплотненным пространством можно управлять.При уплотнении дисков на физическом диске создается скрытый файл, предназначенный для записи сжатых данных. Данный файл называется файлом сжатого тома, а физический диск, на котором он размещен, называют несущим диском. Если файл сжатого тома занимает часть несущего диска, то несущий диск делается скрытым, а файл сжатого тома операционной системой распознается как уплотненный диск. Весь обмен информации с уплотненным диском происходит под управлением специальной программы –драйвера сжатого тома. Уплотнение носителей имеет и негативную сторону. Заметно снижается надежность хранения сжатых данных в случае повреждения аппаратного или программного обеспечения.
Воспользуйтесь поиском по сайту: ©2015 - 2025 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|