Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Тема 5.6 Обработка текстов. Представление текстов в памяти




 

Преимущества компьютерного документа по сравнению с бумажным

 

А теперь от обсуждения вопроса о том, что представляет собой компьютер, перейдем к ответу на вопрос, что умеет делать компьютер. Начиная с этой главы, мы будем знакомиться с применением компьютеров.

Первая область применения, которую мы рассмотрим, — работа с текстами. При ручной записи часто неприятную проблему составляет необходимость исправлять ошибки или вносить какие-то изменения в текст. При этом приходится зачеркивать, стирать, заклеивать, что портит вид текста. Необходимость переписывать текст ведет к потере времени и лишнему расходу бумаги.

Имея компьютер, можно создавать тексты, не тратя на это лишнее время и бумагу. Носителем текста становится память компьютера. Конечно, для длительного его сохранения это должна быть внешняя память.

Тексты на внешних носителях сохраняются в файлах.

Есть еще ряд преимуществ сохранения текстов в файлах на компьютерных носителях по сравнению с бумагой.

Во-первых, это компактное размещение. Например, на компакт-диске (700 Мб) можно разместить тексты более сотни книг объемом в 500 страниц каждая. А если использовать специальные методы сжатия, то это количество можно увеличить в несколько раз.

Во-вторых, если данный текст становится ненужным, то с помощью компьютера его легко удалить с носителя, поместив на это место другой файл.

В-третьих, с помощью компьютера легко скопировать файлы в любом количестве на другие носители.

В-четвертых, файл с текстом можно быстро переслать другому человеку по электронной почте. Для этого ваш компьютер и компьютер адресата должны иметь связь через компьютерную сеть.

Главное неудобство хранения текстов в файлах состоит в том, что прочитать их можно только с помощью компьютера. Человек может просмотреть текст на экране монитора или напечатать на бумаге, используя принтер.

Уже сейчас существуют издания, которые не печатаются на бумаге, а хранятся и распространяются в форме файлов. С распространением компьютеров число таких безбумажных изданий с каждым годом увеличивается. Представьте себе, что вся ваша личная библиотека разместится в коробке с дисками. Причем по объему информации она будет не меньше, чем сотни книг, собранных родителями. А экономя бумагу, Д1Ы сохраняем леса на нашей планете.

Как представляются тексты в памяти компьютера

 

А теперь «заглянем» в память компьютера и разберемся, как же представлена в нем текстовая информация.

Текстовая информация состоит из символов: букв, цифр, знаков препинания, скобок и др. Мы уже говорили, что множество всех символов, с помощью которых записывается текст, называется алфавитом, а число символов в алфавите — его мощностью.

Широко распространенным способом представления текстовой информации в компьютере является использование алфавита мощностью 256 символов. Один символ такого алфавита несет 8 битов информации: 28 = 256. 8 битов = 1 байт, следовательно (см. § 6):

Двоичный код каждого символа занимает 1 байт памяти компьютера.

Теперь возникает вопрос, какой именно восьмиразрядный двоичный код поставить в соответствие тому или иному символу. (Понятно, что это дело условное, можно придумать множество способов кодирования. )

Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 00000000 до 11111111. Этот код — порядковый номер символа в двоичной системе счисления.

Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера, называется таблицей кодировки.

На ЭВМ первых поколений для разных типов машин использовались различные таблицы кодировки. С распространением персональных компьютеров типа IBM PC международным стандартом стала таблица кодировки под названием ASCII (American Standart Code for Information Interchange — американский стандартный код для обмена информацией). Точнее говоря, стандартной в этой таблице является только первая половина, т. е. символы с номерами от нуля (двоичный код 00000000) до 127(01111111). Сюда входят буквы латинского алфавита, цифры, знаки препинания, скобки и некоторые другие символы. Остальные 128 кодов, ОТ 10000000 до 11111111, составляют так называемую кодовую страницу. Например, кодовая страница номер 1251 (СР1251) содержит русский алфавит и используется в операционной системе Windows и ее приложениях. Таблицу кодировки, используемую в Windows, называют ANSI (American National Standart Institute -^Американский национальный институт стандартов). Первые половины таблиц ASCII и ANSI полностью совпадают.

В таблице 3. 1 приведена стандартная часть кода ANSI (коды от 0 до 31 имеют особое назначение, не отражаются какими-либо знаками и в данную таблицу не включены). Здесь приведены десятичные номера символов, символы, двоичные коды.

Обратите внимание на то, что в этой таблице латинские буквы (прописные и строчные) располагаются в алфавитном порядке. Расположение цифр также упорядочено по возрастанию значений. Это правило соблюдается и в других таблицах кодировки и называется принципом последовательного кодирования алфавитов. Благодаря этому понятие «алфавитный порядок» сохраняется и в машинном представлении символьной информации. Для русского алфавита принцип последовательного кодирования соблюдается не всегда.

Запишем, например, внутреннее представление слова «file». В памяти компьютера оно займет 4 байта со следующим содержанием:

01100110 01101001 01101100 01100101.

А теперь попробуйте решить обратную задачу. Какое слово записано следующим двоичным кодом:

01100100 01101001 01110011 01101011?

В таблице 3. 2 приведена кодовая страница СР1251. Видно, что в ней для букв русского алфавита соблюдается принцип последовательного кодирования. Однако это правило действует не во всех существующих кодовых страницах с русским алфавитом.

Помимо восьмиразрядной кодировки символов все большее распространение получает шестнадцатиразрядная — двухбайтовая кодировка. Международный стандарт такой кодировки носит название UNICODE.

Тексты вводятся в память компьютера с помощью клавиатуры. На клавишах написаны привычные нам буквы, цифры, знаки препинания и другие символы. В оперативную память они попадают в форме двоичного кода.

 

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...