Гипертекстовые технологии поиска документальной информации
Гипертекст (нелинейный текст) это организация текстовой информации, при которой текст представляет собой множество фрагментов с явно указанными ассоциативными связями между этими фрагментами. Основная идея гипертекстовых технологий состоит в том, что поиск документальной информации происходит с учетом множества взаимосвязей, имеющихся между документами, а значит, более эффективно, чем при традиционных методах поиска. Формально гипертекст можно представить в виде сети или графа, где узлами являются фрагменты текста, а дуги отображают отношения, связывающие эти фрагменты. Доступ к информации осуществляется не путем последовательного просмотра текста, как в обычных информационно-поисковых системах, а путем движения от одного фрагмента к другому. В самом общем виде взаимодействие пользователя с гипертекстовой системой заключается в следующем. Пользователь читает на экране компьютера некоторый текст и имеет возможность выполнять ряд определенных в системе действий в зависимости от того, какие у него возникают ассоциации от чтения текста на экране. Считают, что первым идею гипертекста, не используя самого термина «гипертекст», выдвинул в 1945 г. Венневер Буш, советник президента Рузвельта по науке. Им был предложен проект технической системы нового типа (или лучше сказать - технической среды), названный им «Metex». Основное преимущество этой системы состояло в возможности соединения и совместного просмотра отдельно существующих, но ассоциативно связанных единиц информации (статей, текстовых документов, фотографий, чертежей). Система «Metex» представлялась в виде своеобразной библиотеки с простым доступом к любому документу и возможностью переходить от любого документа к смежным, связанным с ним по смыслу. Пользователь должен был иметь возможность самостоятельно устанавливать нужные ему связи между документами, вводить собственные документы, связывать их с существующим содержимым библиотеки. Таким образом, основная идея предложенного проекта состояла в возможности фиксации смысловых связей между элементами информации и доступа к этой информации по системе связей, т.е. принципы системы «Metex» полностью соответствуют современным представлениям о сути гипертекста.
Первая компьютерная система, реализующая идею гипертекста, создана в 1968 г. Она носила чисто научно-исследовательский характер и обеспечивала возможность пользователям в соответствии со своими представлениями формулировать, наращивать систему связей между элементами информации и просматривать информацию как систему связей. Термин «гипертекст» ввел Т.Нельсон. Он определил гипертекст как «соединение текста на естественном языке с создаваемой компьютером возможностью интерактивного создания внутри него новых ветвей или динамичной организации нелинейного текста, который уже не может быть напечатан обычным образом на обычной странице». Г. Нельсон был разработчиком гипертекстовой системы, которая использовалась для ведения документации по проекту космического корабля «Аполлон». В 1987 г. фирма Apple выпустила первую гипертекстовую систему для персональных машин — пакет HyperCard для компьютеров Macintosh. С этого времени гипертекстовая технология приобретает массовый коммерческий характер. Гипертекст можно рассматривать как своеобразную базу данных, которая организуется в виде открытой, свободно наращиваемой и изменяемой сети, узлы которой (линейные тексты) соединяются самим пользователем. От обычной базы данных гипертекст отличается прежде всего тем, что в нем отсутствуют априорно заданные ограничения на характер связей (как, например, в иерархических структурах).
Элементы гипертекста (текстовые фрагменты) называются узлами. Узлы, между которыми возможен переход, считаются смежными, а сама возможность перехода называется «связь». Совокупность смежных узлов образует «окрестность» данного узла. Последовательно соединенные связями узлы образуют «цепь». Расстояние между узлами, что соответствует «близости» или «неблизости» их содержания, равно минимальному количеству промежуточных узлов. В общем случае, в качестве узла могут выступать: слово; словосочетание; предложение; абзац; параграф; документ; собрание документов, относящихся к одной теме; отдельные сообщения и т.п. Характер связей между узлами может быть различным. Переход может осуществляться между: текстом и комментарием к нему, между разными редакциями текста, между текстом и его возможными продолжениями, между текстами отвечающими или возражающими друг другу, между текстами, пересекающимися по содержанию, и т.д. Создание гипертекста состоит прежде всего в формировании системы переходов от узла к узлу (системы ссылок). В зависимости от типа гипертекстовой системы такая система может задаваться как разработчиками, так и пользователем в процессе работы с гипертекстом. Движение в гипертекстовой сети, совершаемое в процессе чтения гипертекста, называется «навигацией». Если гиперсеть имеет сложную, разветвленную структуру, возникает проблема ориентации пользователя, т.е. определения, в каком месте сети в данный момент он находится. Проблема ориентации присутствует и при работе с традиционным линейным текстом большого объема, но в этом случае пользователь имеет только два направления поиска — «выше» или «ниже». Гипертекст предлагает больше возможностей в выборе направлений движения, поэтому в этом смысле работать с гипертекстом сложнее. Поэтому многие гипертекстовые системы облегчают проблему ориентации в гипертексте, предоставляя наглядное изображение структуры связей. В некоторых современных гипертекстовых системах существует возможность запоминания направлений поиска пользователя в процессе навигации. Такую информацию можно рассматривать как альтернативу обработки информации по правилам логического вывода (экспертные системы). Примером использования такого подхода могут служить системы, базирующиеся на технологии CBR (Case Based Reasoning — вывод, основанный на прецедентах).
Гипертекстовая технология реализуется в конкретной гипертекстовой системе, которая состоит из двух частей: гипертекста (базы данных) и гипертекстовой оболочки. Гипертекстовая оболочка осуществляет следующие основные функции: поддержка ссылочных связей; создание, редактирование и наращивание гипертекста; прямой доступ; поддержка ссылочных связей; просмотр (browsing — броузинг); выделение виртуальных структур. Поддержка ссылочных связей позволяет поддерживать ранее зафиксированные связи между узлами сети. Функция создания, редактирования и наращивания гипертекста принципиально отличает технологию гипертекста от технологии баз данных, в которых концептуальная схема данных заранее задана. Она позволяет вводить новые узлы, редактировать содержание узлов, устанавливать связи между узлами. Прямой доступ позволяет осуществлять прямой доступ к узлам сети по их именам. Просмотр (browsing — броузинг) - операция, характерная только для гипертекста. Означает поиск информации посредством просмотра гипертекстовой сети, при этом возможно запоминание пути следования, чтобы при последующем аналогичном запросе поиск происходил по зафиксированному пути следования. Реальные гипертекстовые системы в зависимости от специализации могут обладать различным набором вышеперечисленных функций. Гипертекстовые технологии широко используются в различных прикладных системах: в настольных издательских системах — для создания документов большого объема со свойствами гипертекста (т.е. с системой ссылок); в системах управления документами (СУД) — например, для сведения в один итоговый документ информации, содержащейся в разнородных документах;
в системах подготовки электронных документов, позволяющих составлять гипертекстовые документы с возможностью осуществления навигации. Наиболее известным инструментом создания гипертекста остается система HyperCard, входящая в набор базовых программных средств для машины Macintosh. Одним из перспективных направлений развития гипертекстовых систем является технология гипермедиа — соединение технологии гипертекста и технологии мультимедиа (интеграция текста, графики, звука, видео). Для разработки гипермедийных приложений фирма Apple разработала среду программирования АМТ (Apple Media Tool), в которой основным объектом разработки является не «карта», как в HyperCard, а «экран». С помощью этих средств создаются различные электронные издания — справочники, энциклопедии; разрабатываются обучающие программы. Гипертекстовые технологии нашли широкое применение и при организации поиска документальной информации в сети Internet, например в сервисе World Wide-Web (WWW). Сервис Web построен на основе архитектуры «клиент-сервер». В состав Web-системы входят следующие составляющие: язык гипертекстовой разметки документов HTML (Hyper Text Markup Language); универсальный способ адресации ресурсов в сети URL (Universal Resource Locator); протокол обмена данными (гипертекстовой информацией) HTTP (Hyper Text Transfer Protocol); средства просмотра Web-страниц (броузеры). Язык HTML это средство для формирования гипертекстовых документов. Гипертекстовые ссылки встроены в текст документа и хранятся как его часть. Благодаря этому языку можно не только формировать гипертекстовые документы, но и осуществлять связь текста и изображения с документами, расположенными на другом сервере Web. Универсальный способ адресации применяется для организации гипертекстовых ссылок и обеспечивает доступ к распределенным ресурсам сети. Адрес URL состоит из трех элементов: используемого протокола доступа, логического имени сервера, имени файла. Например, сервер Государственной публичной научно-технической библиотеки России имеет адрес: http://gpntb.ippi.ras.ru/. Протокол обмена данными служит для установления связи с документами формата HTML независимо от его местонахождения. В настоящее время гипертекстовые технологии развиваются в нескольких направлениях. Одно из них концентрируется на представлении в узлах гипертекста разнородной, но семантически связанной информации - текста, рисунков, графиков, фотографий, видео, звука. Важным направлением развития гипертекстовых технологий является аналитическая обработка информации. Например, смысловое упорядочение документов, обеспечивающих решение многоэтапной задачи или разработку сложных проектов Наиболее перспективным направлением являются технологии организации информационных ресурсов, распределенных в сетях различных типов (локальных, корпоративных, глобальных) и, прежде всего, Web-технология.
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|