Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Виды информации, хранимой в Интернете и профессиональных базах




 

В соответствии с Законом от 20 февраля 1995 г. № 224-ФЗ «Об информации, информатизации и защите информации» под термином «информация» понимаются сведения о лицах, предметах, фактах, событиях, явлениях и процессах независимо от формы их представле­ния. Специалисты в области теории познания утверждают, что человек познает реальный мир через объекты, свойства и отношения. Лица, предметы, факты, события, явления и процессы являются клас­сами объектов. Предметная область — это классы объектов, информа­ция о которых необходима в данном виде деятельности человека. В каж­дой предметной области потребителей интересует четко определенный перечень свойств и глубина описания этих свойств. Очевидно, что перечни интересующих потребителя свойств о лице в экономике и в ме­дицине будут различны.

Информация о предметной области, то есть об объектах и их свя­зях, может быть представлена в двух видах: формализованном и в виде текста на естественном языке.

Формализованное описание конкретного объекта включает имя свой­ства (характеристики) и значение этого свойства для данного объекта. Имя свойства отражает ту грамматическую роль, которую играет зна­чение этого свойства по отношению к данному классу объектов. Зна­чение свойства (характеристики) может задаваться нормированным словарем или произвольно. Например, значение свойства «организа­ционно-правовая форма фирмы, организации» должно выбираться из нормированного словаря, а значение свойства «название организации» является произвольным. Формализованное описание объекта во мно­гом схоже с анкетной формой описания объекта. Некоторые авторы называют формализованное описание информации числовым. Это не совсем точное определение, так как фамилия лица или название орга­низации задается не числовым значением, но может быть представле­но в формализованном виде.

Названия классов объектов, свойств и областей возможных значе­ний этих свойств (характеристик), то есть язык формализованного описания для каждой предметной области, разрабатывают квалифи­цированные специалисты данного вида деятельности. С помощью от­дельных свойств устанавливаются связи между объектами. Так, на­пример, если описаны два объекта: фирма и товар, — то между ними устанавливается связь — отношение, указывающее, что данная фирма выпускает этот товар. Описание такого формализованного языка пос­ле согласования с источниками и потребителями информации в дан­ной предметной области издается в виде нормативного документа, и на основе его создаются базы данных формализованной информа­ции. Описание информации в таких базах в максимальной степени приближено к представлению специалиста о предметной области, в ко­торой он работает. Формализованный язык описания предметной об­ласти выполняет следующие основные функции:

♦ позволяет источнику отбирать лишь ту информацию и описы­вать ее так, как это необходимо потребителю;

♦ позволяет в базах данных отражать информацию в том же виде, в каком она отражена в сознании специалиста в данной предмет­ной области;

♦ позволяет в информационных системах по указанию потреби­теля производить автоматическую обработку формализованной информации;

♦ существенно облегчает поиск необходимой информации в базах

данных.

Другим видом информации о предметной области является инфор­мация, представленная в виде текста на естественном языке.

Для того чтобы понять, в какой степени информация на естествен­ном языке, накапливаемая в информационных системах, подходит для удовлетворения информационных потребностей пользователя, рассмотрим в самых общих чертах природу восприятия человеком реальной действительности и отображение этой действительности на естественном языке. Индивидуальное знание предметной области источником и потребителем информации складывается из совокупно­сти представлений и понятий [10]. Представления это чувственно наглядные образы объектов реального мира. Источником формирова­ния представлений являются психологические процессы ощущения и восприятия, а также информация, получаемая от других членов об­щества в процессе общения. В результате создаются представления об объектах реального мира. Представления носят субъективный харак­тер, который определяется внутренним психологическим миром данного человека. Хотя у разных людей создаются разные представления о реальном мире, в них присутствует элемент общности, которой по­зволяет использовать представления в процессе общения.

Понятия образуются в результате логического осмысления пред­ставлений об объектах реального мира и являются формой абстракт­ного мышления, отражающей и фиксирующей существенные призна­ки данных объектов. Понятия более объективны и в большей степени отражают коллективный опыт. Понятия и представления тесно связа­ны друг с другом и являются формой отражения реальной действи­тельности в мышлении.

Язык — это средство, с помощью которого люди передают друг дру­гу информацию о реальном мире. Словарные выражения являются материальной формой понятий и представлений. Естественный язык сформировался в результате длительного развития общества. По­скольку для различных слоев общества характерна разная степень общности представлений, возникла многозначность слов естественно­го языка: одно и то же слово приобретало множество различных зна­чений, и для одного и того же слова использовалось несколько словес­ных выражений. Таким образом, общими недостатками естественного языка с позиций оценки эффективности поиска являются избыточ­ность и недостаточность.

Избыточность проявляется в следующем:

1) активную роль в процессе передачи содержания текста играют только некоторые слова или словосочетания, так называемые ключевые слова. Другие можно отбросить практически без ущер­ба для понимания смысла;

2) в естественном языке используются синонимы, то есть слова, раз­личающиеся по звучанию и написанию, но тождественные или близкие по смыслу;

3) имеет место неоднозначность выражения, то есть возможность выразить одну и ту же мысль словами, не являющимися сино­нимами (например, «уменьшение сопротивления»«увеличение проводимости» ).

Недостаточность выражения на естественном языке проявляется в следующем:

1) многозначность отдельных слов — омонимия (совпадение по зву­чанию и написанию разных по значению слов). Например, «ключ» (для двери), «ключ» (источник);

2) эллипсность естественного языка. Под эллипсностью понимает­ся пропуск в тексте подразумеваемых слов.

Если рассматривать процесс отражения объектов реального мира текстом на естественном языке, то в нем можно выделить план содер­жания смысл сообщения, то есть результат процесса мышления, и план выражения — произвольный текст на естественном языке. Та­ким образом, тексты на естественном языке, хранящиеся в информа­ционных системах, находятся на уровне плана выражения и характе­ризуются всеми недостатками естественного языка, которые были отмечены выше. Следует иметь в виду, что выявленные недостатки следует рассматривать лишь с позиций эффективного поиска сообще­ний в информационных системах. Причина неоднозначности выраже­ний, например эллипсность, при рассмотрении под другим углом бу­дет отнесена к достоинствам естественного языка.

Отметим, что потребитель информации, пользователь нуждается в получении информации о предметной области в соответствии со сво­ими представлениями об объектах, свойствах и отношениях в этой об­ласти. Свой запрос он также формулирует на уровне плана выражения.

Таким образом, в самой информационной системе, содержащей тексты на естественном языке, мы имеем массив планов выражения источников на естественном языке, а на входе информационной сис­темы мы имеем множество запросов в виде планов выражения, сфор­мулированных потребителями информации.

Для того чтобы решить задачу поиска необходимой потребителю информации, необходимо смоделировать (представить) — о каком фрагменте предметной области потребитель хочет получить инфор­мацию. Далее необходимо просмотреть хранящиеся документы — пла­ны выражения, составленные источниками, представить (смоделировать), что хотел сказать источник о предметной области, и на основе научно обоснованной методики отобрать те из документов, которые отвечают на поставленный вопрос полностью или частично.

Работы в области машинного перевода и теории построения доку­ментальных информационных систем, проводимые в течение последних 50 лет в нашей стране и за рубежом, показали, что процесс выявления смысла произвольного текста на естественном языке не подлежит ав­томатизации и может быть реализован лишь человеком, обладаю­щим глубокими знаниями в данной предметной области.

Однако общество нуждалось в построении документальных инфор­мационных систем, в первую очередь в области научно-технической информации. Для того чтобы облегчить поиск в больших массивах текстовой информации, стали строить информационно-поисковые системы, в которых документы описывались с помощью специальных поисковых языков. С помощью элементов этих же языков описывались и запросы. Для отбора документов в ответ на запрос осуществлялосьсравнение поисковых образов запросов и поисковых образов документов, которое проводилось на одном и том же искусственном язы­ке. Такой подход является вынужденным.

Из-за недостатков естественного языка, отмеченных выше, доку­ментальные информационные системы не дают ответа на вопрос по­требителя, а выдают ему документы, в которых может содержаться ответ на его запрос, предоставляя потребителю самому выявить смыс­ловое содержание этих документов. Вопросы оценки эффективности поиска информации в документальных информационных системах будут рассмотрены ниже.

Вопросы эффективности поиска информации в Интернете и профессиональных базах

 

Одними из наиболее важных показателей эффективности инфор­мационных систем, содержащих текстовую информацию, являются семантические показатели. Семантические показатели основаны на оценке релевантности между документами и запросами.

Релевантность — объективно существующее смысловое соответ­ствие между содержанием документа и запроса. Объективность оце­нок релевантности обеспечивается тем, что они устанавливаются экс­пертным путем, а не автором запроса.

Семантическими показателями являются полнота выдачи (потери информации) и точность выдачи (информационный шум). Введем следующие обозначения:

а — множество релевантных и выданных системой документов; б — множество нерелевантных, но выданных системой документов; в — множество релевантных, но не выданных системой документов.

 

 

Другой группой показателей оценки эффективности документаль­ных информационных систем являются прагматические показатели. Эти показатели можно определить только в процессе эксплуатации информационной системы.

Прагматические показатели определяют абоненты системы на базе оценок пертинентности выданных документов.

Пертинентность это субъективно оцениваемое соответствие со­держания документов или текстов информационным интересам по­требителя. Пертинентность может оценить только автор запроса, ра­ботающий с.информационной системой. Оценки пертинентности, как правило, отличаются от результатов, полученных на основе оценок релевантности.

Рассмотрим вопросы оценки эффективности поиска в профессио­нальных базах и информационных ресурсах Интернета".

Анализ содержимого профессиональных баз за последние 15 лет показывает неуклонный рост доли текстовой информации в общем объеме информации в профессиональных базах. Если в 1985 г. доля текстовой информации составляла 47 %, то в 2000 г. эта доля составля­ла уже 84 %. Представляется, что основная информация в Интернете также является текстовой. Эти обстоятельства позволяют сделать вы­вод о том, что подходы к оценке эффективности поиска в докумен­тальных системах в полной мере распространяются и на профессио­нальные базы, и на информационные ресурсы Интернета.

Информационные ресурсы Интернета и имеющиеся в среде Интер­нет поисковые средства обладают определенной спецификой, которая оказывает существенное влияние на эффективность поиска в этой среде.

Основными поисковыми средствами в Интернете являются поис­ковые системы и каталоги. Поисковые системы состоят из трех частей:

♦ робот — программа, которая посещает web-серверы, считывает и индексирует полностью или частично их содержимое и далее следует по ссылкам, найденным на сервере. Просмотры серверов осуществляются периодически, например раз в месяц, раз в две недели;

♦ индексные массивы и копии текстов просмотренных страниц, хранящиеся в поисковой системе;

♦ программа, которая, просматривая в соответствии с запросом пользователя индексные массивы, отбирает и выдает потребите­лю найденные документы.

В каталогах имеются иерархические тематические рубрики. Отне­сение серверов к тем или иным рубрикам каталога осуществляется

человеком. Пользователь ищет информацию в каталоге вручную, ис­пользуя рубрики.

В связи с тем что в средствах поиска в Интернете не используются информационно-поисковые языки, на которых могли бы быть описа­ны исходные документы и запросы, полнота поиска в Интернете с уче­том указанных выше поисковых средств будет значительно ниже, чем в документальных системах, построенных на базе информационно-поисковых языков.

В 2000 г. специалисты компаний AltaVista, IBM и Compag исследо­вали ресурсы и гиперсвязи существующего информационного про­странства WWW. Просмотрев с помощью поисковых средств AltaVista свыше 600 млн web-страниц и 1,5 млрд ссылок, размещенных на этих страницах, они пришли к выводу, что исследуемое пространство со­стоит из следующих компонентов:

♦ Центральное ядро — тесно связанные между собой web-страни­цы, с каждой из которых можно попасть на любую другую (27 %);

♦ отправные страницы. В них могут быть ссылки, ведущие к ядру, но из ядра к отправным страницам попасть нельзя (22 %);

♦ оконечные web-страницы, к которым можно прийти по ссылкам из ядра, но к ядру от них попасть нельзя (22 %);

♦ полностью изолированные от центрального ядра страницы (22 %);

♦ web-страницы, не пересекающиеся с остальными ресурсами Ин­тернета (7 %).

Исследования показали, что при увеличении общего объема ин­формационных ресурсов Интернета установленные отношения ком­понентов остаются прежними. Проведенный анализ позволяет сделать вывод о том, что информационное пространство Интернета является достаточно сложным и неоднородным. К отдельным ресурсам Интер­нета поисковые машины не имеют доступа.

У каждой поисковой машины свой процент индексирования доку­ментов и своя стратегия выбора — какие из ресурсов индексировать. Анализ доли документов, заиндексированных крупнейшими зарубеж­ными поисковыми системами, от общего числа документов в Интер­нете, проведенный в 1999 г., показал, что доля заиндексированных документов у лидеров в этой области не превышает 30 %. Следует отметить, что количество документов в Интернете значительно уве­личивается с каждым годом, при этом доля просмотренных и заиндек­сированных документов уменьшается.

Информационные ресурсы Интернета делятся на «видимую» и «не­видимую» части сайтов.

«Видимая» часть сайтов — это та часть, которая обрабатывается по­исковыми системами и индексируется. «Невидимая» — часть сайтов, которая не предназначена для обработки поисковыми системами. Аме­риканская фирма BrightPlanet разработала программное обеспечение по исследованию «невидимой» части сайтов. Полученные результаты показывают, что число документов «невидимой» части превышает бо­лее чем в 500 раз число документов, относящихся к «видимой» части.

Перечисленные особенности информационных ресурсов Интерне­та и поисковых средств позволяют сделать вывод о том, что эффективность поиска Информации В Интернете существенно уступает эф­фективности поиска в документальных информационно-поисковых системах, использующих специальные информационно-поисковые языки, и эффективности поиска в профессиональных базах. Указан­ные обстоятельства определяют высокие требования к профессио­нальной подготовке пользователя, которая необходима для получения нужной информации из информационных ресурсов Интернета.

Организация информации в профессиональных базах отличается от организации информации в Интернете в первую очередь тем, что информация накапливается и постоянно обновляется в базах данных, которых в настоящее время свыше 13 тыс. В каждой базе собрана спе­цифичная информация. Отбор достоверных источников и накопление информации ведут информационные агентства-генераторы. Они же поддерживают эти базы в актуальном состоянии, то есть обновляют. Получение информации из баз потребителями обеспечивают агент­ства-поставщики. Потребителю предоставляется язык запроса и доку­ментация, характеризующая базы данных, которая включает следую­щие сведения по каждой базе: название, отражающее вид информации, хранимой в базе, с какого времени ведется база, объем накопленной ин­формации, период обновления, источники информации.

Указанные особенности обеспечивают высокие показатели по до­стоверности, полноте и точности предоставляемой информации.

 

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...