Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

М-ды автоанн/реф-я текста: статистический метод.




1) В статист.м.ключ.слово – знаменат.сл.txt с учётом всех его синонимов встреч. в тексте наиб. число раз.

Ключевое предложение - предложение текста, кот.:

а) им.неск.ключ.сл;б) сод.ключ.сл.на небол.расст.друг от друга

Принадл-ть сл.к числу ключ-х опред.спец.коэф важности.

Задача:используя для выдел.ключ.сл.txt один из вариантов статистич. метода, а именно:

Кважн =(F*m)/(N*n)где F = частота употр.сл. m = абзацы,где встр.сл.

N = число слов в тексте n = число абзацев в тексте

Состав. алгоритм позволяет получить:

а) анн.txt в виде релятора со след.а ними ключ.словосоч.

Ключ.словосоч— ключ.имя сущ.+стоящ.перед ним опред., выраж.им.прилаг.или причастием.

б) словесный рез-т текста в виде послед.цепочки ключ. предл.

Ключе.предл содерж. 3 и > ключ. слов или слововсочетаний.

Словоупотребл. - цепочка букв.симв,заключ.м/у 2 пробелов.

Слово – неск.словоформ,имеющ.одинак.лексич.значение

Предл – неск.словоупотр.,нах-ся между 2 зн конца предл.

Скоро придёт зима. Зимой легче дышится. Приходи, зима!

дышится 1 -> 7 словоупотреблений, 5 слов зима 2 зимой 1 легче 1 придёт 1 приходи 1 скоро 1

Алгоритм решения задачи:

1: Комп по кажд.абзацу сост.алфавито-частотн.словарь словоф.

2:Алфав-частотн.словари объедин. в ед.распределит словарь

3: Комп.сист.проводит чистку алф-частотн.сл-ря,сжим.до сл-ря потенциально опорных словоформ:

- удал.из сл-ря служ. и общеупотреб. лексики

- объедин.все грам.ф. одного и того же слова, объедин.синон

- удал. слова, которые встречаются в одном абзаце

4:Сл-рь потенц.ключ.слов дел.на:а)сл-ри главн.опорн.слов

б) сл-рь второстеп.опорн.сл.на основе коэфф. важности.

5:строит.анн из слов-реляторов со след.за ними ключ.словос. Исп. только глав. опорные слова.

6:Строит.реф.на базе главн/второст.опорн.слов.Комп извл. из исх.txt предл,содерж.3 разн.опорн.слова и сост. из них реф.
17. Назнач. и возм-ти сист. автомат. чтения текста.

Для быстр.ввода текст.инф. в ПК исп.сканер.Чтобы перевести граф.изобр. в ткств ф,необход. сист автом.чтения текстов или OCR (optical character recognition)

OCR - прога,позв.преобраз.текст бум.носит.в электрон.файл.

Принципы работы OCR:

1. целостность(объект опис.как целое с пом.знач.элем.и отнош.м/у ними)

2. целенаправленность (распозн-е стр. как проц. выдвижения и целенаправл. проверки гипотез)

3. адаптивность (сп-ть комп. Сист. к самообучению)

Этапы работы системы Fine Reader:

1) сканирование - получение граф. образа документа

2) распознавание

а) анализ граф.макета стр.(выдел.обл.для распозн.)

б) распозн.кажд.симв.на основе различн.алгор. распозн.

3. проверка орфографии

4. сохранение

Алгоритмы распознавания (классификаторы)

1) шрифтозависимые (шаблонные) - растров.изображ. наклад.на шаблон,содерж.в бд,наиб.подход.явл.шаблон, у кот.наименьшее кол-во точек отлич. от исслед. изображения.

2) признаковые – распозн.подверг.не сам символ (оригинал), а некотор.его признаки, вычисл. по формулам.

Эти не отв.принц.целостн,ибо теряется существ. ч. инфы

3) структурные - содерж. инф-ю не о точечном изобр.симв, а о правилах начертания или структуре.

Стр.элем.явл. все сост-щие символ линии. Раб. с векторным изобр.Недостаток – чувствит. к дефектам изображения.

В Fine Reader работают все типы классификаторов.

Возможности системы:

1. во время сканир.автом.подбир.яркость,фрагментир. стр, распозн. символы, можно пров. орфографию.

2. позв.распозн.печат.симв(около 200 языков),рукопечатные, рукопис. (для КПК)

3. способность самообучаться и распозн. плохопропечат. символы и символы незнакомых языков.

4. распозн. изобр, полученные с помощью фотоаппаратов.

Развит.прог OCR идёт в напр.повыш.точности распозн.текстов низкого к-ва,рукопис.текста,выдел. екст.инф.на фоне шумов, интеграции OCR-систем с различн.прогами обраб. инфы.

 

ЛИР:осн.сост: письм текст массивы, фонетич ресурсы

Письм.тхт.массивы – совт-ь тхтов, явл достат для обеспеч надёжн выводов (научн.) о яз, диалекте или ином подмн-ве яз

Созд таких корпусов - новое направл в лингв. Суть—достовер. данные о морфол,синт. и семант.стр-ре яз мб получены из достаточно большого массива текстов.

Корпусы текстов исп.:

1. в лексикологии (сост различн.сл-рей, выдел терминов, определения значения многознач. слов.)

2. в грамм (опред частоты употр грам.морфем, для выявл наиб употр-ых типов словосоч и предл,частоты употр классов слов)

3. в лингвистике (дифференц.типов тхт, созд конкордансов; при МП для созд.прав.стр-ры предл перевод. текста.

Как показ.рез-ты исп корпуса тхт, многие лингв.задачи с их пом не мб реш.Во многих яз нельзя устан прин-ть сл к тому или иному грам.классу, что не позв.опред.частоту употр.грам. классов сл, прав.стр-ру предл => употр-ть стр-ры, поэтому стали созд. тагированные корпусы текстов.

Сл т.корпуса получ.букв и цифр.индексы, к.обознач. их грам, лексич, семант структур. признаки.

Сущ. проги, к. произв. автомат.тегирование текста.

В послед.время стали созд.парал.тегир.корпусы тхт на 2 яз.

фонетические ресурсы (корпусы устной речи)

Глав.трудн-ть — необх.транскриб. устной речи.

В наст. время общепринято, что для созд машиночит-х фонетич.корпусов или транскрипц.на основе орфограф. представл звуков речи с доп. знаками, передающими (при необх) просодич, паралингв и др особенности произношения.

В мире сущ.много фонет. корпусов текстов, к. широко исп. для:

1) сопоставит. изуч. устн. и письм. формы яз.

2) для изучения грам. и лекс. особенностей уст. речи.

3) для исследования фонетич. особенностей диалектов

4) для построения частот. списков фонем и их соч-й

5) для созд. комп.сист исп.с целью распозн симв устной речи.

Напр,в США созд.корпус устн.р,сост.из 255 зап психоаналитич. сеансов (9 городов) Герм. - зап радиопер (222 тхт)

 

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...