М-ды автоанн/реф-я текста: статистический метод.
⇐ ПредыдущаяСтр 2 из 2 1) В статист.м.ключ.слово – знаменат.сл.txt с учётом всех его синонимов встреч. в тексте наиб. число раз. Ключевое предложение - предложение текста, кот.: а) им.неск.ключ.сл;б) сод.ключ.сл.на небол.расст.друг от друга Принадл-ть сл.к числу ключ-х опред.спец.коэф важности. Задача:используя для выдел.ключ.сл.txt один из вариантов статистич. метода, а именно: Кважн =(F*m)/(N*n)где F = частота употр.сл. m = абзацы,где встр.сл. N = число слов в тексте n = число абзацев в тексте Состав. алгоритм позволяет получить: а) анн.txt в виде релятора со след.а ними ключ.словосоч. Ключ.словосоч— ключ.имя сущ.+стоящ.перед ним опред., выраж.им.прилаг.или причастием. б) словесный рез-т текста в виде послед.цепочки ключ. предл. Ключе.предл содерж. 3 и > ключ. слов или слововсочетаний. Словоупотребл. - цепочка букв.симв,заключ.м/у 2 пробелов. Слово – неск.словоформ,имеющ.одинак.лексич.значение Предл – неск.словоупотр.,нах-ся между 2 зн конца предл. Скоро придёт зима. Зимой легче дышится. Приходи, зима! дышится 1 -> 7 словоупотреблений, 5 слов зима 2 зимой 1 легче 1 придёт 1 приходи 1 скоро 1 Алгоритм решения задачи: 1: Комп по кажд.абзацу сост.алфавито-частотн.словарь словоф. 2:Алфав-частотн.словари объедин. в ед.распределит словарь 3: Комп.сист.проводит чистку алф-частотн.сл-ря,сжим.до сл-ря потенциально опорных словоформ: - удал.из сл-ря служ. и общеупотреб. лексики - объедин.все грам.ф. одного и того же слова, объедин.синон - удал. слова, которые встречаются в одном абзаце 4:Сл-рь потенц.ключ.слов дел.на:а)сл-ри главн.опорн.слов б) сл-рь второстеп.опорн.сл.на основе коэфф. важности. 5:строит.анн из слов-реляторов со след.за ними ключ.словос. Исп. только глав. опорные слова.
6:Строит.реф.на базе главн/второст.опорн.слов.Комп извл. из исх.txt предл,содерж.3 разн.опорн.слова и сост. из них реф. Для быстр.ввода текст.инф. в ПК исп.сканер.Чтобы перевести граф.изобр. в ткств ф,необход. сист автом.чтения текстов или OCR (optical character recognition) OCR - прога,позв.преобраз.текст бум.носит.в электрон.файл. Принципы работы OCR: 1. целостность(объект опис.как целое с пом.знач.элем.и отнош.м/у ними) 2. целенаправленность (распозн-е стр. как проц. выдвижения и целенаправл. проверки гипотез) 3. адаптивность (сп-ть комп. Сист. к самообучению) Этапы работы системы Fine Reader: 1) сканирование - получение граф. образа документа 2) распознавание а) анализ граф.макета стр.(выдел.обл.для распозн.) б) распозн.кажд.симв.на основе различн.алгор. распозн. 3. проверка орфографии 4. сохранение Алгоритмы распознавания (классификаторы) 1) шрифтозависимые (шаблонные) - растров.изображ. наклад.на шаблон,содерж.в бд,наиб.подход.явл.шаблон, у кот.наименьшее кол-во точек отлич. от исслед. изображения. 2) признаковые – распозн.подверг.не сам символ (оригинал), а некотор.его признаки, вычисл. по формулам. Эти не отв.принц.целостн,ибо теряется существ. ч. инфы 3) структурные - содерж. инф-ю не о точечном изобр.симв, а о правилах начертания или структуре. Стр.элем.явл. все сост-щие символ линии. Раб. с векторным изобр.Недостаток – чувствит. к дефектам изображения. В Fine Reader работают все типы классификаторов. Возможности системы: 1. во время сканир.автом.подбир.яркость,фрагментир. стр, распозн. символы, можно пров. орфографию. 2. позв.распозн.печат.симв(около 200 языков),рукопечатные, рукопис. (для КПК) 3. способность самообучаться и распозн. плохопропечат. символы и символы незнакомых языков. 4. распозн. изобр, полученные с помощью фотоаппаратов. Развит.прог OCR идёт в напр.повыш.точности распозн.текстов низкого к-ва,рукопис.текста,выдел. екст.инф.на фоне шумов, интеграции OCR-систем с различн.прогами обраб. инфы.
ЛИР:осн.сост: письм текст массивы, фонетич ресурсы Письм.тхт.массивы – совт-ь тхтов, явл достат для обеспеч надёжн выводов (научн.) о яз, диалекте или ином подмн-ве яз Созд таких корпусов - новое направл в лингв. Суть—достовер. данные о морфол,синт. и семант.стр-ре яз мб получены из достаточно большого массива текстов. Корпусы текстов исп.: 1. в лексикологии (сост различн.сл-рей, выдел терминов, определения значения многознач. слов.) 2. в грамм (опред частоты употр грам.морфем, для выявл наиб употр-ых типов словосоч и предл,частоты употр классов слов) 3. в лингвистике (дифференц.типов тхт, созд конкордансов; при МП для созд.прав.стр-ры предл перевод. текста. Как показ.рез-ты исп корпуса тхт, многие лингв.задачи с их пом не мб реш.Во многих яз нельзя устан прин-ть сл к тому или иному грам.классу, что не позв.опред.частоту употр.грам. классов сл, прав.стр-ру предл => употр-ть стр-ры, поэтому стали созд. тагированные корпусы текстов. Сл т.корпуса получ.букв и цифр.индексы, к.обознач. их грам, лексич, семант структур. признаки. Сущ. проги, к. произв. автомат.тегирование текста. В послед.время стали созд.парал.тегир.корпусы тхт на 2 яз. фонетические ресурсы (корпусы устной речи) Глав.трудн-ть — необх.транскриб. устной речи. В наст. время общепринято, что для созд машиночит-х фонетич.корпусов или транскрипц.на основе орфограф. представл звуков речи с доп. знаками, передающими (при необх) просодич, паралингв и др особенности произношения. В мире сущ.много фонет. корпусов текстов, к. широко исп. для: 1) сопоставит. изуч. устн. и письм. формы яз. 2) для изучения грам. и лекс. особенностей уст. речи. 3) для исследования фонетич. особенностей диалектов 4) для построения частот. списков фонем и их соч-й 5) для созд. комп.сист исп.с целью распозн симв устной речи. Напр,в США созд.корпус устн.р,сост.из 255 зап психоаналитич. сеансов (9 городов) Герм. - зап радиопер (222 тхт)
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|