Таблица 1. (фрагмент). Результаты анализа твитов, предположительно содержащих описание угроз. Сопоставление твитов, предположительно содержащих описание угроз, с новостной лентой
Таблица 1 (фрагмент). Результаты анализа твитов, предположительно содержащих описание угроз
Таблица 2 (фрагмент). Сопоставление твитов, предположительно содержащих описание угроз, с новостной лентой
Данные Таблицы 1 и Таблицы 2(во фрагментах таблиц для наглядности приведены упрощённые примеры) могут быть использованы с целью последующего машинного обучения. «Машинным обучением называется систематическое обучение алгоритмов и систем, в результате которого их знания или качество работы возрастают по мере накопления опыта» [Флах 2015: 16]. В результате накопления опыта, представленного в виде данных, в системе происходят изменения, позволяющие ей более эффективно отвечать на стимулы внешней среды при повторном предъявлении той же задачи или при решении другой задачи на основе тех же данных (см., например, определение обучения Гербертом Симоном, приведённое в [Люгер 2005]). При алгоритмической обработке больших массивов текстов и последующей оценке полученных результатов «вручную» могут быть проверены некоторые гипотезы. Например, о том, есть ли корреляция между значениями мер неслучайности совместной встречаемости слов с определёнными характеристиками в тексте микроблога и тем, что в нём действительно содержится сообщение о социокультурной угрозе; о связи речевых характеристик сообщения о возможной угрозе с её реализацией и ряд других.
Результаты проверки гипотез такого рода могут быть обобщены при обучении для последующей работы с другими данными. «Под термином обобщение (курсив автора – Е. П. Б. ) (generalization) понимается способность получать обоснованный результат на основании данных, которые не встречались в процессе обучения. Эти свойства позволяют нейронным сетям решать сложные (масштабные) задачи, которые на сегодняшний день считаются трудноразрешимыми» [Хайкин 2008: 33]. Не существует универсального алгоритма машинного обучения, но можно выбирать оптимальную парадигму обучения для той или иной модели окружающей среды, в которой предполагается дальнейшее функционирование такого алгоритма. Для работы с гипотезами при анализе коротких текстов на естественном языке, которые предположительно содержат описания социокультурных угроз, могут быть использованы такие методы искусственного интеллекта, как автоматические рассуждения (см., например, [Люгер 2005: 521]). В качестве метода рассуждений, который может быть использован в задачах прогнозирования в условиях неполноты информации, может быть рассмотрен JSM-MAHG. Известный специалист в области методологии искусственного интеллекта В. К. Финн отмечает, что JSM-рассуждения объединяют индукцию, аналогию и абдукцию. Абдукция – это процедура принятия гипотез, важность которой подчёркивал Ч. С. Пирс. По его мнению, необходимо взаимодействие абдукции, которая осуществляет выбор из множества объяснительных правдоподобных гипотез, индукции, которая эмпирически тестирует выбранные гипотезы, и дедукции, осуществляющей вывод из отобранных гипотез. В работах, посвящённых автоматизированным правдоподобным рассуждениям, рассматривается формализация абдукции как конструктивной аргументации. Такая формализация становится возможной именно путём установления взаимодействия между абдукцией, индукцией и аналогией, при этом порождение аргументов осуществляется посредством индукции, предсказания выполняются на основе аналогии, а отбор и принятие гипотез возможны с использованием абдукции.
Можно видеть, что JSM-метод соответствует основным условиям обсуждаемой задачи. «JSM-метод автоматического порождения гипотез (JSM-MAHG) является теорией автоматизированных рассуждений и способом представления знаний для решения задач прогнозирования в условиях неполноты информации. JSM-MAHG применим к данным и знаниям, для которых выполняются следующие условия (условия применимости JSM-MAHG). (1) Знания должны быть слабо формализованы, а данные хорошо структурированы, что означает, соответственно, а) неполноту описания предметной области и возможность лишь частичной её аксиоматизации, и б) определимость сходства объектов как алгебраической операции. (2) Предметная область, описание которой представлено в базе данных (т. е. базе фактов), должна содержать позитивные примеры исследуемого явления, негативные примеры и примеры неопределённости. В JSM-MAHGфактоподобным высказыванием является утверждение типа “объект С имеет множество свойств А”. Факт есть фактоподобное высказывание с оценкой фактически истинно, фактически ложно, неопределённо, фактически противоречиво (т. е. представляет конфликт). (3) В базе данных (фактов) в неявном виде содержатся зависимости причинно- следственного типа, которые могут быть представлены высказываниями типа “подобъект (часть объекта) В есть причина наличия (отсутствия) множества свойств А”» [Финн 2006: 147]. JSM-MAHG способен порождать следующие виды гипотез: «(1) позитивные гипотезы о причинах наличия эффектов, негативные гипотезы о причинах отсутствия эффектов, гипотезы о причинах фактической противоречивости (конфликтах); (2) гипотезы, являющиеся предсказанием, соответственно, наличия эффекта у объекта, отсутствия эффекта и наличие фактического противоречия (конфликта)» [Финн 2006: 148]. Таким образом, для работы с текстами микроблогов, предположительно содержащими описание потенциальных социокультурных угроз на русском языке, можно сформировать массив данных, на основе которых прогнозная модель способна обучиться по определённым признакам отличать с некоторой вероятностью тексты, содержащие описание того, что воспринимается их авторами как угроза, от текстов, которые таких описаний скорее всего не содержат. Используемые для такого обучения признаки могут носить характер как декларативного (определённые слова и сочетания из предварительно составленных пополняемых списков), так и процедурного знания (вычисление мер совместной
встречаемости слов и оценка величины этих мер по тем или иным критериям). Решение подобной задачи может позволить в перспективе перейти к анализу и оценке больших массивов текстов. В дальнейшем алгоритмы распознавания и обучения могут быть усовершенствованы.
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|