Главная | Обратная связь | Поможем написать вашу работу!

Классификация систем Data Mining

Содержание

Введение

1. Знания – сила

2. Информационный поиск

3. Добыча знаний

4. Классификация систем Data Mining

5. Добытчик на все руки

6. Data Mining в Бизнесе

7. Крупнейшая онлайновая сеть научной и технической информации

8. Управление знаниями

8.1 Технологические основы

8.2 Что дает управление знаниями

8.3 Компоненты управления знаниями

8.4 Концепция управления знаниями

8.5 Инструменты управления знаниями

Выводы

Список использованных электронных ресурсов

Введение

Тема контрольной работы "Добыча знаний и управление ими".

Наряду с активами любой компании, которые отражаются в балансах и поддаются оцениванию, сегодня все чаще говорят еще об одном, хотя и неосязаемом физически, активе - знаниях. Из-за трудности формализованного подхода к использованию знаний до сих пор большинство компаний не управляло этим активом. Именно с появлением новых информационных технологий появилась и возможность управления знаниями. Это особенно важно для компаний, оперирующих более высоким уровнем знаний по сравнению со стоимостью сырья (консалтинговые компании, производители ПО, исследовательские лаборатории, высокотехнологичные отрасли, издательства и др.).

Еще в 1940 году Герберт Уэллс высказал мысль относительно знаний, накопленных человечеством: "Огромное и все возрастающее богатство знаний разбросано сегодня по всему миру. Этих знаний, вероятно, было бы достаточно для решения всего громадного количества трудностей наших дней, но они рассеяны и неорганизованы. Нам необходима очистка мышления в своеобразной мастерской, где можно получать, сортировать, суммировать, усваивать, разъяснять и сравнивать знания и идеи". Именно эти слова могут стать лейтмотивом современного управления знаниями (knowledge management - KM).

Знания - сила

Что же такое знания?

Энциклопедический словарь Webster дает следующее определение: knowledge (знания) - сущ.

1) понимание, приобретаемое фактическим опытом (например, знание слесарного ремесла, врачевания, менеджмента и др.);

2) А: состояние осведомленности о чем-то или обладание информацией, Б: диапазон информированности или осведомленности;

3) акт понимания: ясное восприятие истины;

4) нечто понятое и держащееся в уме.

Но, кроме этого определения, имеется еще множество оригинальных и ценных определений. Пожалуй, самое точное определение знаниям было дано Фрэнсисом Бэконом. Его знаменитое выражение "знания - сила" стало девизом интеллектуальной деятельности человечества.

Современный бизнес определяет знания как "ценную информацию", систематическое приобретение, синтез, обмен и использование информации, идей и опыта для получения конкурентных преимуществ. Для бизнеса это своего рода валюта, а поэтому, чтобы ее получать, знаниями нужно управлять, как и любым бизнес-процессом.

В настоящее время в индустриально развитых странах материальное производство становится вторичным по отношению к производству информации и знаний. Поэтому здесь происходят изменения в структуре занятости населения. Теперь главной производственной силой становятся работники знаний (knowledge worker).

Работник знаний отличается от индустриального работника тем, что он безраздельно владеет своими "средствами производства": интеллектом, памятью, знаниями, инициативой, личным опытом, которые, в явном виде "скрыты" от других. В связи с этим владельцы предприятий озабочены тем, как и каким образом отчуждать эти скрытые знания и превращать их в "явные", зафиксированные и перенесенные на те или иные типы носителей. Кроме того, возникает сложность с тем, что, уходя из компании, работник уносит с собой свои знания.

В то же время работник знаний может эффективно работать только в составе коллектива, он соучастник общего корпоративного дела, продуктом которого являются знания.

Это обусловило появление концепции "интеллектуального капитала". Томас Стюарт и его единомышленники доказали, что капитал практически любого современного предприятия в основном нематериален. Так, в биржевой стоимости высокотехнологических компаний до 95 % составляет именно эта часть. Поэтому, если из высокотехнологичной компании уходят все основные сотрудники, то потери стоимости ее акций будут равны величине интеллектуального капитала.

Экономические предпосылки развития управления знаниями связаны с многочисленными, но не всегда успешными попытками обосновать экономическую целесообразность информационных технологий. Как правило, для оценки экономической эффективности используется показатель "возврат от инвестиций" (return on investment - ROI), который не применим к ИТ, хотя бы из-за их нематериальности.

Так, Пол Страссман (www.strassmann.com) в своей книге "The Squandered Computer" (Разоряющий компьютер) доказал, что никакой явной связи между размером инвестиций в ИТ и прибыльностью предприятия не существует. Основной вывод, который он сделал несколько лет назад, состоит в том, что экономическая оценка информационных технологий должна строиться иначе, чем в других отраслях: "сами по себе информационные технологии не прибыльны - прибыль приносят операции над знаниями".

Информационный поиск

Движущей силой современного общества являются интеллектуально-информационные ресурсы, т. е. знания и информация. Где их найти? Достаточно условно накопление интеллектуально-информационных ресурсов разделить на две задачи:

- поиск информации;

- добыча знаний.

С поиском информации нам приходится сталкиваться практически во всех компьютерных и Интернет-приложениях. Для этих целей используются встроенные в офисные пакеты и бизнес-приложения поисковые механизмы, средства группирования и сортировки данных. Поисковые машины Интернета (например, AltaVista, Google, HotBot, АПОРТ, Яndex, МЕТА и другие) с помощью специальных роботов позволяют по запросам пользователей находить различную информацию в киберпространстве. Аналогичные средства имеются и на большинстве сайтов, позволяя их посетителям "разобраться" в имеющихся информационных ресурсах.

Как правило, поисковые механизмы скрыты от пользователей и не требуют знания логики их работы. Пользователям нужно ввести слова и некоторые символы-заменители, которых можно узнать из справочной системы программы или поисковой машины Интернета, в поле "Поиск", "Найти", "Пошук, "Search" и т. д.

На достаточно больших Интернет-ресурсах используются системы реферирования. Искусство реферирования (составления аннотаций) обеспечивает извлечение наиболее важных или характерных фрагментов из одного или многих источников информации. Для этих целей можно применять такие инструменты, как функция AutoSumma-rize в Microsoft Office, системы IBM Intelligent Text Miner, Oracle Context и Inxight Summarizer (компонент поисковой машины AltaVista), хотя они и имеют некоторые ограничения. Они применимы только для текстов.

Для поиска нужной информации в текстах применяется несколько технологий.

Технология автоматического анализа текста на основе ассоциативно-статистической модели обеспечивает повышение качества векторных моделей, представляющих текст набором составляющих слов, за счет коррелированности появления слов в тексте с помощью семантических связей.

Технология автоматического анализа текста положена в основу таких программных продуктов, как Russian Context Optimizerи Oracle InterMedia. Здесь интеллектуальная обработка текста (тематическая классификация, аннотирование) сочетается с поисковыми возможностями, доступными при работе с реляционными базами данных. Большинство возможностей InterMedia оказывается доступно в полной мере лишь для английского языка и в меньшей мере еще для ряда европейских и восточно-азиатских языков.

Адаптацию технологий Oracle к русскоязычным базам данных выполнила российская компания Гарант-Парк-Интернет, которая выпускает продукт Russian Context Optimizer (RCO). Используемое в RCO лингвистическое обеспечение позволяет приводить к нормальной форме все грамматические формы слов русского языка, сводить воедино различные части речи, а также отождествлять близкие по смыслу словосочетания.

Визуализация информационных массивов в Интернете обеспечивает удобное представление для пользователя найденной информации. Для этих целей используются тематические сети TopNet и самоорганизующиеся тематические карты TopSOM.

Для поиска информации в хранилищах данных используются механизмы OLAP-систем, позволяющие получать кубы и их срезы.

Добыча знаний

Получить информацию не всегда означает получить знания. Специалисты выделяют три стратегии получения знаний:

- приобретение знаний (способ автоматизированного наполнения базы знаний);

- извлечение знаний (процедура взаимодействия с источником знаний);

- обнаружение знаний в базах данных, (knowledge discovery in databases - KDD) - процесс получения из "сырых" данных потенциально полезной информации.

Благодаря быстрому развитию хранилищ данных, в которых данные предметно ориентированы, интегрированы и хранятся в хронологической последовательности, обнаружение знаний в базах данных вышло на первый план. KDD предполагает накопление "сырых" данных, их отбор, подготовку, преобразование, поиск закономерностей и их обобщение, тем самым превращая информацию (данные) в знания.

Аналитические инструменты, обеспечивающие добычу знаний, относят к области технологий Data Mining (раскопки данных). В их основу положена концепция шаблонов и зависимостей, отражающих многоаспектные связи в данных. Нетривиальность разыскиваемых шаблонов позволяет отражать неочевидные закономерности в данных, составляющие так называемые скрытые знания.

Классификация систем Data Mining

Сегодня ведется много споров о том, какие системы относить к Data Mining. В той или иной степени к Data Mining можно отнести системы, поддерживающие алгоритмическое обеспечение, описанное ниже.

Статистические пакеты. В современных статистических пакетах, наряду с классическим методиками (корреляционный, регрессионный, факторный анализ), имеют место и элементы Data Mining (http://isl.cemi.rssi.ru). Серьезный недостаток статистических пакетов, ограничивающий их применение в Data Mining, - это статистическая парадигма, построенная на усредненных характеристиках выборки, которые не всегда подходят при исследовании реальных сложных жизненных явлений.

В качестве примеров наиболее распространенных статистических пакетов можно назвать SAS, SPSS, STATGRAPICS, STATISTICA, STADIA, цена которых составляет от $1000 до $15000.

Нейронные сети.

Это большой класс систем, архитектура которых имеет некую аналогию с построением нервной ткани из нейронов. На нейроны самого нижнего слоя подаются значения входных параметров, на основе которых нужно принимать какие-то решения или прогнозировать развитие ситуации. Эти значения рассматриваются как сигналы, передающиеся в следующий слой, ослабляясь или усиливаясь в зависимости от числовых значений (весов), приписываемых межнейронным связям. В результате на выходе нейрона самого верхнего слоя вырабатывается некоторое значение, которое рассматривается как реакция всей сети на значения входных параметров. Основным недостатком нейросетевой парадигмы является необходимость иметь очень большой объем обучающей выборки. К нейросетевым системам относятся BrainMaker, NeuroShell, OWL, thought (Cognos) и SENN Sales (Siemens Nixdorf). Стоимость их довольно значительна ($1500-8000).

CBR-системы.

Для того, чтобы сделать прогноз на будущее или выбрать правильное решение, CBR-системы (case based reasoning) находят в прошлом близкие аналоги имеющей место ситуации и выбирают тот же ответ, который был для них правильным. Основным недостатком этих систем считается то, что они вообще не создают каких-либо моделей или правил, обобщающих предыдущий опыт. К ним относятся KATE tools (Acknosoft), Pattern Recognition Workbench (США).

Деревья решений.

Эти системы создают иерархическую структуру классифицирующих правил типа "ЕСЛИ... ТО..." (if-then), имеющую вид дерева. Популярность подхода связана с наглядностью и понятностью, но деревья решений принципиально не способны находить оптимальные, или лучшие (наиболее полные и точные), правила в данных. Они реализуют простой принцип последовательного просмотра признаков, создавая лишь иллюзию логического вывода. Наиболее известными системами на основе дерева решений являются See5/C5.0 (RuleQuest), Clementine (Integral Solutions), SIPINA (University of Lyon), IDIS (Information Discovery, KnowledgeSeeker (ANGOSS).

Эволюционное программирование.

Российская разработка PolyAnalyst позволяет строить гипотезы о виде зависимости целевой переменной от других переменных в виде программ на некотором внутреннем языке программирования. В системе "выращивается" несколько генетических линий программ, которые "конкурируют" между собой в точности выражения искомой зависимости. Специальный модуль системы PolyAnalyst переводит найденные зависимости с внутреннего языка системы на понятный пользователю язык (математические формулы, таблицы и пр.). Кстати, с помощью этой системы делаются попытки управления портфелем ГКО-ОФЗ. Модель, рассчитанная системой PolyAnalyst, выполняющей периодический пересчет формул индексов привлекательности разных бумаг, импортируется в систему торгов SmartBroker.

Ограниченный перебор.

Эти алгоритмы вычисляют частоты комбинаций простых логических событий в подгруппах данных. Наиболее ярким современным представителем этого подхода является система WizWhy (WizSoff).

Добытчик на все руки

Система MineSet от Silicon Graphics представляет собой инструментарий для интеллектуального анализа данных на основе мощной визуальной оболочки. Ее особенностью является использование нескольких взаимодополняющих стратегий добычи, анализа и интерпретации данных. Архитектура MineSet имеет открытый характер, что позволяет работать с информационным хранилищем, построенном на основе реляционных баз данных или "плоских" ASCII-файлах. Процесс анализа начинается с выборки некоторого подмножества данных для дальнейшего исследования, которые могут преобразовываться. Тем самым создается информационная модель в виде, наиболее подходящем для последующего изучения.

Набор инструментальных средств MineSet состоит из 3 основных модулей:

- управляющего модуля. Он включает в себя графический интерфейс пользователя, который называется Tool Manager, и базирующийся на сервере процесс - DataMover;

- модуля аналитического Data Mining, находящегося на сервере и имеющего четыре интеллектуальных инструмента;

- модуля визуального Data Mining, находящегося на клиентской машине и состоящего из пяти инструментов.

Менеджер инструментов (Tool Manager) предоставляет интерактивный графический интерфейс, с помощью которого пользователь получает доступ ко всем возможностям и инструментам MineSet в единой интегрированной среде. С его помощью пользователь получает доступ к данным.

Процесс DataMover осуществляет доступ к данным, производит их выборку и преобразования, инициализирует работу запускаемых на сервере инструментов аналитического data mining и возвращает данные на клиентскую станцию для распределения их по визуальным инструментам.

К инструментам аналитического Data Mining относят четыре взаимодополняющих инструмента аналитической добычи данных, основанных на методах искусственного интеллекта с использованием машинного обучения. Это Генератор ассоциативных связей (Association Rule Generator), Генератор Дерева решений (Decision Tree Inducer), Генератор свидетельств (Evidence Inducer) и утилита определения Значимости признаков (Column Importance).

MineSet содержит пять инструментов для визуального Data Mining, позволяющих выполнять интерактивное визуальное представление и исследование данных. Это Ландшафтный визуализатор (Map Visual-izer), Визуализатор дисперсии (Scatter Visualizer), Визуализатор деревьев (Tree Visualizer), Визуализатор правил (Rule Visualizer) и Визуализатор свидетельств (Evidence Visualizer).

Data Mining в Бизнесе

С помощью Data Mining предприятия розничной торговли могут выполнять анализ покупательской корзины, знание которой необходимо для улучшения рекламы, выработки стратегии создания запасов товаров и способов их раскладки в торговых залах. Исследование временных шаблонов помогает торговым предприятиям принимать решения о создании товарных запасов, а создание прогнозирующих моделей дает возможность торговым предприятиям узнавать характер потребностей различных категорий клиентов с определенным поведением.

Достижения технологии Data Mining в банковском деле позволят выявлять мошенничество с кредитными карточками, сегментировать клиентов по категориям, а также прогнозировать изменения клиентуры.

В области телекоммуникаций методы Data Mining помогают компаниям более энергично продвигать свои программы маркетинга и ценообразования (анализ записей о подробных характеристиках вызовов и выявление лояльности клиентов).

Data Mining может применяться во множестве других областей. Например, в автомобильной промышленности при сборке автомобилей производители должны учитывать требования каждого отдельного клиента, поэтому нужна возможность прогнозирования популярности определенных характеристик и знание того, какие характеристики обычно заказываются вместе. Авиакомпании могут выявлять клиентов, которых поощрительными мерами можно побудить летать больше.

Воспользуйтесь поиском по сайту: