Классификация с помощью деревьев решений
Деревья решений относятся к инструментам, выполняющим задачу отнесения того или иного объекта к заранее известному классу. Деревья решений включают в себя набор условий (правил), в зависимости от которых данные относятся в соответствующие классы. После построения модели «Деревья решений» доступна информация о значимости того или иного правила. Также можно определить ранг значимости каждого фактора (наиболее значимые факторы располагаются на верхних уровнях дерева). Рассмотрим применение данного инструмента на примере голосования партий по различным законопроектам. В голосовании принимают участие демократы и республиканцы. Предстоит классифицировать депутатов на демократов и республиканцев в зависимости от того, как они будут голосовать. Необходимо импортировать файл «Vote.txt», содержащий таблицу с полями: «Код» – порядковый номер, «Класс» – класс голосующего (демократ или республиканец), остальные поля представляют собой информация о том, как голосовали («да», «нет» или «воздержался») депутаты за различные законопроекты. Таблица после импорта выглядит следующим образом. В качестве инструмента обработки в мастере обработки выберем «Дерево решений». В мастере настройки дерева решений на втором шаге обработки настроим «Код» как информационный, «Класс» как выходной, а остальные поля – входные. Нажав на кнопку «Настройка нормализации» третьем этапе можно настроить нормализацию полей и постольку здесь нас все устраивает, переходим к третьему этапу. На этом шаге предстоит настроить способ разбиения исходного множества на обучающее и тестовое. Укажем, что разбиение должно происходить случайным образом.
На 4 этапе настроим следующие параметры обучения: «Минимальное количество примеров в узле, при котором будет создан новый «– 2 (пусть узел создается, если в него попали два и более примеров); возможность создания дерева с более достоверными правилами в ущерб сложности; «Уровень доверия, используемый при отсечении узлов дерева %» - чем больше уровень доверия, тем более ветвистым получается дерево, и, соответственно, чем меньше уровень доверия, тем больше узлов будет отсечено при его построении. Следующий этап предполагает запуск процесса построения дерева. При завершении пятого этапа видим, что примеры на обучающем и тестовом множестве почти все распознаны. Главной задачей аналитика является отнесение депутата к той или иной партии. С помощью визуализатора «Что-если», содержащегося в дереве решений, можно в зависимости от решения депутата в пользу того или иного проекта отнести его к демократам или республиканцам. С помощью одноименного визуализатора «Дерево решений» можно получить немаловажную информацию о том, какие факторы являются более важными (верхние узлы), какие второстепенными, а какие вообще не оказывают влияние (входные факторы, не попавшие в дерево решений). Визуализатор «Правила» позволяет использовать формализованные правила классификации в форме «Если «Условие»«, тогда «Класс». Определить, какие именно примеры были отнесены к тому или иному классу ошибочно, какое количество примеров было неверно распознано, можно с помощью визуализатора «Таблица сопряженности». На таблице сопряженности видно, что почти все примеры были распознаны правильно. По диагонали расположены примеры, распознанные правильно, в других ячейках — количество примеров неправильно распознанных. Рассмотрим визуализатор «Дерево решений». Из дерева решений видим, что подавляющая часть факторов (законопроектов) была не учтена, так как влияние их на принадлежность депутата к той или иной партии минимальна или отсутствует вообще (по данным законопроектам у партий нет принципиальных противоречий, и они голосуют одинаково).
Из дерева видим, что самым значимым фактором оказалась позиция депутатов по законопроекту, касающихся врачей. Если депутат голосует против законопроекта о врачах, то он демократ (об этом можно говорить с полной уверенностью, потому что в узел попали все примеры). Что депутат – республиканец можно сказать, если он проголосовал за законопроект о врачах. Визуализатор «Правило» отображает в таблице все решающие правила, согласно которым можно отнести депутата к той или иной партии. Таблица правил состоит из следующих полей: ü № - номер правила; ü Условие, которое однозначно определяет принадлежность к партии; ü Следствие – указывается результат классификации, согласно данному условию; ü Поддержка – количество и процент примеров из исходной выборки, соответствующей данному условию, чем выше данное значение, тем выше достоверность условия; ü Достоверность – количественное и процентное отношение значений верно распознанных примеров для данного условия от общего количества примеров, отвечающих данному условию (сумма верно и ошибочно распознанных примеров). Резюмируя данную таблицу, можно сказать, что именно влияет на отнесение депутата к той или иной партии, какова его поддержка и на сколько достоверно соответствующее правило. Итак, из списка видно, что правила №2 и №3 с большой долей вероятностью относительно всех остальных могут сказать о принадлежности депутата. Исходя из правила №3, демократы принципиально против законопроектов о врачах. Республиканцы в соответствии с условием №2 за принятие закона касающегося врачей.
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|