Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Объекты нечисловой природы как результат статистической обработки данных.




 

       Объекты нечисловой природы появляются не только на "входе" статистической процедуры, но и в процессе обработки данных, и на "выходе" в качестве итога статистического анализа.

       Рассмотрим простейшую прикладную постановку задачи регрессии. Данные имеют вид . Цель состоит в том, чтобы с достаточной точностью описать как полином от , т.е. модель имеет вид

 ,                               (5)

 где  - неизвестная степень полинома;  - неизвестные коэффициенты многочлена; ,  - погрешности, которые для простоты примем независимыми и имеющими одно и то же нормальное распределение. Распространенная процедура такова [102]: сначала пытаются применить модель (5) для линейной функции (  = 1), при неудаче переходят к многочлену второго порядка (  = 2), если снова неудача, то берут модель (5) с = 3 и т.д. (адекватность модели проверяют по F-критерию Фишера).

Обсудим свойства этой процедуры в терминах математической статистики. Если степень полинома задана (  = ), то его коэффициенты оценивают методом наименьших квадратов, свойства этих оценок хорошо известны (см., например, [62, гл.26}). Однако в описанной выше реальной постановке  тоже является неизвестным параметром и подлежит оценке. Таким образом, требуется оценить объект , ., множество значений которого можно обозначить  Это - объект нечисловой природы, обычные методы оценивания его неприменимы, так как  - дискретный параметр. В рассматриваемой постановке методы оценивания носят в основном эвристический характер {103, гл.12}. Свойства описанной выше распространенной процедуры рассмотрены в работе {104}; в которой показано, что m при этом оценивается несостоятельно (см. также.{14,18}).

       В более общем случае линейной регрессии данные имеют вид , где - вектор предикторов (объясняющих переменных), а модель

 

                            (6)

 (  - некоторое подмножество множества ; - те же, что и в модели (5);  - неизвестные коэффициенты при предикторах с номерами из {103]). Модель (5) сводится к модели (6), если

. ,

       В модели (5) есть естественный порядок ввода предикторов в рассмотрение - в соответствии с возрастанием степени, а в модели (6) естественного порядка нет, поэтому здесь стоит произвольное подмножество множества предикторов. Есть только частичный порядок - чем мощность подмножества меньше, тем лучше. Модель (6) особенно актуальна в задачах управления качеством продукции, в медицине и социологии, когда из большого числа факторов, предположительно влияющих на изучаемую переменную, надо отобрать по возможности наименьшее число значимых факторов и с их помощью сконструировать прогнозирующую формулу (6).

       Задача оценивания модели (6) разбивается на две последовательные задачи: оценивание множества - подмножества множества всех предикторов, а затем - неизвестных параметров . Методы решения второй задачи хорошо известны и изучены. Гораздо хуже обстоит дело с оцениванием объекта нечисловой природы . Существующие методы [103] - в основном эвристические, они зачастую не являются даже состоятельными. Понятие состоятельности в данном случае требует определения. Пусть - истинное подмножество предикторов, т.е. подмножество, для которого справедлива модель (6), а подмножество предикторов  - его оценка. Оценка  является состоятельной, если

,

где  - знак симметрической разности множеств;  означает число элементов в множестве , а предел понимается в смысле сходимости по вероятности.

       Задача оценивания в моделях регрессии, таким образом, разбивается на две - оценивание структуры модели и параметров при заданной структуре. в модели (5) структура описывается неотрицательным целым числом , в модели (6) - множеством . Структура - объект нечисловой природы. Задача ее оценивания сложна, в то время как задача оценивания численных параметров при заданной структуре хорошо изучена, разработаны эффективные (в смысле математической статистики) методы.

       Такова же ситуацию в факторном анализе (включая метод главных компонент) и многомерном шкалировании [38]. Ряд других примеров можно найти в списке оптимизационных постановок основных проблем прикладного многомерного статистического анализа [91].

       Перейдем к объектам нечисловой природы на "выходе" статистической процедуры. Примеры многочисленны. Разбиения - итог работы многих алгоритмов классификации, в частности алгоритм кластер-анализа. Ранжировки - результат упорядочения профессий по привлекательности, автоматизированной обработки мнений экспертов - членов комиссии по подведению итогов конкурса научных работ [105] или итогов конкурса по решению задач в Вечерней математической школе [106]. (В двух последних случаях используются ранжировки со связями; так, в одну группу, наиболее многочисленную, попадают работы, не получившие наград.) Из всех объектов нечисловой природы, видимо, наиболее часты на "выходе" дихотомические данные - принять или не принять гипотезу, в частности принять или забраковать партию продукции [58]. Дихотомические данные используются научными исследованиями [46]. Результатом статистической обработка данных может быть множество, например зона наибольшего поражения [107], или последовательность множеств, например "среднемерное" описание распространения пожара [68]. Нечетким множеством Э.Борель [55] предлагал описывать представление людей о числе зерен, образующем "кучу". С помощью нечетких множеств формализуются значения лингвистических переменных, выступающих как итоговая оценка качества систем автоматизированного проектирования, сельскохозяйственных машин [108], бытовых газовых плит [109], надежности программного обеспечения [110, 111] или систем управления. Можно констатировать, что все виды объектов нечисловой природы могут появляться " на выходе" статистического исследования.

 

ЛИТЕРАТУРА

1. Орлов А.И. / Вестник статистики. 1986, № 8. С.52 - 56

2. Горский В.Г. - В сб.: Международная школа повышения квалификации "Инженерно-химическая наука для передовых технологий". Труды третьей сессии, 26-30 мая 1997. Казань, Россия / Под ред. В.А.Махлина. - М.: Научно-Исследовательский Физико-Химический Институт им.Карпова, 1997. С.261-293.

3. Гуда А.Н. Модели, методы и средства анализа данных в затрудненных условиях. Автореф. дисс. докт. технич. наук. - Таганрог: Таганрогский государственный радиотехнический университет, 1997. 38 с.

4. Налимов В.В. Применение математической статистики при анализе вещества. - М.: Физматгиз, 1960. - 430 с.

5. Налимов В.В., Чернова Н.Л. Статистические методы планирования экстремальных экспериментов. - М.: Физматгиз, 1965. - 340 с.

6. Налимов В.В. Канатоходец. Воспоминания. - М.: Издательская группа "Прогресс", 1994. - 456 с.

7. Гнеденко Б.В., Орлов А.И. / Заводская лаборатория. 1988. Т.54. № 1. С.1-4.

8. Горский В.Г. / Заводская лаборатория. 1992. Т.58. № 1. С.63-64.

9. Орлов А.И. / Заводская лаборатория. 1992. Т.58. № 1. С.67-74.

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...