Анализ анкетных данных и получение оценки прогнозного решения к задаче управления

Тип работы:
Реферат
Предмет:
Кибернетика


Узнать стоимость

Детальная информация о работе

Выдержка из работы

УДК 519. 237. 8
В. А. Камаев, А. В. Меликов
АНАЛИЗ АНКЕТНЫХ ДАННЫХ И ПОЛУЧЕНИЕ ОЦЕНКИ ПРОГНОЗНОГО РЕШЕНИЯ К ЗАДАЧЕ УПРАВЛЕНИЯ
Волгоградский государственный технический университет
kamaev@cad. vstu. ru. AlexevV. Melikov@vandex. ru
В работе сформулированы и решены основные задачи по проведению интеллектуального анализа данных информационной системы анкетирования методом кластеризации и получению оценки прогнозного решения посредством применения экспертного оценивания. Научная новизна работы заключается в разработке: а) методики анализа данных. позволяющей проверить уровень значимости атрибутов респондентов во всех классах- б) методики анализа оценки прогнозного решения к задаче управления. позволяющей учитывать различную степень компетентности членов группы экспертного оценивания.
Ключевые слова: метод кластеризации. метод древовидной классификации. дисперсионный анализ. экспертное оценивание. нечеткие множества.
V. A. Kamaev, A. V. Melikov
ANALYSIS OF QUESTIONNAIRE DATA AND OBTAIN AN ESTIMATE OF THE SOLUTION TO THE PROBLEM OF PREDICTIVE CONTROL
Volgograd State Technical University
In this investigation we formulated and solved basic problems concerning intellectual data analysis of the informational questionnaire system by means of clustarization and also problems concerning receiving and analyzing the forecasting solution analysis by means of expert valuation. Scientific novelty of the investigation is: a) data analysis method to check the significance level of respondents' attributes in all the classes- b) analytical method of forecasting solution analysis to the management task to consider different competence level of expert valuation group members.
Keywords: method of clustarization. method of dendriform classification. dispersion analysis. expert valuation. fuzzy set.
В OLTP системе для проведения анализа данных требуется привлечение внешних источников информации (статистических отчетов), что осложняет создание отчетов, так как данные распределены по множеству таблиц, а для их агрегирования следует выполнять сложные операции объединения. Оперативные базы данных (БД) могут содержать семантически эквивалентную информацию, представленную в разных форматах с разным указанием времени ее поступления (порой противоречивою). Таким образом, возникает необходимость преобразования информации оперативной БД, полученной после первичной обработки и накопления анкетных данных, в многомерное хранилище данных (ХД) для проведения их многомерного анализа. Но преобразование реляционной модели обработки данных в OLAP-модель зачастую не решает всей проблемы скорости обработки данных и их интеллектуального анализа. Существующая технология Data Mining ориентирована на конкретную цель исследования (проекта), размер БД (в связи с постоянным увеличением объема обрабатываемых данных) и изменение функций системы по оперативному и интеллектуальному анализам (в связи со
сложностью интерпретации данных). Отсюда возникают: проблема разработки методики обработки и анализа данных в зависимости от выбора стратегии СЭС и проблема достоверности прогнозирования влияния принятых решений к задачам управления на основе проанализированных данных для повышения эффективности функционирования системы.
Результаты интеллектуального анализа данных (ИАД) представляют большую ценность для руководителей и аналитиков в их повседневной деятельности. Поэтому перед разработчиками встает задача внедрения технологии ИАД в автоматизированные системы анализа и поддержки принятия решений. Подобная система должна обеспечивать решение нескольких задач, от сбора и проверки корректности информации, поступающей в БД, до традиционного и/или ИАД. Но универсальные средства ИАД довольно сложны и дороги, поэтому они не могут широко применяться в рамках интегрированных систем, ориентированных на конечного пользователя. В связи с этим предлагается использовать технологию «К-бли-жайший сосед» [1], суть которой заключается в выявлении кластеров. Достоинством данной
технологии является обработка целостных источников данных. К недостаткам относят большие затраты памяти.
Целью кластерного анализа является образование групп схожих между собой объектов (кластер), причем число кластеров заранее не известно. По значениям переменных, которыми описываются свойства объектов, выделяются группы схожих респондентов. Первое, что необходимо знать — сколько типов в выборке целесообразно выделять. Объем выборки — 37 респондентов, являющихся преподавателями факультета машиностроения, транспорта и энергетики (ФМТЭ) Пензенского государственного университета (ПГУ), которые прошли опрос, касающийся степени удовлетворенности качеством образовательных услуг (2 квартал 2011 года). На выделяемом сегменте достигаются результаты по анализу данных, более значимым из которых является объединение объектов в группу с учетом мер близости друг к другу. С помощью кластерного анализа решается также задача сокращения размерности данных [2].
Для решения данной проблемы используется метод древовидной классификации [3]. Каждый респондент признается единственным представителем своего кластера (типа). Количество типов равно объему выборки. Вся выборка разделяется на некоторое количество групп, внутри которых респонденты очень схожи по своим характеристикам. В результате вся выборка объединяется в один кластер. Этот шаг не является информативным, так же как и первый шаг, но неизбежен в связи с процедурой. На рисунке 1 показано применение метода древовидной классификации для решения поставленной задачи.
Рис. 1. Представление результатов метода древовидной классификации
Изначально каждый респондент обозначен чертой. Затем происходит объединение по 2−3 че-
ловека в наиболее похожие группы, затем группы объединяются до тех пор, пока не получится один общий кластер — исходная выборка. Количество кластеров зависит от решаемых задач. Из примера видно, что можно выделить:
• наибольшее количество кластеров (А1-А6) —
• среднее количество кластеров (В1-В3) —
• наименьшее количество кластеров (С1).
С наименьшим количеством кластеров теряется достоверность, отсюда и неполнота исследования кластера, в котором, например, от 2−5 респондентов. Слишком большое количество кластеров чревато потерей информативности. Выбор следует оставить за средним вариантом количества кластеров (В1-В3). На этом основная функция древовидной классификации выполнена. Она позволяет узнать количество респондентов, входящих в каждый кластер, и подробности самого процесса разбиения на кластеры. Но главный результат этого метода -количество кластеров.
Критерий качества кластеризации в той или иной мере отражает следующие неформальные требования [4]:
а) внутри групп объекты должны быть тесно связаны между собой-
б) объекты разных групп должны быть далеки друг от друга-
в) при прочих равных условиях распределения объектов по группам должны быть равномерными.
Требования а-б выражают стандартную концепцию компактности классов разбиения- требование в состоит в том, чтобы критерий «не навязывал» объединения отдельных групп объектов. Узловым моментом в кластерном анализе считается выбор метрики (или меры близости объектов), от которого решающим образом зависит окончательный вариант разбиения объектов на группы при заданном алгоритме разбиения.
Другой важной величиной в кластерном анализе является расстояние между целыми группами объектов. Пусть п — г-ая группа (кластер) объектов, ДГ — число объектов, образующих группу да*, ?1. — среднее арифметическое объектов, ВХОДЯЩИХ В IV- (т. е. /ж, — «центр тяжести» 7-ОЙ группы), а & lt-?{. №-, .) — расстояние между группа-
ми №- и. Далее следует вычислить расстояния ближайшего соседа группы объектов по формуле: = дальнего со-
седа группы объектов ПО формуле: Фими-С^Е, И'-т) = =-'. я:--., центров тяжести по
формуле: q{wi, w^) = d (Искомое обобщенное расстояние, рассчитывается по формуле:
1
Далее следует применить метод-средних, который разбивает всю выборку по заданным признакам на указанное количество кластеров. Но для начала необходимо проверить отличие переменных во всех 3 кластерах. Эта проверка осуществляется с помощью дисперсионного анализа (F-критерий), результаты которого представлены в табл. 1. С помощью дисперсионного анализа исследуется влияние одной или несколько независимых переменных на одну зависимую переменную или на несколько зависимых переменных. Это метод статистического анализа, позволяющий определить достоверность гипотезы о различиях в средних значениях на основании сравнения дисперсий (отклонений) распределений [5].
-критерий Фишера используют для сравнения дисперсий двух вариационных рядов. Он
g
вычисляется по формуле: F = ^|, где о/ - больше
шая дисперсия, fff — меньшая дисперсия. Если вычисленное значение критерия F больше критического для определенного уровня значимости и соответствующих чисел степеней свободы для числителя и знаменателя, то дисперсии считаются различными. Число степеней свободы числителя определяется по формуле: i-j = к, — 1, где п1 — число вариант для большей дисперсии. Число степеней свободы знаменателя определяется по формуле: Vj =щ — 1, где — число вариант для меньшей дисперсии.
р-значение (p-value) — величина, используемая при тестировании статистических гипотез. Фактически это вероятность ошибки при отклонении нулевой гипотезы (ошибки первого рода). Проверка гипотез с помощью -значения является альтернативной классической процедуре проверки через критическое значение распределения. Р& lt-п — вероятность того, что случайная величина с данным распределением Фишера превысит данное значение статистики. Если p (F) меньше уровня значимости а, то нулевая гипотеза отвергается, в противном случае принимается.
Значение критерия F по «Пол» составило 1,18 (р & gt- 0,05), следовательно, критерий можно считать не существенным, т. е. мнение респондентов о степени удовлетворенности качеством
образовательных услуг не зависит от их пола. Уровень значимости других переменных очень высокий, отсюда следует, что все значения-критерия существенны. Таким образом, данные переменные респондентов являются критериями классификации. Средние арифметические переменных респондентов для каждого кластера представлены в табл. 2.
Таблица 1
Результаты дисперсионного анализа
Переменные респондентов F-критерий
Ученая степень (к.т.н. /д.т.н.) 4,29 & lt- 0,01
Ученое звание (доц. /проф.) 4,17 & lt- 0,01
Должность (препод. /ЗК/УВП) 5 & lt- 0,01
Пол (муж/жен) 1,18 & gt- 0,05
Таблица 2
Средние арифметические переменных респондентов для каждого кластера
Переменные респондентов Кластер Ві Кластер В2 Кластер В3
Зав. кафедрой 2,25 4,98 5,16
Профессор 2,48 5,01 5,05
Доцент 3,11 5,45 4,82
Преподаватель 3,37 5,38 4,46
УВП 4,04 4,94 2,85
Интерпретационную оценку кластеров можно представить в виде:
«В1» — кластер «вовсе не удовлетворены" —
«В2» — кластер «частично удовлетворены" —
«В3» — кластер «полностью удовлетворены».
Далее следует узнать, кто же конкретно входит в каждый из трех кластеров, а затем описать их характеристики, основываясь на проделанных вычислениях со средними значениями.
Как и любой метод многомерного шкалирования, кластерный анализ имеет множество особенностей, связанных с внутренними методами, поэтому результаты анализа данных могут меняться, хоть и несущественно, в зависимости от «настроек» процедуры.
Для решения задач прогнозирования применяется множество апробированных методов, которые основаны на статистических и физикостатистических моделях [6, 7], статистического, оперативного и ИАД. При использовании данных методов точность и достоверность прогнозных оценок зависит от длительности на-
блюдения за определяющими параметрами прогнозируемого явления и от объема статистически однотипных наблюдений [8]. С этой точки зрения оценка удовлетворенности качества образовательных услуг является весьма сложной. Эта сложность обусловлена, в первую очередь, очень скудным количеством измерительной информации, к сбору которой, фактически, приступили только с внедрением мониторинга удовлетворенности качеством предоставляемых ВУЗом услуг, а также специфической индивидуальностью данной предметной области. В подобных случаях становится невозможным сбор репрезентативной выборки определяющих параметров прогнозируемого явления, что может привести к значительным погрешностям при принятии решения на основе статистических и физико-статистических моделей.
Одним из существенно значимых подходов получения прогнозных оценок для процессов, которые характеризуются индивидуальной спецификой, является применение экспертного оценивания [9]. Суждения (оценки) экспертов субъективны, а значит нечетки. Отсюда следует, что логичным при проведение экспертного опроса и анализа его результатов является использование теории нечетких множеств [10], т. е. представление экспертной информации в форме нечетких множеств.
На основе полученной в результате АИД информации необходимо выяснить: «Как повлияет на оценку удовлетворенности качеством предоставляемых услуг преподавателей ПГУ выполнение определенных задач администрацией?» При ответе на поставленный вопрос предлагаются следующие варианты:
• «понизится значительно" —
• «понизится незначительно" —
• «не изменится" —
• «повысится незначительно" —
• «повысится значительно».
Эксперт не только выбирает правильный, с его точки зрения, ответ, но и конкретизирует его количественно.
При соотнесении конкретного числа с ответом может быть допущена грубая ошибка, так как эксперту, не обладающему всей информацией о свойствах изучаемого объекта, психологически трудно это сделать. Вследствие чего эксперту предлагается выбор нескольких количественных оценок, которые включены в анкету и соответствуют его пониманию выбранного
ответа. Так в рассматриваемом случае множество возможных оценок имеет вид:
{-75%. — 50%, — 25%. 0, 25%, 50%. 75%}
снижение не изменение повышение
Для облегчения процесса задания степени уверенности в ответах на поставленные вопросы экспертам предлагается использовать вербально-числовую шкалу Харрингтона [11], которая характеризует степень выраженности определенных свойств. Результаты опроса эксперта по вышеопределенному вопросу представляются в нечеткой метрике так, как показано в табл. 3.
Таблица 3
Результаты опроса эксперта
№ эксперта Возможные значения изменения показателя эффективности, %
-75 -50 -25 0 25 50 75
1 0 0 0 0,3 1,0 0,8 0
Эксперт, выбрав ответ «эффективность повысится незначительно», имеет в виду следующее:
• очень высокая степень уверенности в том, что эффективность повысится на 25% (1,0) —
• высокая степень уверенности в том, что эффективность может повыситься на 50%, но утверждение этого происходит с меньшей уверенностью (0,8) —
• низкая степень уверенности в том, что эффективность не изменится, но уверенность в этом еще ниже (0,3) —
• степень уверенности в том, что оценки изменения показателя эффективности примут другие значения, равна 0.
Предположим, что в опросе принимают участие А' экспертов, а анкета содержит Р вопросов. В этом случае каждому вопросу ставится в соответствие лингвистическая переменная ??0= значениями которой явля-
ются варианты ответов ??/(/= 1. /*), где /! -количество вариантов ответа на 7-й вопрос. В результате, применительно к поставленному вопросу, получается, что I, (изменение эффективности работы университета) = (эффективность «понизится значительно» (?--), «понизится незначительно» (? -). «не изменится» (?-г), «повысится незначительно» (?м), «повысится значительно» (?,-)}_
Для описания значения лингвистической переменной используется нечеткое множество. Оно задается на базовом (четком) множестве !' I действительных чисел, кото-
рое охватывает, по мнению аналитика, весь возможный диапазон количественных оценок лингвистической переменной I. Так ДЛЯ 7-ОГО вопроса множество задано в виде:
.
Результат сопоставления каждой оценки из вышеприведенного множества с количественным показателем степени уверенности — выход на значение функции принадлежности, которое обозначается где (= 1, Р, } = 1,/
... Из этого следует, что ответ
эксперта и его интерпретация (согласно табл. 3) имеет вид: = [0: 0−0:0,3−1-0,6−0]. Таким
образом, значение лингвистической переменной формально можно представить в виде нечеткого множества:
или
«к —
«fr
+ ¦
P.A 1 U ff
----------------------------------------------.
О 2? ao --5
-75 -30 -2=
Функция принадлежности определяется по
формуле:
Aife (Ui) = min (ftfcCWu). #"k («aX — •
AffttW,),-, fttfor'-))*
Вышеописанная формула справедлива либо для одного эксперта, либо для группы экспертов, уровень компетентности которых одинаков. Однако сформировать группу экспертов одной компетентности на практике является невозможным. В связи с этим возникают необходимости, во-первых, определения степени компетентности каждого эксперта, во-вторых, ее учета при получении и анализе обобщенной оценки.
При решении поставленной задачи первостепенно возникает вопрос о выборе меры компетентности эксперта. В качестве меры компетентности экспертов обычно берут некоторые функции от математического ожидания модуля отклонения прогнозов экспертов i* от истинных реализаций прогнозируемых параметров или математического ожидания квадрата этого отклонения [12]. Таким образом, мера компетентности ?-ого эксперта имеет вид:
Множество характеристик компетентности экспертов главным образом определяются сферой их работы, из которых важными являются занимаемая должность и стаж работы эксперта. Для выявления названных характеристик в инструментарий экспертного опроса необходимо включить соответствующее множество дополнительных вопросов Р = '- (?! = 1, Д'}. Каждому
вопросу и& quot- в соответствие ставится множество ответов В& quot-'- = (йщ.т = 1, М-«}. Формируя множества ответов на дополнительные вопросы, ответы должны представляться в шкале порядка. Для этого каждому В*-му варианту ответа на г'-й дополнительный вопрос необходимо поставить в соответствие положительный нормированный коэффициент р-г., причем & quot- 1-
В результате выбор Нм экспертом конкретного? Ц-го варианта ответа на ??1!-й дополнительный вопрос однозначно определяет некоторый коэффициент из множества который обозначается через и вычисляется в соответствии со следующим правилом:
.
* -? чг Ртг
Посредством выполнения операции «размывания» [13] осуществляется влияние уровня компетентности эксперта на нечеткую количественную меру, обозначаемую через Та-
ким образом, можно применить «размывание» данной меры следующим образом:
йкШ = = Т7
В результате опроса множества всех экспертов Э = {з^, А: = Щ для каждого 7-го (! = 1,1°! вопроса анкеты получается К нечетких количественных мер которые учитыва-
ют степени компетентности опрашиваемых экспертов. В этом случае нечеткое множество, которое характеризуется обобщенным мнением группы экспертов, можно определить как пересечение нечетких мнений экспертов, имеющее функцию принадлежности:
/Jj. Cn,) = К = О. ! = IТр [14]
Для получения однозначного количественного результата опроса необходимо выбрать тот элемент к', который имеет максимальную степень принадлежности к полученному обоб-
щенному нечеткому множеству мнении группы экспертов:
Uj = arg ma. y /й?. Cut), и. Е Ut
В табл. 4 представлены ответы экспертов на конкретно поставленный вопрос.
Таблица 4
перт ответил на дополнительные вопросы, касающиеся профессиональных характеристик, следующим образом: в$ = «ректор» и = «от 14 до 21 лет». В то время как второй эксперт ответил так: = «зам. декана» и ?_- = «до 7 лет».
Для ответов на первый дополнительный во-
Результаты опроса экспертов
,
10
— для ответов на второй дополнительный
* 15
вопрос — р* =-, _? $ = - Первый экс-
4 й {
перт на оба вопроса выбрал: ^ = р$ = -
№ эксперта Возможные значения изменения показателя эффективности Ui, %
-75 -50 -25 0 25 50 75
1 0 0 0 0,3 1,0 0,8 0
2 0 0,1 0,4 1,0 0,4 0,1 0
le
Значения лингвистических переменных формально можно представить в виде:
, 9 9 9 91 1 9 9 9.
1 -75 -50 -25 0 25 50 75
— -іф -гз ф гз зф? г
Функции принадлежности соответственно равны:
/(-Ш = [0: 0: 0: 0,3: Л: 0. 8:0]-
^(и) = (0: 0,1−0,4- 1,0: 0,4:0,1:0], и Є (/•
Для первого дополнительного вопроса («Какую должность Вы занимаете?») экспертам предлагаются следующие варианты ответов:
В = «зам. декана», йі = «декан», ?¦? = «проректор», б- - «ректор" — а для второго («Сколько лет Вы работаете?»): В- - «ДО 7 лет», Щ _ «от 7 до 14 лет», в* = «от 14 до 21 лет». Первый экс-
ij? = р~ = 1. Второй эксперт — щ = рт = -. г = - - = -. Далее необходимо вычислить ко-
эффициенты компетентности экспертов:
и ъ = 44 = Й = 03'
А*-*#* -
где р = р =
В силу того, что коэффициент компетентности первого эксперта равен 1, следует корректировать функцию принадлежности нечеткого ответа только второго эксперта:
& amp-(«) = /?*(и) = [0−0,1−0,4−1,0−0,4−0,1−0]0-* = [ОгОАО. бададО. ^О]2
Функция принадлежности, характеризующая обобщенное мнение экспертов, определяется следующим образом:
min^iCttsX ftzbh)): тіп (/ід (и6), р2(и^)) —
Отсюда следует, что =[0: 0- 0: 0,3:0,6:0,5:0] Обобщенный результат опроса экспертов равен максимальному значению функции принадлежности = 0,6 (соответствие 25%). Результатом проделанных вычислений является следующий вывод аналитика: «это действие администрации ПГУ увеличит удовлетворенность преподавателей качеством образовательных услуг на 25%».
Разработанная методика анализа данных с применением кластеризации позволяет аналитику определить количество кластеров, проверить
уровень значимости атрибутов респондентов в каждом кластере и описать их характеристики, основываясь на проделанных вычислениях со средними значениями. Применение экспертного оценивания является предпочтительным, в силу своей целесообразности, подходом получения прогнозных оценок для процессов, характеризующихся специфической индивидуальностью, подобной удовлетворенности качеством образовательных услуг. Разработанная методика получения и анализа оценки прогнозного решения в задачах управления позволяет определить степень компетентности членов группы экспертно-
го оценивания и учесть ее в принятии обобщенной оценки управленческого решения.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Шапот, М. Д. Интеллектуальный анализ данных в системах поддержки принятия решений / М. Д. Шапот. -М.: «Открытые системы», 1998. — С. 62−70.
2. Хайдуков, Д. С. Применение кластерного анализа в государственном управлении / Д. С. Хайдуков // Философия математики: актуальные проблемы. — М.: МАКС Пресс, 2009. — С. 36−65.
3. Попов, О. А. Кластерный анализ. Просто о сложном / О. А. Попов. — М.: МАКС Пресс, 2010. — С. 110−121.
4. Методы и алгоритмы анализа структуры многомерных данных [Электронный ресурс]. — 2004. — Режим доступа: http: //www. codenet. ru/progr/alg/ai/htm/gl3 10. рИр.
5. Кисляк, М. А. Методы сбора информации и инструменты анализа / М. А. Кисляк. — М.: Изд-во «Прометей», 2004. — С. 14−15.
6. Острейковский, В. А. Вероятностное прогнозирование работоспособности элементов ЯЭУ / В. А. Острейковский, Н. Л. Сальников. — М.: Энергоатомиздат, 1990. — С. 25−28.
7. Ханк, Д. Э. Бизнес-прогнозирование: учеб. пособие /
Д. Э. Ханк, А. Д. Райтс, Д. У. Уичерн. — 7-е изд. — М. :
Вильямс, 2003. — С. 265−282.
8. Крыжановский, А. И. Применение кооперативного обучения и прогнозирования в мультиагентных системах / А. И. Крыжановский, П. С. Пыхтин // Известия ВолгГТУ: межвуз. сб. науч. ст. № 6(66) / ВолгГТУ. — Волгоград, 2010. — С. 106−110.
9. Макаров, И. М. Теория выбора и принятия решений / И. М. Макаров, Т. М. Виноградская, А. А. Рубчинский. -М.: Наука, 1982. — С. 69−77.
10. Заде, Л. А. Понятие лингвистической переменной и его применение к принятию приближенных решений / Л. А. Заде. — М.: Мир, 1976. — С. 64−74.
11. Особенности вербально-числовых шкал, шкала Харрингтона [Электронный ресурс]. — 2006. — Режим доступа: http: //www. vipeducation. ш/Шете6124. 111 т.
12. Татарова, Г. Г. Качественные методы в структуре методологии анализа данных / Г. Г. Татарова // Социология: методология, методы, математические модели. — М.: Изд-во «Прометей», 2002. — С. 33−52.
13. Гмурман, В. Е. Руководство к решению задач по теории вероятностей и математической статистике / В. Е. Гмурман. — 3-е изд., перераб. и доп. — М: Высшая школа, 2004. — С. 98−102.
14. Ротштейн, А. П. Интеллектуальные технологии идентификации / А. П. Ротштейн. — В.: УНИВЕРСУМ-Винница, 1999. — С. 222−230.

ПоказатьСвернуть
Заполнить форму текущей работой