Распределение хи-квадрат и взвешивание терминов

Тип работы:
Реферат
Предмет:
Общие и комплексные проблемы естественных и точных наук


Узнать стоимость

Детальная информация о работе

Выдержка из работы

_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» № 3/2016 ISSN 2410−700Х_
образовании гидроизоляционной пленки высокой эластичности в результате использования полужидкого состава [2]. Выбор способа защиты зависит от степени влажности почвы, объема грунтовых вод.
Горизонтальные подземные газгольдеры в отличие от наземных сосудов не требуют дополнительного испарения жидкой фазы СУГ и могут использоваться как на промышленных объектах, так и для резервной газификации поселка или в качестве основного газоснабжения загородного частного дома. Наиболее эффективным способом защиты подземных газгольдеров является анодная защита, которая не влияет на экологию почвы.
Список использованной литературы:
1. Газгольдер. Сектор автономного газа [Электронный ресурс]: Газгольдеры. Виды и назначение резервуаров СУГ. URL: http: //газгольдер. su/reservyary-sug. html
2. Оборудование для сжиженных углеводородных газов. Г К Газовик [Электронный ресурс]: Емкости (резервуары) для СУГ подземные. URL: http: //gazovik-lpg. ru/cat/sug/0001/
3. Толкова Т. С., Куликова М. Г. Методы экологического мониторинга нефтяных загрязнений [Текст] / Т. С. Толкова, М. Г. Куликова // Современные наукоемкие технологии. Пенза, 2014. — № 5−1. С. 90−91
4. Сидорова А. И., Егоров А. Н., Куликова М. Г. Технические решения снижения уровня механических примесей в природном газе [Текст] / А. И. Сидорова, А. Н. Егоров, М. Г. Куликова // Современные материалы, техника и технологии. Курск, 2015. — № 1 (1). С. 187−189
© Хрисаненкова Т. М., Остапенко Л. Ф., 2016
УДК 004. 912
Яцко Вячеслав Александрович
д. филол. наук, профессор ХГУ им. Н. Ф. Катанова,
Е-mail: iatsko@gmail. com
РАСПРЕДЕЛЕНИЕ ХИ-КВАДРАТ И ВЗВЕШИВАНИЕ ТЕРМИНОВ
Аннотация
Описываются особенности применения распределения хи-квадрат с целью взвешивания терминов текстовых документов, что имеет значение для их автоматической классификации
Ключевые слова
Автоматическая обработка текстовых документов, взвешивание терминов, метрика хи-квадрат
Взвешивание терминов — один из фундаментальных алгоритмов, применяемых во всех направлениях лингвистической информатики [1]. На входе у программы, выполняющей взвешивание — термины текста (как правило, слова), на выходе — список терминов (словарь) с числовыми коэффициентами, отражающими значимость данного термина для данного текстового документа/документов. Цель настоящей статьи -рассмотреть особенности применения метрики хи-квадрат с целью взвешивания терминов текстового документа. По формуле хи-квадрат (1) проводится взвешивание, в результате которого каждому объекту класса С приписывается числовой коэффициент, указывающий на его дискриминирующую силу, то есть способность уникально идентифицировать данный класс.
х О^-^--- (1),
где О — наблюдаемая частотность объекта w, а Е — его ожидаемая частотность в /-ой ячейке таблицы сопряженности.
МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» № 3/2016 ISSN 2410−700Х_
Таблица 1
Таблица сопряженности.
Термин Класс Сумма
C ~C
w a b S3
~w c d S4
Сумма S1 S2 S5
В данной таблице: a — частотность объекта w в классе C- b — частотность объекта w в классе ~C- c -частотность остальных объектов в классе C (c= S1- a) — d — частотность остальных объектов в классе ~C (d= S2- b). Ожидаемая частотность вычисляется как произведение сумм ряда и колонки, в которых располагается данная ячейка, делённое на общее количество объектов в двух классах по формуле: E (WJ) = (2)
Также применяется сокращенная формула, по которой хи-квадрат вычисляется только для ячейки a:
xV^'-^r2 (3)
Для вычисления коэффициентов терминов следует: составить файлы с текстами, относящимися к двум классам. Класс C представляет собой эталонный текст, либо файл, включающий ряд текстов, представляющих данный класс. Класс ~C включает тексты, с которыми сопоставляются документы, относящиеся к классу C, и его состав определяется задачами, решаемыми в ходе реализации конкретного проекта- подсчитать суммы и значения категорий (наблюдаемые частотности) — найти ожидаемые частотности по формуле (2) — вычислить по формуле (3) коэффициент для каждого термина w в классе C. Полученный коэффициент определяет степень зависимости между данным термином и классом C. Чем меньше коэффициент термина, тем меньше его зависимость от данного класса и, соответственно, меньше его дискриминирующая сила- создать ранжированный список терминов и из верхней части списка выбрать в словарь некоторое количество терминов в соответствии с заданным пороговым уровнем.
Для оценки возможностей использования метрики хи-квадрат с целью взвешивания терминов в текстовых документах из Американского национального корпуса [2] был произвольно выбран газетный текст Weighing the risks of liposuction. Данный текст является входным и представляет класс C, т. е. t©. Для класса ~C из газеты The New York Times был выбран текст t (~C) Body and mind- the high cost of thinness1. В t© описывается конкретный случай операции липосакции, а в t (~C) обсуждаются общие проблемы пластической хирургии- родо-видовое соотношение меду содержанием двух текстов обеспечивает с одной стороны совпадение основной терминологии, а с другой — различие в её распределении по частотностям, что обеспечивает адекватное начисление весовых коэффициентов. Оба текста примерно соответствуют по размеру, в t© количество уникальных слов — 604, токенов — 1418, а в t (~C) — 604 и 1450 соответственно. Статистические данные были получены с помощью конкорданса AntConc 3.4. 42- из текстов были удалены стоп слова- также было выполнено распознавание стемм (основ слов) с помощью стеммера Paice/Husk3. В вычислениях учитывалось только распределение стемм.
В таблице 2 приводится ранжированный список (первые 10 стемм) с результатами взвешивания терминов в исходном тексте t© по формуле (3).
Таблица 2
Коэффициенты терминов исходного текста
№ стемма X 2
1 hall 7,4 420 474
2 fat 6,7 551 513
1 http: //www. nytimes. com/1988/02/28/magazine/body-and-mind-the-high-cost-of-thinness. html
2 http: //www. laurenceanthony. net/software. html
3 http: //www. scientificpsychic. com/paice/paice. html
МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» № 3/2016 ISSN 2410−700Х
Продолжение таблицы 2
3 skin 3,8 550 607
4 liposuc 2,8 319 722
5 compress 2,6 266 050
6 medic 2,2 286 485
7 francisco 2,1 888 375
8 kim 2,1 888 375
9 san 2,1 888 375
10 call 1,9 275 304
Можно отметить следующие особенности применения метрики хи-квадрат для взвешивания терминов текстового документа. 1) Более адекватные результаты дает анализ распределения стемм, а не конкретных словоформ. Например, в исходном тексте clot встречается З раза, а clots — 7 раз. Целесообразно отождествить эти словоформы по основе clot с суммарной частотностью 10. 2) Для сокращения размерности текста в процессе предварительной обработки следует удалить стоп слова. С этой целью мы использовали список Фокса [З]. З) Целесообразно применять сокращённую формулу (З). Применение полной формулы затруднительно из-за большого разброса значений. Для стеммы с наибольшим коэффициентом hall /(0=7,4 420 474, у?(Ъ) =656,1 263 736, /(c)=50 383,8829659, /(4=0,1 099 032. 4) Пороговый уровень (Q) находится на основе количества степеней свободы df и уровня значимости а. Количество степеней свободы рассчитывается по формуле df =(R- 1)(M-1), где R — количество рядов, M — количество колонок, соответственно, для таблицы 1 df=1. Общепринятой величиной уровня значимости является а=0. 05 [4]- также может использоваться обратная величина — пи-значение pv=0. 95. В MS Excel по формуле ХИ2. ОБР (pv-df) с округлением до трёх десятичных знаков можно получить Q=3,841. Первые три термина в таблице З, чей вес превышает это значение, войдут в словарь класса С. Создание такого словаря имеет значение для разработки систем автоматической классификации текстов. Список использованной литературы
1. Яцко В. А. Компьютерная лингвистика или лингвистическая информатика? // Научно-техническая информация. Сер.2. — 2014. — № 5. — С. 1−10.
2. Reppen R., Ide N., Suderman K. American National Corpus (ANC). Second release [Электронный ресурс]. -Philadelphia: Linguistic Data Consortium, 2005. 1 CD-ROM.
3. Fox C. A. Stop list for general text // ACMSIGIR Forum. — 1989. — Vol. 24. — No 1−2. — P. 19−35.
4. Марапов Д. Критерий хи-квадрат Пирсона. — 2013. — URL: http: //medstatistic. ru/theory/hi_kvadrat. html (дата обращения 20. 0З. 2016).
© Яцко В А., 2016

ПоказатьСвернуть
Заполнить форму текущей работой