Проблемы применения ествественного языка в информационных системах

Тип работы:
Дипломная
Предмет:
Информационный системы в политологии
Страниц:
132

4300 Купить готовую работу
Узнать стоимость

Детальная информация о работе

Содержание

1. Введение

Цель работы

Актуальность

2. Обзоры и аналоги

Обзор

Аналоги

3. Постановка задачи

4. Разработка алгоритма решения задачи.

5. Реализация алгоритма

Диаграммы классов

6. Выводы

7. Список литературы

Список литературы

-Литература

-. Аграновский А. В., Арутюнян Р. Э. Индексация массивов документов // Мир П К, № 6, 2003, стр. 49.

-. Аграновский А. В., Арутюнян Р. Э. Алгоритмы поиска и рубрикации текстовых документов // Телекоммуникации, № 9,2003 г., стр. 2−7.

-. Аграновский А. В., Арутюнян Р. Э. Способы индексации и поиска документов в интернет-порталах // Труды X Всероссийской научно-методической конференция «Телематика-2003», Санкт-Петербург, 2003, т. 1, стр. 204−206.

-. Аграновский А. В., Арутюнян Р. Э. Метод ранжирования документов при поиске // IV Всероссийский Симпозиум по прикладной и промышленной математике, Петрозаводск, 2003, стр. 83−84.

-. Аграновский А. В., Арутюнян Р. Э. Навигация в архивах образовательных материалов // Тезисы докладов научно-методической конференции «Современные информационные технологии в образовании: Южный Федеральный Округ», Ростов-на-Дону, 2003, стр. 20−23.

-. Аграновский А. В., Арутюнян Р. Э. Модель бинарной классификации текстов // Оптико-электронные приборы и устройства в системах распознавания образов, обработки изображений и символьной информации. Распознавание-2003: Сб. мат-лов 6-й Межд. конф.: В 2-х ч. Ч. 1/Курск. гос. техн. ун-т. Курск, 2003, 191 с, стр. 101−103.

-. Аграновский А. В., Арутюнян Р. Э. Классификация текстов на дереве категорий // Информационные и телекоммуникационные системы: сетевые технологии. Дагинформ-2003: Материалы III Республиканской научно-практической конференции: Махачкала, 2004, стр. 51−53.

-. Аграновский А. В., Арутюнян Р. Э. Рубрикация текстов с помощью цепей Маркова // IV Всероссийский Симпозиум по прикладной и промышленной математике, Сочи, 2003, т. 10, вып. 3, стр. 591−592.

-. Аграновский А. В., Арутюнян Р. Э., Булаев В. В., Хади Р. А. Рубрика: Система навигации по массивам документов. Версия 1.0 // Свидетельство обофициальной регистрации программы для ЭВМ № 2 003 611 314/РОСПАТЕНТ- М., 29. 05. 2003.

-. Аграновский А. В., Арупонян Р. Э., Булаев В. В., Хади Р. А. DocMediaSearcher: хранение и поиск мультимедийных файлов. Версия 1.0 // Свидетельство об официальной регистрации программы для ЭВМ № 2 003 611 309/РОСПАТЕНТ — М., 29. 05. 2003.

-. Аграновский А. В., Арутюнян Р. Э., Куликов Л. С. Метод контекстного представления при обработке текстовых документов // Научная мысль Кавказа, Приложение, № 7 (61) 2004., стр. 118−125.

-. Аграновский А. В., Арутюнян Р. Э., Куликов Л. С, Леднов Д. А. Система потоковой обработки текстовых сообщений. Версия 1.0 // Свидетельство об официальной регистрации программы для ЭВМ № 2 004 611 737/РОСПАТЕНТ — М., 23. 07. 2004.

-. Аграновский А. В., Арутюнян Р. Э., Телеснин Б. А. Использование SQL для индексации и обработки текстовых документов // Информационные технологии, № 5, 2004, стр. 14−19.

-. Аграновский А. В., Арутюнян Р. Э., Хади Р. А. Современные аспекты проблемы поиска в текстовых базах данных // Телекоммуникации, № 3, 2003 г., стр. 25−30.

-. Аграновский А. В., Арутюнян Р. Э., Хади Р. А. Средства поиска в текстовых базах данных // Известия ТРТУ. Тематический выпуск: Материалы Всероссийской научно-технической конференции с международным участием «Компьютерные технологии в инженерной и управленческой деятельности», Таганрог, изд-во ТРТУ, 2003, № 3(32), стр. 178−179.

-. Арутюнян Р. Э. Бинарная классификация документов // Интеллектуальные и многопроцессорные системы-2003. Материалы Международной конференции. Т.2. Таганрог: Изд-во ТРТУ, 2003, стр. 262−264.

-. Арутюнян Р. Э. Индексация текстов с помощью хранимых процедур // Научная мысль Кавказа, Приложение, № 6 (60) 2004., стр. 127−130.

-. Арутюнян Р. Э. Иерархическая классификация текстовых сообщений при помощи метода SVM // Методы и алгоритмы прикладной математики в технике, медицине и экономике: Материалы IV Междунар. науч. -практ. конф.,

-г. Новочеркасск, 2004 г.: В 4 ч. / Юж. -Рос. гос. техн. ун-т (НПИ). — Новочеркасск: ЮРГТУ, 2004. — Ч. 1, стр. 44−46.

-. Арутюнян Р. Э. Автоматическая рубрикация электронных документов // Моделирование. Теория, методы и средства: Материалы III Междунар. науч. -практ. конф., г. Новочеркасск, 11 апреля 2003 г.: В 5 ч. / Юж. -Рос. гос. ун-т. (НПИ). -Новочеркасск: ЮРГТУ, 2003. -Ч. З, стр. 54−55.

-. Арутюнян Р. Э., Куликов Л. С., Телеснин Б. А. Модульный принцип при разработке систем обработки текстовых документов // М: Машиностроение, Телекоммуникации, № 6, 2004 г., стр. 6−11.

-. Арутюнян Р. Э., Пилиди B.C. Модель отложенной обработки текстовых документов // Научная мысль Кавказа, Приложение, № 7 (61) 2004., стр. 114−118.

-. Арутюнян Р. Э., Телеснин Б. А., Лазуренко И. П. Моделирование полноты обработки текстовых сообщений в режиме реального времени // Труды XI Всероссийской научно-методической конференции Телематика-2004, Санкт-Петербург, 2004, т. 1, стр. 147−148.

-. Арутюнян Р. Э., Хади Р. А. Комплексный подход к поиску тематической информации в сети Интернет // Всероссийская научно-практическая конференция «Современные проблемы борьбы с преступностью»: Сборник материалов. — Воронеж: ВИ МВД РФ, 2004, стр. 9−15.

-. Астанин С В., Андриенко Е. В. Особенности архитектуры полнотекстового интеллектуального поиска // Труды XI Всероссийской научно-методической конференция «Телематика-2003», Санкт-Петербург, 2004., т. 1, стр. 198−200.

-. Вентцель Е. С. Теория вероятностей // М.: Высшая школа, 2001. — 576 с.

-. Гарольд Э., Мине Е. XML. Справочник // Пер. с англ. — СПб: Символ-плюс, 2002. — 576 с.

-. Гмурман В. Е. Теория вероятностей и математическая статистика // М.: Высшая школа, 2003. — 479 с.

-. Дуда Р., Харт П. Распознавание образов и анализ сцен // Пер. с англ. -М. Мир, 1976. -511с.

— 

-. Заикин М. Ю., Адамович И. М., Земсков Д. В., Пешков А. Н. Поиск информации в Web. Язык описания поисковых машин // Системы и средства информатики, № 13, Москва, «Наука», 2003 г., стр. 136−169.

-. Захаров В. П. Информационные системы (документальный поиск) // СПб.: Изд-во СПбГУ, 2002. — 188с.

-. Захарченко А. Н. Обработка информации в комплексных системах мониторинга // Москва, 2001. — 147 с.

-. Зацман И. М. Типология знаков и семиотика поиска // Системы и средства информатики, № 11, Москва, «Наука», 2001 г., стр. 113−131.

-. Зацман И. М. Семиотическая аппроксимация и вербально-образное представление знаний в электронных библиотеках // Системы и средства информатики, № 11, Москва, «Наука», 2001 г., стр. 149−167.

-. Кениг Э., My Б. Эффективное программирование на C++. Серия C++ In-Depth, т. 2 // Пер. с англ. — М.: Издательский дом «Вильяме», 2002. — 384 с.

-. Козеренко Е. Б. Исследование семантическо-синтаксической структуры вербальных и вербально-графических компонентов полнотекстовых научных документов // Системы и средства информатики, № 11, Москва, «Наука», 2001 г, стр. 202−212.

-. Конструирование распределенных объектов. Методы и средства программирования интероперабельных объектов в архитектурах OMG/CORBA, Microsoft/COM и Java/RMI. // Пер. с англ. — М.: Мир, 2002. — 510 с.

-. Мейерс С. Эффективное использование STL. Библиотека программиста // СПб.: Питер, 2002. — 224 с.

-. Москвин П. В. Азбука STL. // М.: Горячая линия-Телеком, 2003. — 262 с.

-. Мюллер Дж. Технология СОМ+: библиотека программиста // СПб.: Питер, 2002. — 464 с.

-. Остерн М. Г. Обобщенное программирование и STL: Использование и наращивание стандартной библиотеки шаблонов C++ // Пер. с англ. СПб.: Невский Диалект, 2004 — 544 с.

-. Питц-Моултис Н., Кирк Ч. XML // Пер с англ. — СПб.: BHV — Санкт-Петербург, 2000. — 736 с.

-. Саттер Г. Решение сложных задач на C++. Серия C++ In-Depth, т. 4 // Пер с англ. — М.: Издательский дом «Вильяме», 2003. — 400с.

-. Таненбаум Э., ван Стен М. Распределенные системы. Принципы и парадигмы // СПб.: Питер, 2003. — 877 с.

-. Фаулер М., Скотт К. UML. Основы // СПб.: Символ-Плюс, 2002. — 192 с.

-. Ahmed N., Liu H., Sung К. Incremental Learning with Support Vector Machines // Proceedings of the fifth International Conference on Knowledge Discovery and Data Mining, ACM Press (1999), pp. 317−321.

-. Arutyunyan R.E. Common techniques and challenges of text categorization // РГУ, физфак, 2003, Федеральная целевая программа «Интеграция», 55-я студенческая научная конференция физического факультета, 22−29. 04. 2003, стр. 42.

-. Attardi G., Gulf A., Sebastiani F. Automatic web page с ategorization by link and context analysis // Proceedings of THAI-99, 1-st European Symposium on Telematics, Hypermedia and Artificial Intelligence, 1999, pp. 105−119.

-. Balabanovic M. An adaptive Web page recommendation service // Proceedings of the first international conference on Autonomous agents, California, United States, pp. 378−385.

-. Bauer Т., Leake D. Calvin: A multi-agent personal information retrieval system // Agent Oriented Information Systems 2002: Proceedings of the Fourth International Bi-Conference Workshop, 2002, pp. 61−1 A.

-. Bauer Т., Leake D. A research agent architecture for real time data collection and analysis // Proceedings of the Workshop on Infrastructure for Agents, MAS and Scalable MAS, 2001, pp. 171−178.

-. Berendt В., Hotho A., Stumme G. Towards Semantic Web Mining // ISWC 2002, LNCS 2342, Springer-Verlag Berlin Heidelberg, 2002, pp. 264−278.

-. Boley D., Gini M., Gross R., Han E. et al. Document Categorization and Query Generation on the World Wide Web Using WebACE // Artificial Intelligence Review, Volume 13, Issue 5−6, 1999, pp. 365−391.

-. Breunig M., Kriegel H., Kroger P., Sander J. Data bubbles: quality preserving performance boosting for hierarchical clustering // Proceedings of ACM SIGMOD International Conference, Santa Barbara, CA, 2001, pp. 91−102.

-. Brin S., Page L. The anatomy of a large-scale hypertextual web search engine / / Computer Networks 30(1−7), 1998, pp. 107−117.

-. Burges C. A tutorial on support vector machines for pattern recognition // Data Mining and Knowledge Discovery, vol. 2, 1998, pp. 121−167.

-. Caropreso M., Matwin, S., Sebastiani, F. A learner-independent evaluation of the usefulness of statistical phrases for automated text categorization // Text Databases and Document Management: Theory and Practice, A. G. Chin, ed. Idea Group Publishing Hershey, PA, 2001, pp. 78−102.

-. Chai K.M.A., Chieu H.L., Tou Ng H. Bayesian online classifiers for text classification and filtering // Proceedings of the 25th annual international A CM SIGIR conference on Research and development in information retrieval, August 11−15, 2002, Tampere, Finland, pp. 214 -220.

-. Chen L., Sycara K. WebMate: A personal agent for browsing and searching // Proceedings of the Second International Conference on Autonomous Agents, Minneapolis, United States, 1998, pp. 132−139.

-. Cortes C, Vapnik V. Support-Vector Networks // Machine Learning, v. 20 n. 3, Sept. 1995, pp. 273−297.

-. Craven M., DiPasquo D., Freitag D. et al. Learning to construct knowledge bases from the World Wide Web // Artificial Intelligence 118(1−2), pp. 69−113.

-. Cutting D., Pedersen J.O., Karger D., Tukey J. Scatter /Gather: A cluster-based approach to browsing large document collections. // Proceedings of SIGIR'92, Copenhagen, Denmark, June 21−24 1992, pp. 318−329.

-. Dhillon I.S., Fan J., Guan Y. Efficient clustering of very large document collections // Data Mining for Scientific and Engineering Applications, Kluwer Academic Publishing, 2001, pp. 12−31.

-. Dumais S.T., Chen H. Hierarchical classification of web content // Proceedings of the 23rd Int’l ACM Conf. on Research and Development in Information Retrieval (SIGIR), Athens, Greece, 2000, pp. 256−263.

-. Dumais S.T., Letsche A., Littman M.L., Landauer Т.К. Automatic cross-language retrieval using latent semantic indexing // Proceedings of AAAI Spring Symposium on Cross-Language Text and Speech Retrieval, March 1997, pp. 124−133.

-. Furey T.S., Cristianini N., Duffy N., Bednarski D. W et al. Support vector machine classification and validation of cancer tissue samples using microarray expression data // Bioinformatics, vol. 16, 2000, pp. 906−914.

-. Goldszmidt M., Sahami M. A probabilistic approach to full-text document clustering // SRI Technical Report ITAD-433-MS-98−044, 1997.

-. Hofrnan T. Probabilistic latent semantic indexing // Proceedings of the 22-th International Conference on Research and Development in Information Retrieval (SIGIR), 1999, pp. 50−57.

-. Hofrnan T. Learning the similarity of documents: an information-geometric approach to document retrieval and categorization // Advances in Neural Information Processing Systems 12, MIT Press, 2000, pp. 914−920.

-. Hofrnan T. Unsupervised Learning of Topic Hierarchies from Text Data // Proceedings of the Sixteenth International Joint Conference on Artificial Intelligence, Morgan Kaufmann Publishers Inc. San Francisco, CA, USA, 1999, pp. 682 — 687.

-. Hotho A., Maedche A., Staab S. Ontology-based text clustering // Proceedings of the IJCAI-2001 Workshop «Text Learning: Beyond Supervision», Seattle, USA, 2001, pp. 84−92.

-. Iwayama M., Tokunaga T. A probabilistic model for text categorization: Based on a single random variable with multiple values // Proceedings of the 4-th Conference Applied Natural Language Processing, 1995, pp. 37−56.

-. Joachimes T. Text Categorization with support vector machines: Learning with many relevant features // Technical Report 23, University of Dortmund, LS VIII, 1997.

-. Joachimes T. A probabilistic analysis of Roccio algorithm with td-idf for text categorization // Proceedings of International Conference on Machine Learning (ICML), 1997, pp. 79−86.

-. Joachims Т., Freitag D., Mitchell T. Web Watcher: A Tour Guide for the World Wide Web // Proceedings of the 1997 IJCAI, August 1997, pp. 131−140.

-. Lewis D. Representation and learning in information retrieval // Phd Thesis, Department of Computer and Information Science, University of Massachusetts at Amherst, 1992.

-. Lewis, D. An evaluation of phrasal and clustered representations on a text categorization task // Proceedings of SIGIR-92, 15th ACM International Conference on Research and Development in Information Retrieval, 1992, pp. 37−50.

-. Lewis D., Knowles K. Threading electronic mail: A preliminary study // Information Processing and Management, 33(2): 209 217, 1997, pp. 45−54.

-. Lewis D., Ringuette M. A comparison of two learning algorithms for text categorization // Third Annual Symposium on Document Analysis and Information Retrieval, 1994, pp. 81−92.

-. Lewis D., Schapire R., Callan J., Papka R. Training algorithms for linear text classifiers // SIGIR '96: Proc. 19th Ann. Int. ACM SIGIR Conf. on Research and Development in Information Retrieval. Konstanz, 1996. Hartung-Gorre Verlag, pp. 298−306.

-. Li Y. H., Jain, A. K. Classification of text documents // The Computer Journal 41, 8, 1998, pp. 537−546.

-. Lieberman H. Autonomous interface agents // Proceedings of the SIGCHI conference on Human factors in computing systems, Atlanta, Georgia, United States, 1997, pp. 67−74.

-. Lieberman H., Fry C, Weitzman L. Exploring the Web with reconnaissance agents // Communications of the ACM, August 2001, pp. 69−75.

-. Marx Z., Dagan I., Shamir E. Detecting Sub-Topic Correspondence through Bipartite Term Clustering // Proc. of the Workshop on Unsupervised Learning in Natural Language Processing, 1999, pp. 45−51.

-. Nagy I., Nedoma P., Karny M.: Factorized EM algorithm for mixture estimation // Artificial Neural Nets and Genetic Algorithms, New York, 2001, pp. 402−405.

-. Pazzani M., D. Billsus D. Learning and Revising User Profiles: The identification of interesting web sites // Machine Learning, vol. 27, pp. 313−331.

-. Porter M.F. An algorithm for suffix stripping // Program, 14, no. 3, 1980, pp. 130−137.

-. Roussinov D., Chen H. Document clustering for electronic meetings: an experimental comparison of two techniques // Decision Support Systems, vol. 27, 1999, pp. 67−79.

— 

-. Salton G. Mathematics and information retrieval // Cornell University, 1978.

-. Salton G., Buckley С Term weightening approaches in automatic text retrieval // Information Processing and Management, 24(5), pp. 513−523.

-. Salton G., Fox E., Wu H. Extended Boolean information retrieval // Cornell University, 1982.

-. Salton G., Wong A., Yang C.S. A vector space model for automatic indexing // Cornell University, 1974.

-. Sebastiani F. Machine learning in automated text categorization // ACM Computing Surveys (CSUR), Volume 34, Issue 1, 2002, pp. 1−47.

-. Somlo G., Howe A. Using web helper agent profiles in query generation // Proceedings of the second international joint conference on Autonomous agents and multiagent systems, Melbourne, Australia, 2003, pp. 812−818.

-. Sun A., Lim E. Hierarchical text classification and evaluation // Proceedings of the 2001 IEEE International Conference on Data Mining (IDCM 2001), California, USA, 2001, pp. 521−528.

-. Sunderic D. SQL Server 2000 Stored Procedure & XML Programming, Second Edition // McGraw-Hill, USA, 2003.

-. Sycara K., Pannu A, Williamson M., Zeng D et al. Distributed intelligent agents // IEEE Expert: Intelligent Systems and Their Applications, Volume 11, Issue 6, 1996, pp. 36−46.

-. Taneja I., Pardo L., Morales D., Mendez M. On generalized information and divergence measures and their applications: A brief review // Questiio, 13, pp. 47−73.

-. Theodoridis S., Koutroumbas K. Pattern Recognition //. Elsevier Science (USA), 2003.

-. Tzeras K., Hartmann S. Automatic indexing based on Bayesian inference networks // Proceedings of SIGIR-93, 16th ACM International Conference on Research and Development in Information Retrieval (Pittsburgh, US, 1993), 1993, pp. 22−34.

-. Witten I.H., Bell T.C. The zero-frequency problem: estimating the probabilities of novel events in adaptive text compression // IEEE Transactions on information theory, Vol. 37, No. 4, 1991, pp. 80−88.

-. Wu C.F. On the convergence properties of the EM algorithm. // The Annals of Statistics, vol. 11, 1983, pp. 95−103.

-. Yang Y. An evaluation of statistical approaches to text categorization // Technical Report CMU-CS-97−127, Carnegie Mellon University, 1997.

-. Yang Y., Liu X. A re-examination of text categorization methods // Proceedings of the 22-nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 1999, pp. 42−29.

-. Yang Y. Pedersen J. A comparative study on feature selection in text categorization // Proceedings of International Conference on Machine Learning (ICML), 1997, pp. 113−121.

-. Yang Y., Wilbur J. Using corpus statistics to remove redundant words in text categorization // Journal of the American Society for Information Science, 47(5), 1996, pp. 357−369.

-. Zelikovitz S., Hirsh H. Using LSI for Text Classification in the Presence of Background Text // Proceedings of CIKM-01, 10th ACM International Conference on Information and Knowledge Management, ACM Press, New York, US, 2001, pp. 113−118.

Заполнить форму текущей работой