Анализ методики построения новостного анонса по теме «Электронное правительство и электронные услуги» и время жизни информационного повода

Тип работы:
Реферат
Предмет:
Языкознание


Узнать стоимость

Детальная информация о работе

Выдержка из работы

Анализ методики построения новостного анонса по теме «электронное правительство и электронные услуги» и время жизни информационного повода
A.B. Чижик
СПбГУ, физический факультет, кафедра квантовых магнитных явлении, факультет искусств, кафедра информационных систем в искусстве и гуманитарных науках
chizhik. spinus @ gmail. com
Аннотация. B статье описаны результаты анализа коллекции новостных анонсов за годовой период по теме «электронное правительство и электронные услуги». Выявлены основные особенности жанра. Приведено описание методов сбора коллекции.
Введение
Глобальная сеть Интернет, появившаяся для облегчения поиска и консолидации информации в научных кругах, в последние десятилетия благодаря развитию технологий веб-программирования стала использоваться как один из основных коммуникационных каналов между людьми [1]. Общей тенденцией текстового материала в Интернет-изданиях является стремление к краткости и точности изложения. Можно выделить три основных объекта любого Интернет-СМИ: заголовок, анонс и раскрываемая после клика на него статья. Наибольший интерес для исследования представляет специфический жанр анонса, который существует исключительно в дискурсе Интернет-СМИ. Его особенность заключается в основной функции — мотивировании читателя перейти по ссылке и продолжить чтение статьи. С точки зрения самостоятельности анонса как необходимой для Интернета формы компактной передачи информации можно выделить следующие свойства:
1. автономность: новостной анонс в дискурсе Интернет-СМИ строится таким образом, чтобы читатель мог получить необходимую информацию о событии еще не переходя к тексту основной статьи-
2. разноаспектность: в зависимости от типа Интернет-СМИ и от его статуса одна и та же новость будет освещаться в рамках анонса по-разному-
3. ограниченное время жизни.
Ниже представлены результаты работы по созданию и анализу коллекции новостных анонсов по теме «электронное правительство и электронные услуги» за период с 1 января 2012 г. по 28 февраля 2013 г. (68 661 слово). Сбор материала проходил в рамках сотрудничества с Центром технологий электронного правительства НИУ ИТМО. Основные порталы, чьи новостные анонсы вошли в коллекцию: Российская газета, Минкомсвязь России, CNews, ТАСС-Телеком, Фонд информационной демократии, ИТАР-ТАСС, Экспертный центр электронного государства, МИНСВЯЗЬ России, Коммерсантъ, ComNews, PC Week, Ведомости.
Сбор коллекции
Сбор коллекции происходил в три этапа. На первом этапе были использованы
возможности сервисов по обработке новостей (Google News и Яндекс. Новости), т.к. в
качестве основной задачи здесь можно выделить кластеризацию новостей по
тематике и выделение заголовка новостного кластера, что дало неплохой результат
для первичного отсева новостных потоков.
Затем встал вопрос об оценки качества получаемых новостных кластеров: некоторые события (особенно крупные, например, кластер новостей, связанных с выборами президента) имели достаточно сложную внутреннюю структуру, и целую систему рерайтов, которые также включаются сервисами в кластер [2].
Для более точной обработки новостных лент на интересующую предметную область была использована программа, извлекающая информацию из web-страницы, используя иерархическую структуру тэгов. Алгоритм программы основан на рассмотрении документа в виде дерева разбора согласно стандартной объектной модели DOM [3], что дает возможность характеризовать структурные свойства документа и осуществить поиск нужной информации (использовался ручной способ описания правил распознавания нужной информации). Схематично процесс сбора информации можно представить в следующем виде (рис. 1).
Рис. 1. Схема метода извлечения
Следует отметить, что это стандартный алгоритм для решения подобных задач, в данном случае процесс описания правил для извлечения информации был облегчен за счет того, что для исследования были выбраны только заголовки и анонсы, а как дополнительная информация в предварительный файл записывались дата публикации и название СМИ. Сбор информации происходил два раза в неделю. Итак, были решены основные задачи: получение информации из HTML-страницы, структурирование информации и сохранение информации в формате. txt. С помощью программы, уточнившей условия выборки новостей, коллекция приобрела наиболее специализированный вид (отсеялись темы из смежных областей).
На третьем этапе полученный автоматическим путем файл еженедельно проверялся аналитиком и пополнялся новостями, которые по каким-либо причинам не прошли систему фильтров, однако имели отношения к теме электронного правительства.
Поиск коллокаций
Полученную коллекцию было решено исследовать на предмет устойчивых конструкций, характерных для жанра анонса по заданной тематике. Выбор коллокаций, наиболее часто встречающихся в коллекции, дал большой шум, т.к. содержал биграммы, являющиеся парными функциональными словами. Однако, при выставлении фильтра определяющего лингвистические паттерны, которые могут быть смысловой единицей предложения (определение части речи слова), результаты приобрели годный для последующей обработки вид. Обозначив абсолютную частоту встречаемости коллокации как L (w1, w2), в таблице 1 показан ранжированный список высокочастотных биграмм после применения фильтра.
Таблица 1. Двадцать одна наиболее встречаемая коллокация в новостных _анонсах по теме «электронное правительство»
Ь1, w2) w1 w2 Tag Райегп
11 487 российской федерации ЛМ
7261 информационных технологий ЛМ
5412 информационной демократии ЛМ
3301 Николай Никифоров NN
3191 мероприятий по МР
2691 государственных органов ЛМ
2567 государственной власти ЛМ
2308 в сети РМ
2171 электронных карт ЛМ
2092 электронных заявлений ЛМ
2021 экспертно-общественное обсуждение ЛМ
1973 фонд информационной МЛ
1903 стандарта открытости NN
1839 универсальный электронный ЛМ
1801 субъектах российской МЛ
1766 стратегии кибербезопасности NN
1703 ФНС России NN
1210 социальные сети ЛМ
1004 Совете Федерации NN
988 региональной информатизации ЛМ
970 открытого правительства ЛМ
По выборке первых двадцати одной часто встречаемой коллокации очевидна закономерность, что для биграмм по заданной теме, во-первых, характерны конструкции вида ЛМ где в качестве прилагательного типично появление слов «информационный», «электронный» и «государственный». Во-вторых, в качестве конструкций NN встречаются словосочетания, входящие в семиотический круг данного сообщества (н-р, «Николай Никифоров» — министр связи и массовых коммуникаций Российской Федерации, а «стандарт открытости» — одно из главных направлений обсуждений и разработок экспертно-общественного сообщества и органов исполнительной власти в рамках программ, связанных с информационным обществом и электронным правительством, особенно в течение года предшествующего вступлению в ВТО).
Запуск программы на подсчет частотности отдельных слов (с учетом вариативности словоформ) дает следующие тринадцать первых результатов в порядке убывания: электронный, правительство, государственный, услуга, система, Россия, госуслуга, внедрение, портал, Российская, РФ, Ростелеком, органы, Федерация. Если отсеять шум в виде слов «Россия», «РФ», «Российская Федерация» и пр. (характерных для новостных текстов любой общественно значимой для нашей страны темы), получается облако слов, используемых для написания любого анонса по теме электронного правительства [4].
Этот анализ косвенно показал, что задавать программе вычисления функции дисперсии для выявления М-грамм повлечет избыточность кода, т.к. для нахождения таковых, руководствуясь правилами русского языка, можно задать окно с допуском на одно слово и этого будет достаточно. При этом прогон программы выдает
тридцать одну неявную коллокацню вида «внедрение электронного правительства»: к биграммам из таб.1 прибавляется одно слово из списка тринадцати часто встречаемых отдельных слов, однако частота встречаемости такого рода конструкций намного меньше (общая частота для всех подобных коллокаций — 539).
Время жизни информационного повода
При сборе коллекции новостных анонсов изначально была поставлена задача отсева одинаковых новостей, что осуществлялось путем сравнения заголовков на предмет полного совпадения и по информации, а также статьи анализировались на наличие ссылки на первоисточник. Однако эта задача выявила две подзадачи исследования: 1) определить время жизни информационного повода по заданной тематике (количество дней, когда новостной поток пополняется новыми фактами о событие) — 2) отследить количество рерайтов новости и время затухания перепечатки новости.
Был разработан следующий алгоритм:
1. получение новой новости от информационного агентства (эта новость —
глава класса новостей) —
2. получение новых новостей от других источников: классификация
новостей, как относящихся к этой новости или не относящихся-
3. нахождение такого дня, в котором, ничего связанного с новостью не было
найдено (проверка еще несколько дней после такого дня) —
4. подсчет количества дней, определение длины.
Предварительное отслеживание новостного потока за месяц показало, что
существуют два типа новостей: новости длинного цикла и новости короткого цикла.
Новость длинного цикла может на протяжении периода от нескольких недель до
нескольких месяцев оказывать сильное влияние деятельность людей,
соприкасающихся с тематикой электронного правительства. Примером такой новости может служить информационный поток об обеспечении Ростелекомом опНпе-
трансляции выборов президента 2012 г. Обозначенный контекст новости является по
времени серединой развития события: в Интернет-СМИ эта тема продолжала быть актуальной (в виде самобытных материалов) около трех месяцев с момента первого сообщения (включив новости об объявлении тендера и заканчивая отзывами о трансляции). Рерайты новостей длинного цикла затухают примерно в тот же день, что и заканчиваются информационные поводы для продолжения освещаемой новости, при этом время возникновения рерайтов также практически совпадает с появлением первой новости (это обусловлено тем, что обычно первая информация по новости длинного цикла является официальным релизом или заявлением органов государственной власти, что обеспечивает достаточно быстрое ее распространение). Новость короткого цикла обычно имеет время жизни около трех дней, рерайты в этом случае идут с опозданием от часа до двух дней.
Заключение
В данной статье приведены предварительные результаты исследования, показавшие характерное представление информации в новостном анонсе по теме электронного правительства и электронных услуг. По статистическим методам исследования лингвистических особенностей текста можно сделать вывод о том, что новостной анонс по данной тематике нацелен на привлечение внимания людей к проблематике развития информационного общества, т.к. для этого жанра характерно
использование устойчивых конструкций, вычленение которых сразу дает представление об информации в статье. Исследование временного цикла жизни информационного повода показало, что данную информацию можно применять для аналитического обзора социальной значимости новости.
Список литературы
1. Кастельс М. Информационная эпоха: экономика, общество и культура / Пер. с англ. под науч. ред. О. И. Шкаратана. — М., 2000. — С. 65−70.
2. Андреев С. Н. Многомерный подход: кластерный и дискретный анализ лингвистических данных // Многомерный анализ в лингвистике. — Смоленск, 2002. -С. 3−19.
3. Жамбю М. Иерархический кластер-анализ и соответствия. — М.: Финансы и статистика, 1988.
4. Трошина Н. Н. Стилистические параметры текстов массовой коммуникации и реализация коммуникативной стратегии субъекта речевого воздействия // Речевое воздействие в сфере массовой коммуникации. — М., 1990.

ПоказатьСвернуть
Заполнить форму текущей работой