Термінова допомога студентам
Дипломи, курсові, реферати, контрольні...

Порождение текстів природному языке

РефератДопомога в написанніДізнатися вартістьмоєї роботи

Характер процесу породження. На відміну від організації процесу розуміння, який, здавалося б, може вийти традиційним стадіям лінгвістичного аналізу: морфологія, синтаксис, семантика, прагматика /дискурс¦ процес породження має істотно відмінний характер. Це слід безпосередньо з властивих відмінностей у інформаційному потоці у двох процесах. Розуміння здійснюється від форми до змісту; породження є… Читати ще >

Порождение текстів природному языке (реферат, курсова, диплом, контрольна)

Породження текстів природному языке.

Породження текстів природному мові - процес навмисного побудови тексту природному мові з єдиною метою вирішувати певні комунікативні завдання. Термін «текст «сприймається як загальний, рекурсивний термін, котрі можуть належить до письмового чи усному висловом, або до окремим частинам висловлювання. При породженні текстів, в усній чи письмовій формах, людині важливо обміркувати і відредагувати продуковане висловлювання. Чи можна сказати, більшість програм може «говорити» сьогодні, переважно всі вони тільки виводять слова на екран. Оскільки для програми породження текстів нині годі питання конструювання фрази, цих деталей приймаються до уваги лише тоді, що вони задіяні у створенні программы.

Цілі походять від інший програми, можливо експертної рассуждающей системи чи ICAI навчальною програми, яка спілкується з користувачем на природному мові. Вироблені тексти може бути різної довжини: від одиночній фрази, яку у на запитання, до діалогів з великим кількістю пропозицій чи тлумачень на цілу шпальту. Породження текстів природному мові відрізняється від програм, просто використовують природний мову. Програми, друкують повідомлення природному мові, існують з часів появи комп’ютерів, а тепер, наприклад, хто б хоче розбиратися, як побудовано повідомлення помилки при компіляції на ФОРТРАНе, хіба що правильно не були написані. Повідомлення про помилках щось «означає «для програми, яка друкує їх: зв’язок між ланцюжком слів і клубною роботою програми створюється програмістом. Навіть використання тверджень з параметром, де зафіксована ланцюжок слів може бути збільшена іменами чи простими описами, які заміняють перемінні, перестав бути власне породженням текстів природному мові. Успіх таких прийомів як «заповнити прогалини» чи «шаблон» залежить від кількості і труднощі ситуацій, у яких програма повинна використовувати їх. Те, що вони були адекватні досі до роботи програми, пояснюється, по більшу частину, відносної простотою сьогоднішніх програм, ніж можливостями породження з допомогою методу «шаблона».

На відміну від такого типу «інженерних розробок », дослідження породження текстів природному мові, подібно інших областях обчислювальної лінгвістики (qv), має на меті комп’ютерне моделювання людської здатність до породженню висловлювань. Чільну увагу у своїй зосереджується поясненні двох ключових питань: багатосторонність і творчий потенціал. Що люди знають щодо їх мови, які процеси вони за цьому використовують, що дозволяє їм здалося бути універсальним, змінюючи тексти у форми і акцентування, щоб покрити величезний діапазон мовних ситуаций?

У статті описываетcя дослідження галузі ІІ по породженню природних мов, у своїй особливу увагу приділяють конкретним проблемам, які прагнуть дозволу. Стаття починається з протиставлення породження розумінню, аби з’ясувати базисні поняття розкладання процесу на компоненти. Далі наводяться приклади, що дають роботу деяких що породжують систем, їхні можливості щодо і труднощі, із якими вони сталкиваются.

У залишеній частини статті розглядаються загальні підходи до породженню промови, включаючи характерні описи що породжує словника. Окремий розділ продовжує огляд альтернативних підходів до уявленню та використання грамматики.

Характер процесу породження. На відміну від організації процесу розуміння, який, здавалося б, може вийти традиційним стадіям лінгвістичного аналізу: морфологія, синтаксис, семантика, прагматика /дискурс¦ процес породження має істотно відмінний характер. Це слід безпосередньо з властивих відмінностей у інформаційному потоці у двох процесах. Розуміння здійснюється від форми до змісту; породження є цілком протилежний процес. При розумінні, формулювання тексту (і, можливо, інтонація) — «відомі «. З формулювання процес створює наразі і виводить зразкову зміст, передане оповіддю та, мабуть, зусиллями диктора у створенні тексту. Передусім слід переглянути слова тексту послідовно, протягом чого форма тексту поступово розгортається. Головні проблеми викликані неоднозначністю¦ одна форма може містити діапазон альтернативних значень, і аудиторія отримує більше інформації з ситуаційних висновків, ніж це може бути фактично передано текстом. З іншого боку, невідповідності у диктора і аудиторії моделі ситуації ведуть до непередбачуваним заключениям.

Породження має протилежний інформаційний потік. Воно переходить від змісту до форми, від цілей і перспективи до лінійно упорядкованим словами, і синтаксичним маркерам. Модель ситуації та дискурс забезпечують основу для створення вибору серед альтернативних формулювань і конструкцій, які виробляє мову: перше місце у побудові заздалегідь обдуманого тексту. Більшість систем породження виробляє поверхневі тексти послідовно зліва-направо, але вирішивши зверху-вниз по змісту і малої форми тексту загалом. Проблема генератора у тому, щоб вибрати з поставлених джерел, як правильно повідомити про бажаних умовиводах аудиторії та яку опустити з явного згадки у тексте.

Можна уявити, що породження також організований, як і процес розуміння, лише у протилежному порядку. До певному сенсі це вірно: ідентифікація наміри (мети) значною мірою передує будь-який деталізації інформація, яка призначається для аудиторії: планування риторичною структури, наприклад, значною мірою, передує будь-який синтаксичної структурі, а синтаксичний контекст слова слід зафіксувати, як відомі морфологічна і суперсегментная форми, які прийме слово.

Синтаксис і словник мови стає як ресурсами, і обмеженнями, визначаючи елементи, доступні до створення тексту, і навіть залежності з-поміж них, які визначають можливі правильні комбінації. Ці залежності, і те що, що вони за вмовчанням управляють, коли інформація, від якої залежить кожне рішення, стає досяжною, — основною причиною, чому програми породження значною мірою йдуть стандартним стадіям, певними лінгвістами. Ідентифікація мети передує вибору забезпечення і риторичного планування, яке передує синтаксичної конструкції, лише що це — природний порядок прийняття рішень; простіше слідувати потоку залежностей, ніж перестрибувати і вчасно приймати випадкове рішення, котрий може виявитися передчасним і неспроможним. Сьогоднішнє дослідження зосереджено як у розумінні, як їм краще уявити рішення, що є можливими, і залежності у тому числі, і у тому, як уявити обмеження й можливості раніше рішень, які постануть цього разу місце останніх під час процесу порождения.

Стандартні Компоненти і Термінологія. Компоненти породження природної мови не існують власними силами. Вони всередині человеко-машинного інтерфейсу, також використовують і компоненти розуміння природної мови, — ВВЕДЕННЯ до системи. У хорошому человекомашинному інтерфейсі сьогодні ще хотілося бачити координовану графічну підтримку введення та виведення, доповнюючи систему ВВОДа-ВЫВОДа природної мови. Інтерфейс може призвести до тут, і може також містити інші загальнодоступні компоненти, типу контролера дискурсу, що вказує генератору, що насамперед треба робити, і навіть координує інтерпретації, зроблені компонентом розуміння. За інтерфейсом слід нелингвистическое міркування (qv) чи програма бази даних, яку користувачі використовують як мовного інтерфейсу. Ця програма буде згадуватися у цій статті як основна програма; нею може виявитися будь-яку систему ІІ: спільна база даних, експертна діагностична система, ICAI навчальна програма, коментатор, програмаконсультант, машинний перекладач. Тип програми тепер має ніякого значення для породжує системи (генератора природного языка).

Сьогодні більшість дослідників у цій галузі працює, переважно, з експертними системами, де процес спілкування контролюється програмою, а не користувачем. З іншого боку, ЕС і інтелектуальні машинні навчальні програми, мабуть, здатні розуміти досить складні тексти, що робить їх привабливими фахівців, готових працювати з роботи вже розробленими системами.

Процес породження починається всередині програми, у разі, коли, наприклад, треба було б питанням користувача; чи під час розмови може виникнути потреба перервати дії користувача, щоб вказати наступну проблему. Щойно процес инициализирован, три виду дій би мало бути выполнены:

1. Ідентифікація цілей высказывания,.

2. Планування, щоб ці мети можна досягти, включаючи оцінку ситуації та доступних комунікативних ресурсов,.

3. Реалізація планів в текст.

Цілі повинні зазвичай передавати деяку інформацію аудиторії чи спонукати їх до дій чи міркуванням. Соціальні й психологічні, а також практичні мотиви, які спонукають людину до спілкування, природно, неприйнятні для сьогоднішніх комп’ютерних програм. Планування включає в себе відбір (навмисне викреслювання) інформаційних модулів, які з’являються у тексті (наприклад, концепції, відносини, индивидуальность).

Реалізація залежить від знання граматики мови та правил связности дискурсу, і дає синтаксичне опис тексту як проміжне уявлення. У цьому виділяється як лінгвістична форма, але також знання щодо критеріїв, які показують, як використовуються ці форми. У багатьох дослідженнях процес, що проводить граматичну реалізацію, називається лінгвістичним компонентом (10), інколи ж планування разом із процесом ідентифікації мети називається стратегічним компонентом (13). Зазвичай це — лише лінгвістичний компонент, який має будь-яке пряме знання щодо граматики виробленого мови. Яку форму ця граматика приймає - одне із найбільш великих відмінностей серед проектів порождения.

Традиційно для лінгвіста, граматика — кістяк в відрізку затвердження/ висловлювання. Зміст тверджень — специфічні факти даного природної мови — технічно нескладне такого інтересу для лингвиста.

Аналогічна ситуація з породженням текстів, крім те, що запис — процедурна і декларативна — розроблена, щоб забезпечувати дуже специфічну функцію, з якою традиційний лінгвіст не зіштовхується, саме: вести і стримувати процес породження тексту зі специфічним змістом потребують і цілями у присутності специфічної аудиторії. Граматика тепер відповідальна за наявність вибору, який мову надає для форми і словника. Дослідники породження має зробити вірний вибір, щоб, використовуючи функції різних конструкцій задля досягнення конкретної мети. Інша функція граматики — ознайомитися з грамматичностью тексту, т. е. визначення залежностей і обмежуючи решения.

Технічний уровень.

Різнопланове розвиток виробництва і творчий потенціал на породженні текстів є можливим при наступних условиях:

1. Генератор включає у собі обшир основний грамматики;

2. Основна програма має складне, разносторонее, концептуальне представление (вид);

3. Текстовий планувальник може використовувати моделі аудиторії та дискурса.

На жаль, такі генератори — досі лише предмет дослідження сьогодні, т. до. технічний бік залишається лише на рівні програми SHRDLU Винограду 1970;го (17), яка породжувала пропозиції у процесі відповіді питання, система «безпосередньої заміни», породжує прості граматичні дієслівні коригування для досягнення удобочитаемого текста.

When did you pick up [the green pyramid]?

While I was stacking up yhe red cube, a large red block, and a large green cube.

Наприкінці 1970;ых такі стали досить популярні роботі ЕС: для перекладу численних правив у цих системах. Необхідність програм породження текстів в системах з складовою структурою і комунікативним контекстом була очевидной.

Дослідники зацікавлені у складніших текстах, ніж у контекстно-свободных уявленнях, потрібних правилами системи. У як приклад наводиться просте опис з програми Сигурда, чия мета була з’ясувати, як і допомогою інтонації виявляється группировка:

The submarine is to the south of the port. It is approaching the port, but is not close to it. The destroyer is approaching the port too.

Використання слов-ссылок «but» «too» є великим прогресом в структуруванні системи. Пропозиція, яке є джерелом у базі даних ЕС, рассуждающее про субмаринах і есмінцях, нічого очікувати обрамлено концептуальними еквівалентами таких функціональних слів, і то, можливо прочитано простим шаблоном, оскільки посилання специфічні і може бути вжиті лише у окремому конкретному случае.

Ще один технічна, доки дозволена, проблема — «наступна посилання». Якими мають бути слова-заменители, якщо предмет з’являється більше, ніж раз на тексті? Постійне вживання займенників може призвести до неоднозначності. Як приклад наводиться уривок із листа досліджень Гранвилле, який класифікує відносини між референтом і предметом і розробляє правила, з яких могли будуватися наступні ссылки.

Pogo cares for Hepzibah. Churchy likes her, too. Pogo gives a rose to her, which pleases her. She does not want Churchy’s rose. He is jealous. He punches Pogo. He gives a rose to Hebzibah. The petals drop off. This upsets her. She cries.

Не дивно, що з дослідників, котрі розробляють основну програму, генератори мають найбільшої ефективністю, що дозволяє упевненість у тому, що є концептуальна основа для групування окремих пропозицій/ тверджень з тексту. Важливим моментом цьому етапі є програма PROTEUS, розроблена Дэйви 1974;го. Програма дає опис гри хрестики-нулики й вважається жодній із програм, найбільш вільно що володіє природним мовою. PROTEUS має модель тлумачення конкретних кроків: напад, зустрічну напад, включає у собі риторичне принцип, що у текст потрібно поміщати лише найбільш істотну інформацію у кризовій ситуації. Граматика і кошти реалізації вибирають описані і згруповані кроки, виправляють форми, те щоб вони були грамматичны в англійських пропозиціях, і породжують власне текст.

Варто сказати про програму ERMA Клиппенгера (1974) — єдина програма тоді, працююча зі спонтанною промовою. Як люди розмірковують у тому, що вони вимовляють, як вони динамічно планують або міняють свої наміри про те, що хочуть сказати, у розмові? У цілях моделювання цього процесу, Клиппенгер аналізував стенограму промови пацієнта з психоаналізу про те, аби зрозуміти міркування пацієнта, дають пояснення одного з параграфів стенограми, який ERMA могла докладно відтворити. Клиппенгер розробив структуру з п’яти основних взаємопов'язаних компонент, що у породженні спонтанного тексту. Для комп’ютерного програмування 1974;го реалізувати цього плану було у змозі, унаслідок чого проект був оставлен.

Історичний огляд проблеми. За суттю, програми PROTEUS Дэйви і ERMA Клиппенгера є найбільш старшими у цій галузі. По-перше, тому що на початок 80-ых порівняно мало людей працювало над проблемою породження, по-друге, сама проблема досить складна, на думку авторів статті, набагато складніше проблеми розуміння промови. Насправді, проблемою серйозно займалися на початку 1970;ых. Але справедливо відзначити, що у важливою конференції з цієї проблеми в 1975 р представлені звіти про виконану роботу не знайшли належного відгуку, після чого дослідження з породженню природної мови були припинені на початок 1980;ых.

До 80-ых фахівці з галузі ІІ хто схильний був вважати проблему породження досить легкої. У насправді, хіба важко взяти к-л твердження з деякого мовного фрагмента, зв’язати його з визначеннями, хранящимися окремо, і «зробити, наприклад, таке «The big black block supports a green one». Це було у змозі SHRDLU Винограду вже у 1970 г. Якщо можна було обмежитися цими знаннями, то, на насправді, не виникало б проблем. Але варіативність мови не давала такий можливості. Як людина представляє граматичні знання, що дозволяють генератору використовувати синтаксичну структуру пропозиції з метою cоздания відповідного відносного пропозиції («the green block that’s supported by the big red one», «a green one», а чи не «a green block»), і навіть взагалі уявити про можливість таких відносних пропозицій та інших замен.

Загальні підходи до проблеми. Важко ідентифікувати загальні елементи в різних проектах дослідження з породженню природної мови. Навпаки, в дослідженнях по розумінню промови можна виокремити декілька основних підходів до проблеми: використання розширених мереж переходів, семантичні граматики (qv), робочі системи, засновані виставі концептуальної залежності, процедурна семантика й багато іншого. Дослідження породження неспроможне дати як і класифікації, оскільки обмаль фахівців ставили цієї проблеми на чільне місце. Великі дослідницькі групи, повністю сконцентрировавшиеся на питанні породження природної мови, почали створювати два останніх року. Основна проблема у відсутності загального відправного пункту, конкретної підстави порівняння, що ускладнює роботу, дає можливості для взаємодопомоги між дослідниками: практично неможливо перевірити свої експерименти на системі іншого розробника. Проте є загальні нитки, котрі пов’язують різні проекти: схожі підходи, схожі уявлення, схожі грамматики.

Існує дві питання, представляють загального інтересу. Перше питання: як зіставити розмаїття форм мови у природничих мовами, щоб розробити їх функціональне використання, з відповіддю, чому людина використовує одну форму, а чи не іншу, а далі формалізувати цей процесс.

Інше питання — це контроль над процесом породження. Що визначає вибір говорить у цій мовної ситуації? Як людина організовує і представляє проміжні результати? Якими знаннями про залежностях між варіантами вибору повинна мати система? Як представлені ці залежності і як можуть проводити алгоритми управління? Відповіді на поставлені питання буде розглянуті у цій статье.

Контроль над поступової обробкою повідомлення. Серед що породжують систем, хто був спеціально побудовано до роботи на основних системах, переважний підхід контролю полягає у обробці повідомлень як певного виду програм. Ці «повідомлення «непросто висловлювання, чиї контекст і форма ізоморфні стосовно кінцевому тексту. «Повідомлення» може бути закодовані на комп’ютерному мові. Їх просто перевести. Звісно, при найпростішої обробці породження, перекладу було б досить (як майже переважають у всіх існуючих ЕС), але у обробці, яка зосереджена на породженні текстів природному мові, стосунки держави й вміст у повідомленні найкраще проглядаються як команд для досягнення певного ефекту лінґвістичними засобами. Оцінка відбувається за поступової обробці від зовнішніх команд до внутрішнім. Ця методика контролю природна для розробників систем, оскільки він імітує стиль мов програмування, що вони используют.

Найбільш загальні повідомлення сьогодні створюються планувальником, а є просто структурами даних, які беруться з програми і яким генератор дає особливу інтерпретацію. Проведення поширена у програмах, яким необхідно пояснювати свої міркування, укладені доказі дедуктивним методом обчислення предиката. Нижче наводиться що така доказательство.

На входе.

Line 1: premis.

Exists (x) [barber (x) and.

Forall (y).shaves (x, y) iff not. shaves (y, y) l.

Line 2: existential instantiation (1) barber (g)and Forall (y).shaves (g, y) iff not. shaves (y, y).

Line 3: conjunction reduction (2).

Forall (y).shaves (g, y) iff not. shaves (y, y).

Line 4: universal instantiation (3) shaves (g, g) iff not. shaves (g, g).

Line 5: tautology (4) shaves (g, g) and not. shaves (g, g).

Line 6: conditionalization (5,1).

(Exists (x) [barber (x) and.

Forall (y).shaves (x, y) iff not. shaves (y, y)] implies (shave (g, g) and not. shaves (g, g)).

Line 7: reductio-ad-absurdum (6) not (Exists (x) barber (x) and.

Forall (y).shaves (x, y) iff not. shaves (y, y)).

На выходе.

Assume that there is some barber who shaves everyone who doesn’t shave himself (and no one else). Call him Giuseppe. Now, anyone who doesn’t shave himself would be shaved by Giuseppe. This would include Guiseppe himself. That is, he would shave himself, if and only if he did not shave himself, which is a conradiction. Therefore it is false, there is no such barber.

Модель дає пояснення діям автора докази на виборі, яке правило застосовувати, наприклад, що мета правій частині умови У першій рядку накласти обмеження на зміну Y («…Хто не голить себе »). Це дає право сприймати доказ певним чином. Ці дії, проте, більше у доказі (що було єдиним входом у програмі) не з’являється. Вони потрібні тільки передбачаються отже, мають набирає сили тільки для кількох прикладів доказів, вироблених природним дедуктивним методом.

Недолік інформацією повідомленнях програми — стала проблема регулярно працюють з породженням текстів. Фахівці з обчислювальної лінгвістиці змушені вчитуватися до структур даних основних програм, оскільки останні не включають над тими видами риторичних команд, які необхідні генератору, якщо з синтаксичним конструкціям мови, які людина. Без «додаткової» інформації зв’язність виголошуваного — особливо довгих текстів — залежатиме від цього, наскільки несуперечливо і повно автори основних програм представили інформацію: щоразу, коли генератор зустрічає к-л символ, йому нічого іншого як обробляти його як «посилку «чи за умови у тому самим чином, коли він зустрічає в однаковому контексті. Якщо підтримується несуперечність, проектувальник може заповнювати неточності, удосконалюючи структури даних, тільки-но вони виявляються всередині лінгвістичного компонента.

Кошти, створені задля досягнення швидкості і навмисної деталізації форми, пояснюють використання фразових словників і проміжного лінгвістичного уявлення. Простий приклад показує, чому це потрібно. Розглянемо логічний формулу, яку програма зазвичай використовувала б внутрішньо. У цьому вся прикладі обробка проводиться тим ж методом, що описаний вище. Приклад представляє з себе загальний вигляд повідомлення: вираз безпосередньо з моделі програми (система докази природним дедуктивним методом), якій тепер дається особлива інтерпретація, оскільки цей вислів служить для аналізу текста.

(exists x.

(and barber (x).

(forall y.

(if-and-only-if shaves (x, y).

(not shaves (y, y)))))).

У цій формулі генератор одночасно зіставляється із вибором реалізації. Чи можна навішування кванторів виражатися буквально («Є такий X, що … »), чи має бути згорнутим всередині основний частини як визначальна інформація щодо реалізації змінних («…some barber»)? Чи можна умова if-and-only-if реалізовуватися буквально як і підпорядкування чи то, можливо інтерпретоване як обмеження діапазону перемінної? Твердження на кшталт barber (x), очевидно, завжди має декодироваться і змінюватися в детальне опис перемінної. Решта реалізується незалежним чином, проте, після ретельного обдумывания.

Об'єкти, які заповнюють «мозок «програми, у разі - логічні зв’язки, предикати, і які змінюються, повністю пов’язані з словами і граматичними конструкціями, які підлягають обробці «спеціальними процедурами/ процедурами знань «підтримуючими всередині генератора. Ці процедури — еквівалент словника в розуміє системі. Фахівці будують фразу розуміння, використовуючи лексичну інформацію, пов’язану безпосередньо з індивідуальними логічними об'єктами. Кожен об'єкт зазвичай асоціюється з к-л лексичними одиницями: константа може мати ім'я; предикат може мати прикметник чи дієслово. Фахівець поміщає їх у фразовий контекст, який доповнений рекурсивної прикладної програмою інших фахівців, наприклад, двуместный предикат «shaves (x, y) «стає шаблоном пропозиції «x shaves y. «.

Отже, лінгвістичні шаблони забезпечують впорядковану реалізацію параметрів, що підтримує ефективне функціонування з найменшим кількістю блокирований, прискорюючи процес породження загалом, уникаючи необхідність «резервувати «передчасні рішення, які може стати несумісними з граматичним контекстом, певним вищим шаблоном.

Лексичний Вибір. Деякі підходи до машинному розумінню грунтуються у невеликому наборі базисних елементів (qv) і, формулюють знання програми як набору висловів до базисним елементам, що спрощує роботу програми: легшає виводити умовиводи, тому що за допомоги базисних елементів розподіляються у природничі групи. Проте, зведення діапазону людських дій певним набором, наприклад, тільки в 13 концептуальним базисним елементам, означає, що специфіка значень розподіляється у висловлюваннях і витягається звідти щоразу, якщо під час породження необхідно уживати слова зі специфічним значенням. Голдман перший провів дослідження з використанню мереж розпізнавання. Він довів, як виробляється вибір слова, окремо від основних базисних елементів. Наприклад, з базисного елемента дії «ковтати «можна було одержати дієслова «пити », «є «, «вдихати », «дихати », «курити », чи «проковтнути », хіба що перевіряючи у своїй, був чи проковтнутий об'єкт рідиною чи дымом.

Проект мережі розпізнавання змушує дослідника породження виходити далеко за межі основних відмінностей типів об'єктів і включатимуть контекстные чинники, напр., емоційні міркування говорить. Нижче — вибірка із роботи Хови, мету, якої зводилася до того, щоб змістити текст, аби підкреслити бажану думку (у разі повідомити в лютневих первинних виборах те щоб результати сподобалися Картеру, навіть коли він проиграл.

Kennedy only got a small number of delegates in the elections on 20 February. Cater just lost by a small number of votes. He has several delegates more than Kennedy in total.

Фразовые словники. Яке слово асоціюється з простими поняттями, типу «перукар «чи «голити », очевидне; проте, для об'єктів в комплексних основних програмах, лексичний вибір може виявитися більш проблематичним. Допомога у цій ситуації може справити використання фразового словника. Це впровадили 1975 Бекером і відтоді стало важливим інструментом систем породження. З лінгвістичної точки зору, «фразовий «словник — концептуальне розширення стандартного словника, у тому числі все непроанализированные фрази, — тій самій самої семантичної основі, як і словник окремих слів. Це забезпечує фіксацію незаконсервированных ідіом і різних мовних способів, які люди використовують щодня. Оскільки люди використовують ці «фіксовані фрази «як нероздільне ціле, програми маємо навчитися робити те саме саме. Приклад нижче — із роботи Кукича.

Wall Street securities markets meandered upward through most of the motning, before being pushed downhill late in the day yesterday. The stock market closed out the day with a small loss and turned in mixed showing in moderate trading.

Це інформаційне оголошення було обчислено безпосередньо з аналізу даних із поведінці ринку на протягом дня. Якісні моменти у міжнародному сполученні з'єднали безпосередньо з стереотипними фразами такого роду оголошень: «a small loss », «a mixed showing », «in moderate trading ». Об'єкти, дії і покажчики часу були відображені у відповідних ланцюжках слів: «Wall Street securities markets », «meandered upward », «be pushed downhill », «late in the day ». Композиційний шаблон складається з пропозицій, сформованих з урахуванням S-V-Advp фрази: (ринок) (дію) (покажчик времени).

Обробка Грамматики.

У вивченні породження вибір формалізації уявлення граматики мови завжди пов’язувався із вибором протоколу контролю. Відомі три основних підходу до розв’язання цього вопроса:

1. граматика як корпус пропозицій і фільтр до них (наприклад, об'єднана функціональна грамматика);

2. використання граматики для виявлення всіх можливих поверхневих структур, доступних для мови; потім проведення вибору і реалізації серед даних поверхневих структур (смислові подходы);

3. граматика як структура пересеченного графа, який контролює весь процес, щойно створюється план тексту (план висловлювання) (граматика розширених мереж переходів, і навіть систематична грамматика).

У статті немає перевагу жодному із трьох підходів. Однак з без них буде розглянутий у відповідність із поставленої завданням, яка мотивує використання цих подходов.

Об'єднана Функціональна Граматика (ОФГ) в порождении.

Об'єднана Функціональна Граматика розробили Кейем, є «реверсивною» граматикою, т. е. придатна як при породженні, і при розумінні речи.

Термін «функціональний », на думку розробників, свідчить, що слід відштовхнутися від описи структури лінгвістичних форм, щоб звернутися до причин, чому використовується мову. На відміну від систематичних граматик, функціональні елементи в ОФГ представляють до сьогоденню лише мінімальне розширення стандартного категоріального лінгвістичного словника, використовуваного традиційно, щоб описати синтаксичну форму (наприклад, «clause », «noun phrase », «adjective »), і мають багато з «лексико-функциональной граматикою », (що стоїть у тому ж парадигмі граматик). Класичне функціональне значення, типу різницю між «вже наявної «і «нової «інформацією у пропозиції, подібно розбіжності між «темою «і «ремою», ще включено в ОФГ. ОФГ використовує «telegram» граматику, розроблену Аппельтом, розуміє компонент, написаний Босси.

Перший приклад (з Аппельта) описує жодну з складових ролей, що супроводжують фразовую категорію, іменну фразу.

ОФГ використовують, щоб викласти докладно мінімальні, концептуально отримані функціональні описи, наприклад, головним словом к-л іменний фрази має бути слово «викрутка ». Недавня робота Паттена використовує систематичну граматику на вельми схожим чином. Операції подібного типу на семантичному рівні, що їх за іншими підходах шляхом планування рівня, фахівці визначають як набір особливостей виведення всередині систематичної граматики, еквівалент початкового функціонального описи, яке управляє ОФГ. Протилежне і пряме формування ланцюжка переміщається через систематичну граматику, потім визначає, які додаткові лінгвістичні особливості мали бути зацікавленими додано до граматичної специфікації текста.

ОФГ використовують у процесі послідовних об'єднань, обмежених правилами, які опікуються тим, як описи можуть бути. Ключова ідея у тому, що планувальник спочатку створює мінімальне опис фрази, що робити і стандартним способом. Щоб викладати докладно опис до пунктів, де було б граматично вірно, воно потім об'єднується з граматикою: опис фрази і специфікація граматики успішно об'єднані. Конкретизація понять колись певних особливостей описи константами, з граматикою, викликає ефект ряби в усій системі: рішення, які залежить від хіба що конкретизованих особливостей, провокують подальше циклічне об'єднання, поки що не сформульовано граматично повне опис висловлювання. З іншого боку, елементи описання планувальника спонукають до відбору серед дизъюнктивных специфікацій в граматиці. Наприклад, визначення дієслова призводить до вибору граматичної подклассификации.

Повне опис становить дерево подописаний (складових) як визначено «стандартом «(зразком), який наказує послідовний порядок кожному рівні. Фактично текст створюється під час перегляду цього дерева і читанні слів з лексичними особливостями кожної складової. Обмеження накладаються у процесі об'єднання: лише сумісні часткові описи є у кінцевий результат. Це має велику значення, оскільки планировщику непотрібно розбиратися зі граматичними обмеженнями і залежностями, що, з іншого боку обмежує його потенціал: вона може користуватися знаннями по граматичним обмеженням, коли йому це понадобится.

З погляду розробки граматики, ОФГ є цілком задовільною, оскільки цей підхід дає змогу компактно формулювати мовні факти, тобто необов’язково розшифровувати взаємозв'язок між пропозиціями, оскільки це відбувається автоматично під час объединения.

Прямий Контроль Граматики при Розумінні: Систематична Граматика і Граматика Розширених Сетей Переходів (РСП). Розширена мережу переходів використовують у породженні майже із часу визначення. РСП використовували спочатку Симмонс і Слокум 1970;го, чию систему потім використовував Голдман. РСП також застосовував Шапіро, чий генератор, у цій групі, є найбільш продуманим. Усі системи мають схожу структуру. Вони переглядають структуру даних, яка підтримує основна програма. Мережі підтримують формат зверху-вниз, звісно ж в усіх РСП-парсеров (синтаксичних аналізаторів). Для ранніх РСП така структура була семантичної мережею, заснованої на теорії фреймів з дієсловом у центральній частини (ще одне «функціональна «лінгвістична система). Спеціальний вузол у мережі, «вектор модальності «, визначає інформацію на кореневому рівні, наприклад, час й посвідку; є пропозицію активним чи пасивним. Первинна функція РСП в ранніх системах полягало у лінійному упорядкування мережевий структури, що була переважно вже закодована в лінгвістичному словаре.

РСП, сутнісно, представляє з себе процедурне кодування породжує граматики. Регістри, що дають мереж «розширене «вплив, використовують як уявлення граматичних відносин із глибинної структурою, та шляхи у мережах кодують все складові поверхневі альтернативні послідовності. Обмеження поширюються за дереву зверху-вниз (тобто до рекурсивним подсетям РСП) через значення позначених регістрів, наводячи як дію подсети при контекстном управлінні. Проект РСП Шапіро особливо вражає, оскільки його структура управління даних займає весь обчислювальний режим основний программы.

Подальший аспект проекту РСП — те що, що державні кошти створення слів тексту є виконанням побічного ефекту проходження ребра графа, що призводить генератор до дії майже той час, коли сприймається. Особливо вражає те, що оцінює, що РСП Шапіро будь-коли користується резервуванням. Це — цілком незвичну поведінку для РСП, оскільки породження в сутності процесом планирования.

Найбільш значною проблемою для проектів РСП — труднощі виділення розуміння з дії. Генератори, засновані на систематичної граматиці, починають працювати з цією проблемою, безпосередньо представляючи серединну репрезентацію у вигляді набору характерних ознак, що дозволяє специфікації тексту поступово накопичуватися, надаючи обмеженням можливість поширюватися і проводити пізніші решения.

Дві важливих системи породження виникли на систематичної граматиці: PROTEUS Дэйви (обсуждали раніше) і NIGEL Манна і Маттхиссена. NIGEL — найбільша систематична граматика у мирі та, цілком імовірно, один із найбільш великих машинних граматик будь-якого сорта.

Показати весь текст
Заповнити форму поточною роботою