Дерево безпосередніх составляющих
Грамматика безпосередніх складових (ГНС) ГНС складається з набору нетермінальних символів (як-от N, V, NP, VP, P. S і т.д.) і з набору термінальних символів (таки лексичні одиниці як John «wanted», «to», «publish», «the», «paper» тощо. буд. і з набору правил, що дозволяють переписувати нетермінальні символи в ланцюжок термінальних і нетермінальних симвлов. Якщо це переписування залежить від… Читати ще >
Дерево безпосередніх составляющих (реферат, курсова, диплом, контрольна)
Дерево безпосередніх складових (ДНС) обеспечиваает структорное опис пропозицій. Граматика безпосередніх складових (ГНС) характеризує ДНС. І те й інше тому відіграють істотне значення у фортепіанній обробці природної мови до створення структурних описів пропозиції, які можна використовувати у фортепіанній обробці систем розуміння чи порожления речи.
Дерево безпосередніх складових: ДНС кодує ієрархічну структуру пропозиції. Цю інформацію двох видів: ієрархічна структура групування і синтаксичні категорії цих группирований.
Предложение.
John wanted to publish the paper. (1).
имеет таку структуру:
(2).
John wanted to publish the paper Ця структура то, можливо подано і в скобочной конструкції: [[John][[wanted][[to][publish][[the][paper]]]]] (3).
(2) і (3) описують групування без ідентифікації складових. Такі конструкції називаються «скелетом». Скелети характеризують фразу без позначення вершин дерева. Скелет із визначенням категорій є ДНС, для фрази (1) це буде так.
S.
NP VP.
VP.
NP (4) NPR V P V.
DET N John wanted to publish the paper.
«John» тут є ім'ям власним, що є також групою що підлягає, «wanted» і «publish» — дієслова, «to" — прийменник (точніше «to» має бути названо часткою чи часом), «the» — детерминатор, «paper» — іменник, «the paper» — група іменника, «to publish the paper» — група присудка, «wanted to publish the paper» — теж група присудка, і, нарешті, «John wanted to publish the paper» — предложение.
Соответственно скобочная конструкція (3) матиме такий вигляд: [S[NR[NPR John]][VP[V to][V publish][NP[DET the][N paper]]]]] (5).
Конструкции (4) і (5) зазвичай (але завжди) використовують у системах обробки природного языка.
Грамматика безпосередніх складових (ГНС) ГНС складається з набору нетермінальних символів (як-от N, V, NP, VP, P. S і т.д.) і з набору термінальних символів (таки лексичні одиниці як John «wanted», «to», «publish», «the», «paper» тощо. буд. і з набору правил, що дозволяють переписувати нетермінальні символи в ланцюжок термінальних і нетермінальних симвлов. Якщо це переписування залежить від контексту, це контексто-независимая граматика (КНГ), у протилежному разі - це контекстозависимая граматика (КЗГ). Правило перезапису має таку форму:
А —> Х (6).
где Х — последовательсть термінальних і нетермінальних символів, а, А — нетерминальные.
КЗГ має иследующее правило перезаписи:
ZAW —> ZXW (7) де X, Z, W — ланцюжка термінальних і нетермінальних символів, а, А — нетермінальні. У (7) Проте й Х перебувають у оточенні Z і W. Часто ця формула пишеться в виде.
A —> X (Z — W (8).
Деревация в КНГ починається від початкового символу P. S і далі йде до того часу, поки що не застосована останнє правило. Порядок застосування правил не важен.
P.S —> NP VP.
NP —> NPR.
NP —> DET N.
VP —> V VP.
VP —> P V NP.
NPR —> John, Mary, Bill.
N —> paper, man, cow.
V —> wanted, meet, want.
P —> to DET —> the.
Несколько формальних властивостей ГНС: Якщо всі правила деякою ГНС G є контекстно об'єднаними, то G називається контекстно вільної граматикою (КСГ). Якщо деякі правила ГНС є контекстно залежними, то G разывается КЗГ. Рядкові мову деякою ГНС G окреслюється набір всіх кінцевих рядків, отриманих з G і це набір позначається L (G). Рядок w вважається отриманою з G, якщо w можна було одержати при послідовному переписуванні початкового символу P. S, використовуючи правила граматики G. Рядкові мову L (тобто. набір конечнных рядків) називається контексто вільним мовою (КСЯ), якщо є така КСГ, що L (G)=L. L називається «суворо контекстно залежним мовою», а то й існує такий КСГ, що КСГ, що L (G)=L, і существунт така КЗГ, що L (G)=L. Зауважте, що граматика G то, можливо контекстнозависимой, та її рядкові мову L (G) необов’язково може бути КЗЯ. Клас КЗЯ включає клас КСЯ. У цьому сенсі, КЗЯ є як потужним ніж КСЯ. Проте й інший випадок, коли КЗЯ є більш потужними ніж КСЯ. Якщо деяка КЗГ, G, використовується для «аналізу», у разі мову аналізований при поиощи G — контекстносвободный (6, 7). Щоб пояснити використання КЗГ G для аналізу даного дерева t, визначимо аналіз t так. Груба кажучи аналіз t є якийсь зріз дерева. Дамо точніше визначення: Набір (Pt) для аналізу дерева t визначається так 1. Якщо t=((порожній дерево), тоді Pt = (2. Якщо t=.
A.
t0 t1 … tn.
тогда Pt={A} v P (t0)P (t1)…P (tn) де t0, t1… tn — дерева, А ". «позначає з'єднання; например:
S.
A B.
З d E.
з e.
Pt = {P.S, AB, AE, Ae, CdB, CdE, Cde, cdB, cdE, cde}.
Пусть G — контекстно залежна граматика, тобто. її правила мають форму.
А—>(/(- (де, А (V — ((V — алфавіт, і (набір термінальних символів), ((V+ (набір ненульових рядків на безлічі V) і (, ((V* (набір всіх рядків на V). Якщо (і (- рівні нулю, то таке правило називається контекскносвободным. Дерево t називається «аналізованих «в термінах граматики G, для кожного вузла дерева t виконуються правила G. Контекстно залежне правило А- -> (/(- (виконується для вузла Якщо ж рядок відповідна відгалуженню від вузла А, є (і є аналіз t виду (1(А ((2, де (1, (2 (V*. Контекстне умова (- (називається аналізом предиката. Поруч із контекстозависимымми правилами правилами, що дозволяє уточняти «правий» і «лівий» контекст, часто необхідно мати правила специфицирующие «верхній» і «нижній» контекст. Маємо вузол, А дерева t, область ((- (), (, ((V*, містить вузол Якщо ж існує шлях від кореня краю дерева, і має форму.
(1(А ((2 ((1, (2 (V*).
Контекстное умова, що з таким «вертикальним» аналізом називається «панівним предикатом». Загалом вигляді правило має форму.
А —>(/СА где СА — булева комбінація аналізу та панівних предикатів. Нехай G — кінцевий набір правив і ((G) — набір дерев, аналізований G. Передбачається, дерева ((G) — пропозиції; тобто. кореневої вузол дерева ((G) вказано початковим символом P. S, а кінцеві вузли — термінальними символами. Покажемо, що рядкові мову L (((G)) = {x (x, де x терминальная рядок дерева t, і t (((G)} контекстно вільний (7). Приклад: Нехай V = {P.S, T, a, b, з, e} і (= {a, b, з, e}, і G — кінцевий набір суворі правила. 1. P. S —>e 2. P. S —> aT 3. T —> aS 4. P. S —> bTc / (a_()) (DOM (T_) 5. T —> bSc / (a_()) (DOM (S_).
Для правил 1, 2, 3 має місце нульової контекст й інші правила — контекстносвободные. У четвертому і п’ятому правилі за умовою потрібно, а зліва і вузол підпорядковується Т (в п’ятому правилі P. S). Мова, породжений G, то, можливо породжена G1:
P.S —> e P. S —> aT1.
P.S —> aT T—> aS1.
T —> aS T1—> bSc.
S1—>bTc.
Грамматика G1 містить додаткові нетермінальні символи S1 і Т1 для перевірки локального контексту при породженні. Легко помітити, що з допомоги S1 і Т1, досягається гомоморфизм, дозволяє аналізувати будь-яке дерево G1 з допомогою G і навпаки — будь-яке дерево G має гомоморфный прообраз в G1. Розглянемо вкотре контекстно залежне правило (10).
V —> wanted (-VP.
коли (10) інтерпретується як хибне правило, як описано вище, лексема «wanted» з’являється над вузлом V, лише коли вузол VP перебуває праворуч від неї (в дереві, де з’являється V). Праворуч від V існує рядок, має VP «аналіз». Контекстно-зависимые правила в КГЗ йдуть на аналізу звичайних граматик, а чи не є правила простого переписування рядків. Термінальні символи в ГНС. Доти термінальні символи були представлені як нереализуемые елементи. Це було зроблено простоти викладу. Термінальні символи є наборами топологічних, синтаксичних і семантичних ознак (4, 8). [У принципі так можливо ліквідувати всі ці ознаки з допомогою введення нових нетермінальних символів. Проте їх кількість буде надто велике (в соответсвии з велику кількість всіх можливих комбінацій цих ознак). І це потягне значне ускладнення граматики]. Наприклад, термінальні символи в (4) вживають складові (комплексні) символи й отримуємо (4').
S.
NP VP.
NPR V VP.
NP John wanted P V +N +V DET NDET- + - NP [to] publish +Animate. +V the paper.
+ - NP + DET +N.
+Definite + DET ;
+ Singilar.
Здесь не обговорюється можливість зв’язку комплексних символів і проміжних вузлів. Форма (4') є структурним описом (ЗІ) пропозиції (1):
John wanted to publish the paper.
ГНС в трансформаційної граматиці (ТГ). ТГ теж обговорюються у цій статті. Проте важливо помітити, що ГНС (і дерева СР) відіграють істотне значення в ТГ. Основна ідея у тому, що деякі структурні описи (СО)описываются в базовому компоненті ТГ, а й інші виводяться їх з допомогою спеціальних правил, званих трансформаціями. Базовим компонентом є ГНС, що визначає набір дерев СР. Дерева, отримані з допомогою трансфомаций також є деревами СР. Такого погляду на ТГ є класичним й, звісно, спрощеним, хоч і достатній для даного описи. Приміром, дерево СР для пропозиції (11), показане з діаграми (12) — базове. Дерево СР (14) для пропозиції (13), виходить при застосуванні трансформаційного правила. John saw Mary.
S.
NP.
AUX VP.
NPR V NP.
John past see NPK.
Mary.
Mary was seen by John.
S.
NP AUX VP.
NPR.