Морфологічна омонімія в англійській мові

Тип работы:
Курсовая
Предмет:
Иностранные языки и языкознание


Узнать стоимость

Детальная информация о работе

Выдержка из работы

ВСТУП

Перебуваючи в постійному русі, мова безперервно розвивається, удосконалюється, таким чином, має своє сучасне, минуле та майбутнє. Одним із важливих чинників і доказів її динамічного характеру є збагачення словника. Поява нових слів можлива в мові завдяки її внутрішній потенційній здатності до деривації, однак словотворення не завжди означає створення нової одиниці і за значенням, і за формою, але й повторну реалізацію слів.

Проблема зняття морфологічної багатозначності вирішувалась різними способами. Перші створені алгоритми були засновані на правилах. Пізніше для вирішення цього завдання були застосовані статистичні алгоритми.

Зняття омонімії корисно в багатьох додатках комп’ютерної лінгвістики, зокрема, в пошукових системах може підвищити точність обробки деяких класів запитів і / або скоротити обсяг збереженої інформації.

Вся робота щодо зняття морфологічної омонімії передбачає врахування контексту, в якому вжите слово, і використання даних з зовнішніх джерел інформації. Також передбачено, що комп’ютер повинен навчитися співвідносити значення слова і саме слово в контексті, використовуючи машинне навчання або правила, які створив дослідник.

1. АНАЛІЗ ПРОБЛЕМ БАГАТОЗНАЧНОСТІ ПРИРОДНІХ МОВ

1.1 Огляд проблеми багатозначності англійської мови

Одним із важливих чинників і доказів динамічного характеру мови є збагачення словника. Поява нових слів можлива в мові завдяки її внутрішній потенційній здатності до деривації, однак словотворення не завжди означає створення нової одиниці і за значенням, і за формою. Дослідники говорять про таку лінгвістичну універсалію, як закон економії мовних засобів (О. Єсперсен), або закон економії мовних зусиль (А. Мартіне), який дає змогу мовцям полегшити власні мовні зусилля, підвищити ефективність передавання інформації та швидкість її оброблення шляхом добору «найбільш раціональних і коротких для цілей комунікації мовних засобів. Економія виявляється, зокрема, і в повторній реалізації словотвірної моделі.

Полісемія — це явище багатозначності слова. Мовленнєва багатозначність безпосередньо пов’язана з поліфункціональністю контексту щодо певного слова. Для розуміння тексту чи навіть окремих висловлювань дуже важливим є визначення правильного значення слів відносно контексту.

Багатозначні слова — це слова, які мають декілька значень і можуть нести різне смислове навантаження. Людська мова неоднозначна, тому багато слів можуть інтерпретуватись по-різному. Для прикладу, розглянемо два речення:

1. I can hear bass sounds.

2. They like grilled bass.

Слово bass в двох реченнях має різні значення: низькочастотні тони і вид риби. У більшості випадків людина не думає про неоднозначності в мові, а ось комп’ютер повинна обробляти неструктуровану текстову інформацію і перетворювати її на структуровані дані, які аналізуються для визначення основного значення слова чи вислову[12].

Омоніми — це слова, що мають однакове написання, але абсолютно різне смислове значення. Омоніми в англійській мові:

Англійське слово «Ear», в перекладі на російську мову, може мати значення «вухо» та «колос».

Англійське слово «Fine" — має значення штраф, але в контексті може перекладатись як виразне «добре!!!».

Англійське слово «Club» перекладається як «клуб», але можливий і інший переклад цього слова — «дубина».

1.1.1 Багатозначні слова в англійській мові

Як один з найяскравіших прикладів багатозначних слів, можна привести дієслово «make». Перше, що приходить на думку з шкільної програми по англійській мові, що це дієслово в перекладі російською мовою несе смислове навантаження слова «робити» і складного в перекладі «make» нічого не немає. Насправді ж, дієслово «make» так само перекладається, як «приписувати», «вводити», «встановлювати», «видавати звук», «готувати», «складати», «виграти», «заробляти», «стати», «бути», «рівнятись» і це ще не повний список значень цього дієслова, все залежить від того, в якому місці речення знаходиться «make», та в якому саме контексті використовується. Так само дієслово «make», дивним чином може трансформуватися в іменник «make», що характерно для багатьох слів в англійській мові. Як іменник слово «make» перекладається, як «стиль» або «характер» людини або предмету, а так само може означати «статуру». У Американській мові, яка схожа з англійською мовою лише частково, слово «make» вживається при здобутті інформації про якусь людину (установка особи) з досьє, що знаходяться в поліцейських відділеннях.

Нижче приведені приклади мофологічної омонімії іменників, дієслів і прикметників в англійській мові.

Butcher — мясник; забивати, різати.

Bypass — обхід; обходити.

Call — дзвінок, крик; телефонувати, кричати.

Comb — гребінь; розчісувати.

Dainty — делікотес; вишуканий.

Defeatist — пораженець; той, хто несе поразку.

Elbow — лікоть; штовхати ліктем.

Eldest — старший (n); старший (най)(adj).

Fry — смаженина; смажити.

Funk — страх; трясти.

Grace — грація; удостоювати.

Grave — могила; серйозний.

Continent- континент; стриманий.

Deadly — смертельный; смертельно.

Deal — угода; наносити, сдавати.

Ear — вухо; колос.

Early — рано; ранній.

Feast — свято; святкувати.

Glint — блиск; блиснути.

Park — парк; паркувати.

Нижче на рисунку 1.1.1.1 приведена таблиця, в якій розглянуто практичні приклади морфологічної омонімії іменників і дієслів в реченні в англійській мові.

Таблиця прикладів омонімії іменніків і дієслів

Іменник

Приклад

Дієслово

Приклад

Comb

Where is my comb?

To comb

My sister doesn’t like to comb her hair.

Fry

The best dishes for me is fry.

To fry

I don’t want to fry this meat

Butcher

Mr. Smith is a butcher.

To butcher

I don’t know how to butcher this pork.

Park

It is the best park, I’ve ever seen.

To park

I need to park my car.

call

I heard somebody’s call.

To call

Please, call your mother.

Нижче приведена таблиця, в якій розглянуто практичні приклади морфологічної омонімії іменників і прикметників в реченні в англійській мові.

Таблиця прикладів омонімії іменників і прикметників

Іменник

Приклад

Прикметник

Приклад

Continent

I dream to have a trip on this continent.

continent

I’ve never seen such continent person.

Grave

He went to brothers grave yesterday.

grave

Her face is so grave.

Defeatist

You look like a defeatist.

defeatist

His words are defeatist.

Dainty

The caviar is a dainty.

dainty

This cake is so dainty

Eldest

Who is the eldest here?

the eldest

I am the eldest brother.

1.2 Огляд морфологічного та синтаксичного аналізу тексту

Припустимо, що весь процес аналізу під час автоматичного перекладу поділяється на два основних етапи: морфологічний аналіз та синтаксичний аналіз.

Зрозуміло, що наше знання про синтаксичну структуру речення, тобто про лексико-граматичні зв’язки слів у ньому передати ЕОМ неможливо, оскільки в алгоритми аналізу речення не можна ввести команди типу «знайди підмет», «знайди прикметник, який визначає іменник» тощо, якщо немає детальних, автоматично виконуваних правил про те, як це робити. Адже машина розуміє тільки мову команд, а не мову їхнього розв’язання. Для того, щоб ці правила створити, необхідно пізнати ті закони, які діють у процесі побудови речення[2].

Існує два підходи щодо дослідження цього процесу. Мову можна уявити у вигляді кібернетичної системи, на вході якої є сума речень, а на виході - класи мовних одиниць і правила їх сполучуваності. Або навпаки: на вході системи — породжувані цією системою речення. Ці два підходи пізнання структури мови лежать в основі побудови синтаксичних моделей (індуктивних та дедуктивних) та розробляються у методиці структурних лінгвістичних досліджень. Метод моделювання змусив переглянути існуючі синтаксичні теорії, а також точніше визначити основні поняття синтаксису, розробляти нові методи його вивчення. Заново були поставлені основні проблеми синтаксису: проблема його об'єкта, співвідношення із семантикою й морфологією; проблема слова, групи, фрази як синтаксичних одиниць, а також проблема основних понять синтаксису: відношення (зв'язку), функції, структури, формальних показників.

1.2.1 Автоматичний синтаксичний аналіз тексту

Чимало цікавих ідей, використаних для розробки автоматичного синтаксичного аналізу (АСА), висловили представники дескриптивної школи структурної лінгвістики: із суми спостережень над текстом лінгвіст здобуває первісну уяву про спосіб організації тексту й у вигляді чітких процедур — правил алгоритму — повідомляє автомату свої дії, а потім за його допомогою одержує на більшому матеріалі дані, що цікавлять дослідника[5].

У роботах з АСА прийнято два способи опису синтаксичної структури:

1. Опис за безпосередніми складниками (БС).

2. Опис за допомогою дерев залежностей, які називають деревами синтаксичного підпорядкування.

Ці два способи допомагають описати синтаксичну структуру на двох рівнях:

— за допомогою БС описуються в явному вигляді словосполучення, але не розпізнається «хазяїн» і «слуга»;

— дерева залежностей дають можливість розрізнити характер зв’язків між словами;

Якщо в результаті роботи алгоритму АСА встановлюються зв’язки, які більш-менш відповідають інтуїтивним уявленням носіїв мови, значить синтаксична структура речення «визначена» правильно. Завдання АСА полягає у тому, щоб, використовуючи морфологічну інформацію про словоформи, одержану на попередньому морфологічному етапі, побудувати синтаксичну структуру вхідного речення. Об'єктом аналізу є речення, яке до моменту синтаксичного аналізу подається у вигляді інформаційних ланцюжків до словоформ. Виконувати синтаксичний аналіз повинен алгоритм СА, тобто інструкція, яка складається зі стандартних елементів, що здійснюють певну послідовність операцій над словоформами. Результатом аналізу є синтаксична структура речення, представлена як сукупність даних про синтаксичні зв’язки між його одиницями.

1.2.2 Автоматичний морфологічний аналіз тексту

Автоматичний морфологічний аналіз тексту (АМА) є одним із етапів роботи систем автоматичного аналізу тексту. У результаті роботи АМА кожному слововживанню приписуються значення граматичних категорій (частина мови, рід, число, відмінок, час, вид, тощо).

Морфологічний аналіз — це обробка взятих окремо словоформ. Морфологічний аналіз полягає в такому: словоформа розбивається на морфеми (за умови, якщо таке розбиття можливе) шляхом пошуку морфем у спеціальних списках, де кожній морфемі відповідає певна інформація; потім із інформацій до морфем будується загальна інформація до словоформи[11].

Правильність і повнота результатів аналізу тексту в системах обробки інформації залежить від кількох факторів:

1. Від рівня знань про мову і мовлення, тобто правильності лінгвістичної моделі, покладеної в основу АМА.

2. Від рівня формалізації цих знань у створюваній «машинній» граматиці.

«Машинна» граматика створюється у різних системах АМА по-різному, а вибір принципів «машинної» граматики зумовлений кількома факторами: система мови, система письма і друку, закономірності породження мовлення і тематика тесту.

Система мови. У мові існує обмежений набір засобів вираження граматичних значень, і залежно від морфологічного типу мови визначається і шлях АМА. Якщо у мові переважають синтетичні засоби внутрішньослівного вираження граматичних значень, тобто словозміна, то за початковий етап визначення значень граматичних морфологічних категорій обирається аналіз структури слова. Якщо ж структура слова проста і морфологічні значення виражаються аналітично, за допомогою сполучення різних слів, то аналіз слова обмежуються тільки пошуком за словником визначених завчасно його морфологічних характеристик.

Система письма і друку. АМА звичайно створюється для писемного різновиду мовлення — текстів. Різні мови користуються різними системами письма (буквеними, складовими та ін.). Крім того, важливими є також дані про те, як співвідносяться усне та писемне мовлення (наприклад, у письмовому тексті можуть пропускатися деякі голосні, вказівка на місце наголосу та висоту тону, які мають статус морфологічних значень).

Закономірності породження мовлення. Закономірності розуміються у широкому сенсі - як закономірності організації мовних одиниць, їх порядку у тексті.

Тематика тесту. Кожному тексту, як результату мовленнєвої діяльності та засобу комунікації відповідає певна система понять, що відбиває його тематичну спрямованість. Дослідження лексичного складу, морфологічних характеристик, синтаксичних структур текстів різної тематичної спрямованості виявили розбіжності у використанні лінгвістичних одиниць, що необхідно враховувати при автоматизації автоматичного аналізу.

«Байдужість» ЕОМ до змісту інформації, яка їй надається, зумовила спрощення процесу розпізнавання морфологічних характеристик словоформ за допомогою введення так званих квазіодиниць, які одержуються емпірично із звичайних мовних одиниць і аналогічно до них. Квазіодиниці вибираються при аналізі буквеної структури словоформ за формальними правилами: буквосполучення повинні відповідати морфологічному значенню. Крім квазіодиниць (квазіфлексій, квазіоснов, квазісуфіксів, і т.п.) у «машинну мову» вводяться спеціальні лексико-граматичні класи (ЛГК), у які потрапляють словоформи-омоніми (їх розмежування можливе лише у контексті). У машинному аналогові природної мови співіснують як звичайні мовні одиниці, так і особливі «машинні». Списки цих одиниць використовуються при аналізі формальної структури словоформ для розпізнавання їх морфологічних характеристик, шляхом порівняння різних частин словоформи з одиницями списків. Власне АМА починається на етапі флективного аналізу. На цьому етапі словоформам приписуються значення граматичних категорій, передбачених у словнику квазіфлексій[9].

Усі слововживання тексту насамперед поділяються на:

— словоформи;

— слова, які не вимагають аналізу за словником квазіфлексій (етап доморфологічного аналізу). Це числа, символи, формули, іноземні слова.

Словоформи-омоніми після етапу флективного аналізу одержують коди відповідних омонімічних ЛГК та їх форм, а потім аналізуються на наступному етапі контекстного аналізу. За допомогою позиційного аналізу розмежовується більшість омонімічних словоформ, отже АМА передбачає два етапи — флективний та контекстний.

1. 3 Етапи синтаксичного аналізу систем автоматичної обробки текстів природної мови

Синтаксичний розбір (розпізнавання) є початковим етапом синтаксичного аналізу. Саме при його виконанні здійснюється підтвердження того, що вхідний ланцюжок символів є програмою, а окремі підланцюжки складають синтаксично правильні конструкції у цій програмі. Слідом за розпізнаванням окремих підланцюжків здійснюється аналіз їх семантичної коректності на основі накопиченої інформації. Далі проводиться додавання нових елементів у проміжне представлення програми.

Розбір призначений для доведення того, що аналізований вхідний ланцюжок, що записаний на вхідній стрічці, належить чи не належить множині ланцюжків, породжуваних граматикою даної мови. Виконання синтаксичного розбору здійснюється розпізнавачами (автоматами). Тож мета доведення полягає в тім, щоб відповісти на запитання: чи належить аналізований ланцюжок множині правильних ланцюжків заданої мови. Відповідь «так» дається, якщо така приналежність встановлена. У супротивному випадку дається відповідь «ні». Одержання відповіді «ні» зв’язано з поняттям відмовлення. Єдине відмовлення на будь-якому рівні веде до загального відмовлення.

Щоб одержати відповідь «так» щодо всього ланцюжка, треба його одержати для кожного правила, що забезпечує розбір окремої підланцюжки. Оскільки множина правил утворять ієрархічну структуру, можливо з рекурсіями, то процес одержання загальної позитивної відповіді можна інтерпретувати як збір за певним принципом відповідей для листів, що лежать в основі дерева розбору, що дає позитивну відповідь для вузла, що містить ці листи. Далі аналізуються оброблені вузли, і вже в них отримані відповіді складаються в загальну відповідь нового вузла. І так далі до самої вершини. Так піднімається наверх інформація, що підтверджує виконання вказівки начальника організації[4].

Мета синтаксичного аналізу побудова синтаксичної структури речення вхідного тексту. Вхідними данними синтаксичного аналізу (СА) є вихідні дані морфологічного аналізу і правила синтаксису вхідної мови.

В результаті морфологічного аналізу кожної словоформи вхідної фрази прописується певний комплекс морфологічної інформації, при цьому словоформи розглядаються ізольовано, поза зв’язком з іншими словами та реченнями (часто ця інформація омонімічна). Отримані дані не відображають структурних зв’язків між елементами фрази. Разом з цим слова в реченні не можуть слідувати у довільному порядку и передавати при цьому певну думку. Кожна мова має свій власний синтаксис. Задача С А — описати цей синтаксис, тобто описати допустиму структуру фраз. На етапі синтаксичного аналізу необхідно, використовуючи морфологічну інформацію про словоформи (отриману на етапі МА) і відомості із словника, побудувати синтаксичну структуру вхідного тексту. Результатом С А є уявлення речень в категоріях синтаксису (підмет, присудок, прямий додаток та інш.).

Синтаксичний аналіз взагалі проходить три етапи:

1. Встановлення синтаксичного зв’язку між словоформами в реченні (контекстний аналіз), який проводиться на рівні словосполучень.

2. Побудова формалізованої структури синтаксичного відношення у фразі, який проводиться на рівні речення.

3. Побудова міжфразової синтаксичної структури (на рівні дискурсу).

Контекстний аналіз. Як вказувалося раніше, результатом морфологічного аналізу є приписання кожній словоформі морфологічної інформації: частина мови, рід, число, відміна і т.д. Оскільки дана інформація формується поза зв’язку словоформ у реченні, дуже часто вона є багатозначною (омонімічною). Тоді як в реченні словоформа може виконувати тільки одну функцію і утримувати тільки один набір морфологічної інформації, який відповідає цій функції. Морфологічна багатозначність може проявлятися на двух основних рівнях.

Перший рівень проявлення багатозначності - багатозначність на рівні розпізнавання частин мови.

Наприклад, в англійській мові:

1. Дієслово третьої особи однини теперішнього часу і іменник множини мають однакові форми.

The changes — эти изменения,

He never changes anything — он никогда ничего не меняет;

2. Основна форма дієслова може співпасти з іменником і прикметником.

His work — его работа,

We work — мы работаем,

They must work hard — они должны много работать;

3. Особове дієслово в минулому часі - з дієприкметником ІІ.

Have brought — принёс,

The created system — созданная система.

В російській мові:

Іменники на ла, ло, л — и діэслово минулого часу:

Большое село — солнце село,

Прозрачное стекло — стекло варенье;

Іменники на -в — і дієприкметники:

Военно-полевой устав — устав трудится;

Разлив реки — разлив молоко, і т.д.

Другий рівень проявлення багатозначності - багатозначність на рівні розпізнання граматичних категорій, які відповідають одній частині мови. Цей вид багатозначності проявляється більшою частиною у флективних мовах. В російській мові:

Іменники-істоти однини і множини у родовому і знахідному відмінку:

Родовий відмінок (нема кого?) хлопчика (одн.), хлопчиків (множ.);

Знахідний відмінок (бачу кого?) хлопчика (одн.), хлопчиків (множ.);

Іменники-неістоти ч.р., одн. і мнж. в називному і знахідному відмінку:

Називний відмінок (що?) стіл (одн.), столи (мнж.),

Знахідний відмінок (бачу що?) стіл (одн.), столи (мнж.);

Іменники жіночого роду на -ия:

Називний відмінок (що?) лінія (одн.), лінії (мнж.),

Родовий відмінок (нема чого?)линии (одн.),

Давальний відмінок (кому?чому?) лінії (одн.),

Знахідний відмінок (бачу що?) лінії (мнж.),

Місцевий відмінок (про що?) лінії (одн.);

Для рішення любих типів омонімії взагалі, необхідні потужні мовні засоби, навіть такі як семантичні і предметні. Однак у деяких ситуаціях для зняття морфологічноъ омонімії словоформ достатньо звернутися до їх ближчого лінійного контексту (контекстний аналіз). Для аналітичних мов вводять спеціальний блок правил, які усувають із речення, яке перекладається більшу кількість «паразитичних» омонімів. Наприклад, для правельної інтерпретації слова work (як інфінітива, а не як іменника) у разі they must work hard достатньо переконатися в тому, що зліва від нього знаходиться модальне дієслово must. Наявність зліва від словоформи, яка обробляється особового займенника третьої особи однини безперечно доказує її дієслівний статус і дозволяє усунути омонімію[6].

2. АНАЛІЗ МЕТОДІВ КОНТЕКСТНОГО АНАЛІЗУ ОБРОБКИ МОРФОЛОГІЧНОЇ ОМОНІМІЇ

2.1 Сутність контекстного аналізу тексту

Результатом морфологічного аналізу є приписання кожній словоформі морфологічної інформації: частина мови, рід, число, відміна і т.д. Оскільки дана інформація формується поза зв’язку словоформ у реченні, дуже часто вона є багатозначною (омонімічною). Тоді як в реченні словоформа може виконувати тільки одну функцію і утримувати тільки один набір морфологічної інформації, який відповідає цій функції.

Морфологічна багатозначність може проявлятися на двух основних рівнях:

перший рівень проявлення багатозначності - багатозначність на рівні розпізнавання частин мови.

другий рівень проявлення багатозначності - багатозначність на рівні розпізнання граматичних категорій, які відповідають одній частині мови. Цей вид багатозначності проявляється більшою частиною у флективних мовах.

Контекстне зняття омонімії. Якість морфологічного аналізу можна підвищити за допомогою контекстного аналізу. Це дозволить в більшості випадків позбутися морфологічної омонімії. Модуль контекстного аналізу можна налаштовувати на довільну предметну область. Для цього необхідно навчаючій програмі модуля надати безліч текстів — документів цільової предметної області. На цій множині навчальна програма виділить найбільш характерний контекст для значущих з точки зору омонімії слів і буде використовувати його в подальшому для рішення проблеми омонімічної неоднозначності.

Контекстний аналіз, мабуть, не вирішить всіх проблем омоніміі. Наприклад, в російській мові у багатьох іменниках збігається написання в знахідному і називному відмінках (при цьому можливий контекст лексеми практично не змінюється); те саме стосується власних назв. Але існує багато випадків, коли контекстний аналіз відсіює нерелевантні омоніми. Зарубіжні аналоги показують високу точність роботи морфологічних процесорів при використанні технології, основаній на прихованих Марковських моделях і правилах спеціального виду. Існують реалізації як для супервізорного навчання, так і для навчання «без вчителя».

Представлення контексту. Текст — це неструктуроване джерело інформації, тому для зручності використання його, як правило, перетворюють на структурований формат.

Для цього попередньо обробляють вхідний текст, що передбачає такі етапи:

— токенізація — поділ тексту на токени (зазвичай слова);

— морфологічний аналіз — визначення частин мови (наприклад, «the/DT bar/NN was/VBD crowded/JJ», де DT, NN, VBD, JJ позначають артикль, іменник, дієслово та прикметник);

— лематизація — визначення початкової морфологічної основи слова (наприклад, was > be, bars > bar);

— чанкінг — поділ тексту на синтаксичні частини (наприклад, поділ [the bar was crowded] на [the bar]NP [was crowded]VP, відповідно іменникову та дієслівну фрази);

— синтаксичний аналіз речень — побудова синтаксичного дерева відповідно до структури речення[3].

Послідовність та результати попередньої обробки тексту наведено нижче на рисунку 2.1.1.

Рис. 2.1 — Послідовність та результати попередньої обробки тексту

2.2 Правила контекстного аналізу, які дозволяють зняти морфологічну омонімію

Часто частини мови в англійській мові використовуються в комбінації зі словами, які вказують на те, що це конкретна частина мови. Слова-вказівники — це певні модифікатори, які пов’язують конкретну частину мови з навколишнім контекстом.

2.2.1 Правила контекстного аналізу іменників

Іменник — це головна частина мови, яка означає предмет у широкому сенсі. Наприклад, іменники можуть позначати речі (car, pen), живих істот (cat, human), місця (Norway, mountain, Moscow), матеріали (copper, cloth), процеси (life, laughter), стан (rest, sleep), абстрактні поняття (beauty, evil) і якості (kindness, bravery). За морфологічним складом іменники можна розділити на прості, похідні та складові.

Прості іменники (simple nouns) складаються з одного кореня: gnome, rock, sky.

Похідні іменники (derived nouns / derivatives) складаються з кореня і однієї або декількох морфем (приставок або суфіксів): friendship, richness, teacher. Для іменників характерні такі суфікси, як -ant/-ent,-dom, -er/-or/-ar,-hood,-ion,-ity,-ment,-ness,-ship.

Складові іменники (compound nouns) складаються принаймні з двох коренів: seaman, editor-in-chief.

Слова, що вказують на іменник в англійській мові. Часто англійські іменники використовуються в комбінації зі словами, що вказують на те, що це іменник[13]. Слова-виявники — це певні модифікатори, які пов’язують іменник з навколишнім контекстом. Наприклад, в їх число входять:

— артиклі a / an та the, які вказують на те, що предмет вже відомий слухачу. It is an apple;

— займенники some / any: We have some milk left. (У нас ще залишилося трохи молока.) Do you have any hobby? -(У тебе є якесь хобі?);

— займенники that, this, these, those: This painting is lovely. (Ця картина чудесна);

— присвійні займенники my, his, her, its, our, your, their: Call the Hendersons, their house is on fire!(Подзвони Хендерсон, їх будинок горить!);

— невизначені займенники much, many, little, few, each, every, either, neither: Every passer-by is staring at our car. (Кожен перехожий вирячився на нашу машину.);

— питальні займенники what, which і whose: What dish did you like most? (Яке блюдо вам сподобалося найбільше?);

— іменником у родовому відмінку: Fred’s wife seems upset. (Дружина Фреда здається засмученою).

Варто відзначити, що разом з іменником може використовуватися тільки одне слово-вказівник, присутність одного виключає використання іншого. Слова-вказівники розташовуються перед відповідним їм іменником і перед його визначеннями, при їх наявності: My first car was Mini Cooper. (Моєю першою машиною був Міні Купер.) This old green house will be demolished next week. (Цей старий зелений будинок знесуть на наступному тижні).

2.2.2 Правила контекстного аналізу прикметників

Прикметник — це самостійна частина мови, яка вказує на ознаку предмета і відповідає на питання «який?», «Який?», «Чий?». Англійські прикметники, на відміну від російських, не змінюються ні за відмінком, ні за родом, ні за числом: small boy, small girl, small children (маленький хлопчик, маленька дівчинка, маленькі діти). Будова англійських прикметників. За своєю будовою англійські прикметники поділяються на прості, похідні та складні. Прості прикметники не мають у своєму складі суфіксів і приставок: green, left, happy. У складі похідних прикметників є суфікс і / або приставка: helpful, international, unreasonable. Складні прикметники складаються з двох або більше основ: red-hot, colour-blind, snow-white.

Для англійських прикметників характерні наступні суфікси:

-able (adorable); -al (epochal); -ant (pursuant); -ary (documentary); -ed (barbed);

-en (silken); -ful (colourful); -ible (accessible); -ic (optimistic); -ish (Scottish);

-ive (creative); -ive (innovative); -less (lifeless); -like (lifelike); -ly (yearly);

-ous (courageous); -y (funny). И наступні префікси: un- (unguarded); in- (incomplete); il- (illegal); im- (immoral).

За значенням англійські прикметники поділяються на два види — якісні і відносні. Якісні прикметники позначають якості предмета прямо: warm, dark, long. На відміну від відносних, вони можуть бути виражені в більшій чи меншій мірі і тому мають ступені порівняння (warmer-warmest, darker-darkest, longer-longest). Від якісних прикметників часто можна утворити відповідний абстрактне іменник (warmth, darkness). Відносні прикметники описують якості предмета через його відношення до матеріалів (wooden, leathern), місця (Eastern, Swedish), часу (daily, monthly) або зв’язку (heavenly, motherly). Вони не мають ступенів порівняння. Іноді відносні прикметники можуть виконувати роль якісних (iron will) і навпаки.

Порядок прикметників в англійській мові. Прикметники вживаються перед іменниками (бажано не більше трьох), то для того, щоб вони звучали природно, вони повинні дотримуватися певного порядку:

1. Артикль або інший визначник (a, the, his).

2. Оцінка, думка (good, bad, terrible, nice).

3. Розмір (large, little, tiny).

4. Вік (new, young, old).

5. Форма (square, round).

6. Колір (red, yellow, green).

7. Походження (French, lunar, American, eastern, Greek).

8. Матеріал (wooden, metal, cotton, paper).

9. Призначення (sleeping).

Наприклад:

1. A silly young English man (молодий дурний англієць) — артикль, оцінка, вік, походження.

2. A huge round metal bowl (величезна кругла металева чаша) — артикль, розмір, форма, матеріал.

Якщо англійські прикметники важко віднести до якої-небудь категорії, то можна використати інший спосіб визначення порядку: прикметники, які позначають більш постійна ознака, ставляться ближче до іменника: funny little children. Прикметники в порівняльній і вищій степені завжди стоять перед рештою прикметників: one of the oldest American towns [14].

2.2.3 Правила контекстного аналізу дієслів

Дієслово — це самостійна частина мови, що позначає дію або стан предмета або особи. В англійській мові ознакою дієслова в невизначеній формі є частинка to: to sing, to draw, to exist, to stand (співати, малювати, існувати, стояти). Найчастіше саме дієслово є ключовою основою, навколо якої будується пропозицію, тому дієслова майже у всіх мовах слідують складним правилам граматики і мають велике число форм.

Структура англійських дієслів. За структурою англійські дієслова поділяються на прості, похідні, складні і складені.

Прості дієслова складаються тільки з одного кореня: walk, play, eat (йти, грати, є).

У похідних дієсловах, крім кореня, є приставка і / або суфікс: unleash, reread, replay (розв'язати, перечитати, переграти).

Складні дієслова складаються з двох основ: underline, whitewash.

Складові (фразові) дієслова складаються з дієслова і прислівника або прийменника: look out, stand up (видивлятися, витримувати). За значенням англійські дієслова поділяються на смислові та службові.

Смислові (самостійні) дієслова мають власним лексичним значенням, вони позначають певну дію або стан: I work at the zoo. (Я працюю в зоопарку).

Службові дієслова не мають самостійного значення. Вони використовуються тільки для побудови складних форм дієслова або складових присудків. У складених присудків відмінюються саме службові дієслова, тобто за їх допомогою можна виразити особу, число і час: I am going, Jim is going, people were going (Я йду, Джим йде, люди йшли).

Службові англійські дієслова:

дієслова-зв'язки, які служать для утворення складних дієслівних форм (to be, to become, to remain, to grow, to get, to turn, to look, to keep та інші);

допоміжні дієслова, які служать для побудови складеного присудка: (to be, to do, to have, to let, shall, will та інші);

модальні дієслова, які відображають ставлення мовця до даного дії: (can, may, must, ought, need та інші).

Основні форми англійського дієслова: інфінітив (to sing, to travel), минулий невизначений час (sang, travelled), прислівник минулого часу (дієприкметник друге) (sung, travelled). Іноді їх називають відповідно першої, другої і третьої формою англійського дієслова. Ці основні форми служать для побудови всіх інших дієслівних форм, простих і складних.

2.3 Існуючі методи та алгоритми рішення задачі зняття морфологічної омонімії

Актуальність проблеми визначається тим, що практично всі існуючі алгоритми зняття омонімії включаються до складу синтаксичного аналізу, що створює важковирішаюче протиріччя, коли для успішного зняття омонімії необхідні точні результати синтаксичного аналізу, для отримання яких, у свою чергу, потрібно попередньо зняти омонімію[5].

2.3.1 Алгоритм прихованої Марківської моделі

Існує широко відомий імовірнісний підхід, який є алгоритмом, заснованим на використанні прихованої Марківської моделі (Hidden Markov Model (HMM) tagging). Основна ідея алгоритму полягає в тому, щоб для кожного слова, що входить у речення, вибрати граматичний клас (тег) таким чином, щоб максимізувати функцію: P (word|tag)*P (tag|previous n tags), де P (tag | previous n tags) — умовна ймовірність (обчислена за розміченим корпусом), появи даного тега tag, за умови, що попередні n тегів вже визначені. P (word | tag) — умовна ймовірність (також обчислена за корпусом) появи в даному місці слова word, за умови, що це слово має даний граматичний клас tag. Алгоритм HMM має досить високу обчислювальну складність (реалізується класичним методом динамічного програмування Витерби, подібному використовуваному при обчисленні відстані Левенштейна) і на практиці зазвичай застосовуються різні спрощуючі припущення, спрямовані на її зниження (наприклад, використання не більш ніж трислівних послідовностей).

Точність алгоритму HMM для англійської мови складає 96%. Застосування даної моделі для російської мови може бути складним, оскільки вимагатиме розмічених корпусів дуже великого обсягу, враховуючи багатство російського словотворення і словозміни порівняно з англійською мовою[2].

багатозначність текст морфологічний омонімія

2.3.2 Метод контекстного вирішення функціональної омонімії: словникові ресурси

Спочатку метод контекстного дозволу функціональної омонімії включав кілька етапів:

1. Побудова повної класифікації типів функціональних омонімів.

2. Виділення мінімальної безлічі дозвільних контекстів для кожного типу. Мінімальність безлічі означає, що для кожного типу функціонального омоніму слід оцінити складність розпізнавання кожної частини мови, що належить даному типу. Потім необхідно побудувати безліч дозволяючих контекстів (МРК), що мають мінімальну складність розпізнавання. У алгоритмічному запису дана вимога виражається наступним правилом: якщо для функціонального омоніма Х, що має тип Т1 або Т2, застосоване правило із МРК, то тип омоніма Х визначається застосованим правилом, інакше приписується альтернативний тип.

3. Побудова керуючої структури узагальненого правила, що забезпечує максимальну точність розпізнавання.

Подальші дослідження привели до ускладнення структури методу вирішення омонімії, до перерахованих вище основних етапів додався ряд нових, що дозволяють розпізнавати і враховувати при вирішенні омонімії більш складні синтаксичні конструкції.

Розглянемо деякі основні проблеми, що ускладнюють застосування контекстного методу. Безумовно, важливим етапом є етап 1, який вимагає побудови максимально повної класифікації омонімів та уточнення граматичних характеристик омонімів різних типів.

Ускладнена структура правил методу контекстного дозволу функціональної омонімії. Для кожного типу функціональної омонімії розробляється узагальнене правило вирішення омонімії даного типу. Узагальнене правило являє собою упорядковану сукупність правил, записаних на спеціальному формальній мові. Кожне правило усередині сукупності фіксує деякий дозволяючий контекст. Структура задає порядок застосування правил, який базується на оцінці частотності контекстів.

Дане правило застосовується до підгрупи регулярних омонімів зазначеного типу, тобто омонімів, які умовно рівночастотно є іменниками або особистими формами дієслова, при цьому правило фактично спрямоване на розпізнавання типу Vf, тобто якщо знайдені відповідні дозвільні контексти, то омонім розпізнається як Vf, інакше — як N. Однак, розпізнавання омоніма як N має два дуже частотних контекстів, тому відповідні контексти включені в структуру узагальненого правила (правила 1 і 2). Для запису контекстних правил використовується формальна мова з наступною системою позначень: X — функціональний омонім; P — прийменник; Con — моделі управління (або синтаксичні конструкції), в яких омонім X однозначно дозволяється. У записі правила може бути присутнім вираз виду (Z), яке означає можливість наявності вставних конструкцій деяких спеціальних типів. Як приклад дамо пояснення до правила 1 у складі узагальненого правила 1.

Правило 1. дозволяє розпізнати омонім X як іменник (N *), якщо в лівому контексті довжиною не більше 3 слів виявлено узгоджене за родом, числом і відмінком з X прикметник (дієприкметник або займенниковий прикметник) і немає іншого узгодженого з тими ж характеристиками іменника.

Наведена структура узагальненого правила, в цілому, є прикладом простої структури. Фактично, кожне правило в структурі даного узагальненого правила встановлює наявність або відсутність в певному чисельному інтервалі слова певних частин мови. Подальший розвиток методу пов’язаний з урахуванням контекстів складної синтаксичної природи, зокрема, з аналізом однорідних груп. Виділення однорідної групи дозволяє шукати дозволяючий елемент за межами однорідної групи; тим самим, реально збільшується чисельний інтервал дозволяючого контексту. Такого роду правила аналізу омонімів у складі однорідної групи були включені до складу узагальнених правил різних типів, зокрема, для типів D / Abr (прислівник / короткий прикметник), D / Abr / Vsp (прислівник / короткий прикметник / предикатив), N * / A * (іменник — займенниковий іменник / прикметник — причастя — займенниковий прикметник). Наприклад, у реченні «Однако, разбить программу на отдельные подсистемы одним из определенных и корректных способов вполне возможно, важно и даже выгодно» присутствует однородная группа омонимов «присутня однорідна група омонімів «вполне возможно, возможно и даже выгодно «, що містить омоніми возможно, возможно, выгодно типу «прислівник / короткий прикметник / предикатив «, які за допомогою спеціального правила аналізу однорідної групи, заданого для даного типу, вирішуються як предикативи.

З іншого боку, синтаксична однорідність тягнеться до семантичної однорідності, тобто метод приписує всім членам однорідної групи одні й ті ж характеристики по частинах мови, розглядаючи члени однорідної групи як елементи однієї множини. Так у реченні «Среди них были богатые и бедные, красивые и страшные, образованные и невежды «завдяки наявності однорідної групи з парними членами «красивые и страшные «, «богатые и бедные «, «образованные и невежды «омоніми типу N * / A * багаті і бідні вирішаться як іменники, тому одним з членів пари є однозначне іменник невігласи. Такий дозвіл здійснюється на основі спеціального правила аналізу однорідної групи з парними членами, яке включено до складу узагальненої групи вказаного типу. При цьому замінимо, що в складі узагальненого правила типу N * / A * містяться також і інші правила, в тому числі і для аналізу однорідних груп іншої будови. Ще однією перешкодою методу контекстного дозволу омонімії є явище Еліпсис, яке має найважливіше значення для описуваного способу вирішення омонімії. Як уже згадувалося раніше, приписування омоніму тієї чи іншої характеристики частини мови здійснюється на основі аналізу наявності або відсутності в контексті певної довжини слів тих чи інших частин мови. Опущення цих слів у контексті служить серйозною перешкодою для здійснення синтаксичного аналізу і може істотно спотворити результати.

Тісно пов’язане з еліпсисом явище субстантивації. Наприклад, у реченні «В магазине не было черного хлеба, а лишь дорогой белый «застосування правил дозволу омонімії може приписати словоформі білий характеристики іменника. Щоб вирішити його як прикметник, правило повинно знайти узгоджене іменник хліб, яке в даному контексті еліптично опущено. Уникнути такої помилки можна, якщо не розглядати білий як потенційний субстантив. Можливо, деяким виходом із цієї ситуації - розглядати як субстантиви або слова, стійко вживаються в якості іменників (хворий, морозиво), або прикметники середнього роду, вживаються без обумовленого слова, часто як підмет або пряме доповнення ('носити біле', 'вірити в надприродне '). Однак і таке рішення не виключає помилки.

Порівняємо два речення:

1. Она не любит блеклость, даже носит только красное — субстантив.

2. Я не люблю белое вино, я пью только красное — еліпсис.

Таким чином, проблема Еліпсиса є вельми значущою для синтаксичного вирішення омонімії і вимагає пошуку нових шляхів вирішення[6].

ВИСНОВКИ

Сфера зняття морфологічної омонімії має продуктивну історію, але до цього часу залишається актуальною та активно розвивається. Періодичні конференції та незалежні дослідники працюють над вдосконаленням шляхів вирішення основних завдань цієї галузі. Наукові дослідження з приводу зняття морфологічної омоніміі перебувають у полі зору прикладної та комп’ютерної лінгвістики достатньо давно і мають багату історію, але повного вирішення проблема поки не отримала, оскільки на шляху успішного вирішення стоїть багато перешкод, безпосередньо пов’язаних з особливостями людської мови.

В цій роботі було розглянуто алгоритм прихованої Марківської моделі і контекстні правила.

Необхідно відзначити, що якість зняття морфологічної багатозначності слів залежить і від якості текстів, і від повноти словника і від набору морфологічних характеристик, якими позначаються слова.

Отже, зняття морфологічної омонімії є насправді актуальною у сфері комп’ютерної лінгвістики, оскільки її розв’язання допоможе значно покращити ефективність опрацювання природної мови, що призведе до кращого вирішення завдань у цій сфері.

СПИСОК ДЖЕРЕЛ ІНФОРМАЦІЇ

1. Белокриницкая С. С. Различные типы омонимии и способы их различения при МП // Вопросы языкознания. — 1960.

2. Бобичев В. Л., Автоматическое снятие морфологической многозначности при разметке корпуса, 2007.

3. Брик А. В. Исследование и разработка вероятностных методов син-таксического анализа текста на естественном языке, Диссертация на со-искание ученой степени кандидата технических наук, МГТУ им. Н. Э. Баумана, 2002.

4. Виноградов В. В. Об омонимии в смежных явлениях // Вопр. языкознания. — 1960. — № 5. — С. 3−17.

5. Вікіпедія: Вільна енциклопедія: http: //uk. wikipedia. org

6. Зинькина Ю. В., Пяткин Н. В., Невзорова О. А. Разрешение функциональной омонимии в русском языке на основе контекстных правил // Труды межд. конф. Диалог'2005.- М.: Наука, 2005. С. 198−202.

7. Кормалев Д. А., Приложения методов машинного обучения в задачах анализа текста, 2004.

8. Хайрова Н. В., Замарцева І.В., Машинний переклад, ОКО, 1998.

9. Сайт «Вавилонская башня» http: //starling. rinet. ru

10. http: //lingvistics_dictionary. academic. ru

11. http: //www. dialog-21. ru/digests/dialog2006/materials/html/Nevzorova. htm

12. http: //www. victoria. lviv. ua/html/sss/morpho. html

13. http: //www. osvita. org. ua

14. http: //seopult. ru/library

ПоказатьСвернуть
Заполнить форму текущей работой