Мовні технології

РефератДопомога в написанніДізнатися вартістьмоєї роботи

Мовні технології (реферат, курсова, диплом, контрольна)

Перспективи мовного интерфейса.

Писати про мовному інтерфейсі складно. З одного боку, тема абсолютно не нова, з іншогоактивний розвиток й застосування їх цієї технології тільки розпочинається (вкотре). З одного боку, встигли сформуватися стійкі стереотипи і упередження, з іншого — попри півстоліття наполегливих зусиль не знайшли дозволу питання, стояли перед родоначальниками мовного введення. Хай то не було, триватимуть пошуки такого інтерфейсу, який влаштовував б всіх. Власне, це саме те, чого людство завжди прагнуло спілкування з компьютером.

Дослідники недалеко просунулися у попередні десятки років, що змушує деяких наших фахівців вкрай скептично ставитися до саму можливість реалізації мовного інтерфейсу у майбутньому. Інші - вважають, що завдання вже практично вирішена. Втім, все залежить від цього, що можна вважати рішенням цієї задачи.

Побудова мовного інтерфейсу розпадається втричі составляющие.

I. Перше завдання у тому, щоб комп’ютер міг «зрозуміти» те, що каже людина, тобто він повинен вміти отримувати від промови людини корисну інформацію. Поки що, теперішньому етапі, це завдання зводиться до того що, щоб мати з промови значеннєву значна її частина, текст (розуміння таких складових, скажімо, інтонація, поки взагалі розглядається). Тобто це завдання зводиться для заміни клавіатури мікрофоном. II. Друге завдання у тому, щоб комп’ютер сприйняв сенс сказаного. Поки мовленнєвий повідомлення складається з якогось стандартного набору зрозумілих комп’ютера команд (скажімо, дублюючих пункти меню), нічого у реалізації нет.

Проте навряд такий підхід буде зручніше, ніж введення тих самих команд з клавіатури або за допомогою миші. Мабуть, навіть зручніше просто клацнути мишкою по іконці докладання, що чітко вимовляти (при цьому заважаючи оточуючим); «Старт! Головне меню!

Бери!" У ідеалі комп’ютер має чітко «осмислювати» природну мова чоловіки й розуміти, що, приміром, слова.

«Досить!» і «Кінчай роботу!» означають лише у ситуації різні поняття, а інший — один і той ж. III. Третє завдання у тому, щоб комп’ютер міг перетворити інформацію, з якою оперує, в мовленнєвий повідомлення, зрозуміле человеку.

Отож, з цих завдань досить ясне і остаточне рішення є тільки для третьої. Власне, синтез промови — це суто математична завдання, що у час вирішена на досить непоганому рівні. І на найближчим часом, швидше за все, буде вдосконалюватися лише його технічна реализация.

Перешкодою для своє рішення першого завдання служить те що ніхто досі до пуття не знає, як можна розчленувати нашу мова, щоб мати з її ті складові, у яких міститься сенс. У цьому звуковому потоці, який ми видаємо при розмові, не можна розрізнити ні окремих літер, ні складів, звідси докладніше я Вам розповім пізніше. Принаймні, після попередньої тренування сучасні системи розпізнавання мови працюють досить прийнятно і помиляються максимум, ніж оптичні системи розпізнавання друкованих символів років п’ять-сім назад.

Що стосується другого завдання, вона, на думку більшості фахівців, може бути вирішена без допомоги систем штучного інтелекту. Останні, як відомо, доки створено, хоча великі сподівання покладаються на поява про квантових. Якщо ж подібні устрою з’являться, це означатиме якісний переворот в обчислювальних технологіях, і тоді, хто знає, то, можливо, багато нинішні підходи до мовному інтерфейсу взагалі виявляться ненужными.

Тому, доки доля мовного інтерфейсу — лише дублювання голосом команд, які можна запроважено з клавіатури або за допомогою миші. А тут його переваги дуже сумнівні. Втім, є одна область, яка багатьом може дуже привабливою. Це мовної введення текстів в комп’ютер. Справді, ніж стукати по клавіатурі, набагато зручніше продиктувати все комп’ютера, що він записав почуте в текстовий файл. Тут зовсім не від потрібно, щоб комп’ютер «осмислював» почуте, а завдання перекладу промови до тексту більш-менш вирішена. Недарма більшість випущених нині програм «мовного інтерфейсу» орієнтовані саме у введення речи.

Хоча тут є для скепсису. Якщо читати вголос, чітко вимовляючи слова, з паузами, монотонно, як і потрібно системи розпізнавання мови, то, на машинописну сторінку в мене піде п’ять хвилин. Друкую на клавіатурі з тієї самою швидкістю. Але творю, при наявності натхнення, вдвічі-втричі повільніше, а без нього — повільніше уп’ятеро, отже швидкість «введення» і за диктуванню при роботі на клавіатурі в мене абсолютно однакова. І ось складати і водночас вимовляти сочиняемое з чіткою артикуляцією, хоч убий, ті не смогу.

Перший — і, мабуть, основний — питання стосується сфери застосування. Пошук додатків, де розпізнавання промови міг би продемонструвати усі свої принади, всупереч усталеному думці, є саме далеко ще не тривіальної. Сформована практика застосування комп’ютерів зовсім не від сприяє широке впровадження мовного интерфейса.

Для подачі команд, що з позиціонуванням в просторі, людина завжди користувався підтримкою і користуватиметься жестами, тобто системою «рукиочі». У цьому принципі побудований сучасний графічний інтерфейс. Перспектива заміни клавіатури і миші блоком розпізнавання мови абсолютно відпадає. У цьому виграш від покладання нею частини функцій управління настільки малий, який зміг надати достатніх підстав навіть пробного запровадження у масових комп’ютерах протягом ще понад тридцять років. Саме таким терміном оцінюється існування комерційно застосовних систем розпізнавання речи.

Для ілюстрації своїх аргументів можливо, кілька спірних тверджень розгляну перспективу й освоєно основні проблеми застосування систем мовного введення текстів, особливо активно нав’язуваних в останнє время.

Порівняйте: спонтанна мова вимовляється з середньої швидкістю 2,5 слів в секунду, професійна машинопис — 2 слова в секунду, непрофесійна — 0,4. Отже, здавалося б, мовної введення має значну перевагу продуктивністю. Проте оцінка середньої швидкості диктовки за умов знижується до 0,5−0,8 слова в секунду у зв’язку з необхідністю чіткого проголошення слів при мовному введення і високим відсотком помилок розпізнавання, що потребують корректировке.

Мовний інтерфейс природний в людини і відданість забезпечує додаткове зручність при наборі текстів. Але навіть професійного диктора може порадувати перспектива протягом кількох годин диктувати малопонятливому і німому (до цього ще повернуся) комп’ютера. З іншого боку, наявний досвід експлуатації подібних систем свідчить про високу ймовірність захворювання голосових зв’язок операторів, що пов’язані з неминучою при диктуванню комп’ютера монотонністю речи.

Часто радше до чеснот мовного введення тексту відносять відсутність потреби у попередньому навчанні. Проте одна із найслабших місць сучасних систем розпізнавання мовичутливість до чіткості вимовипризводить до втрати цього, начебто, очевидного переваги. Друкувати на клавіатурі оператор вчиться у середньому 1−2 місяці. Постановка правильного вимови триватиме кілька лет.

Є ще одне неприємне обмеження застосовності, свідомо не згадуване, мій погляд, творцями систем мовного введення. Оператор, взаємодіє з комп’ютером через мовної інтерфейс, змушений в звуку ізольованому окремому приміщенні або користуватися звукоізолюючим шоломом. Інакше вона заважатиме роботі своїх сусідів по офісу, які, своєю чергою, створюючи додатковий шумовий фон, будуть значно ускладнювати роботу мовного распознавателя. Отже, мовної інтерфейс входить у явне розріз із сучасною організаційної структурою підприємств, орієнтованих колективну працю. Ситуація кілька пом’якшується з недостатнім розвитком віддалених форм праці, проте ще чимало довго сама природна в людини продуктивна і потенційно масова форма користувальницького інтерфейсу приречена вузьке коло применения.

Обмеження застосовності систем розпізнавання мови у межах найпопулярніших традиційних додатків змушують дійти невтішного висновку про необхідності пошуку потенційно перспективних на впровадження мовного інтерфейсу додатків поза традиційної офісної сфери, що підтверджується комерційними успіхами вузькоспеціалізованих мовних систем. Найуспішніший сьогодні проект комерційного застосування розпізнавання мови — телефонна мережа фірми АТ&Т. Клієнт може запросити жодну з п’яти категорій послуг, використовуючи будь-які слова. Він каже до того часу, поки його висловлюванні не зустрінеться одна з п’яти ключових слів. Цю систему нині обслуговує близько мільярда дзвінків в год.

Попри те що, що з найперспективніших напрямів для упроваджень систем розпізнавання мови може бути сфера комп’ютерних ігор, вузькоспеціалізованих реабілітаційних програм для інвалідів, телефонних та інформаційних систем, провідні розробники мовного розпізнавання нарощують прагнення досягненню універсалізації і збільшення обсягів словника на шкоду скорочення процедури попередньої настройки на диктора.

Навіть Білл Гейтс, являющий собою у певному сенсі ідеал прагматизму, опинився вільний від історично сформованих стереотипів. Почавши 95−96 року із розробки власної універсальної системи розпізнавання мови, він, окрилений перші й, мабуть, сумнівними успіхами, 97-го проголосив чергову еру впровадження мовного інтерфейсу. Кошти мовного введення планується включити в стандартну поставку нової версії Windows NTсуто офісної ОС. У цьому керівник Microsoft завзято повторює фразу у тому, що можна буде забути про клавіатурі й миші. Мабуть, він планує разом із коробкою Windows NT акустичні шоломи на кшталт того, що використовують військові льотчики, і пілоти «Формули 1». З іншого боку, невже у майбутньому припиниться випуск Word, Ехсеl тощо. буд.? Управляти графічними об'єктами екрана голосом, коли буде можливостей допомогти руками, більш як затруднительно.

Майбутнє мовного інтерфейсу не меншою мірою залежить від вміння сучасних дослідників та розробників як створити технологічну основу мовного введення, а й гармонійно злити технологічні знахідки на єдину логічно завершену систему взаємодії «людина-комп'ютер». Основна робота ще й впереди.

Базова технология.

Не слід плутати терміни «розуміння» розпізнавання" промови. У нас саме другий безпосередньо належить до технології перетворення акустичних мовних сигналів в послідовність символів машинної кодування, наприклад ASCII. перший передбачає аналіз вищих рівнів (прагматичний, семантичний тощо. буд.) і формування його основі ставлення до сенсовому змісті висловлювання. Подальше розмежування заданий зміцнилося завдяки комерційному успіху вузькоспеціалізованих систем, ні з найменшої ступеня котрі мають потреби, наприклад, в модулі аналізу контексту высказывания.

Традиційно процес розпізнавання мови підрозділяється на кілька етапів. У першому — виробляється дискретизація безперервного мовного сигналу. перетвореного у електричну форму Зазвичай частота дискретизації становить 10−11 кГц. розрядність- 8 біт, що вважається оптимальним до роботи зі словниками невеликого обсягу (10- 1000 слів) й відповідає якості передачі промови телефонного каналу (ЗГц- 3.4кГц). зрозуміло що передвиборне збільшення обсягу активного словника має супроводжуватися підвищенням частоти оцифровки зв деяких випадках — підняттям разрядности.

З другого краю етапі дискретний мовної сигнал піддається очищенні від шумів і перетворюється на більш компактну форму. Стиснення виробляється у вигляді обчислення через кожні 10 мс деякого набору числових параметрів (звичайно більш 16) з мінімальними втратами інформації, яка описує даний мовної сигнал. Склад набору залежить від особливостей реалізації системи. Починаючи з 1970;х років найбільш популярним методом (практично стандартом) побудови стиснутого параметрического описи стало линейно-предиктивное кодування (ЛПК), основу якого досить досконала лінійна модель голосового тракту. З другого краю місці за популярністю перебуває, мабуть, спектральне опис, отримане з допомогою дискретного перетворення Фурье.

Дуже хороші результати, проте, можна досягти і за використанні інших методів, часто менш вимогливих до обчислювальним ресурсів, наприклад клипирования. І тут реєструється кількість змін знака амплітуди мовного сигналу і тимчасові інтервали з-поміж них. Одержуваний внаслідок послідовність значень, що становлять оцінку длительностей періодів збереження знака амплітудою, попри зовні примітивність методу, досить повно представляє різницю між вимовними звуками. Такою методі предобработки заснована, в частковості, система розпізнавання мови, розроблена наприкінці 80х в НДІ лічильного машинобудування (Москва).

Часовий (10 мс) інтервал обчислення було визначено й обгрунтований експериментально на зорі розвитку технології автоматичного розпізнавання мови. У цьому інтервалі дискретний випадковий процес, що становить оцифрований мовної сигнал вважається стаціонарним, то є такому часовому інтервалі параметри голосового тракту значно не изменяются.

Наступний етапрозпізнавання. Збережені у пам’яті комп’ютера еталони вимови почергово порівнюються з поточним ділянкою послідовності десяти миллисекундных векторів, що описують вхідний мовної сигнал. Залежно від рівня збіги вибирається найкращий варіант і формується гіпотеза — про змісті висловлювання. Тут ми зіткнулися з важливою проблемою — необхідністю нормалізації сигналу за часом. Темп промови, тривалість вимови окремих слів і звуків навіть одного диктора варіюється на вельми межах. Отже, можливі істотні розбіжності між окремими ділянками закладеного еталон і теоретично співпадаючим з нею вхідним сигналом у цих колегіях тимчасового неузгодженості. Досить ефективно вирішувати цю проблему дозволяє розроблений 70-ті роки алгоритм динамічного програмування та її різновиду (алгоритм Витерби). Особливістю таких алгоритмів є можливість динамічного стискування і розтяги сигналу по тимчасової осі у процесі перевірки еталоном. З початку 80-х дедалі ширше застосування знаходять марковские моделі, дозволяють з урахуванням багаторівневого вероятностного підходи до опису сигналу виробляти тимчасову нормалізацію та прогнозування продовжень, що прискорює процес перебору еталонів і підвищує надійність распознавания.

Що таке розпізнавання речи?

На погляд, все просто: ви вимовляєте фразу, на яку технічна система реагує адекватно. Насправді за таке просте ідеєю криються величезні сложности.

Чому ті ж між формулюванням завдання і його рішенням лежить дистанція надто велика? Розпізнавання промови — молода, розвиваючись технологія. Її обриси поки хиткими є і мінливі. Тож у статті більше питань, ніж відповідей. Я спробую трохи розповісти про технології розпізнавання мови, і, сподіваюся, вам буде интересно.

Трохи про терминах.

Почати з головного терміна. Що таке речь?

Ведучи мову про промови, ми повинні розрізняти такі поняття, як «мова», «звукова мова», «звуковий сигнал», «повідомлення», «текст».

У нашому випадку, стосовно завданню розпізнавання такі поняття, як «мова» і «звукова мова» означають один і той ж — якесь генеровану людиною звукове повідомлення, що може бути об'єктивно зареєстровано, обмірювано, збережено, оброблено І що важливо, відтворено з допомогою приладів та алгоритмів. Тобто то, можливо представленій у вигляді якогось мовного сигналу, що у своє чергу можна використовувати протилежного відтворення промови. Тобто, можна поставити знак еквівалентності між звуковий промовою і його поданням до вигляді мовного сигналу. У цьому під поняттям «повідомлення» може приховуватися будь-яка корисна для одержувача інформація, Не тільки текст. Наприклад, якщо цікавитися не словами, а інтонаціями, то повідомленням будуть просодические нюанси промови. Що й казати стосується розпізнавання мови, то нашому випадку завдання зводиться до вилучення з промови текста.

Але тут зіткнулися з одним протиріччям. Текст, як відомо, складається з літер, слів, пропозицій, — тобто він дискретний. Йдеться ж у нормальних умов звучить разом. Людська мова, в на відміну від тексту, зовсім не від складається з літер. Якщо ми запишемо на магнітофонну стрічку чи диск комп’ютера звучання кожної окремої літери, і потім спробуємо скомпонувати з цих звуків мова, ми щось получится.

Люди вже досить давно здогадалися у тому, що елементарні звуки, із яких складається мова, не еквівалентні буквах. Тому придумали поняття фонеми для позначення елементарних звуків промови. Хоча досі фахівці не можуть вирішити — скільки ж тільки різних фонем існує. Є такий поділ лінгвістики — фонетика. Більшість авторів навіть однієї й тієї ж мовного діалекту наводять різну кількість фонем. У російській мові з одних даним 43 фонеми, на інших — 64, за третіми — понад сотню… Та уже повелося, що є міф про непорушності поняття фонеми. І у тому, що мовної сигнал полягає безпосередньо зі шматочків сигналу, кожен із якого є фонемой. На жаль, все з далеко негаразд просто.

Спочатку вчені розглядали мовної сигнал як набір якихось універсалій, розташованих друг за іншому на тимчасової осі, і вважали цими универсалиями фонеми. Проте подальші дослідження мовних сигналів ніяких фонем не обнаружили.

Тоді одні дослідники справедливо вирішили, що з генерації мовних сигналів спостерігається коартикуляция, тобто взаємопроникнення сусідніх звуків (м'язи обличчя, язик, і щелепи мають різною інерцією). Отже, мовної сигнал має полягати не з фонем, та якщо з аллофонов — комбінацій «злиплих» фонем.

Інші дослідники, подібно фізикам, атакували ідею елементарності фонем і вони стверджувати, що фонеми треба поділити ще більше короткі шматочки і навіть взагалі відмовитися від надання цього поняття і «розчленовувати» мовної сигнал якось інакше. Так народилися фоноиды і ще маса авторських назв елементарних звуков.

А далі все багатозначно замовчали. Кожен взявся розглядати мовної сигнал з позиції себе, сообщай про успіхи дуже невизначено. Останнє, цілком можливо, можна пояснити бажанням зберегти ноу-хау. Ось така ситуація. Люди винайшли цілу купу претендентів на універсальність. Звісно, у тому основу належить колись всього людське відчуття звуку. Можливо тому фонеми нічим не краще літер. А фоноиды, аллофоны та інших — лише вдосконалена версія звукового розподілу промови. Можливо, у яких це і є якийсь сенс. І ми почуємо. А технически-то сигнал не з, людських компонентів сприйняття. Сигнал розкласти, відфільтрувати, ще якось перетворити. Завдання в цьому. Необхідно знайти якийсь еквівалент, побудувати модель механізму сприйняття звуків промови. Велике зацікавлення науковцям, що працюють у галузі розпізнавання промови, представляють різні розділи лінгвістики, науки же про мови. Можливо, вдалий синтез досягнень яких і теорії обробки мовних сигналів приведуть до успішному створенню систем розпізнавання .

Головні труднощі фонемного подхода.

Темп промови варіюється в межах, часто на кілька раз. У цьому різні звуки промови розтягуються чи стискуються не пропо-рционально. Наприклад, голосні змінюються значно сильніші за, ніж полугласные і особливо смычные згодні. Для про щілинних звуків є свої закономірності. (Полугласные — це звуки при генерації котрих необхідне участь голосових зв’язок, як й у гласних звуків, однак самі вони у побуті вважаються приголосними. Наприклад, так зазвичай звучать «м», «зв», «л» і «р». Смычные звуки утворюються при різкому смыкании і размыкании органів артикуляції. Наприклад «б», «л», «буд», «т». Освіта щілинних звуків пов’язані з шипінням та ін ефектами турбулентності органів артикуляції. Можна назвати «в», «ж», «з», і навіть «ш» та інші шиплячі. Для прикладу для простоти свідомо не наведено звуки, які мають буквених позначень.) Ця властивість називається тимчасової нестационарностью зразків мовного сигналу. Вимовляючи один і той ж слово чи фразу в час, під впливом різних чинників (настрої, стану здоров’я та перемоги ін.), ми генеруємо помітно не збіжні спектральнотимчасові розподілу енергії. Це справедливо навіть двічі поспіль вимовленого слова. Набагато сильніше цей ефект проявляється при порівнянні спектрограм одному й тому ж фрази, вимовленою різними людьми. Зазвичай цей ефект називають спектральною нестационарной мережею зразків мовного сигналу (див. приклади спектрограм). У Зміна темпу мови і чіткості вимови причина коартикуляционной нестаціонарність, що означає зміна взаємовпливу сусідніх звуків від зразка до зразком. Проблема кластеризації злитої промови. З безперервного мовного потоку досить непросто виділити будь-які мовні одиниці. Багато звуки «злипаються» або мають нечіткі границы.

Розмаїття видов.

Існуючі системи розпізнавання мови можна класифікувати з різних признакам.

За призначенням: 1) командні системи 2) системи диктовки текста.

По споживчим якостям: 1) диктороориентированные (тренируемые на конкретного диктора) 2) дикторонезависимые (ризикую запропонувати термін «омнивойс») 3) розпізнавальні окреме слово 4) розпізнавальні слитную речь.

По механізмам функціонування: 1) найпростіші (кореляційні) детектори 2) експертні системи з різними способом формування та обробки бази знань 3) вероятностно-сетевые моделі прийняття рішень, зокрема нейронные сети.

Досить важко обрати зручний показник якості роботи системи розпізнавання мови. Найпростіше такий показник якості вводиться для командних систем. При тестуванні у випадковому порядку промовляються всіх можливих команди досить багато раз. Підраховується кількість правильно розпізнаних команд і ділиться на загальна кількість вимовлених команд. У результаті виходить оцінка ймовірності правильного розпізнавання команди у заданої при експерименті акустичної обстановці. Для систем диктовки схожий показник якості може обчислюватись при диктуванню деякого тестового тексту. Вочевидь, що це завжди зручний показник якості. Насправді ми зіштовхуємось із найрізноманітнішими акустичними обстановками. Але як з зміною дикторів і супутньої їй тренуванням системы?

Як приклад дозвольте узяти під розгляд варіант найпростішої командної системи розпізнавання мови. Функціонування системи грунтується на гіпотезі у тому, що спектрально-временные характеристики команд-слов для окремо взятої диктора змінюються слабко. Акустична модель такої системи є перетворювач з мовного сигналів спектрально-временную матрицю і може бути типовим прикладом винахідницького підходу. У самому простому разі команда локалізується у часі по паузам в мовному сигналі. Лінгвістичний блок здатний знайти обмежену кількість команд плюс одну, що означає й інші невідомі системі слова. Зазвичай, лінгвістична модель будується як алгоритм пошуку максимуму функціоналу від вхідного зразка і зразків всього «словникового запасу» системи. Часто це звичайне двомірний коррелятор. Хоча вибір розмірності простору описи та її метрики може широко варіюватися разработчиком.

Вже виходячи з «конструкції» описаної системи зрозуміло, що вона є скоріш іграшку, ніж корисний інструмент. У час над ринком представлено безліч комерційних систем розпізнавання мови зі значно великими возможностями:

V Voice Type Dictation, Voice Pilot, ViaVoice від IBM.

V Voice Assist Creative від Techonology.

V Listen for Windows від Verbex і з другие.

Деякі їх (наприклад, ViaVoice) здатні, як заявляють розробники, вводити слитную речь.

Лінгвістичні блоки сучасних систем реалізують складну модель природної мови. Інколи вона полягає в математичному апараті прихованих ланцюгів Маркова, іноді використовує останні досягнення технології нейронних мереж або інших ноу-хау. Пристрій ж акустичних блоків подібних систем тримається суворо секреті. По деяким ознаками можна здогадатися, що акустичний блок деяких систем намагається моделювати природний слуховий аппарат.

Мовний вывод.

Мовний висновок інформації з комп’ютерапроблема щонайменше важлива, ніж мовної введення. Це друга частина мовного інтерфейсу, без якої розмову з комп’ютером неспроможна відбутися. Я маю у вигляді прочитання вголос текстовій інформації, а чи не програвання заздалегідь записаних звукових файлів. Тобто видачу в мовної формі заздалегідь не відомої информации.

Фактично, завдяки синтезу розмови з тексту відкривається ще один канал передачі від комп’ютера до людини, аналогічний тому, який ми маємо завдяки монітора. Звісно, дуже складно було б передати малюнок голосом. І ось почути електронної пошти чи результат пошуку базі даних часом було б досить зручно, особливо якщо у цей час погляд зайнятий чимось іншим. Наприклад, прийшовши вранці працювати до офісу, ви міг би поправляти краватці дзеркала чи повертати цього разу місце зачіску (то, можливо, навіть підфарбовувати нігті) тоді як комп’ютер читатиме вголос останні звістки чи пошту. Або. наприклад, у середині робочого дня може залучити вашу увагу повідомленням, що наближається час заздалегідь призначеної ділової встречи.

З погляду користувача, найбільш розумне розв’язання проблеми синтезу промови — це включення мовних функцій (у найближчій перспективі - багатомовних, з можливостями перекладу) у складі ОС. Комп’ютери будуть озвучувати навігацію по меню, читати (дублювати голосом) екранні повідомлення, каталоги файлів, тощо. буд. Важливе зауваженням користувач повинен мати достатні спроби з їх настроюванні голоси комп’ютера, зокрема, за бажання, зуміти вимкнути голос совсем.

Вищезазначені функції і він було б не зайвими особам, мають проблеми з зором. Всім інших вони матимуть нове вимір зручності користування комп’ютером і знизять навантаження на нервову систему і зір. На погляд, нині різноманітні стоїть питання, потрібні синтезатори промови в персональні комп’ютери чи немає. Питання — у іншому — що вони буде встановлено кожному комп’ютері. Залишилося чекати, то, можливо, рік чи два.

Методи синтезу речи.

Тепер, після оптимістичного описи найближчого майбутнього звернімося власне до технології синтезу промови. Розглянемо який-небудь хоча б мінімально осмислений текст, наприклад, цю статтю. Текст складається з слів, розділених прогалинами і знаками препинания. Проголошення слів залежить від своїх розташування в пропозиції, а інтонація фрази — від знаків препинания. Понад те, досить часто від типу застосовуваної граматичної конструкції: в деяких випадках при проголошенні тексту чується явна пауза, хоча й неабиякіабо розділові знаки відсутні. Нарешті, проголошення залежить від сенсу слова! Порівняйте, наприклад, вибір однієї з варіантів за «мок» чи «замо «до» на одне й того слова «замок».

Узагальнена функціональна система синтеза.

Структура ідеалізованою системи автоматичного синтезу промови то, можливо представлена блоксхемою, зображеною на рис. 1.

Введення текста.

Блоки лінгвістичної Определение.

Исправление.

Обробки мови тексту ошибок.

Підготовка тексту вхідного тексту до озвучиванию.

Нормалізація текста.

Лінгвістичний анализ.

Формування Фонемного транскриптор

Просодических Приведення фонем характеристик до одиницям синтеза.

Озвучування Формування керуючої информации.

Одержання звукового сигнала Звук.

Вона не описує жодної з існуючих реально систем, але містить компоненти, які можна знайти у багатьох системах.

Модуль лінгвістичної обработки.

Насамперед, текст, підлягає прочитанню, вступає у модуль лінгвістичної обробки. У ньому виробляється визначення мови, а також відфільтровуються які підлягають проголошенню символи. У окремих випадках використовуються спелчекеры (модулі виправлення орфографічних і пунктуаційних помилок). Потім відбувається нормалізація тексту, тобто здійснюється поділ введеного тексту на свої слова й інші послідовності символов. Все знаки пунктуації дуже информативны.

Для озвучування цифр розробляються спеціальні подблоки. Перетворення цифр в послідовності слів є щодо легкої завданням, але цифри мають різне значення і функцію, промовляються по-разному.

Лінгвістичний анализ.

Після процедури нормалізації кожному слову тексту необхідно приписати інформацію про його вимові, тобто перетворити на ланцюжок фонем чи, інакше кажучи, створити його фонемную транскрипцію. Багато мовами, зокрема й у російському, існують досить регулярні правила читання — правила відповідності між літерами і фонемами (звуками), які, проте можуть вимагати попередньої розстановки словесних наголосів. У англійській правила читання дуже нерегулярні, і завдання цього блоку для англійського синтезу цим ускладнюється. У кожному разі за визначенні вимови імен власних, запозичень, новослів скорочень і абревіатур виникають серйозні проблеми. Просто зберігати транскрипцію всім слів мови неможливо через великий обсяг словника і контекстных зміні вимови однієї й тієї ж слова у фразе.

З іншого боку, слід коректно розглядати випадки графічної омонімії: сама й той самий послідовність буквених символів у різних контекстах часом представляє два різних слова/словоформы і читається порізного (порівн. вище наведений приклад слова «замок»). Часто вдається покінчити з проблемою неоднозначності що така шляхом грамматического аналізу, проте іноді допомагає лише використання ширшим семантичної информации.

Для мов за досить регулярними правилами читання однією з продуктивних підходів до переведення слів в фонеми є система контекстных правил, переводить кожну букву/буква — поєднання для ту або ту фонему, тобто автоматичний фонемного транскриптор. Проте що більше у мові винятків з правил читання, гірше працює цей метод. Стандартний спосіб поліпшення вимови системи полягає у занесенні тисяч найбільш уживаних винятків в словник. Альтернативне підходу «слово — буква-фонема» рішення передбачає морфемный аналіз слова переведення у фонеми морфів (тобто значущих частин слова: приставок, коренів, суфіксів і закінчень). Проте у з різними прикордонними явищами на стиках морфів розкладання для цієї елементи є значні труднощі. У той самий час для мов за багатою морфологією, наприклад, для російського. словник морфів було б компактніші. Морфемный аналіз зручний ще й тому, що з його допомогою ми можна визначати приналежність слів до частинам промови, що дуже важливо задля грамматического аналізу тексту і завдання його просодических характеристик. У англійських системах синтезу морфемный аналіз реалізували у системі MiTalk, на яку відсоток помилок транскриптора становить 5%.

Особливою проблемою для цього етапу обробки тексту утворюють імена собственные.

Формування просодических характеристик.

До просодическим характеристикам висловлювання ставляться його тональні, акцентные і ритмічні характеристики. Їх фізичними аналогами є частота основного тону, енергія і тривалість. Отже, не від системи синтезу можна очікувати приблизно тієї самої, то є, що вона зможе розуміти наявний в неї на вході текст, використовуючи методи штучного інтелекту. Однак це рівень розвитку комп’ютерної технології ще досягнуть, більшість сучасних систем автоматичного синтезу намагаються коректно синтезувати промову з емоційно нейтральній інтонацією. Тим більше що, навіть це завдання нині видається дуже складної .

Методи озвучивания.

Тепер скажу кілька слів про найпоширеніших методах озвучування, тобто про методи отримання, керуючої параметрами створюваного звукового сигналу, й засоби формування самого звукового сигнала.

Щонайширша поділ стратегій, застосовуваних при озвучуванні промови, — цей поділ на підходи, спрямованих на побудова діючої моделі рече-производящей системи людини, і, де поставлено завдання змоделювати акустичний сигнал як такої. Перший підхід відомий під назвою артикуляторного синтезу. Другий підхід представляється нині простішим, й тому він набагато краще вивчене і практично більш успішний. Усередині нього виділяється два основні напрями — формантный синтез за правилами й компілятивний синтез.

Формантные синтезатори використовують що збуджує сигнал, який проходить через цифровий фільтр, побудований на кількох резонансах, подібних до резонансы голосового тракту. Поділ збудливого сигналу і передавальної функції голосового тракту лежить в основі класичної акустичної теорії речеобразования.

Компілятивний синтез здійснюється шляхом склейками потрібних одиниць компіляції з наявного інвентарю. У цьому принципі побудовано безліч систем, використовують різні типи одиниць й різні методи складання інвентарю. У цих системах необхідно застосовувати обробку сигналу доведення частоти основного тону, енергії і тривалості одиниць до тих, що ними характеризуватися синтезируемая мова. З іншого боку, потрібно, щоб алгоритм обробки сигналу згладжував розриви в формантией (і спектральною загалом) структурі межах сегментів. У системах компілятивного синтезу застосовуються дві різні типу алгоритмів обробки сигналу: LP (сокр. анг. Linear Prediction — лінійне пророцтво) і PSQLA (сокр. анг. Pitch Synchronous Overlap and Add). LP-синтез заснований значною мірою на акустичної теорії речеобразования, на відміну PSOLAсинтезу, котрий діє шляхом простого розбивки звуковий хвилі, складової одиницю компіляції, на тимчасові вікна та його перетворення. Алгоритми PSOLA дозволяють домагатися хорошого збереження природності звучання при модифікації вихідної звуковий волны.

Найпоширеніші системи синтезу (іноземні языки).

Найпоширенішими системами синтезу промови сьогодні, очевидно, є системи, що їх в комплекті зі звуковими платами. Якщо ваша комп’ютер оснащений якійсь із них, існує значна можливість, що вона установлено систему синтезу промови — на жаль, не російської, а англійської промови, точніше, її американського варіанта. До більшості оригінальних звукових плат Sound Blaster додається система Creative TextAssist, а разом із звуковими картами інших виробників часто поставляється програма Monologue компанії FirsfByte.

TexAssist є реалізацію формантного синтезатора за правилами й виходить з системі DECTalk, розробленої корпорацією Digital Equipment з участю відомого американського фонетиста Дениса Клатта (на жаль, рано пішов із життя). DECTalk досі пір залишається свого роду стандартом якості для синтезу промови американського варіанта англійського. Компанія Creative Technologies пропонує розробникам використовувати TextAssist у программах.

Підтримувані операційні системи — MS Windows і Windows 95; для Windows NT існує версія системи DECTalk. спочатку створюваної для Digital Unix. Нову версію TextAsslst, оголошена фірмою Associative Computing, Inc. і розроблена з допомогою технологій DECtalll і Creative, в той час багатомовної системою синтезу, підтримуючи англійський, німецький, іспанську та французьку мови. Це забезпечується передусім використанням відповідних лінгвістичних модулів. розробник якихфірма Lemout & Hausple Speech Produсts визнаний пріоритет у підтримці багатомовних мовних технологій. У новій версії буде вмонтований редактор словника, і навіть спеціалізоване пристрій TextReader з кнопковим управлінням роботою синтезатора у різних режиму), читання текста.

Програма Monologue, призначена для озвучування тексту, що у буфері обміну MS Windows, використовує систему ProVoice. ProVoiceкомпілятивний синтезатор з допомогою оптимального вибору режиму компресії мови і збереження прикордонних ділянок між звуками, різновид TD-PSOLA. Розрахований на американський та британський англійський, німецький, французький, латиноамериканську різновид іспанського і італійську мови. Інвентар сегментів компіляції - змішаної розмірності: сегментифонеми чи аллофоны. Компанія FirstByte позиціонує систему ProVoice й програмні продукти, засновані у ньому, як докладання з низьким потреба співом процесорного часу. FirstByte також пропонує розраховану на потужні комп’ютери систему артикуляторного синтезу PrimoVox для використання їх у додатках телефонії. Для розробників: Monologue Win32 підтримує специфікацію MicrosoftSAPI.

Синтезатор російської речи.

Як приклад розглянемо розробку «Він Говорить миша» клубу голосових технологій наукового парку МГУ.

У основі мовного синтезу лежить ідея суміщення методів конкатенації і синтезу за правилами. Метод конкатенації за адекватного наборі базових елементів компіляції забезпечує якісне відтворення спектральних характеристик мовного сигналу, а набір правил — можливість формування природного інтонаційнопросодического оформлення висловлювань. Є й інші методи синтезу, то, можливо, у найближчій перспективі гнучкіші, які подають поки менш природне озвучування тексту. Це насамперед параметричний (формантный «» синтез розмови з правилам чи основі компіляції, створюваний для низки меншинних мов зарубіжними дослідниками. Проте задля цього методу необхідні статистично представницькі акустика-фонетические бази даних, і відповідна комп’ютерна технологія, які поки що доступні не всем.

Інструментарій синтезу російської речи.

Згадуваний вище інструментарій синтезу російської мови по тексту дозволяє читати спух змішані російсько-англійські тексти. Інструментарій є набір динамічних бібліотек (DLL), до якого входять модулі російського народу та англійського синтезу, словник наголосів російської, модуль правил проголошення англійських слів. На вхід інструментарію подається слово чи речення, підлягає проголошенню, із виходу надходить звуковий файл в форматі WAV чи VOX, записываемый на згадку про чи жорсткий диск.

Що дальше?

А далі… З одного боку, потрібно забувати, що — ця все-таки один із проявів вищої нервової діяльності, і тому навряд пі у найближчі кілька років слід очікувати появи систем розпізнавання мови за паливною ефективністю і зручності порівнянні з секретарем-друкаркою, друкуючої «за словами». З іншого боку, у світі технологій усе нас дуже швидко, і звістка, що складніше: розчути невимушено сказану фразу чи розіграти гарний эндшпиль…

Гадаю нічого очікувати таємницею, що кожен що у цієї аудиторії людина якщо вона хвора машиною, коли він фанатик врятли сприймає її як неживий предмет, як меблі. В купку заліза під таємничим назвою комп’ютер ми вкладаємо душу, вкладаємо себе у вигляді безперервного спілкування у сенсі цього терміну. Я особисто неодноразово помічала за собою безсознательные речі: набиваючи текст, становлячи програму, инсталируя докладання я регулярно кидаю комп’ютера невтішні відгуки неї же. Типа: Чого ще хочеш Захлопнись, чи І кретин ж ти. Наївно положиста що коли нибудь вона усе ж почує і репліку: «Яка ж ти бовдур» ласкаво вимовить харчування комп’ютера відключено, втрата всіх не збережених даних. Саме по-цьому темою свого реферату я вибрала близьку мені: Мовні технології .Хоча назвала її більш лірично: Дізнайся мене голосом. У своєму виступі хотіла б висвітлити як проблеми і перспективи розвитку мовного інтерфейсу, але з розводитися про те чи потрібен він загалом і ох як не скоро окуплять надії втрати часу й денег.

Показати весь текст

Заповнити форму поточною роботою