Термінова допомога студентам
Дипломи, курсові, реферати, контрольні...

Основні складові компоненти систем машинного перекладу

РефератДопомога в написанніДізнатися вартістьмоєї роботи

Однією з головних особливостей сучасної технічної діяльності є системний підхід до об'єктів дослідження і проектування. В термін «система» вкладаються різні поняття, але у всіх випадках система являє собою підмножину взаємопов'язаних елементів, виділених з множини елементів будь-якої природи у відповідності з вимогами вирішуваної задачі. Система являє собою певну цілісність, що складається… Читати ще >

Основні складові компоненти систем машинного перекладу (реферат, курсова, диплом, контрольна)

Однією з головних особливостей сучасної технічної діяльності є системний підхід до об'єктів дослідження і проектування. В термін «система» вкладаються різні поняття, але у всіх випадках система являє собою підмножину взаємопов'язаних елементів, виділених з множини елементів будь-якої природи у відповідності з вимогами вирішуваної задачі. Система являє собою певну цілісність, що складається з взаємозалежних частин, кожна з яких робить свій внесок в характеристику цілого.

З функціональної точки зору будь-яке програмне середовище обробки текстів природною мовою (в тому числі і система МП) включає в себе:

  • — програмно-математичне забезпечення системи;
  • — лінгвістичне забезпечення системи;
  • — інформаційне забезпечення системи;
  • — технічне забезпечення системи;
  • — кадрове забезпечення системи.

Всі ці складові в комплексі забезпечують роботу системи. При відсутності якого-небудь компонента функціонування системи неможливе, при цьому різні види забезпечення системи повинні бути узгоджені один з одним. Тому представники різних наукових дисциплін повинні спільно обирати і розробляти як будову усієї системи, так і окремих її частин. Наприклад, математики і лінгвісти повинні спільно обрати тип граматики, встановити допустимий вид граматичних правил і т. ін. Після того, як рамки встановлені, заповнення цих рамок, тобто конкретні розробки в кожній галузі, можуть вестися представниками кожної спеціальності самостійно. «Якість розробки лінгвістичного забезпечення залежить значною мірою (якщо не повністю) від професіоналізму лінгвістів».

Під програмно-математичним забезпеченням (ПМЗ) розуміють комплекс програм і алгоритмів, які дозволяють автоматизувати деякий процес.

Лінгвістичне забезпечення системи включає дані про граматику (тобто морфологічну, синтаксичну і семантичну інформацію) вхідної і вихідної мови та набір алгоритмів обробки цих даних, що називається лінгвістичним процесором. Дані про мову подаються у вигляді спеціально організованих словників. Словарна стаття містить інформацію, подану машинними кодами. Навчитися визначати, яка інформація використовується в процесі перекладу, які мовні рівні інформативні для перекладу (наприклад, для російської мови інформативність явно починається з морфологічного рівня мови, а для китайської - з лексичного), ці задачі стоять перед лінгвістами-перекладачами.

Інформаційне забезпечення системи включає словники предметної області і програми для їхньої обробки. Для систем МП в якості інформаційного забезпечення виступають перекладні електронні словники. Ці словники подібні до перекладних книжкових словників і місять слово вихідного тексту і його перекладні еквіваленти. В залежності від ідеології, закладеної в розробку системи МП можуть використовувати одночасно від одного до декількох перекладних словників. Словарну повноту системи МП важко визначити на основі яких-небудь ознак, окрім кількісних. В експериментальних системах МП використовуються словники від 60 до 10 тис. слів, в практично діючих системах МП — обсяг словників досить істотно розрізняється: так, в словнику МП Плай 4.02 — 360 тис. слів, Socrat 4.1 (Personal Edition) — 115 тис., L-Master — 540 тис. і т.д.

Вважається, що для практичного перекладу текстів з певної тематики (наприклад, з радіоелектроніки або мікробіології) достатньо словника в 10−12 тис. слів.

Технічне забезпечення включає технічні засоби (в теперішній час це ПЕОМ), на яких реалізована система. Технічні характеристики системи обов’язково повинні вказуватися у супровідній документації. Технічні характеристики містять наступну інформацію:

  • · тип ПЕОМ, на якій працює дана система (як правило, вказується клас процесора);
  • · вимоги до обсягу оперативної пам’яті;
  • · вимоги до наявності вільного обсягу дискової пам’яті.

За даними корпорації Microsoft для роботи зі стандартними засобами перекладу в Word 2002 необхідний процесор Pentium 166, 128 Мб оперативної пам’яті, 150 Мб вільного місця на жорсткому диску, для стабільної роботи бажано також використовувати ОС Windows XP. Програма є досить ресурсоємною; більш вимоглива до обсягу оперативної пам’яті, ніж до потужності процесора.

Кадрове забезпечення системи на етапі її функціонування включає людей, котрі експлуатують дану систему. Більшість систем машинного перекладу орієнтовані не на кінцевого користувача (спеціаліста в певній області, який не володіє вихідною мовою), а на користувача-перекладача, тобто такі системи МП є засобом інтенсифікації праці перекладача. В цьому контексті стандартні засоби перекладу Word 2002 є виключенням; система позиціонується корпорацією Microsoft як інструмент для бізнес-користувача, сервісні можливості якого, хоч і поступаються спеціалізованим програмним продуктам (системам МП, програмам розпізнавання мови, OCR-системам), є достатніми для ведення ефективного електронного документообігу.

З точки зору розробника, система поділяється на три основні компоненти:

  • · інтерфейс користувача;
  • · підсистема обробки мовної інформації (тобто лінгвістичний процесор);
  • · підсистема ведення електронних словників (тобто інформаційне забезпечення системи).

Для кінцевого споживача програмного продукту інтерфейс користувача має особливе значення: вдало продуманий інтерфейс здатен забезпечити програмі популярність і комерційний успіх, його непродуманість — завадити пакету зайняти гідне місце на ринку програмного забезпечення (навіть при наявності видатних функціональних можливостей).

Інтерфейс користувача — це програмний комплекс, що вирішує завдання взаємодії (діалогу) користувача і системи. Інтерфейс користувача включає сервісні програми, котрі дозволяють:

  • · мати доступ до текстових вхідних файлів (тобто до текстів, які необхідно перекласти);
  • · встановлювати режими перекладу (пакетний або діалоговий);
  • · встановлювати мовні пари (з якої на яку мову перекладати, якщо система має декілька напрямків перекладу);
  • · використовувати вбудовані редактори (тобто редагувати вихідний текст не виходячи з системи МП);
  • · мати засоби поповнення словників (тобто система меню, що дозволяє поповнювати електронний словник новими словниковими статтями);
  • · видаляти непотрібні користувачеві словникові статті і вносити зміни в старі словникові статті при необхідності);
  • · мати доступ до режиму друку на принтері вхідного та вихідного текстів.

З усіх перелічених функцій особливе значення має редагування тексту, безпосередньо в системі МП. Відомо, що жодна з існуючих на даний момент програм-перекладачів не може перекладати текст безпомилково. Вихідний текст практично завжди потребує редагування. В той же використання вбудованого в систему МП редактора потребує певного часу на оволодіння навичками роботи з ним, що дещо знижує продуктивність праці користувача, саме тому більшість існуючих систем МП передбачають функцію інтеграції з текстовим процесором Microsoft Word: ця програма стала стандартом де-факто для підготовки текстів і практично кожний користувач ПК має певні навички у роботі з нею, отже для більшості користувачів простіше здійснювати переклад безпосередньо в Word, використовуючи зручний і зрозумілий інтерфейс цієї програми. Інтеграція систем МП і Word відбувається шляхом додавання в Word нових інтерфейсних елементів (меню та панелей інструментів), склад і призначення яких відрізняються в залежності від конкретної системи МП.

Показати весь текст
Заповнити форму поточною роботою