Реферат: Дослідники автоматичного перекладу В Інгве Д М Йейтс М Мастерман
Название: Дослідники автоматичного перекладу В Інгве Д М Йейтс М Мастерман Раздел: Топики по английскому языку Тип: реферат | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Національний університет “Києво-Могилянська Академія”
Реферат на тему: “ Дослідники автоматичного перекладу В.Інгве, Д.М.Йейтс, М.Мастерман, Є. фон Глазерсфельд : їх праці та внесок в розвиток автоматичного перекладу ” Виконаластудентка ДКТ-5 Фіялка Світлана
Київ-1999Зміст: Обчислювальні машини і переклад. В.Інгве______________________ 3 Модель синтаксичної структури російської фрази та алгоритм синтезу англійської при автоматичному перекладі. Д.М.Йєйтс.____________ 7 “Мультістор” – система кореляційного аналізу для англійської мови. Е. фон Глаузерсфельд________________________________________________ 12 Полуавтоматичний переклад з англійської на французьку мови: система “Людина – машинний тезаурус”. М.Мастерман__________________ 17 Обчислювальні машини і переклад. В.Інгве Німецікий дослідник автоматичного перекладу Віктор Інгве вважав, що для подолання труднощів при перекладі треба ретельно вивчати морфологію та синтаксис відповідних мов, а також розробляти повний перелік елементарних одиниць кожної мови. Опис мови повинен бути статичним, а програма для обчислювальної машини – динамічною. Тому В.Інгве пропонував, щоб дані про мовні факти вводилися в машину у вигляді переліків або таблиць – окремо від програми, що орієнтована на обробку цих даних. Такий розподіл є вдалим тому, що вже існують створені лінгвістами описи різних мов. В своїй роботі по генерації англійських речень, він використовував традиційні методи опису мови. Зокрема для описів синтаксису була застосована модель безпосередньо складових (речення послідовно ділиться на все менші частини: спочатку виділяється група підмета та присудка, кожна з яких, в свою чергу, складається з двох або більше частин; ділення продовжується поки не дійдемо до слів або морфем). В даній роботі опис мови подається в чотирьох таблицях і орієнтований на породження англійських фраз за допомогою універсальної обчислювальної машини. Машина породжує фразу, рухаючись від вузла до вузла. На кожному кроці є робочий вузол, який визначає наступний крок. Якщо робочий вузол зображений у вигляді кола, то це означає наявність декількох рівноправних альтернатив, і машина робить вибір за допомогою таблиці випадкових чисел. Якщо робочий вузол зображений у вигляді ромба, то наступний крок визначається однозначно. Якщо робочий вузол поданий у вигляді квадрату, то за наступний робочий вузол вибирається вузол, що розташований зліва під ним, а той, що справа – запам’ятовується. Якщо робочий вузол – трикутник, то принцип дії той же, що і з квадратом, але вузол, що запам’ятовується, використовується в більш пізніх перетвореннях. Кожне слово в прямокутнику – це слово фрази; після розміщення цього слова у тексті вибирається новий робочий вузол. Багато фраз, які породжуються цією програмою безглузді, оскільки дана програма породжує тільки граматично, а не семантично правильні фрази. Проте вона є зручним засобом для перевірки точності лінгвістичного опису мови. Якщо деякі породжені фрази – граматично невірні, таблиці можна змінювати та виправляти. Якби ця програма була пристосована для перекладу, то вибір слів залежав би від перекладного тексту. За допомогою цієї програми можна отримувати фрази будь-якої довжини. Це можливо тому, що вибір вузла може здійснюватися рекурсивно. Починаючи породжувати яку-небудь двучленну конструкцію, програма повинна запам’ятовувати один вузол, для того щоб після породження першого члена конструкції, породити також і друкий. При цьому можуть бути отримані фрази великої довжини, і виникають значні вимоги до оперативної пам’яті комп’ютера. Існують дві структури породження запам’ятованих вузлів. При регресивній структурі машина іде вниз по дереву, розгортаючи вузли, наприклад 1, 2, 3, 4 і запам’ятовуючи певну кількість вузлів; потім вона повинна повернутися, щоб розгорнути запам’ятовані вузли. Глибина регресивної структури дорівнює кількості запам’ятованих вузлів. При прогресивній структурі машина іде вниз по дереву, не повертаючись назад і записуючи на кожному кроці в оперативну пам’ять лише один вузол. Машина обробляє вузол на основній гілці дерева, потім приймається за запам’ятований вузол, а потім знову повертається до основної гілки. Отже, зростання глибини регресивної структури призводить до необхідності використання більшого об’єму пам’яті, тоді як прогресивна структура може мати довільний розмір і не вимагати при цьому збільшення об’єму пам’яті. Існує два рішення щодо подолання проблеми нестачі оперативної пам’яті. Перше – оснастити програму відповідним сигналізатором, який буде повідомляти про заповнення оперативної пам’яті. В цей час повинен бути обмежений вибір наступного вузла таким чином, щоб вузли, які треба запам’ятовувати, не з’являлися до тих пір, поки не звільниться пам’ять. Інша можливість – зробити граматику таким чином, щоб вона могла породжувати прогресивні структури довільного розміру, а регресивні структури – певної довжини. Проте такі обмеження незручні, оскільки можуть дуже ускладнити граматику. Для визначення правильного рішення були ще раз ретельно розглянуті конструкції англійської мови, і був зроблений висновок, що багато властивостей мови спрямовані на те, щоб обмежити глибину фраз приблизно до 7. З цього В.Інгве висунув гіпотезу, що всі мови мають морфологічні та синтаксичні механізми, що служать для обмеження глибини синтаксичних конструкцій. Крім того, психологами встановлено, що об’єм оперативної пам’яті людини також дорівнює 7 одиниць. Людина не може запам’ятати відразу, а потім відтворити більше 7 випадкових цифр або слів. Одним з способів обмеження глибини конструкцій в англійській мові є бінарний поділ речення. Наприклад, речення поділяється на групу підмета і групу присудка, а вже група присудка на дієслово та, наприклад, додаток. Якщо поділити речення відразу на три частини, то потрібно запам’ятовувати не один, а два вузли. Взагалі лінгвісти відмічають, що мова надає перевагу бінарним конструкціям. Іншим способом обмеження глибини конструкцій, що більш властивий аглютинативним мовам, є аффіксація, за допомогою якої можна поєднати різні елементи в одне довге слово. Разом з засобами обмеження глибини конструкцій англійська мова має механізми, що дозволяють зберігати виразність, не дивлячись на жорстке обмеження глибини. Таким механізмом є, наприклад, перестановка членів речення. Крім того для надання виразності, речення будуються так, щоб складну структуру перенести на кінець, де вона буде потребувати запам’ятовування на один вузол менше. Це пояснює, чому означальні підрядні речення ідуть за своїми іменниками. Приклад породження фрази. 1. START -> 103 (Simple sentense) 2. 103 ->13 (зап. 1) 3. 13 -> HE 4. 1 -> 104 5. 104 ->206 (зап. 2) 6. 206 -> IS 7. 2 -> 108 8. 108 -> 20 (зап. 3) 9. 20 ->BLACK 10. 3 -> 109 11. 109 -> 204 (зап. 210) 12. 204 -> , 13. 210 -> 108 14. 108 -> 20 (зап. 3) 15. 20 -> SHINY 16. 3 -> 110 17. 110 -> 209 (зап. 20) 18. 209 -> AND 19. 20 -> PROUD Модель синтаксичної структури російської фрази та алгоритм синтезу англійської при автоматичному перекладі. Д.М.Йєйтс. В роботі англійської дослідниці автоматичного перекладу Д.М.Йєйтс пропонується спосіб запису граматичних відомостей про російську фразу, що отримані за допомогою аналізуючого алгоритму. Цей запис побудований таким чином, що алгоритм синтеза англійської фрази може безпосередньо використовувати ці дані. Модель повинна була забезпечувати представлення в машині будь-якої синтаксичної структури, і це представлення, наскільки можливо, не повинно було залежати від особливостей обох мов. Наприклад, словосполучення не спросил в машині представлялось: “спрос- = ask, отрицательная форма, прошедшее время”. Подібні множини були названі системами. Синтаксична структура представлялась за допомогою дерева безпосередньо складових з такими особливостями, як наприклад: 1. Деякі слова тексту, наприклад частки та допоміжні дієслова, взагалі не представлялися в синтаксичній структурі. 2. Деякі слова могли бути представлені двічі, наприклад слово который, яке має одночасно зв’язувати підрядне речення з головним та входити в структуру підрядного речення. Особливості реалізації моделі. Синтаксична структура словосполучень представляється в машині за допомогою спискової структури , тобто набору об’єктів, кожний з яких або містить адреси одного або декількох інших елементів, або має відмітку про те, що він термінальний. Термінальні об’єкти – це слова або ідіоматичні вирази, нетермінальні – словосполучення, або складові. Наприклад, словосполучення самое интересное семинарское занятие має чотири термінальних елементи та два нетермінальні, які зв’язані таким чином: ГП – група прикметника, ГІ – група іменника. Кожному елементу приписується тип складової (група іменника, дієслова), а кожній адресі – синтаксична функція, яку виконує ця менша група в більшій. О – препозитивне означення (в групі іменника), Гс – головне слово (в групі іменника), ПрОП – визначник прикметника, П – прикметник (в групі прикметника). При відповідному елементі міститься також набір граматичних характеристик, в цьому прикладі – число, рід, та відмінок головного іменника. Існуючий алгоритм синтезу зберігає порядок слів та пунктуацію вхідної російської фрази, окрім особливих випадків, коли є спеціальні потреби для їх зміни. Ця обставина відображається в моделі таким чином: адреси підрядних складових зберігаються при кожному елементі в тому порядку, в якому стоять самі ці складові, і кожний елемент містить вказівки про всі знаки пунктуації, які його оточують. Перелік всіх типів складових та синтаксичні функції їх складових, необхідних для опису фраз.
Крім того, кожному типу складових ставиться певна граматична характеристика. Наприклад, вказівки про тип (розповідне, питальне, окличне), чи є воно особовим чи ні. Якщо речення особове, йому треба приписати вказівки про число та особу. Всі ці вказівки приписуються до нетермінального елементу. Приклад синтаксичної структури. Алгоритм синтезу. Задачі програм обробки складових. Задачей алгоритму синтеза є перетворення синтаксичної структури описаного вище типу в ланцюг літер, що представляють собою відповідну англійську фразу. При виборі англійського еквіваленту використовуються лише синтаксичні та граматичні характеристики, і не використовуються жодні семантичні відомості або лексичні характеристики. Зручно мати окремі програми для обробки складових кожного типу. Наприклад, програма обробки складових для групи іменника викликається лише тоді, коли повинна бути оброблена група іменника. Всі ПОС (програми обробки складових) повинні бути написані як рекурсивні програми, оскільки одна складова може міститися в іншій, і кожній ПОС необхідно вміти викликати інші ПОС. Зміна порядку слів здійснюється за допомогою зміни порядку адрес у відповідному елементі. Вибір англійського еквіваленту російського слова і надання йому потрібної форми здійснюється в останній момент, коли є вся інформація, необхідна для даної ПОС. Приклади ПОС. 1. ПОС для групи іменника. Перед групою іменника вставляється англійський прийменник, який визначається відмінком і вказівкою про синтаксичну функцію групи, наприклад, перед групою іменника вставляється прийменник of в тому випадку, коли вона має вказівку про родовий відмінок і є неузгодженим означенням в групі іменника. Узгоджені означення, які містять слова, залежні від прикметника або дієприкметника, і стоять після них, розміщуються в кінці групи, при цьому ставляться відповідні коми. Результат аналізу:
Результат синтезу: primary signs of speech signals, chosen by system, 2. ПОС для групи дієслова. В групу особового дієслова вставляються допоміжні дієслова і заперечна частка not, коли це необхідно. Результат аналізу: Результат синтезу: Ця група дієслова має такі граматичні характеристики: 3-я особа, множина, теперішній час, пасив. Тому ПОС для групи дієслова вставляє are і передає управління ПОС для прикметника. Ця ПОС видасть англійський прикметник з суфіксом –ly. Пропонуєма модель синтаксичної структури і описаний алгоритм є задовільними. Вони мають ту перевагу, що переклад може здійснюватись і при неповному алгоритмі. “Мультістор” – система кореляційного аналізу для англійської мови. Е. фон Глаузерсфельд Дана робота італійського дослідника Е. фон Глаузерсфельд виконана в рамках так званого кореляційного підходу до автоматичного перекладу, який розроблявся з кінця 50-х років під керівництвом Сільвіо Чеккато в Міланському університеті. Специфіку цього підходу складає його семантичне спрямування: при автоматичному перекладі необхідно з самого початку добувати з тексту і фіксувати певним чином його смисл, який потім повинен виражатися засобами вихідної мови. В якості основного засобу зображення смислових зв’язків між словами пропонується кореляція, або зв’язок. Кореляційний синтаксис відрізняється від традиційного головним чином тим, що вся увага в ньому зосереджується на окремих словах, а не на класах слів. В кореляційному синтаксисі слову приписується набір індексів, кожний з яких відображає здатність даного слова утворювати певну кореляцію з іншим словом, що має той самий індекс кореляції. Це дозволяє відразу ж відкинути багато комбінацій слів і словосполучень, які можуть бути правильними з точки зору граматики, але безглузді з точки зору семантики. Метод кореляційного аналізу використовує багато різних “синтакисчних функцій”. Як наслідок цього синтаксичних індексів при кожному слові більше, ніж ознак традиційної класифікації. При такому збільшенні вихідних даних кількість елементарних операцій, потрібних для синтаксичного аналізу, дуже зростає. Наприклад, нехай деякому слову приписано 50 кореляційних індексів. Для того, щоб скласти кореляцію, машина повинна порівняти кожний індекс першого слова з кожним індексом другого, тобто виконати 2500 порівнянь. Якщо тепер пара слів, вже пов’язаних в кореляцію, буде рекласифікована, тобто отримає нові можливості вступати в кореляції, то їй буде приписана нова серія з 50 індексів. Така пара потребує в свою чергу 2500 порівнянь з наступним словом або такою ж парою. Для аналізу речення середньої довжини при такому підході знадобилось би сотні тисяч порівнянь кореляційних індексів. Проте попередні дослідження показали, що можна досягти значного зменшення кількості порівнянь, якщо враховувати, наприклад, порядок слів в кореляціях. Намагання зменшити кількість операцій і породило систему “Мультістор” . Кореляційний аналіз. Корелятор – мовний вираз деякого відношення. Слова будь-якої мови можна розподілити на два типи: 1) слова, що позначають певні смислові відношення між об’єктами та 2) слова, що позначають самі ці об’єкти. Слова першого типу називають єкспліцитними кореляторами , а слова другого типу – простими словами або кореляндами. Коли відношення не має для свого виразу спеціального слова, говорять про імпліцитні корелятори. Кореляція з імпліцитним корелятором складається з двох слів. Наприклад, “дівчинка співає” – тут смислові відношення виражені за допомогою морфологічних характеристик , а саме, особова форма дієслова показує, що дія, позначена дієсловом, виконується в даному випадку дівчінкою. Кореляція з експліцитним корелятором повинна містити щонайменше три слова. Наприклад, в словосполученні “червоний та чорний” експліцитним корелятором виступає сполучник та. Перше та третє слово називаються корелятами. Для зображення кореляцій використовується графічне представлення. 1 – місце першого корелята, 2 – місце другого корелята, 3 – місце корелятора. Кореляція “green bottle” . 521 – індекс того імпліцитного корелятора, якому в традиційній граматиці відповідає синтаксична функція “прикметник, що є означенням іменника”. В кореляціях дуже важливим є порядок слів, тому недостатньо в словарних статтях вказувати лише індекси кореляцій, в яких слово може приймати участь, необхідно вказувати також порядкове місце слова в кореляції. Так, словарні статті слів bottle та green повинні містити таку інформацію:
При експліцитному корелятору графічне представлення буде таке: Фрагмент словника для цих двох словосполучень буде мати вигляд:
Для корелювання більш складних структур будь-яка вже існуюча кореляція в свою чергу розглядається як можливий корелят в кореляції вищого рангу. Так словосполучення green and blue bottles представляється: Словарні статті будуть містити ще й:
Речення: Додаток до словників:
Кореляція 401 – “дієслово-доповнення”; кореляція 222 – “підмет-присудок”. Задачею цієї системи є послідовна обробка тексту для встановлення кореляційної структури словосполучень та фраз природньої мови. Результат аналізу – кореляційна сітка. До слів аналізуємої фрази підбираються словарні карти і вводяться в машину. У випадках синтаксично неоднозначних речень система видає декілька варіантів аналізу. Отримані з однієї вхідної фрази різні кореляційні сітки будуть ще раз досліджуватися з метою виявлення семантичних ознак, які потім будуть використовуватися в системі для видалення зайвих елементів. Власне, “Мультістор” – це ділянка пам’яті машини, відведена для утворення кореляцій за кореляційними індексами слів, яку зручно представляти у вигляді таблиці, що складається з таких стовпчиків:
Зчитуючи індекс кореляції першого слова фрази, машина фіксує цей індекс у відповідній секції CF у вигляді маркеру, що являє таким чином певну кореляційну здатність першого слова. Якщо тепер в другій секції тієй ж колонки Ic з’явиться маркер від другого слова, то це буде означати, що між першим та та другим словами можлива кореляція. Правила попередньої обробки: - Приписати кожному слову його порядковий номер у фразі. - Помістити кожне слово в спеціальний накопичувач слів та записати там відомості, отримані для цього слова з словнику. Так як у фразі може бути інверсія, деякі слова або кореляці треба відкласти “запам’ятати” , поки не дойдемо до якогось конкретного виразу. Важливо заздалегідь знати, які з кореляцій допускають інвертування, тому в таблиці “Мультістор” ще існують стовпчики N, M, E, F. N – імпліцитні корелятори, шо не допускають інвертування, M – імпліцитні корелятори, що допускають інвертування , E – експліцитні корелятори, що не допускають інвертування , F – експліцитні корелятори, що длпускають івертування. - Перевірити наявність у фразі експліцитних кореляторів. - Перевірити чи містить фраза компоненти якогось ідіоматичного виразу, і якщо так, то ввести в дію відповідну програму. - Перевірити чи містить фраза компоненти якогось складного експліцитного корелятора, що записаний у вигляді окремої таблиці. Сущность системи “Мультістор” полягає в тому, що в заздалегідь організованій ділянці пам’яті для кожного типу кореляцій відводиться спеціальна позиція. Тому для утворення кореляцій не треба співставляти всі кореляційні індекси кожного слова з усіма кореляційними індексами іншого слова. Полуавтоматичний переклад з англійської на французьку мови: система “Людина – машинний тезаурус”. М.Мастерман В праці англійської дослідниці М.Мастерман йдеться про полуавтоматичну систему перекладу, яка діє при участі людини і здатна перекладати окремі абзаци тексту (канадських урядових документів) з англійської на французьку. В системі використовується тезаурус. В якості запиту в операціях пошуку виступає одиниця, білаша за слово – синтагма. Оператор може з пульту приєднуватися до роботи машини; його прямий діалог з тезаурусом забезпечується процедурами, що написані на мові TRAC. Головний принцип системи – взаємодія між людиною і машиною. На вхід машини подається розмічена синтагма, де виділені головні члени і вказаний деякий мінімум синтаксичних відомостей про слова, що входять до її складу. Вже існує алгоритм, який розбиває текст на синтагми. Оператор вводить в машину текст по синтагмам, вилучаючи з низ головні члени, які вже заздалегідь відмічені в даному для нього тексті. Це означає, що він набирає не всю синтагму, а лише схему синтагми. Схеми синтагм: He …-ed to the … (дієслово в мин.ч) (іменник) There is a … in the … (іменник) (іменник) Such as … (іменник) Отримавши деяку схему синтагми, машина запитує у оператора більш докладну контекстну інформацію, яку він має завдяки знайомству з текстом в цілому і з відповідною тематикою. Дозволяється не більше трьох турів запитань-відповідей. Після цих трьох турів машина видає вибраний нею правильний переклад даної синтагми. І етап. І тур. Оператор друкує конструкцію: He … -ed to the … (дієслово в мин.ч.) (іменник) Машина запитує: Do you mean that: A. He moved to some point? B. He deteriorated? C. He crossed over some obstacle? D. He communicated with some animate being? Оператор відповідає А. ІІ тур. Машина запитує: Do you mean that: A. He departed to some destination? Il partit pour… B. He travelled to some distant region? Il s’en alla … C. He fled to some refuge? Il se reflugia chez… D. He arrived at some destination? Il arriva a… E. He visited some place? Il visita… Оператор відповідає В. ІІІ тур. І етап. Машина запитує: How did he travel? A. By plane? Il prit l’avonion pour… B. By sea? Il voyagea en voiture… C. By train? Il prit le train pour… D. On foot? Il se rendit a pied a… E. By bicycle? Il s’en alla a bicyclette a… F. By swimming? Il alla a la nage a… Оператор відповідає А. ІІ етап. Оператор подає на вхід головні члени синтагми: flew – летів, frontier – границя Мшина звертається до словника і вирішує: …-ed = flew (вже перекладено, пропустити) … = frontier (frontiere) І відразу ж для тексту “He flew to the frontier” машина видає переклад: Il prit l’avion pour la frontiere. Стратегія системи полягає в тому, щоб уникнути постредагування, зосередившись на прередагуванні перекладного тексту, яке виконується машиною, що взаємодіє з оператором на його рідній мові. Суть методики запитання-відповідь полягає в тому, що вона дозволяє оператору- англічанину, який зовсім не знає французької мови, отримати вірний за смислом та ідеоматичний переклад англійського тексту на французьку мову при умові, що він візьме на себе попередню обробку тексту. Після цього машина видає реальний французький текст. Будь-яка відповідь оператора на запитання машини дозволяє утворити пару, першим членом якої є англійська синтагма, а другим – “смислове кліше”, уточнення смислу цієї синтагми також англійською мовою. Потім утворюється нова пара, першим членом якої буде це кліше, а другим – французька синтагма з вже перекладеними і поставленими на свої місця головними членами. Такі парні відповідності мають назву семантичних квадратів. Таким чином, переклад складається з послідовної побудови семантичних квадратів, яка продовжується до тих пір, поки не буде отриманий квадрат, другим членом якого є синтагма вихідної мови. |