Машинный перевод
О Г Л А В Л Е Н И Е
ВВЕДЕНИЕ тАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАж. 3
МАШИННЫЙ ПЕРЕВОД тАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАж. 6
История развития машинного перевода тАжтАжтАжтАжтАжтАжтАжтАжтАжтАж.. 6
Электронные словари тАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАж. 8
Компьютер на месте переводчика тАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАж.. 10
Как переводит компьютер тАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАж. 12
Словарь тАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАж 12
Грамматика тАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАж. 13
Ответ критикам машинного перевода
(или Почему популярны программмы-перводчики) тАжтАжтАж. 15
Машинный перевод тАУ этотАж инструмент тАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАж 16
Переводчик для офиса тАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАж. 19
Кто в доме переводчик? тАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАж 22
Машинный перевод в Интернете тАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАж. 25
Как улучшить качество перевода (Практические советы) тАж.. 27
ЗАКЛЮЧЕНИЕ тАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАж 30
Литература тАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАжтАж. 32
ВВЕДЕНИЕ
Перевод имеет долгую историю. Своими корнями он восходит к тем далеким временам, когда праязык начал распадаться на отдельные языки и возникла необходимость в людях, знавших несколько языков и способных выступать в роли посредников при общении представителей разных языковых общин.
Переводом называется процесс и результат создания на основе исходного текста на одном языке равноценного ему в коммуникативном отношении текста на другом языке. При этом коммуникативная равноценность, или эквивалентность, понимается как такое качество текста перевода, которое позволяет ему выступать в процессе общения носителей разных языков в качестве полноправной замены исходного текста (оригинала) в сфере действия языка перевода1
.
Коммуникативная эквивалентность нового текста по отношению к оригиналу обеспечивается выполнением трех основных требований:
текст перевода должен в возможно более полном объеме передавать содержание оригинала, что прежде всего означает недопустимость произвольного опущения или добавления информации;
текст перевода должен соответствовать нормам языка перевода, так как их нарушение, по меньшей мере, создает помехи для восприятия информации, а иногда ведет и к ее искажению;
текст перевода должен быть примерно сопоставим с оригиналом по своему объему, чем обеспечивается сходство стилистического эффекта с точки зрения лаконичности или развернутости выражения.
Однако выполнение указанных требований к тексту перевода часто связано с преодолением разного рода объективно существующих трудностей. В данной работе мы рассмотрим те из них, с которыми мы можем столкнуться при машинном переводе. Понятно, что в данном случае, если перевод не соответствует этим нормам, винить некого, поскольку машинный перевод еще не предназначен для самостоятельного перевода, он требует редактирования. Что же касается других видов этой деятельности, и письменный, и устный переводчики должны отдавать себе отчет в том, что Влих работу замечают скорее тогда, когда они терпят неудачу, чем когда перевод идет нормальноВ»2
.
Круг деятельности, охватываемой понятием ВлпереводВ», очень широк. Переводятся с одного языка на другой стихи, художественная проза, научные и научно-популярные книги из различнейших областей знания, дипломатические документы, деловые бумаги, статьи политических деятелей и речи ораторов, газетные материалы, беседы лиц, разговаривающих на разных языках и вынужденных прибегать к помощи посредника тАУ ВлтолмачаВ», дублируются кинофильмы.
Перевод может осуществляться:
с одного языка на другой тАУ неродной, родственный, близкородственный;
с литературного языка на его диалект и наоборот, или с диалекта одного языка на другой литературный язык;
с языка древнего периода на данный язык в его современном состоянии (например, с древнерусского языка на современный русский, со староанглийского на современный английский и т.д.).
Следует заметить, что для машинного перевода характерен лишь пункт 1, поскольку, как мы знаем из экономики, спрос рождает предложения. Я думаю, никто не будет отрицать, что спрос на программу-переводчик, скажем, с английского или немецкого языка на русский намного превышает спрос на перевод с какого-нибудь праязыка.
Итак, развитие кибернетики сделало возможным машинный перевод, т.е. перевод, строящийся на использовании машиной определенных и постоянных для данного вида материала соответствий между словами и грамматическими явлениями разных языков. В настоящее время имеется достаточно широкий выбор паВнкетов программ, облегчающих труд переводчика, которые усВнловно можно подразделить на две основные группы3
:элекВнтронные словари (electronicdictionary) и системы маВншинного перевода (machinetranslationsystem). Тем не менее, данную работу мне хотелось бы больше посвятить именно системам машинного перевода, нежели электронным словарям (хотя справедливости ради следует будет упомянуть хотя бы об их классификации), поскольку работа с электронными словарями практически ничем не отличается от использования обычного словаря, так как они предоставляют пользователю возможность быстрого поиска лишь 1 отдельного слова (термина) или фразеологизма; системы же машинного перевода обеспечивают связный перевод текстов, учитывающий морфологические, синтаксические и семантические связи членов предложения. Сегодня программы-переводчики умеют строить осмысленные фразы, и за последние несколько лет качество перевода улучшилось. Однако компьютер еще плохо разбирается в грамматических нюансах и жаргоне, поэтому его главное назначение тАУ переводы деловых бумаг, руководств, писем из электронной почты, страничек из Интернета (Web-страниц). Это если вам достаточно лишь общего понимания текста. Другое применение систем тАУ облегчение рутинной работы переводчиков, выполнение за них подстрочного перевода, который можно легко подправить. О наиболее удачных системах мы и поговорим в этой работе.
Я также расскажу о том, как осуществляется машинный перевод, кто занимается составлением программ-переводчиков и как они работают. Особое внимание мне хотелось бы уделить проблематике машинного перевода, поскольку машинный перевод для нас пока еще новшество, область мало в литературе освещенная, поэтому и поле для работы огромно. К тому же я ни за что не поверю, чтобы Вы ни разу не задавали себе вопрос: ВлА может очень скоро в результате новых компьютерных технологий спрос на переводчиков упадет до минимума?В», но тут же успокаивали себя: ВлНет, компьютер никогда не вытеснит профессию переводчика, ведь любая компьютерная программа тАУ результат деятельности человека, а главное, мы можем чувствовать, в отличие от машины, а следовательно, лучше подбирать слова и эквивалентыВ». Тогда нужен ли вообще машинный перевод? Что ж, не будем забегать вперед, и рассмотрим все по порядку.
МАШИННЫЙ ПЕР ЕВОД
В последнее время знание иностранных языков может понадобиться не только в путешествии или на приеме гостей из-за рубежа, но и в собственном доме, например, при просмотре популярных голливудских кинолент, при чтении инструкции по использованию заморских товаров или Web-страниц, которые разыскивает по всему свету неутомимый броузер. Таким образом, оказывается, что даже не покидая родных стен, мы нуждаемся в услугах переводчика. Однако необходимую помощь нам вполне может оказать домашний компьютер.
Системы машинного перевода (МП) давно перестали быть диковинкой. Они постепенно выходят из младенческого возраста и вместо бессвязного детского лепета начинают изъясняться на вполне понятном, "человеческом" языке. До последнего времени такие программы были не только очень дороги, уступая в цене разве что мощным графическим и издательским системам, но и весьма сложны и капризны в работе. И вот появились первые переводчики, пригодные для использования на домашнем ПК. Давайте познакомимся с ними поближе и узнаем, на что они способны. Но начнем, конечно же, с истории развития МП.
1. ИСТОРИЯ РАЗВИТИЯ МАШИННОГО ПЕРЕВОДА
По свидетельству биографов, еще выдающийся математик XIX века Чарльз Бэббидж пытался убедить британское правительство в необходимости финансировать его исследования по разработке “вычислительной машины”. В числе прочих благ он обещал, что когда-нибудь эта машина сможет автоматически переводить разговорную речь. Но, хотя сегодня Бэббидж и считается признанным автором множества идей, лежащих в основе работы компьютера, он так и не сумел ни построить свою машину, ни выполнить обещания по поводу МП. И сегодня эта идея по-прежнему остается в значительной степени нереализованной. Однако в последнее время благодаря появлению Интернет как платформы глобальной связи она вновь начала привлекать широкое внимание и инвестиции.
Вообще, первые программы МП появились в 50-х годах, всего несколько лет спустя после рождения компьютера, но до широкого распространения ПК МП был скорее интересным объектом научных исследований, чем важной сферой использования вычислительной техники, по двум причинам: дороговизна времени работы компьютера и коллективное пользование его ресурсами. Последнее обстоятельство часто не позволяло немедленно обратиться к электронному помощнику, сводя на нет важнейшее преимущество МП перед обычным тАУ его оперативность.
Датой рождения МП (как области исследований) принято считать 1947 г., и все началось с письма Уоррена Уивера, директора отделения естественных наук Рокфеллеровского фонда, к Норберту Винеру в марте того же года, в котором задача перевода сравнивалась с задачей дешифровки текстов. Последняя в то время уже стала выполняться на электромеханических устройствах. За этим письмом последовало множество дискуссий, появился меморандум о целях, и наконец, были выделены средства на исследования. И в 1952 г. состоялась первая конференция, организованная знаменитым математиком Бар-Хиллелем, на которой исследователи обменялись мыслями относительно организации множества синтаксических правил языка, способов описания семантики, морфологических структур, структуры словарей для систем перевода. Достижения в академических исследованиях стимулировали коммерческий интерес к проблеме МП, и фирма IBM совместно с Джорджтаунским университетом в США в 1954 г. сумела показать первую систему, базирующуюся на словаре из 250 слов и 6 синтаксических правил и обеспечивающую перевод 49 заранее отобранных предложений. Этот эксперимент положил начало исследовательскому буму: в следующие 10 лет правительство и военные ведомства США затратили на исследования в области МП около 40 млн. долларов.
От эйфории, связанной с первыми результатами, до практически полного отрицания осуществимости МП прошло всего восемь лет. К подобному выводу пришли на основании обзора, выполненного специальным комитетом по прикладной лингвистике (ALPAC) Национальной Академии наук США. В нем констатировалось, что системы автоматического перевода не смогут обеспечить приемлемое качество в обозримом будущем. Этот отчет драматически повлиял на развитие МП, так как были практически прекращены какие бы то ни было исследования из-за отсутствия финансирования, по крайней мере, в США и Европе. И лишь в конце 70-х годов занятия МП возобновились вместе с возрастанием интереса со стороны проектировщиков и исследователей к лингвистическим проблемам искусственного интеллекта и компьютерного поиска информации.
И только с начала 80-х годов, когда ПК уверенно и мощно начали завоевывать мир, время их работы, естественно, подешевело и доступ к ним можно было получить в любую минуту. А значит, МП наконец-то стал экономически выгодным. К тому же в эти и последующие годы совершенствование программ позволило достаточно точно переводить многие виды текстов, однако некоторые проблемы МП остались нерешенными и по сей день.
90-е годы можно считать подлинной эпохой возрождения в развитии МП, что связано не только с высоким уровнем возможностей персональных компьютеров, появлением сканеров4
и программ OCR5
, но и с распространением Интернет/интранет (Internet/intranet), обусловивших реальный спрос на МП. Он вновь стал привлекательной областью вложения капиталов как для частных инвесторов, так и для государственных структур.
И хотя технологии МП по-прежнему страдают множеством недостатков, многие организации вновь стали серьезно относиться к обещанию Бэббиджа. “Машинный перевод все еще далек от совершенства, но любой желающий с его помощью сможет, по крайней мере, понять основной смысл документа”, тАФ считает Луи Монье, технологический директор Alta Vista, крупного поискового Web-узла, который начал эксперимент с МП в онлайновом режиме6
.
Страны Европейского Союза потратили за последние 15 лет более 70 млн. долл. на исследования по этой проблеме, а японские государственные организации тАФ более 200 млн. долл. По словам T.Р.Педтке (представителя правительства США), сделавшего очень интересный доклад на MT SUMMIT VI о стратегической важности МП для его страны, одну из главных ролей в развитии этого направления продолжает играть правительство. Проблема МП рассматривается как ключевая в вопросах продвижении высоких технологий и обеспечении конкурентоспособности США в глобальном информационном пространстве.
2. ЭЛЕКТРОННЫЕ СЛОВАРИ
Электронные словари (ЭС) начали разрабатываться значительно раньше, чем альВнтернативные им системы МП, поэтому в настоящее время на рынке программного обеспечения имеется черезвычайно широВнкий выбор словарей тАФ от самых простейших (например, DIC) до мощных систем, объединяющих в одной программной обоВнлочке несколько лексических баз данных тАФ специализированВнных тематических словарей, последовательность подключения которых определяется пользователем (LINGVO). Выбор того или иного программного продукта зависит исключительно oт аппаратных возможностей компьютера, которым располагает пользователь, финансовых соображений и конкретных условий, в которых работает переводчик.
Потенциальную аудиторию этих программ можно определить совершенно точно тАУ это учащиеся и студенты, использующие словарь как одно из пособий при изучении иностранного языка, а также домашние и бизнес-пользователи, которым нужен универсальный и простой в применении словарь-справочник для эпизодического перевода деловых бумаг и корреспонденции.
Ниже представлена классификация электронных словарей по их основным техническим и эксплуатационным характерисВнтикам. Всю совокупность ЭС можно подразделить по следуюВнщим критериям.
1. По используемой операционной системе. НаибоВнлее простые электронные словари (DIC) работают под управВнлением ОС MS-DOS, начиная с версий 2.21 и 3.30, что позвоВнляет их использовать практически на любых IBM-совместиВнмых персональных компьютерах, включая XT, АТ-286. НаВниболее сложные многооконные и многофункциональные ЭС, позволяющие в одной оболочке подключать различные темаВнтические базы данных, работают под управлением ОС WINВнDOWS 3.11, WINDOWS NT, WINDOWS 95 и т.д. ЕстественВнно, что для их успешного функционирования необходим более мощный компьтер (типа AT-486DX) с оперативной памятью не менее 8 МБ.
2. По способу загрузки. Можно подразделить на нерезиВндентные и резидентные. К первым относятся простейшие проВнграммы (например, подстрочечный словарь DIC), которые раВнботают только в собственной среде и не вызываются из других оболочек, например из текстовых редакторов. В большинстве случаев они функционируют в режиме автоматического ("паВнкетного") перевода. Вторые загружают свое ядро в оперативВнную память компьютера (например, "LINGVOforDOS") и могут вызываться в любой момент работы компьютера, наприВнмер из любого текстового редактора, при помощи нажатия комВнбинации "горячих клавиш" тАФ клавиш оперативного вызова. Эти словари обеспечивают работу переводчика в интерактивВнном режиме.
3. По количеству подключаемых словарных баз (словаВнрей). Ранние версии ЭС позволяли подключать только один словарь. Современные программы, например "Система элекВнтронных словарей LINGVO", независимо от того в какой ОС они работают, позволяют подключать до нескольких десятков словарных баз и устанавливать приоритет последних.
4. По возможностям расширения словарной базы. УстаВнревшие ЭС не имели возможности расширения словарных баз пользователем, современные версии, например LINGVO 4.6 и выше, имеют специальные утилиты для создания пользова телем собственных и расширения существующих словарей.
5. По режиму перевода. Можно выделить два основных режима перевода: автоматический пакетный (подстрочечный) и интерактивный (режим "запрос тАФ ответ").
В первом случае программа вызывается с указанием имени текстового файла, который необходимо перевести, или маски для целой группы текстовых файлов, предназначенных для перевода. Далее автоматически, без участия переводчика, проВнизводится прямой перевод каждого отдельного слова с выВнводом на экран монитора или на печатающее устройство тольВнко переведенных слов или исходного текста, под каждым переВнведенным словом которого будет стоять его значение на русском языке, под теми словами, которых не оказалось в ЭС обычно ставится знак "?". Такой режим называется подстрочечным. Словарные базы подобных ЭС весьма ограниченны, качество перевода оставляет желать лучшего. Подобные про граммные продукты вряд ли смогут оказать помощь професси ональному переводчику.
Во втором случае программа работает следующим образом. После загрузки резидентной части программы в оперативВнную память компьютера, пользователь, работая, например, в текстовом редакторе либо непосредственно в оболочке словаВнря, вводит с клавиатуры неизвестное слово на языке оригинаВнла, а затем, выделив его, чаще при помощи "мыши", нажатием комбинации "горячихклавиш" активизирует ЭС, который заВнменяет текст оригинала на русскоязычный перевод. Время доВнступа к переводу составляет примерно 0,2 секунды, что значиВнтельно ускоряет работу переводчика. Именно такие электронВнные словари, с учетом возможности расширения и одновременВнного подключения нескольких словарных баз, могут значительно облегчить и ускорить работу переводчика любого уровня профессионализма.
В любом случае, бум, связанный с появлением простейших электронных словарей, позволяющих относительно быстВнро произвести поиск того или иного слова, уже в прошлом. С развитием технологии систем OCR, о которых я уже упоминала, стали разрабатываться автоВнматизированные системы машинного перевода. О них-то и пойдет речь.
3. КОМПЬЮТЕР НА МЕСТЕ ПЕРЕВОДЧИКА.
Вычислительная техника, как известно, хорошее подспорье человеку в рутинной работе. Относится ли к таким занятиям перевод текстов? И да, и нет. С одной стороны, труд переводчика во многом формален, а с другой тАУ перевод не может быть выполнен чисто формально. Есть, например, технический перевод, где важно знать принятые за рубежом стандарты обозначений тех или иных понятий. И есть литературный перевод, когда требуется получить текст, по художественной ценности максимально близкий к оригиналу. Возможно ли поручить подобную работу компьютеру?
Говоря о МП, следует прежде всего помнить, что компьютер тАФ создание бездушное. Он не понимает языковых нюансов, намеков в тексте, того, что называется тонкой игрой слов. Да и, собственно, понять содержание текста в полной мере ему не под силу. Мышления как такового при МП не происходит: предложение расчленяется на части речи, в нем выделяются стандартные конструкции, слова и словосочетания переводятся по находящимся в памяти машины словарям. Затем переведенные части речи собираются по правилам другого языка.
Но этого, согласитесь, недостаточно для полноценного перевода. В зависимости от того или иного стиля и назначения текста одно и то же слово нередко имеет разные значения. В какой-то мере эта особенность учитывается в системах МП: предусмотрены сменные словари, иногда для каждого вида текста предусмотрен свой словарь. Если лексики одного машинного словаря не хватает и применяются несколько словарей одновременно, можно указать системе, из какого словаря нужно брать слово, если есть несколько вариантов его перевода. Наконец, программа сама может предлагать на выбор пользователю несколько вариантов перевода, и он выбирает подходящий вариант, так сказать, вручную. Могут возникнуть и проблемы с переводом слов в устойчивых словосочетаниях и фразеологизмах, но это вполне по силам компьютеру.
Наряду с установленными правилами построения предложения в каждом языке существуют и свои неписаные законы, которые иногда называются красотами языка. Например, предложение на английском языке ВлThis is my bookВ» дословно переводится ВлЭто есть моя книгаВ», и формально это будет правильным, но по-русски так не говорят. В данном случае можно сказать, что предложение Влнаписано так, будто его составил иностранецВ». Конечно, приведенный пример является простейшим, и возможность исключения слова ВлisВ» очень просто отражается в программе МП. Но на практике получившийся перевод похож на текст, написанный иностранцем.
Текст также может содержать слова, которые нужно понимать в контексте образа жизни людей в конкретной стране. Например, под словом ВлдемократВ» в США подразумеваются политики, выступающие за большее вмешательство государства в экономику, а в России те, кто выступает за большую свободу рынка. Это разные понятия.
Заглавные буквы и сокращения таят в себе и другие подвохи. Когда слово начинается с большой буквы, его перевод будет начинаться тоже с большой буквы. Слово, целиком состоящее из таких букв, также будет в переводе записано заглавными. В англоязычной литературе достаточно часто встречаются внешне эффектные аббревиатуры, которые могут быть прочитаны как одно слово. Такая аббревиатура и будет переведена единым словом.
Таким образом, результаты МП часто требуют редактирования. Насколько адекватными можно считать результаты перевода на компьютере? Это определяется не только качеством системы МП, но и качеством последующего редактирования. Нередко систему МП использует в качестве подспорья специалист, которому нужно быстро перевести, например, техническую документацию. Тогда проблема корректного употребления терминов решается сама собой.
Однако МП тАУ это такая специфическая область применения компьютеров, в проблемах которой почти каждый ощущает себя более или менее специалистом. Давайте рассмотрим, каким образом осуществляется перевод.
4. КАК ПЕРЕВОДИТ КОМПЬЮТЕР
Во-первых, всем ясно, что чем больше словарь, тем лучше перевод, значит, первая проблема тАУ проблема создания больших словарей для систем.
Во-вторых, ясно, что система должна переводить такие предложения: ВлПривет, как дела?В». Значит, еще одна проблема - научить систему распознавать устойчивые обороты.
В-третьих, понятно, что предложение для перевода пишется по определенным правилам, по определенным правилам переводится, а значит, есть еще одна проблема: записать все эти правила в виде программы. Вот, собственно, и все.
Самое интересное, что эти проблемы действительно являются основными при разработке систем МП, другое дело, что методы их решения известны далеко не всем и отнюдь не так просты, как может показаться.
Системы МП семейства PROMT (PROgrammer's Machine Translation)7
- очень хороший объект, чтобы продемонстрировать, каким образом эти проблемы могут решаться эффективно.
4. 1. СЛОВАРЬ
Для качественного перевода очень важно, чтобы практически все слова исходного текста легко было найти и в словаре системы. А те из них, которых в нем нет, переносятся в текст непереведенными уже на выходе из системы, и их впоследствии переводят вручную при редактировании результатов перевода. Такие слова могут повлиять на качество перевода предложения. Дело в том, что для определения, к какой части речи относится рассматриваемое слово, система производит анализ всего предложения в целом. При этом имитируется мыслительная деятельность человека (такую систему принято называть системой с элементами искусственного интеллекта). Если значение хотя бы одного слова в предложении не определено, то это может исказить анализ всего предложения, а иногда и результаты всего перевода.
Методы организации больших баз данных достаточно хорошо разработаны, но для перевода не менее, а может быть, и более важно правильно структурировать информацию, которая приписывается элементу базы, правильно выбрать этот самый элемент. Сколько, например, записей в словаре должно соответствовать обыкновенному русскому слову "программа"? И, вообще, большой словарь тАУ это словарь, который содержит много словарных статей, или словарь, который позволяет распознать много слов из текста?
При ближайшем рассмотрении оказывается, что, например, существительные в русском языке изменяются по падежам и по числам, то есть для одного существительного может существовать до 12 разных форм, а для глаголов и прилагательных, как правило, существует еще большее количество различных форм (более тридцати). Следовательно, чтобы переводить предложения, содержащие слова "программу", "программе", "программы" и т.д., хорошо было бы иметь способ соотнесения словарной статьи из автоматического словаря для слова "программа" с соответствующей словоформой из текста. Поэтому для описания и входного, и выходного языка в системе должен существовать некоторый формальный метод описания морфологии, на котором основывается выбор единицы словаря.
В системах семейства PROMT разработано практически уникальное по полноте морфологическое описание для всех языков, с которыми системы умеют обращаться. Оно содержит 800 типов словоизменений для русского языка, более 300 типов как для немецкого, так и для французского языка, и даже для английского, который не принадлежит к флективным языкам, выделено более 250 типов словоизменений. Множество окончаний для каждого языка хранится в виде древесных структур, что обеспечивает не только эффективный способ хранения, но и эффективный алгоритм морфологического анализа.
Кроме того, используемая модель морфологии позволила разработать экспертную систему для пользователя тАУ создателя словаря. Эта система фактически автоматизирует процедуру выделения основы и определения типа словоизменения при вводе новых словарных статей.
Однако разработка описания морфологии позволяет решить только проблему того, что является заголовком словарной статьи, по которому происходит идентификация единицы текста и единицы словаря. Но ведь идентификация слова из текста со словарной статьей происходит не ради идентификации, как это требуется в электронных словарях, она необходима для выполнения программой собственно процедур перевода. Какая же нужна информация в словарной статье и как должны быть описаны правила перевода для того, чтобы программа переводила?
4. 2. ГРАММАТИКА
С развитием МП как области прикладной лингвистики появилось множество лингвистических работ, предлагавших структуру описания свойств живого слова в словарной статье машинного словаря. При этом совершенно отдельно появлялись исследования, описывающие, например, "структуру именной группы" или "способы выражения прямого дополнения для глаголов говорения".
Например, на основе признака "принадлежность к части речи" описывалась грамматика такого типа:
тАв именная группа - это существительное
тАв именная группа - это прилагательное + именная группа
тАв глагольная группа - это глагол + именная группа
тАв предложение - это именная группа + глагольная группа
Понятно, что некоторая часть предложений естественного языка описывается такой грамматикой, но эта часть очень незначительна, и на ее основе нельзя правильно анализировать и переводить хоть сколько-нибудь реальный текст. Но зато можно использовать эффективные методы построения преобразователя по заданной грамматике или, на худой конец, написать программу, которая путем перебора построит деревья зависимостей для ограниченного множества предложений.
Стало принятым делить системы перевода на системы типа TRANSFER и системы типа INTERLINGUA. Это разделение основано на особенностях архитектурных решений для лингвистических алгоритмов.
Алгоритмы перевода для систем типа TRANSFER строятся как композиция трех процессов: анализ входного предложения в терминах структур входного языка, преобразование этой структуры в аналогичную структуру выходного языка (TRANSFER) и затем синтез выходного предложения по полученной структуре.
Системы типа INTERLINGUA предполагают априори наличие некоторого метаязыка структур (INTERLINGUA), на котором можно описать все структуры как входного, так и выходного языков в общем случае; поэтому алгоритм перевода в системе типа INTERLINGUA предполагается как более простой: анализ входного предложения в терминах метаязыка и затем синтез из метаструктуры соответствующего предложения выходного языка. "Единственная" сложность в этом случае тАУ разработать сам метаязык и описать естественный язык в соответствующих терминах.
Несмотря на то, что эта классификация существует, и в среде разработчиков МП считается хорошим тоном спросить, к какому типу относится ваша система, не было разработано еще не одной реальной системы, основанной на принципе INTERLINGUA.
Поэтому анализ простых предложений как структур, состоящих из синтаксических единиц, выполняется на основе фреймовых предикатных структур, которые позволяют эффективно выполнять преобразования. Глагол считается для простых предложений главным элементом и его валентности определяют заполнение соответствующего фрейма. Для каждого типа фреймов существует некоторый закон преобразования в выходной фрейм и оформление актантов. Таким образом, осуществляется TRANSFER на уровне предложений. Анализ сложных предложений требуется в случае формирования согласования времен и правильного перевода союзов.
Хотелось бы надеяться, что эти сведения позволят потенциальным пользователям систем перевода понять, что создание системы МП тАУ задача не такая уж простая, и, что называется, наукоемкая. А, следовательно, количество действительно пригодных к использованию систем перевода, которое может появляться в единицу времени, принципиально ограничено.
В любом случае, стилистические и грамматические огрехи машинного переВнвода компенсируются потрясающей скоростью получения его чернового варианта.
5. ОТВЕТ КРИТИКАМ МАШИННОГО ПЕРЕВОДА
или Почему популярны программы-переводчики
Прежде чем рассказать подробнее о множестве программ-переводчиков, мне хотелось бы ответить на самый, на мой взгляд, распространенный вопрос, который поднимается, как только заходит речь о МП:
ВлПереводы с русского на английский и с английского на русский не выдерживают никакой критики. Неужели полноценный машинный перевод остается все еще делом будущего?В»
Можно, конечно, было бы проигнорировать этот вопрос, хотя бы потому что сам уровень организации, проводившей тестирование вне подозрений, да и популярность как систем, так и сервиса в Интернете, организованном на сайте http://" onclick="return false"> (более 200.000 переводов за месяц!!!) демонстрируют полезность и востребованность МП. Однако именно сейчас, в первую очередь в связи с развитием Интернет, когда МП становится все более и более необходимым обществу, нам представляется полезным обсудить еще раз тему нужны или не нужны системы МП.
В нашей стране разработка систем МП ведется уже более 35 лет, а специалисты компании ПРОМТ занимаются этой проблемой более 20 лет, однако до сих пор эта сфера компьютерной индустрии вызывает много различных дискуссий. Часто приходится слышать от критиков систем МП: ВлПрограммы-переводчики переводят плохо, непонятно кому они вообще нужны. Гораздо проще отдать текст "живому" переводчику или выучить язык самомуВ». Причем, к сожалению, резкость критики зачастую бывает обратно пропорциональна знанию языка. Компания, безусловно, не пытается обвинить в этом критиков и полагает, что лично им движет стремление к совершенству.
Итак, компьютер пока во многом не может заменить переводчика. Стоит ли тогда вообще применять системы машинного перевода? Конечно, стоит. Если компьютер используется для перевода литературных текстов, то получается черновой вариант текста, так называемый подстрочник, который превращается в произведение искусства человеком, слабо владеющим языком оригинала, но являющимся хорошим литературным редактором. Если же речь идет о переводе технических текстов, то здесь при правильном выборе словаря по специальности, в рамках которой написан текст, получается вполне удовлетворительный результат, иногда не требующий последующего вмешательства. Вообще необходимость редактирования компьютерного перевода очень часто возникает в связи с проблемами, перечисленными выше. Для этого системы машинного перевода обязательно имеют средства редактирования текстов.
Для некоторых заказчиков такой уровень перевода просто неприемлем. “Машинный перевод тАФ это миф, тАФ считает Линн Сешедри, консультант одной из служб корпорации Electronic Data Systems (Плейно, шт. Техас), принимавший участие в создании глобальной интрасети компании. тАФ Возможно, он годится для технической документации, но во всех остальных случаях вы получаете 15% смысла и 85% ерунды”. Для перевода содержания своей интрасети EDS пользуется услугами профессиональных переводчиков на контрактной основе. Однако других машинный перевод вполне устраивает, в значительной степени потому, что часто ему просто нет реальных альтернатив. Парижский фонд “За развитие гуманизма” (FPH) в свое время также стоял перед выбором: тратить ли существенную часть своего бюджета на переводчиков или испробовать средства машинного перевода. Эта организация, финансируемая из частных источников, выпускает доклады по экологии, экономике и ряду других областей, привлекая для их создания интернациональные коллективы ученых. Ее выбор пал на технологию машинного перевода, а точнее, на продукт фирмы Globalink, представляющий собой вполне качественное и недорогое приложение для ПК. FPH установил его на сервер электронной почты, чтобы общение специалистов, говорящих на разных языках, было проще и эффективнее.
"Это хорошее решение, - считает Марина Урквиди, консультант из FPH. - Многие люди предпочли бы работать не на английском, а на своем родном языке. Теперь у них есть такая возможность". Она не отрицает, что машинный перевод имеет свои недостатки, однако убеждена, что если человек захочет, он сможет понять перевод, сделанный машиной. "Если вы немного подумаете, то сумеете понять, о чем идет речь". Таким образом, если не требовать от МП слишком многого, то, возможно, обещание Бэббиджа о машинном переводе все же исполнится.
6. МАШИННЫЙ ПЕРЕВОД тАУ ЭТОтАж ИНСТРУМЕНТ
Всем хорошо известно, что хороший перевод текста тАУ это не только творческая, но и достаточно трудоемкая работа. Причем даже самый хороший перевод, как правило, нуждается в редакторской правке. Что касается творческой части, то в обозримом будущем в соревновании компьютер-человек всегда победит "живой" переводчик. Однако для решения проблем, обусловленных трудоемкостью процесса перевода, системы МП могут оказаться хорошим подспорьем. Для того чтобы это лучше понять, перечислим достоинства программ машинного перевода (общие для всех систем МП вообще и систем PROMT в частности):
1. Высокая скорость. Все
Вместе с этим смотрят:
A history of the english language
Accommodation in St.Petersburg
Acquaintance with geometry as one of the main goals of teaching mathematics to preschool children