Взаимодействие математики и языкознания
В ХХ веке наметилась продолжающаяся и поныне тенденция к взаимодействию и взаимопроникновению различных областей знаний. Постепенно стираются грани между отдельными науками; появляется всё больше отраслей умственной деятельности, находящихся Влна стыкеВ» гуманитарного, технического и естественнонаучного знания.
Другая очевидная особенность современности тАУ стремление к изучению структур и составляющих их элементов. Поэтому всё большее место как в научной теории, так и на практике уделяется математике. Соприкасаясь, с одной стороны, с логикой и философией, с другой стороны, со статистикой (а, следовательно, и с общественными науками), математика всё глубже проникает в те сферы, которые на протяжении долгого времени было принято считать чисто ВлгуманитарнымиВ», расширяя их эвристический потенциал (ответ на вопрос ВлсколькоВ» часто помоагет ответить и на вопросы ВлчтоВ» и Влкак). Исключением не стало и языкознание.
Цель моей курсовой работы тАУ кратко осветить связь математики с такой отраслью языкознания, как лингвистика. Начиная с 50-х годов прошлого века, математика применяется в лингвистике при создании теоретического аппарата для описания строения языков (как естественных, так и искусственных). Однако следует сказать, что она не сразу нашла себе подобное практическое применение. Первоначально математические методы в лингвистике стали использоваться для того, чтобы уточнить основные понятия языкознания, однако с развитием компьютерной техники подобная теоретическая посылка стала находить применение на практике. Разрешение таких задач, как машинный перевод, машинный поиск информации, автоматическая обработка текста требовало принципиально нового подхода к языку. Перед лингвистами назрел вопрос: как научиться представлять языковые закономерности в том виде, в котором их можно подавать непосредственно на технику. Популярным в наше время термином Влматематическая лингвистикаВ» называют любые лингвистические исследования, в которых применяются точные методы (а понятие точных методов в науке всегда тесно связано с математикой). Некоторые учёные прошлых лет, считают, что само выражение нельзя возводить в ранг термина, так как оно обозначает не какую-то особую ВллингвистикуВ», а лишь новое направление, ориентированное на усовершенствование, повышение точности и надёжности методов исследования языка. В лингвистике используются как количественные (алгебраические), так и неколичественные методы, что сближает её с математической логикой, а, следовательно, и с философией, и даже с психологией. Ещё Шлегель отмечал взаимодействие языка и сознания, а видный лингвист начала ХХ века Фердинанд де Соссюр (о его влиянии на становление математических методов в лингвистике расскажу позже) связывал структуру языка с его принадлежностью к народу. Современный исследователь Л. Перловский [43] идёт дальше, отождествляя количественные характеристики языка (например, число родов, падежей) с особенностями национального менталитета (об этом в разделе 2.2, ВлСтатистические методы в лингвистикеВ»).
Взаимодействие математики и языкознания тАУ тема многогранная, и в своей работе я остановлюсь не на всех, а, в первую очередь, на её прикладных аспектах.
Глава I. История применения математических методов в лингвистике
1.1 Становление структурной лингвистики на рубеже XIX тАУ ХХ веков
Математическое описание языка основано на представлении о языке как о механизме, восходящем к известному швейцарскому лингвисту начала ХХ века Фердинанду де Соссюру.
Начальное звено его концепции тАУ теория языка как системы, cостоящей из трёх частей (собственно язык тАУ langue, речь тАУ parole, и речевую деятельность тАУ langage), в которой каждое слово (член системы) рассматривается не само по себе, а в связи с другими членами. Как впоследствии отметил другой видный лингвист, датчанин Луи Ельмслев, Соссюр Влпервый требовал структурного подхода к языку, то есть научного описания языка путём регистрации соотношений между единицамиВ» [22, c. 54].
Понимая язык как иерархическую структуру, Соссюр первым поставил проблему ценности, значимости языковых единиц. Отдельные явления и события (скажем, история происхождения отдельных индоевропейских слов) должны изучаться не сами по себе, а в системе, в которой они соотнесены с подобными же составляющими.
Структурной единицей языка Соссюр считал слово, ВлзнакВ», в котором соединялись звучание и смысл. Ни один из этих элементов не существует друг без друга: поэтому носителю языка понятны различные оттенки значения многозначного слова как отдельного элемента в структурном целом, в языке.
Таким образом, в теории Ф. де Соссюра можно увидеть взаимодействие лингвистики, с одной стороны, с социологией и социальной психологией (следует отметить, что в это же время развиваются феноменология Гуссерля, психоанализ Фрейда, теория относительности Эйнштейна, происходят эксперименты над формой и содержанием в литературе, музыке и изобразительном искусстве), с другой стороны тАУ с математикой (понятие системности соответствует алгебраической концепции языка). Подобная концепция изменила понятие языковой интерпретации как таковой: Явления стали трактоваться не относительно причин их возникновения, а относительно настоящего и будущего. Толкование перестало быть независимым от намерений человека (несмотря на то, что намерения могут быть безличными, ВлбессознательнымиВ» во фрейдистском понимании этого слова).
Функционирование же языкового механизма проявляется через речевую деятельность носителей языка. Результатом речи являются так называемые Влправильные текстыВ» тАУ последовательности речевых единиц, подчиняющиеся определённым закономерностям, многие из которых допускают математическое описание. Изучением способов математического описания правильных текстов (в первую очередь, предложений) занимается теория способов описания синтаксической структуры. В подобной структуре языковые аналогии определены не с помощью изначально присущих им качеств, а с помощью системных (ВлструктурныхВ») отношений.
На Западе соссюровские идеи развивают младшие современники великого швейцарского лингвиста: в Дании тАУ уже упомянутый мною Л. Ельмслев, давший начало алгебраической теории языка в своём труде ВлОсновы лингвистической теорииВ», в США тАУ Э. Сепир, Л. Блумфилд, Ц. Харрис, в Чехии тАУ русский учёный-эмигрант Н. Трубецкой.
Статистическими же закономерностями в изучении языка стал заниматься не кто иной, как основоположник генетики Георг Мендель. Только в 1968 году филологи обнаружили, что, оказывается, в последние годы жизни он был увлечен изучением лингвистических явлений с помощью методов математики. Этот метод Мендель привнёс в лингвистику из биологии; в девяностые годы девятнадцатого века лишь самые смелые лингвисты и биологи заявляли о целесообразности подобного анализа. В архиве монастыря св. Томаша в г. Брно, аббатом которого был Мендель, были найдены листки со столбцами фамилий , оканчивающимися на ВлmannВ», ВлbauerВ», ВлmayerВ», и с какими-то дробями и вычислениями. Стремясь обнаружить формальные законы происхождения фамильных имен, Мендель производит сложные подсчеты, в которых учитывает количество гласных и согласных в немецком языке, общее число рассматриваемых им слов, количество фамилий и т.д.
В нашей стране структурная лингвистика начала развиваться примерно в то же время, что и на Западе тАУ на рубеже XIX-XX веков. Одновременно с Ф. де Соссюром понятие языка как системы разрабатывали в своих трудах профессора Казанского университета Ф.Ф. Фортунатов и И.А. Бодуэн де Куртенэ. Последний на протяжении долгого времени переписывался с де Соссюром, соответственно, женевская и казанская школы языкознания сотрудничали друг с другом. Если Соссюра можно назвать идеологом ВлточныхВ» методов в лингвистике, то Бодуэн де Куртенэ заложил практические основы их применения. Он первым отделил лингвистику (как точную науку, использующую статистические методы и функциональную зависимость) от филологии (общности гуманитарных дисциплин, изучающих духовную культуру через язык и речь). Сам учёный считал, что Влязыкознание может принести пользу в ближайшем будущем, лишь освободившись от обязательного союза с филологией и историей литературыВ» [13, c.102]. ВлИспытательным полигономВ» для внедрения математических методов в лингвистику стала фонология тАУ звуки как ВлатомыВ» языковой системы, обладающие ограниченным количеством легко измеримых свойств, были самым удобным материалом для формальных, строгих методов описания. Фонология отрицает наличие смысла у звука, так что в исследованиях устранялся ВлчеловеческийВ» фактор. В этом смысле фонемы подобны физическим или биологическим объектам.
Фонемы, как самые мелкие языковые элементы, приемлемые для восприятия, представляют собой отдельную сферу, отдельную Влфеноменологическую реальностьВ». Например, в английском языке звук ВлтВ» может произноситься по-разному, но во всех случаях человек, владеющий английским, будет воспринимать его как ВлтВ». Главное, что фонема будет выполнять свою главную тАУ смыслоразличительную тАУ функцию. Более того тАУ различия между языками таковы, что разновидности одного звука в одном языке могут соответствовать разным фонемам в другом; например ВллВ» и ВлрВ» в английском различны, в то время как в других языках это разновидности одной фонемы (подобно английскому ВлтВ», произнесённому с придыханием или без). Обширный словарный запас любого естественного языка представляет собой набор сочетаний гораздо меньшего количества фонем. В английском, например, для произнесения и написания около миллиона слов используется всего 40 фонем.
Звуки языка представляют собой системно организованный набор черт. В 1920е тАУ1930е, вслед за Соссюром, Якобсон и Н.С.Трубецкой выделили Влотличительные чертыВ» фонем. Эти черты основаны на строении органов речи тАУ языка, зубов, голосовых связок. Скажем, в английском разница между ВлтВ» и ВлдВ» заключается в наличии или отсутствии ВлголосаВ» (напряжении голосовых связок) и в уровне голоса, отличающем одну фонему от другой. Таким образом, фонологию можно считать примером общего языкового правила, описанного Соссюром: ВлВ языке есть только различияВ» [24, c. 145]. Более важно даже не это: различие обычно подразумевает точные условия, между которыми оно и находится; но в языке существуют только различия без точных условий. Рассматриваем ли мы ВлобозначениеВ» или ВлобозначаемоеВ» тАУ в языке не существует ни понятий, ни звуков, которые существовали бы до того, как развилась языковая система.
Таким образом, в соссюровском языкознании изучаемый феномен понимается как свод сопоставлений и противопоставлений языка. Язык тАУ это и выражение значения слов, и средство общения, причём эти две функции никогда не совпадают. Мы можем заметить чередование формы и содержания: языковые контрасты определяют его структурные единицы, и эти единицы взаимодействуют, чтобы создать определённое значимое содержание. Так как элементы языка случайны, ни контраст, ни сочетание не могут быть основой. Значит, в языке отличительные признаки формируют фонетический контраст на другом уровне понимания, фонемы соединяются в морфемы, морфемы тАУ в слова, слова тАУ в предложения и т.д. В любом случае, целая фонема, слово, предложение и т.д. представляет собой нечто большее, чем просто сумма составляющих.
Соссюр предложил идею новой науки двадцатого века, отдельно от лингвистики изучающей роль знаков в обществе. Соссюр назвал эту науку семиологией (от греческого ВлsemeîonВ» - знак). ВлНаукаВ» семиотики, развивавшаяся в Восточной Европе в 1920е тАУ1930е и в Париже в 1950е тАУ 1960е, расширила изучение языка и лингвистических структур до литературных находок, составленных (или сформулированных) с помощью этих структур. Кроме того, на закате своей карьеры, параллельно совему курсу общей лингвистики, Соссюр занялся ВлсемиотическимВ» анализом поздней римской поэзии, пытаясь открыть умышленно составленные анаграммы имён собственных. Этот метод был во многом противоположен рационализму в его лингвистическом анализе: он был попыткой, изучить в системе проблему ВлвероятностиВ» в языке. Такое исследование помогает сосредоточиться на Влвещественной сторонеВ» вероятности; Влключевое словоВ», анаграмму которого ищет Соссюр, как утверждает Жан Старобинский, Влинструмент для поэта, а не источник жизни стихотворенияВ». Стихотворение служит для того, чтобы поменять местами звуки ключевого слова. По словам Старобинского, в этом анализе ВлСоссюр не углубляется в поиски скрытых смысловВ». Напротив, в его работах заметно желание избежать вопросов, связанных с сознанием: Влтак как поэзия выражается не только в словах, но и в том, что порождают эти слова, она выходит из-под контроля сознания и зависит только от законов языкаВ» (cм. Приложение 1).
Попытка Соссюра изучить имена собственные в поздней римской поэзии подчёркивает одну из составляющих его лингвистического анализа тАУ произвольную природу знаков, а также формальную сущность соссюровской лингвистики, что исключает возможность анализа смысла. Тодоров делает вывод, что в наши дни труды Соссюра выглядят на редкость последовательными в нежелании изучать символы явления, имеющие чётко определённое значение [Приложение 1]. Исследуя анаграммы, Соссюр обращает внимание только на повторение, но не на предшествующие варианты. . . . Изучая ВлПеснь о НибелунгахВ», он определяет символы только для того, чтобы присвоить их ошибочным чтениям: если они неумышленны, символов не существует. В конце концов, в своих трудах по общей лингвистике он делает предположение о существовании семиологии, описывающей не только лингвистические знаки; но это предположение ограничивается тем, что семиoлогия может описывать только случайные, произвольные знаки.
Раз это действительно так, то только потому, что не мог представить ВлнамерениеВ» без предмета; он не мог до конца преодолеть пропасть между формой и содержанием тАУ в его трудах это превращалось в вопрос. Вместо этого он обращался к Влязыковой законностиВ». Находясь между, с одной стороны, концепциями девятнадцатого века, основанными на истории и субъективных догадках, и методах случайной интерпретации, основанных на этих концепциях, и, с другой стороны, структуралистскими концепциями, стирающими противостояние между формой и содержанием (субъектом и объектом), значением и происхождением в структурализме, психоанализе и даже квантовой механике тАУ труды Фердинанда де Соссюра по лингвистике и семиотике обозначают поворотный момент в изучении значений в языке и культуре.
Русские учёные были представлены и на Первом международном конгрессе лингвистов в Гааге в 1928 году. С. Карцевский, Р. Якобсон и Н. Трубецкой выступили с докладом, в котором рассматривалась иерархическая структура языка тАУ в духе самых современных для начала прошлого века представлений. Якобсон в своих трудах развивал идеи Соссюра о том, что базовые элементы языка должны изучаться, в первую очередь, в связи со своими функциями, а не с причинами их возникновения.
К сожалению, после прихода в 1924 году к власти Сталина отечественное языкознание, как и многие другие науки, отбрасывает назад. Многие талантливые учёные вынуждены были эмигрировать, были высланы из страны или погибли в лагерях. Только с середины 1950-х годов стал возможен некоторый плюрализм теорий тАУ об этом в разделе 1.2.
1.2 Применение математических методов в лингвистике во второй половине ХХ века
К середине ХХ века сформировалось четыре мировых лингвистических школы, каждая из которых оказалась родоначальником определённого ВлточногоВ» метода. Ленинградская фонологическая школа (её родоначальником был ученик Бодуэна де Куртенэ Л.В. Щерба) использовала в качестве основного критерия обобщения звука в виде фонемы психолингвистический эксперимент, основанный на анализе речи носителей языка.
Учёные Пражского лингвистического кружка, в частности тАУ его основатель Н.С. Трубецкой, эмигрировавший из России, разработали теорию оппозиций тАУ семантическая структура языка была описана ими как набор оппозитивно постороенных семантических единиц тАУ сем. Эта теория применялась в изучении не только языка, но и художественной культуры.
Идеологами американского дескриптивизма были языковеды Л. Блумфилд и Э. Сепир. Язык представлялся дескриптивистам в виде совокупности речевых высказываний, которые и были главным объектом их исследования. В центре их внимания оказались правила научного описания (отсюда название) текстов: изучение организации, аранжировка и классификация их элементов. Формализация аналитических процедур в области фонологии и морфологии (разработка принципов исследования языка на разных уровнях, дистрибутивного анализа, метода непосредственно составляющих и т.д.) привела к постановке общих вопросов лингвистического моделирования. Невнимание к плану содержания языка, а также парадигматической стороне языка не позволило дескриптивистам достаточно полно интерпретировать язык как систему.
В 1960-х годах развивается теория формальных грамматик, возникшая, главным образом, благодаря работам американского философа и лингвиста Н. Хомского. Он по праву считается одним из наиболее известных современных учёных и общественных деятелей, ему посвящено множество статей, монографий и даже полнометражный документальный фильм. По имени принципиально нового способа описания синтаксической структуры, изобретённого Хомским тАУ генеративной (порождающей) грамматики тАУ соответствующее течение в лингвистике получило название генеративизма.
Хомский, потомок выходцев из России, с 1945 года изучал в Пенсильванском университете лингвистику, математику и философию, находясь под сильным влиянием своего учителя Зелига Хэрриса тАУ как и Хэррис, Хомский считал и считает свои политические взгляды близкими к анархизму (до сих пор он известен как критик существующего политического строя США и как один из духовных лидеров антиглобализма).
Первая крупная научная работа Хомского, магистерская диссертация ВлМорфология современного ивритаВ» (1951), так и осталась неопубликованной. Докторскую степень Хомский получил в Пенсильванском университете в 1955, однако большая часть исследований, положенных в основу диссертации (полностью опубликованной только в 1975 под названием ВлЛогическая структура лингвистической теорииВ») и его первой монографии ВлСинтаксические структурыВ» (Syntactic Structures, 1957, рус. пер. 1962), была выполнена в Гарвардском университете в 1951тАУ1955. В том же 1955 ученый перешел в Массачусетский технологический институт, профессором которого он стал в 1962.
В своём развитии теория Хомского прошла несколько этапов.
В первой монографии ВлСинтактические структурыВ» учёный представил язык как механизмепорождения бесконечного множества предложений с помощью конечного набора грамматических средств. Для описания языковых свойств он предложил понятия глубинной (скрытой от непосредственного восприятия и порождаемой системой рекурсивных, т.е. могущих применяться многократно, правил) и поверхностной (непосредственно воспринимаемой) грамматических структур, а также трансформаций, описывающих переход от глубинных структур к поверхностным. Одной глубинной структуре могут соответствовать несколько поверхностных (например, пассивная конструкция Указ подписывается президентом выводится из той же глубинной структуры, что и активная конструкция Президент подписывает указ) и наоборот (так, неоднозначность Мать любит дочь описывается как результат совпадения поверхностных структур, восходящих к двум различным глубинным, в одной из которых мать тАУ та, кто любит дочь, а в другой тАУ та, кого любит дочь).
Стандартной теорией Хомского считается модель ВлАспектовВ», изложенная в книге Хомского ВлАспекты теории синтаксисаВ». В этой модели в формальную теорию впервые вводились правила семантической интерпретации, приписывающих значение глубинным структурам. В ВлАспектахВ» языковая компетенция противопоставлена употреблению языка (performance), принята так называемая гипотеза Катца тАУ Постала о сохранении смысла при трансформации, в связи с чем исключено понятие факультативной трансформации, а также введен аппарат синтаксических признаков, описывающих лексическую сочетаемость.
В 1970-е Хомский работает над теорией управления и связывания (GB-теория тАУ от слов government и binding) тАУ более общей, нежели предыдущая. В ней учёный отказался от специфических правил, описывающих синтаксические структуры конкретных языков. Все трансформации были заменены одной универсальной трансформацией перемещения. В рамках GB-теории существуют и частные модули, каждый из которых отвечает за свою часть грамматики.
Уже недавно, в 1995 году, Хомский выдвинул минималистскую программу, где человеческий язык описывается подобно машинному. Это лишь программа тАУ не модель и не теория. В ней Хомский выделяет две главных подсистемы языкового аппарата человека: лексикон и вычислительную систему, а также два интерфейса тАУ фонетический и логический.
Формальные грамматики Хомского стали классическими для описания не только естественных, но и искусственных языков тАУ в частности, языков программирования. Развитие структурной лингвистики во второй половине ХХ века можно по праву считать Влхомскианской революциейВ».
Московская фонологическая школа, представителями которой были А.А. Реформатский, В.Н. Сидоров, П.С. Кузнецов, А.М. Сухотин, Р.И. Аванесов, использовала подобную же теорию для изучения фонетики. Постепенно ВлточныеВ» методы начинают применяться касаемо не только фонетики, но и синтаксиса. Структурностью языка начинают заниматься и лингвисты, и математики тАУ как у нас, так и за рубежом. В 1950-60е в СССР начинается новый этап во взаимодействии математики и лингвистики, связанный с разработкой систем машинного перевода.
Толчком к началу этих работ в нашей стране послужили первые разработки в области машинного перевода в США (хотя первое механизированное переводное устройство П.П. Смирнова-Троянского было изобретено в CCCР ещё в 1933 году, оно, будучи примитивным, не получило распространения). В 1947 году А.Бутт и Д. Бриттен придумали код для пословного перевода с помощью ЭВМ, годом позже Р.Риченс предложил правило разбиения слов на основу и окончание при машинном переводе. В те годы довольно сильно отличались от современных. Это были очень большие и дорогие машины, которые занимали целые комнаты и требовали для своего обслуживания большой штат инженеров, операторов и программистов. В основном эти компьютеры использовались для осуществления математических расчетов для нужд военных учреждений тАУ новое в математике, физике и технике служило, в первую очередь, военному делу. На ранних этапах разработка МП активно поддерживалась военными, при этом (в условиях Влхолодной войныВ») в США развивалось русско-английское направление, а в СССР - англо-русское.
В январе 1954 года в Массачусетском техническом университете состоялся ВлДжорджтаунский экспериментВ»тАУ первая публичная демонстрация перевода с русского языка на английский на машине ИБМ-701. Реферат сообщения об удачном прохождении эксперимента, сделанный Д.Ю. Пановым, появился в РЖ ВлМатематикаВ», 1954, №10: ВлПеревод с одного языка на другой при помощи машины: отчёт о первом успешном испытанииВ».
К работам по машинному переводу Д. Ю. Панов (в то время директор Института научной информации тАУ ИНИ, позднее ВИНИТИ) привлёк И. К. Бельскую, которая позднее возглавит группу машинного перевода в Институте точной математики и вычислительной техники АН СССР. К концу 1955 года относится первый опыт перевода с английского языка на русский при помощи машины БЭСМ. Программы для БЭСМ составляли Н.П. Трифонов и Л.Н. Королёв, кандидатская диссертация которого была посвящена методам построения словарей для машинного перевода.
Параллельно работы по машинному переводу велись в Отделении прикладной математики Математического института АН СССР (сейчас Институт прикладной математики имени М.В. Келдыша РАН). По инициативе математика А.А. Ляпунова. К работам по переводу текстов на машине ВлСтрелаВ» с французского языка на русский он привлёк аспирантку МИАН О.С. Кулагину и своих учениц Т.Д. Вентцель и Н.Н. Рикко. Представления Ляпунова и Кулагиной о возможности использования техники для перевода с одного языка на другой были опубликованы в журнале ВлПриродаВ», 1955, №8. С конца 1955 года к ним присоединилась Т.Н. Молошная, затем приступившая к самостоятельной работе над алгоритмом англо-русского перевода.
Р.Фрумкина [37, c.12], занимавшаяся в то время алогритмом перевода с испанского, вспоминает, что на этом этапе работ сложно было делать какие-то последовательные шаги. Гораздо чаще приходилось следовать эвристическому опыту тАУ своему или коллег.
Однако первое поколение систем машинного перевода было весьма несовершенным. Все они базировались на алгоритмах последовательного перевода Влслово за словомВ», Влфраза за фразойВ» тАУ смысловые связи между словами и предложениями никак не учитывались. Для примера можно привести предложения: ВлJohn was looking for his toy box. Finally he found it. The box was in the pen. John was very happy. (Джон искал свою игрушечную коробку. Наконец он ее нашел. Коробка была в манеже. Джон был очень счастлив.)В». ВлPenВ» в данном контексте тАУ не ВлручкаВ» (инструмент для письма), а Влдетский манежВ» (play-pen). Знание синонимов, антониов и переносных значений сложно вводить в компьютер. Перспективным направлением становилась разработка машинных систем, ориентированных на использование человеком-переводчиком.
Со временем на смену системам прямого перевода пришли Т-системы (от английского слова ВлtransferВ» тАУ преобразование), в которых перевод осуществлялся на уровне синтаксических структур. В алгоритмах Т-систем использовался механизм, позволяющий построить синтаксическую структуру по правилам грамматики языка входного предложения (подобно тому, как учат иностранному языку в средней школе), а затем синтезировать выходное предложение, преобразуя синтаксическую структуру и подставляя из словаря нужные слова.
Ляпунов говорил о переводе путём извлечения смысла переводимого текста и его представления на другом языке. Подход к построению систем машинного перевода, основанный на получении смыслового представления входного предложения путём его семантического анализа и синтеза входного предложения по полученному смысловому представлению, до сих пор считается наиболее совершенным. Такие системы называют И-системами (от слова ВлинтерлингваВ»). Однако задача по их созданию, поставленная ещё в конце 50-х тАУ начале 60-х, не решена полностью до сих пор, несмотря на усилия Международной федерации IFIP тАУ мирового сообщества учёных в области обработки информации.
Учёные задумались над тем, как нужно формализовать и строить алгоритмы для работы с текстами, какие словари надо вводить в машину, какие лингвистические закономерности следует использовать при машинном переводе. Такими представлениями традиционная лингвистика не располагала тАУ не только в части семантики, но и в части синтаксиса. Ни для одного языка в то время не существовало перечней синтаксических конструкций, не были изучены условия их сочетаемости и взаимозмаеняемости, не были разработаны правила построения крупных единиц синтаксической структуры из более мелких составляющих элементов.
Потребность в создании теоретических основ машинного перевода и привела к формированию и развитию математической лингвистики. Ведущую роль в этом деле в СССР сыграли математики А.А. Ляпунов, О.С. Кулагина, В.А. Успенский, лингвисты В.Ю. Розенцвейг, П.С. Кузнецов, Р.М. Фрумкина, А.А. Реформатский, И.А. Мельчук, В.В. Иванов. Диссертация Кулагиной была посвящена исследованию формальной теории грамматик (одновременно с Н.Хомским в США), Кузнецов выдвинул задачу аксиоматизации лингвистики, восходящую к работам Ф.Ф. Фортунатова.
6 мая 1960 года было принято Постановление Президиума АН СССР ВлО развитии структурных и математических методов исследования языкаВ», в Институте языкознания и Институте русского языка были созданы соответствующие подразделения. С 1960 года в ведущих гуманитарных вузах страны тАУ филологическом факультете МГУ, Ленинрадском, Новосибирском университетах, МГПИИЯ тАУ началась подготовка кадров в области автоматической обработки текста.
Однако работы по машинному переводу этого периода, называемого ВлклассическимВ», представляют собой скорее теоретический, нежели практический интерес. Экономически эффективные системы машинного перевода стали создаваться только в восьмидесятые годы прошлого века. Об этом я расскажу позже, в разделе 2.1, ВлМашинный переводВ».
К 1960-м тАУ 70-м годам относятся глубокие теоретические разработки, использующие методы теории множеств и математической логики, такие, как теория поля и теория нечётких множеств.
Автором теории поля в лингвистике был советский поэт, переводчик и лингвист В.Г. Адмони. Свою теорию он изначально разрабатывал на основе немецкого языка. У Адмони понятие ВлполеВ» обозначает произвольное непустое множество языковых элементов (например, Вллексическое полеВ», Влсемантическое полеВ»).
Структура поля неоднородна: оно состоит из ядра, элементы которого обладают полным набором признаков, определяющих множество, и периферии, элементы которой могут обладать как признаками данного множества (не всеми), так и соседних. Приведу пример, иллюстрирующий данное высказывание: скажем, в английском языке поле сложных слов (Влday-dreamВ» тАУ ВлмечтатьВ» трудноотделимо от поля словосочетаний (Влtear gasВ» тАУ Влслезоточивый газВ»).
С теорией поля тесно связана уже упомянутая выше теория нечётких множеств. В СССР её обоснованием занимались лингвисты В.Г. Адмони, И.П. Иванова, Г.Г. Поченцов, однако её родоначальником был американский математик Л.Заде, в 1965 году выпустивший статью ВлFuzzy LogicВ». Давая математическое обоснование теории нечётких множеств, Заде рассматривал их на лингвистическом материале.
В этой теории речь идёт уже не столько о принадлежности элементов к данному множеству (АÎа), сколько о степени этой принадлежности (mАÎа), так как периферийные элементы могут в той или иной мере принадлежать нескольким полям. Заде (Лофти-заде) был выходцем из Азербайджана, до 12 лет имел практику общения на четырех языках - азербайджанском, русском, английском и персидском - и пользовался тремя различными алфавитами: кириллицей, латинским, арабским. Когда ученого спрашивают, что общего между теорией нечетких множеств и лингвистикой, он не отрицает этой связи, но уточняет: ВлЯ не уверен, что изучение этих языков оказало большое влияние на мое мышление. Если это и имело место, то разве что подсознательноВ». В юности Заде учился в Тегеране в пресвитерианской школе, а после Второй мировой войны эмигрировал в США. ВлВопрос не в том, являюсь ли я американцем, русским, азербайджанцем или кем-то еще, - сказал он в одной из бесед, - я сформирован всеми этими культурами и народами и чувствую себя достаточно комфортабельно среди каждого из нихВ» [34, c.13]. В этих словах есть нечто родственное тому, что характеризует теорию нечетких множеств тАУ отход от однозначных определений и резких категорий.
В нашей стране в 70е переводятся и изучаются труды западных лингвистов ХХ века. И.А. Мельчук перевёл на русский язык сочинения Н. Хомского. Н.А. Слюсарева в своей книге ВлТеория Ф. де Соссюра в свете современной лингвистикиВ» связывает постулаты соссюровского учения с актуальными проблемами лингвистики 70-х. Намечается тенденция к дальнейшей математизации лингвистики. В ведущих отечественных вузахидёт подготовка кадров по специальности ВлМатематическая (теоретическая, прикладная) лингвистикаВ». В это же время на Западе происходит резкий скачок в развитии вычислительной техники, для чего требуются всё более новые лингвистические основы.
В 1980-е годы профессор Института востоковедения АН Ю.К. Лекомцев, занимаясь анализом языка лингвистики через анализ схем, таблиц и других видов записи, используемых в лингвистических описаниях, рассматривает математические системы, пригодные для этих целей (в основном тАУ системы матричной алгебры).
Таким образом, на протяжении всего ХХ века шло сближение точных и гуманитарных наук. Взаимодействие математики с лингвистикой всё чаще находило практическое применение. Об этом тАУ в следующей главе.
Глава 2. Отдельные примеры использования математики в лингвистике
2.1 Машинный перевод
Идея перевода с одного языка на другой при помощи универсального механизма возникла несколькими веками раньше, чем начались первые разработки в этой области тАУ ещё в 1649 году Рене Декарт предложил идею языка, в котором эквивалентные идеи разных языков выражались бы одним символом. Первые попытки осуществить эту идею в 1930-40е, начало теоретических разработок в середине века, усовершенствование систем перевода при помощи техники в 1970-80е, бурное развитие переводческой техники в последнее десятилетие тАУ таковы этапы развития машинного перевода как отрасли. Именно из работ по машинному переводу выросла компьютерная лингвистика как наука.
С развитием вычислительной техники в конце 70х тАУ начале 80х исследователи задались более реалистичными и экономически выгодными целями тАУ машина становилась не конкурентом ( как предполагалось раньше), а помощником человека-переводчика. Машинный перевод перестаёт служить исключительно военным задачам (все советские и американские изобретения и исследования, ориентированные, в первую очередь, на русский и английский языки, в той или иной мере способствовали Влхолодной войнеВ»). В 1978 году слова естественного языка были переданы в объединённой сети Arpa, шестью годами позже в США появились первые программы перевода для микрокомпьютеров.
В 70е Комиссия Европейских Общин покупает англо-французскую версию компьютерного переводчика Systran, заказывая также франко-аглийскую и итало-английскую версии, и систему перевода с русского на английский, использовавшуюся американскими Вооружёнными Силами. Так были заложены основы проекта EUROTRA.
О возрождении машинного перевода в 70-80-е гг. свидетельствуют следующие факты: Комиссия Европейских общин (CEC) покупает англо-французскую версию Systran, а также систему перевода с русского на английский (последняя развивалась после доклада ALPAC и продолжала использоваться ВВС США и НАСА); кроме того, CEC заказывает разработку франко-английской и итало-английской версий. Одновременно происходит быстрое расширение деятельности по созданию систем машинного перевода в Японии; в США Панамериканская организация здравоохранения (PAHO) заказывает разработку испано-английского направления (система SPANAM); ВВС США финансируют разработку системы машинного перевода в Лингвистическом исследовательском центре при Техасском университете в Остине; группа TAUM в Канаде достигает заметных успехов в разработке своей системы METEO (для перевода метеорологических сводок). Целый ряд проектов, начатых в 70-80-е гг. впоследствии развились в полноценные коммерческие системы.
За период 1978-93 в США на исследования в области машинного перевода истрачено 20 миллионов долларов, в Европе - 70 миллионов, в Японии - 200 миллионов.
Одной из новых разработок стала технология TM (translation memory), работающая по принципу накопления: в процессе перевода сохраняется исходный сегмент (предложение) и его перевод, в результате чего образуется лингвистическая база данных; если идентичный или подобный исходному сегмент обнаруживается во вновь переводимом тексте, он отображается вместе с переводом и указанием совпадения в процентах. Затем переводчик принимает решение (редактировать, отклонить или принять перевод), результат которого сохраняется системой, поэтому не нужно дважды переводить одно и то же предложение. В настоящее время разработчиком известной коммерческой системы, основанной на технологии TM, является система TRADOS (основана в 1984 г.).
В настоящее несколько десятков компаний занимаются разработкой коммерческих систем машинного перевода, в
Вместе с этим смотрят:
A history of the english language