СТАТЬИ  

В.З. Демьянков Морфологическая интерпретация как конструирование внутренней формы слова·
...


Для языкознания последних двадцати лет характерен бурный рост различных теорий, сочетающийся с экстенсивной деятельностью в описании многочисленных языков. К концу 80-х годов это привело к качественной перестройке методического арсенала лингвистики. Сегодня фундаментальные теории имеют непосредственное отношение к исследованию и моделированию человеческой духовной деятельности в целом, но при этом менее заметно стремление все в человеке объяснять как частное проявление языковой способности (как это было на исходе структуралистской эпохи конца 60-х годов). Сегодняшний интерес к фундаментальной лингвистической теории непосредственно связан и с надеждами на построение систем искусственного интеллекта, немыслимого без естественного языка или его аналога. Для лингвистов контакты с разработчиками таких систем оборачиваются дополнительным расширением технических и даже технологических возможностей, исследование больших объемов языковых данных теперь ориентировано в большей степени на новые деформационные технологии, на работу ЭВМ.

Разработка крупных лингвистических проектов, таких как Машинный фонд языка, в свою очередь, представляет собой



-148-

проблему информатики нового типа – информатики «лингвистических вычислений», соединяющей средства «макровычислительной» лингвистики и «микровычислительной» лингвистики. Первая – это прекрасно разработанная область практических методик обработки больших объемов лингвистических данных; к ней зачастую и сводится понятие «вычислительной лингвистики». Под микровычислениями мы понимаем операции над отдельным языковым выражением, зачастую уходящие глубоко в психолингвистическую сущность языка; операции эти эксплицитно описываются в формальном аппарате современных лингвистических концепций и особенно детально разработаны (а потому и применимы в наибольшей степени) в таких концепциях, как расширенная стандартная генеративная модель, грамматика Монтегю, обобщенная грамматика НС, функциональная модель в различных вариантах, лексическая фонология, интерпретативная морфология и др. Глубинные принципы этих подходов, в свою очередь, мы находим в сугубо теоретических исследованиях языка задолго даже до эпохи ЭВМ. Две названные разновидности вычислительной лингвистики в основном сформировались как дисциплины, в фокусе внимания которых – соответственно речь (макровычисления) и язык (микровычисления). Мы же утверждаем, что будущее вычислительной лингвистики как главного участника в построении систем искусственного интеллекта – в более широком взаимодействии обеих ветвей ее на базе информатики, в разработке общего для них метаязыка новой информационной технологии. В свою очередь, такой метаязык будет базироваться на теоретическом наследии языкознания.

К такому выводу мы пришли в результате работы над двумя взаимоподдерживающими системами, связанными с морфологической интерпретацией текста, – МОРФ и ЛИНГВИСТ, построенными и отлаженными, в промежуточной своей версии, на персональных ЭВМ типа IВМ.

Система МОРФ представляет собой морфологический интерпретатор естественного языка, по замыслу пригодный для любого языка. Задаваемое на входе выражение распознается системой как слово данного языка, устанавливаются исходная словарная форма и грамматические категории этой словоформы и при желании пользователя выдаются все допустимые формы этой же лексемы, включающие в себя выбранные пользователем же граммемы. Отличительные особенности данной системы заключаются в следующем.

1. Лексема не отыскивается непосредственно в хранилище (скажем, в файле основ, как это принято в наиболее распространенных



-149-

работающих системах лемматизации), а «вычисляется» исходя из набора морфов данного языка и набора парадигм словоизменения. Например, в искусственном слове недопортфелеиграющему ставится ударение, указываются исходная форма недопортфелеиграть и набор граммем: глагол в форме причастия действительного залога настоящего времени дательного падежа множественного числа.

2. Набор данных не встроен в алгоритм, а размещен на внешних носителях. Среди прочего имеются:

- список морфов со своими селективными признаками. Например, отражается то обстоятельство, что префикс аг- (как в слове агглютинация, ср. конглютинация и аббревиация, где префикс аб-, не сочетающийся с морфом -глют-, бывает только перед морфом, начинающимся на г: префикс а- не бывает после префикса ан-, но зато есть префикс, тоже греческого происхождения, ана-. Наличие этих признаков позволяет по ходу распознавания слова слева направо (в соответствии с принципами гипотетической интерпретации [Демьянков 1985]) значительно уменьшить количество посторонних промежуточных гипотез об интерпретации выражения;

- набор парадигм словоизменения, каждая из которых закодирована как кортеж («массив»), состоящий из номеров окончаний в соответствующем списке;

- набор формальных окончаний, каждое из которых представляет собой запись, включающую в себя не только физический облик цепочки (типа -а, -ющ, -ему, «ноль» и т.п.), но и – в качестве отдельного поля – множество граммем, этому окончанию приписываемых, а также множество ограничений, бракующих или одобряющих сочетаемость данного окончания с гипотетической основой с исходом на тот или иной класс графем, при данном же гипотетически приписываемом ударении. Например, окончание -и с граммемами «мн. число, им. падеж и вин. падеж (для неодушевленных сущностей)» недопустимо после основ – т.е. корневых и/или суффиксальных морфов – на -ц; окончание -ый прилагательного не может быть в ударном положении и т.п.;

- список корректоров, по морфемной записи (в данной гипотетической интерпретации выражения) устанавливающий орфографичность, базируясь: а) на правильности сочетания графем (самый простой случай); например, стандартно бракуемые сочетания шы, жы и т.п. заменяются на ши, жи; б) на сочетаемости морфов; например, префикс, оканчивающийся на согласный, перед йотованной гласной графемой требует субморфа -ъ-; он вставляется, если это не так в заданном выражении при данной интерпретации; перед морфом на -к такой префикс требует варианта той же морфемы на -ы. Констатировав неправильность,



-150-

корректор подставляет правильную подцепочку в выражение, указывая, что это исправление справедливо именно при данном варианте членения на морфы;

- набор идиоматических сращений морфов – актуальных или потенциальных основ (типа человек, люд и другие супплетивы), морфологические свойства которых – акцентуация и номер парадигмы – не вычисляется через свойства последнего входящего в них морфа. Например, основа носорог- должна здесь храниться, поскольку, в отличие от основы рог-, хранимой просто в списке морфов, в форме им. падежа мн. числа она имеет безударное окончание -и (носороги, а не ожидаемое носорога); – список граммем данного языка с их иерархией. Например, в каждой записи, соответствующей одной граммеме, указываются – явно или косвенно – подчиняющие и подчиненные категории; именно из этого списка извлекается информация о том, каков репертуар падежей (в данном языке), наклонений, времен, залогов и т.д., а также какими граммемами могут обладать те или иные части речи.

3. Исправление ошибок в задаваемом выражении – и это вытекает из структуры данных и из алгоритма интерпретации – происходит попутно с распознаванием, а не является результатом работы отдельной подсистемы. Так, если задана (некорректная) словоформа портфелеотоигрочеловекамися, то будет распознана лексема портфелеотыгрочеловек (тв. падеж мн. числа) и указано, что орфографически более приемлемой – при данном варианте распознавания – будет словоформа портфелеотыгролюдьми – в силу того, что допустимая парадигма при данном варианте разбора не допускает окончания -ами требуется супплетивный вариант ''люд'' этой же основы, а при данной части речи (существительное) недопустима возвратная частица -ся / -сь. Как же это происходит? Для данного выражения вычисляется гипотетическая основа – портфелеотоигрочеловек, в своем внутреннем разбиении на морфы, в нашей нотации:

порт*фел*е=от_о!игр*о=чел*о=век*,

при следующих символах категории морфа: _ – префикс, * корень, ! – морфная прокладка-субморф, = – суффикс. Устанавливается, что конец всего выражения – -амися – может быть представлен как сочетание окончания -ами (из списка флексий) с единицей -ся: выдвигается гипотеза о том, что основа уже вычленена, – при этом резервируется и проверяется гипотез о необходимости продолжить морфное членение основы. – что дальше будет выделен суффикс -а и т.д. (в данном прим впрочем, эта гипотеза не подтвердится). Затем констатируется, что



-151-

морфный «хвост» (состоящий только из целых морфов гипотетической основы – чел*о=век*) хранится в качестве основы – «идиоматического сращения морфов», что свидетельствует о невычислимости акцентуационных и словоизменительных свойств этого «хвоста», исходя только из свойств морфа -век*. Поскольку анализируемая словоформа в нашем случае нарушает правило, согласно которому супплетив -человек- сочетается только с флексиями ед. числа, система выдвигает гипотезу об ошибке. Устанавливается, по списку флексий, что -ами – окончание тв. падежа мн. числа, после чего синтезируется правильная форма для полученного «хвоста» – людьми – и «подвешивается» к гипотетической префиксной части. Корректоры же – по существу, параллельно самой лемматизации – устанавливают, что субморф -о-, стоящий после префикса от-, недопустим перед морфом игр (при указанной категории корня; в этом отношении корень бр был бы рассмотрен иначе, поскольку отобрали с тем же субморфом допустим), вычеркивает этот избыточный субморф, после чего и выражение от_игр* заменяется на более правильное от_ыгр*.

Такова, в общих чертах, внутренняя механика поморфного распознавания, при которой корректировка, повторим, является попутным продуктом лингвистических микровычислений, соответствующих представлениям лингвиста о том, как мы понимаем даже неправильное выражение на естественном языке. Мы стремились строить в первую очередь лингвистически правдоподобные, и только во вторую очередь – технически (с точки зрения простоты программирования) простые процедуры. Облегчало эту задачу, в частности, то, что с самого начала алгоритм составлялся на основе принципов структурного программирования. Использовался язык программирования паскаль, как известно, позволяющий следовать этим принципам очень эффективно. Лингвист (автор данной статьи) одновременно выступал в качестве программиста, отказавшись от сложившейся традиционно схемы разделения задач. Обычно же одна сторона (лингвисты) на очередной итерации общения с программистами пытается изложить свою модель, а другая имеет право и способна ее лишь адаптировать и не всегда – в силу иной профессиональной направленности – достаточно органично чувствует смысл требуемых лингвистических микровычислений: программист-профессионал чаще ориентирован на численные задачи; он же порой виртуозно владеет техникой организации больших баз данных, требующих макровычисления, – но тонкости и лингвистический смысл заказываемых ему микроопераций (как и меры ценностей: что обязательно следует учесть, а чем можно и пожертвовать) могут от




-152-

программиста-нелингвиста и ускользнуть. В нашем же случае исполняющая сторона не могла не делать именно то, чего требовала «заказывающая» сторона.

4. Если заданное слово невозможно – при существующем наборе хранимых морфов – распознать, соблюдая «грамматику» морфного членения (эта грамматика допускает, например, чтобы после приставки шел корень или другая приставка, но не суффикс или флексия в русском языке) и селективные ограничения, навязываемые индивидуальными морфами, – система МОРФ предлагает пользователю сообщить, если тот желает, его вариант морфного членения, устанавливает, соответствует ли это членение грамматике, и, если это так, заносит недостающие единицы в расширяемый таким образом список морфов, переупорядочив его после этого. Теперь она готова разобрать и слова с новыми морфами. Таким образом, система МОРФ обладает обратной связью с пользователем (правда, в меньшей степени, чем система ЛИНГВИСТ, о которой говорится ниже). Проявлена эта обратная связь и в том, что, если слово на входе задано с форматными ошибками (скажем, русское слово записано с вкраплениями посторонних символов и с некорректными сочетаниями букв типа чы, чя и т.п.), МОРФ предлагает исправленный вариант и спрашивает, настаивает ли пользователь на своем написании или же он принимает помощь системы. В зависимости от этого ответа разбирается тот или иной вариант.

Эта обратная связь, которая в дальнейших версиях, несомненно, должна быть развита, сближает систему МОРФ с интерпретатором в программистском смысле слова: в результате контакта системы с пользователем, рабочие наборы данных – «знания» – пополняются и корректируются, а затем используются в дальнейшем распознавании слов.

5. Системы МОРФ и ЛИНГВИСТ задуманы (и в значительной степени осуществлены в уже действующих версиях) как не зависящие от конкретного языка. Они «настраиваются» на определенный язык, когда те или иные наборы данных (морфов, парадигм, корректоров, основ, флексии, граммем и т.п.) активизируются в данном сеансе, но общий алгоритм универсален. Именно этим объясняется и внутреннее представление данных, например парадигм. Флексия имеет статус, по существу, самостоятельной единицы. Различаются «свободные» флексии (в русском языке это обычный случай) и «связанные». Примеры последних в русском языке: -ющ-, -ущ-, -енн-, -ем- (показатели причастия), -ейш- (показатель превосходной степени). В отличие от свободных флексий (типа -у в формах дат. падежа ед. числа), но подобно корневым и суффиксальным морфам, связанные флексии



...


Hosted by uCoz