Народ.Ру: ПРОЕКТЫ

ПРОЕКТЫ

Краткое описание проекта "Русский стандарт" (сентябрь 2002)
...

Основные задачи проекта

В настоящее время в сети Интернет существует достаточно большое количество корпусов текстов и электронных библиотек. Однако их подбор и состав не носят системного характера, неравномерны и недостаточно репрезентативны в отношении разных авторов и разных периодов развития литературного языка. Многие тексты представляют авторов XIX и первой половины XX веков. Качество набора недостаточно высокое (в частности, отмечается большое количество опечаток, пропусков и искажений оригинального текста). Особенно слабо отражена литература конца XX - начала XXI века. Между тем, именно эта группа текстов (наряду с современной прессой) является основным источником сведений о состоянии современного русского языка в его литературно-письменном варианте. Этим определяется актуальность первой задачи данного проекта - пополнить существующие электронные библиотеки и корпуса текстами, которые бы максимально широко представляли современных авторов и современное состояние русского литературного языка, причем текстами, отвечающими самым высоким стандартам - как с точки зрения состава авторов и качества языка, так и с точки зрения качества электронного набора. Уже выполнение одной только этой задачи создаст целый ряд новых возможностей как для филологов, лингвистов, журналистов и других представителей гуманитарных специальностей, деятельность которых предполагает работу с текстами, так и для других пользователей Интернета.

Создаваемый корпус является источником (по существу - базой данных) примеров употреблений слов в современном языке, что может быть использовано не только в лингвистических исследованиях (теоретических и прикладных), но и в практике преподавания языка и обучения языку как родному и как неродному, в создании и совершенствовании систем машинного перевода и автоматической обработки текстов, в создании специализированных лексических баз данных и электронных словарей. Подобная база данных является важным подспорьем для применения точных методов в лингвистике и литературоведении (определение частотности "ключевых" слов того или иного произведения, поиск контекстов, характерных для данного автора, определение авторства произведений). Специальный интерес и специальную ценность такой корпус будет иметь также для лексикографической практики и лексикографических проектов, поскольку корпус примеров употреблений слов в современном языке является необходимой базой и одной из важнейших составляющих таких проектов. В настоящее время уже создается Новый объяснительный словарь синонимов русского языка под общим руководством акад. Ю. Д. Апресяна (вышли в свет два выпуска и подготовлен к изданию 3-й), назрела настоятельная необходимость переиздания (после соответствующей переработки) 4-томного академического Словаря русского языка (МАС), в котором многие устаревшие и вышедшие из употребления значения не снабжены соответствующими пометами, многие другие значения, вошедшие в языковой обиход в последние десятилетия, не отражены, а корпус примеров в значительной степени устарел и нуждается в существенном пополнении и обновлении. Продолжается также работа над созданием лексической базы данных "Лексикограф-эксперт" под руководством Е. В. Падучевой. В этой базе данных (электронном словаре особого типа) также предусмотрено специальное поле "Примеры", объем которого в последней версии базы данных существенно увеличен. Наш коллектив установил тесное и плодотворное профессиональное сотрудничество с участниками названных лексикографических проектов. Создаваемый нами электронный корпус послужит важным источником примеров как для этих, так и для других создаваемых в настоящее время словарей и баз данных.

Наконец, данный проект, по замыслу его разработчиков, является начальным этапом в реализации более общего проекта, предполагающего, наряду с электронным корпусом, создание электронного словаря и электронной версии грамматики современного русского литературного языка, для которых корпус является необходимой базой. На данном этапе работы предполагается осуществить морфологическую разметку корпуса и снабдить его отдельными элементами синтаксической разметки (непосредственно связанными с морфологической - общая синтаксическая разметка является, конечно, специальной задачей, для осуществления которой данный этап может рассматриваться лишь как подготовительный). Каждое вхождение слова в данном электронном корпусе будет снабжено морфологической характеристикой. Сама по себе такая задача не является тривиальной и требует серьезной теоретической морфологической базы, поскольку приписывание морфологической характеристики многим словам (особенно служебным и полуслужебным) связано с решением сложных лингвистических проблем и принятием решений, которые устраивали бы не только профессиональных лингвистов, работающих в сфере морфологии или синтаксиса и обратившихся к электронному корпусу как к источнику языкового материала для своих лингвистических исследований, но и других пользователей: специалистов в области машинного перевода и автоматической обработки текстов, школьников, студентов и преподавателей, использующих размеченные корпуса в учебных целях, а также любых других (не имеющих специальной лингвистической подготовки) пользователей сети Интернет (в том числе - не являющихся носителями русского языка), которых заинтересует морфологическая характеристика слова.

В свою очередь, решение этих морфологических проблем и постепенное совершенствование характера и объема морфологической разметки позволит значительно продвинуться в области теоретической и прикладной лингвистики, станет базой для создания современных грамматик русского языка - в том числе, электронных. Этим определяется актуальность второй задачи данного проекта.

Обзор аналогичных разработок в данной области

В связи с развитием и распространением компьютерных

...