Суперпрограмма StarLing и Программы анализа и лингвистической обработки текстов  

Автор - Сергей Анатольевич Старостин,
...


Суперпрограмма StarLing





...

Программы анализа и лингвистической обработки текстов
...


РВБ: Программное обеспечение: Каталог лингвистических программ и ресурсов в Cети.

...

АВТОМАТИЧЕСКИЙ АНАЛИЗ СТИХА В СИСТЕМЕ STARLNG[1]
...


Козьмин А.В.

Центр типологии и семиотики фольклора РГГУ

mailto:akozm@mail.ru

Доклад посвящен использованию интегрированной информационной системы STARLING для автоматического анализа стиха. Описываются программные модули и алгоритмы, реализованные в системе.

Стиховедение требует выполнения огромного объема рутинных операций. Вероятно, именно поэтому в литературоведческой среде оно считается трудной областью, хотя работа именно в этой сфере приносит очень весомые и, главное, хорошо обоснованные результаты.

Эти операции хорошо формализуются, что, кажется, должно было бы привести к созданию программного инструментария для их выполнения. Однако до сегодняшнего дня нет программ, которые могли бы использоваться как «рабочее место стиховеда». Идеальной основой и прототипом для такого инструмента является интегрированная информационная система STARLING [Старостин 1994].

Сначала сформулируем круг наиболее массовых и рутинных задач, стоящих перед стиховедом, приступающим к обработке нового материала: Это прежде всего определение метрики и ритмики. Естественно, ямб от хорея отличить легко, ударения расставляются тоже без труда (если не брать сложные случаи, но и там, как правило, ясны по крайней мере альтернативы). Но если требуется обработать тысячи или десятки тысяч строк, задача становится весьма утомительной. То же самое относится и к анализу рифмы. Более маргинальные проблемы связаны с анализом фонетических эффектов, что также требует большой рутинной работы.

И автоматическое описание метрики и ритмики, и анализ фонетических эффектов требует использования прежде всего средств морфологического анализа, реализованных в системе STARLING [Крылов, Старостин 2003]. Результаты работы анализатора в удобном для пользователя виде также целесообразно представлять как базу данных в формате, поддерживаемым системой, поскольку она предоставляет богатые возможности для анализа уже полученных данных

Компьютерные инструменты являются средством решения массовых задач. Поэтому их разработка должна вестись по следующему принципу: от легко формализуемого и массового к трудно формализуемым исключениям. Первые версии программ должны обрабатывать наиболее массовые случаи. Поэтому все дальнейшие определения и, соответственно, алгоритмы принципиально ориентированы на массовый материал, хорошо разработанный в научной традиции.



...

Металингвистическая разметка текстовых баз данных в системе STARLING и современные задачи корпусной лингвистики
...


Сергей Александрович Крылов
Институт востоковедения РАН

e-mail: krylov@rinet.ru

Сергей Анатольевич Старостин
РГГУ, ИВК

e-mail: starling@rinet.ru



Рассматривается проблема многоаспектной лингвистической разметки текстовой базы данных в рамках интегрированной информационной среды STARLING.

Использование STARLING’а позволяет осуществить несколько весьма существенных для корпусной лингвистики задач.

1) Преобразование текста в стандартно организованную базу данных. Единицами членения в такой базе могут быть: главы, параграфы, абзацы, предложения, пунктуационные клаузы, словоформы. При подключении соответствующих инструментов текст возможно представить также как цепочку инвентарных единиц языка (= “идиом” в смысле Хоккета) или как цепочку морфем.

2) Разметка в автоматическом режиме: такова морфологическая разметка (с опорой на Грамматический словарь А.А.Зализняка), синтаксическая разметка (с опорой на тот же словарь); синтаксическая, семантическая и стилистическая разметка ( “Словарь русского языка” Ожегова).

3) Разметка в полуавтоматическом режиме, то есть с применением интерредактирования. Этот вид металингвистической деятельности очень важен при обработке крупных текстовых массивов. В полуавтоматическом режиме возможно проведение многих других типов процедур:

- задание границ фонетических слов (в частности, “тактов” //”акцентных слов”) в письменном тексте на основе некоторого изначально заданного представления о составе множества клитик и клитикообразных слов (на основе такой разметки можно производить их классификацию, составление частотных словарей тактов и т. п.);

а) снятие морфологической, синтаксической и лексико-семантической омонимии; б) включение нетривиальной синтаксической и семантической разметки словарные базы данных.

Большое значение для эффективной работы по металингвистическому индексированию текстовых баз данных имеет опора на такие виды металингвистических источников, как электронные версии традиционных “бумажных” словарей (среди них - двуязычные, академические толковые, синонимические, фразеологические, орфоэпические, ортологические, синтаксические, а также энциклопедические).


...


Hosted by uCoz