Народ.Ру: Ccылки - КАТАЛОГИ лингвистических программ

Ccылки - КАТАЛОГИ лингвистических программ

Таксон Ру
...

Главная > Статистический анализ текстов

Онлайновый сервис: http://taxon.ru/ - что о нем -

Он как раз и воспринимает словоформы как разные слова. Вот реферат из сети:
"Анализ литературы и информации из глобальной сети показал, что к настоящему
времени разработаны частотные анализаторы, учитывающие парадигматические
изменения в английском языке. Русский язык является более сложным с точки
зрения морфологии. На данный момент ведутся работы отдельно по частотному и
морфологическому анализу, но готовых морфоанализаторов пока нет.

Необходимо отметить, что большинство существующих программных продуктов
достаточно примитивно анализируют текст: для них словом является
последовательность символов <от пробела до пробела>. Для таких программ
слова <математика> и <математики> являются совершенно разными, не говоря уж
о слове <математический>.

Предложенная программа разбирает слова на морфемы, т.е. выделяет приставки,
корни, суффиксы и окончания, если таковые существуют. Благодаря этому
появляется возможность более глубокого машинного анализа текста.

Среди спектра задач, которые позволяет решать представленная программа,
можно выделить следующие:

При составлении конкордансов - словарей, содержащих слова из всех
произведений одного автора. Достаточно рутинная работа - проанализировать
стилистику какого-либо автора по его произведениям. Программа дает
возможность автоматизированного анализа авторских текстов и подсчета
частотности употребления слов.

...

AOT Автоматическая Обработка Текста
...

11 декабря 2008 года Сервисы снова работают.

8 декабря 2008 года К сожалению, питерский сервер опять лежит. Сервисы не работают. Пытаюсь связаться с руководством. Дареному коню в зубы не смотрят...

5 ноября 2008 года Alexander Pak выложил на сайт реализацию модуля морфологии на python, включен только англ. словарь .

26 июня 2008 года Сервисы снова работают. Институт филологических исследований Санкт-Петербургского государственного университета продолжает поддержку aot.ru (спасибо Виктору Захарову).

19 июня 2008 года Сервисы не работают. Лежит основной сервер.

27 января 2008 года Опубликован пример вызова поверхностной семантики на Delphi.

14 января 2008 года Сервисы включены.

11 января 2008 года Уже три дня какие-то плохие люди посылают на наши сервисы несколько запросов в секунду. Пытаемся разобраться в ситуации, сервисы пока отключены.

15 ноября 2007 года Стартовала специальная акция! Найди десять ошибок в морфологическом словаре и получи любой наш COM-объект бесплатно. Ошибки высылать на sokirko@yandex.ru .

15 ноября 2007 года Пользователь Natasha нашла две ошибки в морфологическом словаре. Ошибки исправлены.

4 сентября 2007 года В поиске по массиву появились операторы #left и #right, которые сортируют предложения по левому и по правому контексту заданного слова

10 мая 2007 года Открылся сайт ddc-concordance.org, посвященный нашей системе лингвистического поиска DDC. Сайт поддерживается Kai Zimmer (BBAW)

21 апреля 2007 года Kirill Maslinsky добавил к нашим

...

UIMA project
...

What is Unstructured Information Management Architecture?

Unstructured Information Management applications are software systems that analyze large volumes of unstructured information in order to discover knowledge that is relevant to an end user. UIMA is a framework and SDK for developing such applications. An example UIM application might ingest plain text and identify entities, such as persons, places, organizations; or relations, such as works-for or located-at. UIMA enables such an application to be decomposed into components, such as "language identification" > "language-specific segmentation" > "sentence boundary detection" > "entity detection (person/place names, etc.)". Each component must implement interfaces defined by the framework and must provide self-describing metadata through XML descriptor files.

The framework manages these components and the data flow between them. Components are written in Java™ or C++; the data that flows between components is designed for efficient mapping between these languages. In addition, UIMA provides capabilities for wrapping components as network services, and it can scale to large volumes by replicating processing pipelines over a cluster of networked nodes.

How does it work?
UIMA SDK was originally developed by IBM® and made available here at alphaWorks®. In October 2006, IBM donated UIMA SDK to Apache; ongoing development will be done in the open-source style by the Apache UIMA community. For further details about Apache UIMA and its development process, please refer to the Apache UIMA Web site.

There are still some IBM products in the field that uses older IBM UIMA releases instead of the new Apache UIMA releases. If you need an older IBM UIMA release, please check the IBM product page for UIMA on developerWorks® in order to get the product-aligned version of IBM UIMA. The Java source code for some of the older IBM UIMA releases is available at SourceForge.

IBM technology related to Apache UIMA

The alphaWorks UIMA pages contain some additional components and technologies that work with Apache UIMA and enrich the functionality of Apache UIMA. Currently, the available components are as follows:

SemanticSearch 2.1: The SemanticSearch package is an add-on to Apache UIMA that provides a full-featured semantic search engine. The package includes a CAS consumer that populates a search engine index with the document content together with the semantic annotations added by the analysis pipeline. The index can be then queried by XML Fragments that are small, well-balanced XML pieces of text with annotations. For example, if your text document contains the person name ?Donald Knuth?, and this name is identified by an annotator as being the author of the document (and is indexed as an annotation called ?author?), you can query this information by using a query <author>Donald Knuth</author>. The index is accessed by an API, and the package includes an example semantic search application written in Java along with the API full documentation.

IBM UIMA wrapper: The IBM UIMA wrapper package enables you to run IBM UIMA components inside Apache UIMA 2.2 or above. This package is designed for projects and products that migrate to Apache UIMA but that must still be able to run older IBM UIMA components.

...

MYDIV
...

софт скрипты драйвера форумы блоги

...

Каталог лингвистических программ и ресурсов в сети
...

Каталог лингвистических программ и ресурсов в сети

(Linguistics Software Catalogue РВБ,

Версия 1.6 от 16 июля 2002г)

Данный каталог составлен Логичевым Сергеем Владимировичем и включает описание программ, связанных с анализом текстов и вычислительной лингвистикой, а также соответствующих ресурсов, доступных в глобальной сети Интернет. Упор при составлении каталога делался на бесплатные программы, доступные для загрузки. Но также описаны некоторые on-line и коммерческие версии программ.

Тематически каталог разбит на разделы:
1.Программы анализа и лингвистической обработки текстов

2.Психолингвистические программы

3.Программы преобразования текстов

4.Генераторы текстов и "говорящие" программы

5.Системы обработки естественного языка (NL-Processing)

6.Коллекции ресурсов

7.Словари и тезаурусы

...

КОНКОРДАНСЫ
...

...

Автоматизация процессов морфологического анализа и статистической обработки текста
...

Результат работы
Предложенная программа решает одну из наиболее интересных и актуальных проблем в области прикладной лингвистики: морфологический анализ текста и подсчет статистики вхождений морфем. Так, программа может определять такие немаловажные характеристики слова, как часть речи, число, род, падеж, время и т. д. Данная программа выгодно отличается от уже существующих частотных анализаторов, так как она по возможности учитывает морфологию русского языка и выдает пользователю подробную статистику, а не просто сравнивает наборы символов.
Закачать тезисыРабота целикомПрочие материалы
Обсуждение работы

Автоматизация процессов морфологического анализа и статистической обработки текста (Алексеенко Дмитрий Александрович, 18.12.2003 14:26:01 )
В работе рассматривается весьма интересная проблема. Но я не совсем понял путь решения проблемы (видимо из-за слишком краткого изложения :-) ). И главное, речь идет о программе (я так понял компьютерной), но ни слова ни о среде, ни о методах программирования; очень всколзь упоминается об алгоритме. Хотелось бы увидеть более поподробное изложение работы, если можно.
Ответ (Дмитрий Алексеенко, 03.01.2004 23:14:10 )
Спасибо за замечание. Учту. В скором времени в работу будет более детально освещен алгоритм работы и все, что связано с программированием.

Среда разработки - Borland C++Builder 5.

...