Дискуссии

Дискуссии

Частотные словари

...

... существуют ли программы статистического анализа текстов, позволяющие посчитать число уникальных (неповторяющихся) слов в тексте? Я хотел бы использовать их для сравнения качества переводов ( по богатству словаря), например, переводов романа Булгакова "Мастер и Маргарита" на иностранные языки, см. например на моем блоге по языкам и переводам посты:

http://perevod99.blogspot.com/2009/01/blog-post_08.html

и

http://perevod99.blogspot.com/2009/01/blog-post_06.html.

...

Я когда-то баловался этим

Составил частотный словарь Высоцкого и Мандельштама - только их тексты у меня были в 80-х

У Высоцкого словарь был почти в 10 раз больше чем у Мандельштама!

НО! - Это ни о чем не говорит! -

Уникальные смыслы рождаются из неповторимых сочетаний самых обычных слов!

...

> Уважаемые коллеги - я так понял - нашему товарищу нужна программа, генерирующая частотный словарь. -

...

Да, но мне нужна программа, чтобы сделать скрин и составить такой частотный словарь для текста "Мастера и Маргариты" в переводе Richard Pevear and Larissa Volokhonsky (например) и другой частотный словарь - для того же романа в переводе Michael Glenny. Мне не нужен готовый частотный словарь языка Булгакова! Какой программой это можно сделать, чтобы загрузить в нее текст в Ворде (или txt) и получить на выходе цифру - число уникальных (не повторяющихся) слов? Вы правы, "Уникальные смыслы рождаются из неповторимых сочетаний самых обычных слов". Например, "а еще и потому, что качеством своей провизии Грибоедов бил любой ресторан в Москве, как хотел, и что эту провизию отпускали по самой сходной, отнюдь не обременительной цене" - "бил как хотел" - обыденные слова, но не в качестве сказуемого к слову
"ресторан"! Но все-таки, если окажется, что словарь одного переводчика -
4000 слов, а другого 8000, очень маловероятно, что первый перевод лучше.
Богатый словарь - еще не гарантия высокого качества перевода, но БЕДНЫЙ СЛОВАРЬ - гарантия низкого его качества, по-моему.

...

например, в ruby

>> freqs = Hash.new(0)
>> [''один'', ''два'', ''три'', ''один''].each { |word| freqs[word] += 1 }

>> freqs
=> {"один"=>2, "три"=>1, "два"=>1}

M.

...

А вот:
dmitry.kolomatskiy прокомментировал(а) ваше сообщение "Итальянские переводы
"Мастера и Маргариты"":

здравствуйте,
прочёл Ваше сообщение на мослинге. Я в своё время пользовался этой
программой:

http://www.concordancesoftware.co.uk/

...

Пока установил у себя Concordance, его месяц можно юзать без лицензии.
Прогнал через него 2 перевода "Мастера" - Волохонской и Гленни. Третий
английский перевод у меня только в виде книги, в электронном виде нет.
Словоформы exception и exceptions, excerpt и
excerpts и т.п. он воспринимает как разные слова, не говоря уже о go и went
и т.п. Даже:

he

-he

"he

или

fool

fool"
то есть, даже те же слова с кавычкой или тире перед словом или до него он
считает разными словами. То есть, по-хорошему, нужно бы садится и
редактировать эти конкордансы вручную. А мне времени жалко: это не
диссертация и не диплом, просто для поста в блоге...
Файлы .doc не воспринимает вообще - сначала ругается, потом выдает
конкордансы из двух закорючек всего. Пришлось сохранить в виде текста. Один
перевод у меня был в html - сначала черех copy & paste перенес текст в Ворд,
потом сохранил в виде текста (txt). В общем, в переводе Волохонской 13258
разных "слов" (фактически - словоформ), а в переводе Гленни - 11903. Но
перевод Гленни - явный аутсайдер, так что не удивительно. Гонять через
Concordance польский, чешский, белорусский и французский переводы - смысла
нет из-за сколонения и спряжения. Там "вода", "воды", "воду", водой и т.д.
будут "разными" словами и общее число "слов" возрастет раз в 10. Насчет
Вашего замечения о том, что "Уникальные смыслы рождаются из неповторимых
сочетаний самых обычных слов" - это верно для ОРИГИНАЛЬНОГО ПРОИЗВЕДЕНИЯ, а
не для перевода. Если нужно сделать копию с картины Репина "Не ждали", а у
художника всего 2 краски, зеленая и синяя, копия явно получится неудачной.
Конечно, она может не удасться и если у него все краски, но тогда хотя бы есть шанс.

...

Представленная программа посвящена проблеме обработки естественно-языковых
текстов. ), потом - его же - на каком-то портале, где кто-то в комментах есть ссылки на ваш e-mail.

http://www.look-out.ru/closed/viewwork-350.html

...

Есть онлайновый сервис: http://taxon.ru/
Он как раз и воспринимает словоформы как разные слова. Вот реферат из сети:
"Анализ литературы и информации из глобальной сети показал, что к настоящему
времени разработаны частотные анализаторы, учитывающие парадигматические
изменения в английском языке. Русский язык является более сложным с точки
зрения морфологии. На данный момент ведутся работы отдельно по частотному и
морфологическому анализу, но готовых морфоанализаторов пока нет.

Необходимо отметить, что большинство существующих программных продуктов
достаточно примитивно анализируют текст: для них словом является
последовательность символов <от пробела до пробела>. Для таких программ
слова <математика> и <математики> являются совершенно разными, не говоря уж
о слове <математический>.

Предложенная программа разбирает слова на морфемы, т.е. выделяет приставки,
корни, суффиксы и окончания, если таковые существуют. Благодаря этому
появляется возможность более глубокого машинного анализа текста.

Среди спектра задач, которые позволяет решать представленная программа,
можно выделить следующие:
4. При составлении конкордансов - словарей, содержащих слова из всех
произведений одного автора. Достаточно рутинная работа - проанализировать
стилистику какого-либо автора по его произведениям. Программа дает
возможность автоматизированного анализа авторских текстов и подсчета
частотности употребления слов.
Ну и т.д.

...

E-mail: vlad.rykov@gmail.com