Уведомления

Группа в Telegram: @pythonsu

#1 Июнь 28, 2012 18:40:15

egens
Зарегистрирован: 2012-06-28
Сообщения: 1
Репутация: +  0  -
Профиль   Отправить e-mail  

Анализ русского текста на Python

Требуется произвести анализ тональности текста на множестве пользовательских комментариев определенной тематики. На данный момент принято решение проводить классификацию по трем классам — негативной, нейтральной и позитивной тональности. Для исследования алгоритмов вручную размечено 1500 комментариев. Размеры классов в тестовой выборке отличаются не более, чем в два раза. По примеру зарубежных коллег был применен метод опорных векторов в пространстве бинарных признаков, обозначающих наличие слов в комментариях. Правильность классификации составляет менее 60%. Анализ тональности английских текстов показывал эффективность в 80%.

Одна из предположительно значимых проблем — многочисленные ошибки в комментариях, как орфографические, так и грамматические. Существнна также бОльшая сложность русского языка. И малое количество открытых инструментов для анализа русского языка. Код пишу на Python, удалось найти только реализацию стеммера Портера, а также библиотеку анализа морфологии pymorphy.

Буду признателен советам любого рода. Есть ли другие удобные и проверенные инструменты для анализа русского языка желательно с реализацией на Python? Правилен ли выбор SVM, как алгоритма классификации, может есть более эффективные классификаторы? Известны ли более эффективные пространства признаков?

Офлайн

#2 Июнь 28, 2012 19:04:09

reclosedev
От: Н.Новгород
Зарегистрирован: 2012-03-29
Сообщения: 870
Репутация: +  173  -
Профиль   Отправить e-mail  

Анализ русского текста на Python

Предупреждение: я в этой теме дилетант.

egens
далось найти только реализацию стеммера Портера, а также библиотеку анализа морфологии pymorphy.
Есть библиотека nltk. В ней есть SnowBall стеммер для русского языка, много разных алгоритмов, данных и моделей.

Для классификации можно попробовать NaiveBayesClassifier, тут и темка недавно была http://python.su/forum/topic/14806/

Еще есть демо для английского языка с классификацией, как раз
egens
по трем классам — негативной, нейтральной и позитивной тональности
http://text-processing.com/demo/sentiment/

Отредактировано reclosedev (Июнь 28, 2012 19:05:15)

Офлайн

#3 Июнь 28, 2012 19:57:32

lorien
От:
Зарегистрирован: 2006-08-20
Сообщения: 755
Репутация: +  37  -
Профиль  

Анализ русского текста на Python

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version