DjangoBB LoFi version

Полная версия: Анализ русского текста на Python

Начало » Python для экспертов » Анализ русского текста на Python

egens

Июнь 28, 2012 18:40:15

Требуется произвести анализ тональности текста на множестве пользовательских комментариев определенной тематики. На данный момент принято решение проводить классификацию по трем классам — негативной, нейтральной и позитивной тональности. Для исследования алгоритмов вручную размечено 1500 комментариев. Размеры классов в тестовой выборке отличаются не более, чем в два раза. По примеру зарубежных коллег был применен метод опорных векторов в пространстве бинарных признаков, обозначающих наличие слов в комментариях. Правильность классификации составляет менее 60%. Анализ тональности английских текстов показывал эффективность в 80%.

Одна из предположительно значимых проблем — многочисленные ошибки в комментариях, как орфографические, так и грамматические. Существнна также бОльшая сложность русского языка. И малое количество открытых инструментов для анализа русского языка. Код пишу на Python, удалось найти только реализацию стеммера Портера, а также библиотеку анализа морфологии pymorphy.

Буду признателен советам любого рода. Есть ли другие удобные и проверенные инструменты для анализа русского языка желательно с реализацией на Python? Правилен ли выбор SVM, как алгоритма классификации, может есть более эффективные классификаторы? Известны ли более эффективные пространства признаков?

reclosedev

Июнь 28, 2012 19:04:09

Предупреждение: я в этой теме дилетант.

egens
далось найти только реализацию стеммера Портера, а также библиотеку анализа морфологии pymorphy.

Есть библиотека nltk. В ней есть SnowBall стеммер для русского языка, много разных алгоритмов, данных и моделей.

Для классификации можно попробовать NaiveBayesClassifier, тут и темка недавно была http://python.su/forum/topic/14806/

Еще есть демо для английского языка с классификацией, как раз

egens
по трем классам — негативной, нейтральной и позитивной тональности

http://text-processing.com/demo/sentiment/

lorien

Июнь 28, 2012 19:57:32

http://habrahabr.ru/post/49421/