Форум сайта python.su
Требуется произвести анализ тональности текста на множестве пользовательских комментариев определенной тематики. На данный момент принято решение проводить классификацию по трем классам — негативной, нейтральной и позитивной тональности. Для исследования алгоритмов вручную размечено 1500 комментариев. Размеры классов в тестовой выборке отличаются не более, чем в два раза. По примеру зарубежных коллег был применен метод опорных векторов в пространстве бинарных признаков, обозначающих наличие слов в комментариях. Правильность классификации составляет менее 60%. Анализ тональности английских текстов показывал эффективность в 80%.
Одна из предположительно значимых проблем — многочисленные ошибки в комментариях, как орфографические, так и грамматические. Существнна также бОльшая сложность русского языка. И малое количество открытых инструментов для анализа русского языка. Код пишу на Python, удалось найти только реализацию стеммера Портера, а также библиотеку анализа морфологии pymorphy.
Буду признателен советам любого рода. Есть ли другие удобные и проверенные инструменты для анализа русского языка желательно с реализацией на Python? Правилен ли выбор SVM, как алгоритма классификации, может есть более эффективные классификаторы? Известны ли более эффективные пространства признаков?
Офлайн
Предупреждение: я в этой теме дилетант.
egensЕсть библиотека nltk. В ней есть SnowBall стеммер для русского языка, много разных алгоритмов, данных и моделей.
далось найти только реализацию стеммера Портера, а также библиотеку анализа морфологии pymorphy.
egenshttp://text-processing.com/demo/sentiment/
по трем классам — негативной, нейтральной и позитивной тональности
Отредактировано reclosedev (Июнь 28, 2012 19:05:15)
Офлайн