Форум сайта python.su
Доброго дня суток! столкнулся с проблемой и не могу ее решить, заключается она в следующем:
мне необходимо произвести “канонизацию” текста для кластеризации. Новостные сообщения берутся из базы данных SqlServer. Во время проверки слов в стоп-словаре они перекодируются из unicode в СP1251.
bad= {u'\u2500', u'\xb8'} text = [x for x in [y.strip(stop_symbols) for y in source.lower().split()]if x and x not in bad and (x.encode('cp1251') not in stop_words)]
# using: utf-8 import numpy import scipy from scipy import linalg import nltk import Stemmer stemmer = Stemmer.Stemmer('russian') import cmath import numpy as np import matplotlib.pyplot as plt from scipy.cluster import hierarchy from scipy.cluster import * from collections import deque import pyodbc import hashlib import binascii if __name__ == '__build__': raise Exception """функция канонизации текста, приводит буквы к нижнему регистр, удаляются стоп-слова и происхолит стиммирование""" def canonize(source): stop_symbols = ''''.,!?:;-\'\|/<>~$^&*(){}"''' stop_words = ('это', 'как', 'так','[1]','[2]','[3]','[4]','[5]','[6]','[7]','[8]','[9]', 'и', 'в', 'над','без','более','больше','будет','будто','бы','был','была','было','были','вам','вас','вдруг','наконец','нас','со','совсем','нельзя', 'к', 'до', 'не','ведь','вот','впрочем','все','всегда','всего','всех','всю','вы','где','говорил','да', 'нет','ни','нибудь','ним','них','ну', 'на', 'но', 'за','даже','два','другой','его','еще','ее','ей','ему','если','есть','нее','него','за','зачем','здесь','из-за','или','он','она', 'то', 'с', 'ли','им','иногда','их','кажется','как','когда','конечно','которые','куда','лучше','между','меня','мне','мой','моя','мы','над','надо', 'а', 'во', 'от','опять','от','конечно','перед','по','под','после','потом','потому','почти','при','про','раз','разве','сам','свое','свои','себе', 'со', 'для', 'о','себя','наконец','сегодня','сейчас','сказал','сказала','сказать','совсем','так','такой','там','тебя','тем','теперь','то','тогда', 'же', 'ну', 'вы', 'того','тоже','только','том','тот','три','тут','ты','у','уж','уже','хорошо','хоть','чего','человек','чем','через','что','чтоб', 'бы', 'что', 'кто','чтобы','чуть','эти','этого','этой','этом','этот','эту','я','он', 'она','из','не') bad= {u'\u2500', u'\xb8'} text = [x for x in [y.strip(stop_symbols) for y in source.lower().split()]if x and x not in bad and (x.encode('cp1251') not in stop_words)] for i in range(len(text)): if type(text[i]) == unicode: text[i] = text[i].encode('utf-8') text[i] = text[i].decode('utf-8') text[i] = stemmer.stemWord(text[i]) text[i] = text[i].encode('cp1251') return ( text ) """функцию, которая производит разбиение текста на шинглы, где shingleLen- длина шинглов . На выходе хеш-функции шинглов""" def genshingle(source,shingleLen): out = [] for i in range(len(source)-(shingleLen-1)): out.append (binascii.crc32(' '.join( [x for x in source[i:i+shingleLen]]))) return out """ функция находит пересечения шинглов 2х текстов""" def compaire (source1,source2): same = 0 for i in range(len(source1)): if source1[i] in source2: same = same + 1 return same*2/float(len(source1) + len(source2)) """ функция получает массив метрик близости текстов, необходимый для кластеризации, где к - длина шинглов""" def shingle_dist(texts,k): dist=[] for i in range(len(texts)-1): text1 = canonize(texts[i]) shingle1 = genshingle(text1,k) for j in range(len(texts)-i-1): text2 = canonize(texts[i+j+1]) shingle2 = genshingle(text2,k) dist.append(1-compaire (shingle1,shingle2)) return dist docs=[] cnxn = pyodbc.connect('Trusted_Connection=yes', DRIVER='{SQL Server}',SERVER= '127.0.0.1' ,DATABASE= 'TASTODb1', UID= 'sa', PWD= '1qaz@WSX') cursor = cnxn.cursor() cursor.execute(""" select text from texts where (id < 178) and (id > 175)""") for row in cursor: docs.append(row.text) f=open('text1.txt','w') f.close() dist = shingle_dist(docs,2) Z = hierarchy.linkage( dist, method='average') print Z
Офлайн
1) что такое # using: utf-8
может
#-*- coding: utf-8 -*-
def canonize(source): stop_symbols = ''''.,!?:;-\'\|/<>~$^&*(){}"''' stop_words = ('это', 'как', 'так','[1]','[2]','[3]','[4]','[5]','[6]','[7]','[8]','[9]', 'и', 'в', 'над','без','более','больше','будет','будто','бы','был','была','было','были','вам','вас','вдруг','наконец','нас','со','совсем','нельзя', 'к', 'до', 'не','ведь','вот','впрочем','все','всегда','всего','всех','всю','вы','где','говорил','да', 'нет','ни','нибудь','ним','них','ну', 'на', 'но', 'за','даже','два','другой','его','еще','ее','ей','ему','если','есть','нее','него','за','зачем','здесь','из-за','или','он','она', 'то', 'с', 'ли','им','иногда','их','кажется','как','когда','конечно','которые','куда','лучше','между','меня','мне','мой','моя','мы','над','надо', 'а', 'во', 'от','опять','от','конечно','перед','по','под','после','потом','потому','почти','при','про','раз','разве','сам','свое','свои','себе', 'со', 'для', 'о','себя','наконец','сегодня','сейчас','сказал','сказала','сказать','совсем','так','такой','там','тебя','тем','теперь','то','тогда', 'же', 'ну', 'вы', 'того','тоже','только','том','тот','три','тут','ты','у','уж','уже','хорошо','хоть','чего','человек','чем','через','что','чтоб', 'бы', 'что', 'кто','чтобы','чуть','эти','этого','этой','этом','этот','эту','я','он', 'она','из','не') bad= {u'\u2500', u'\xb8'} text = [x for x in [y.strip(stop_symbols) for y in source.lower().split()]if x and x not in bad and (x.encode('cp1251') not in stop_words)] for i in range(len(text)): if type(text[i]) == unicode: text[i] = text[i].encode('utf-8') text[i] = text[i].decode('utf-8') text[i] = stemmer.stemWord(text[i]) text[i] = text[i].encode('cp1251') return ( text )
#-*- coding: utf-8 -*- import numpy import scipy from scipy import linalg import nltk import Stemmer stemmer = Stemmer.Stemmer('russian') import cmath import numpy as np import matplotlib.pyplot as plt from scipy.cluster import hierarchy from scipy.cluster import * from collections import deque import pyodbc import hashlib import binascii if __name__ == '__build__': raise Exception """функция канонизации текста, приводит буквы к нижнему регистр, удаляются стоп-слова и происхолит стиммирование""" def canonize(source): stop_symbols = ''''.,!?:;-\'\|/<>~$^&*(){}"''' stop_words = ('это', 'как', 'так','[1]','[2]','[3]','[4]','[5]','[6]','[7]','[8]','[9]', 'и', 'в', 'над','без','более','больше','будет','будто','бы','был','была','было','были','вам','вас','вдруг','наконец','нас','со','совсем','нельзя', 'к', 'до', 'не','ведь','вот','впрочем','все','всегда','всего','всех','всю','вы','где','говорил','да', 'нет','ни','нибудь','ним','них','ну', 'на', 'но', 'за','даже','два','другой','его','еще','ее','ей','ему','если','есть','нее','него','за','зачем','здесь','из-за','или','он','она', 'то', 'с', 'ли','им','иногда','их','кажется','как','когда','конечно','которые','куда','лучше','между','меня','мне','мой','моя','мы','над','надо', 'а', 'во', 'от','опять','от','конечно','перед','по','под','после','потом','потому','почти','при','про','раз','разве','сам','свое','свои','себе', 'со', 'для', 'о','себя','наконец','сегодня','сейчас','сказал','сказала','сказать','совсем','так','такой','там','тебя','тем','теперь','то','тогда', 'же', 'ну', 'вы', 'того','тоже','только','том','тот','три','тут','ты','у','уж','уже','хорошо','хоть','чего','человек','чем','через','что','чтоб', 'бы', 'что', 'кто','чтобы','чуть','эти','этого','этой','этом','этот','эту','я','он', 'она','из','не') bad= {u'\u2500', u'\xb8'} text = [x for x in [y.strip(stop_symbols) for y in source.lower().split()]if x and x not in bad and (x.encode('cp1251') not in stop_words)] for i in range(len(text)): if type(text[i]) == unicode: text[i] = text[i].encode('utf-8') text[i] = text[i].decode('utf-8') text[i] = stemmer.stemWord(text[i]) text[i] = text[i].encode('cp1251') return ( text ) """функцию, которая производит разбиение текста на шинглы, где shingleLen- длина шинглов . На выходе хеш-функции шинглов""" def genshingle(source,shingleLen): out = [] for i in range(len(source)-(shingleLen-1)): out.append (binascii.crc32(' '.join( [x for x in source[i:i+shingleLen]]))) return out """ функция находит пересечения шинглов 2х текстов""" def compaire (source1,source2): same = 0 for i in range(len(source1)): if source1[i] in source2: same = same + 1 return same*2/float(len(source1) + len(source2)) """ функция получает массив метрик близости текстов, необходимый для кластеризации, где к - длина шинглов""" def shingle_dist(texts,k): dist=[] for i in range(len(texts)-1): text1 = canonize(texts[i]) shingle1 = genshingle(text1,k) for j in range(len(texts)-i-1): text2 = canonize(texts[i+j+1]) shingle2 = genshingle(text2,k) dist.append(1-compaire (shingle1,shingle2)) return dist docs=[] cnxn = pyodbc.connect('Trusted_Connection=yes', DRIVER='{SQL Server}',SERVER= '127.0.0.1' ,DATABASE= 'TASTODb1', UID= 'sa', PWD= '1qaz@WSX') cursor = cnxn.cursor() cursor.execute(""" select text from texts where (id < 178) and (id > 175)""") for row in cursor: docs.append(row.text) f=open('text1.txt','w') f.close() print docs dist = shingle_dist(docs,2) Z = hierarchy.linkage( dist, method='average') print Z
Отредактировано terabayt (Март 15, 2015 17:16:43)
Офлайн
проверил, ошибка осталась все та же…
Traceback (most recent call last): File "C:\Documents and Settings\Администратор\Рабочий стол\123.py", line 54, in <module> text.append(canonize(docs[i])) File "C:\Documents and Settings\Администратор\Рабочий стол\123.py", line 26, in canonize text = [x for x in [y.strip(stop_symbols) for y in source.lower().split()]if x and x not in bad and (x.encode('cp1251') not in stop_words)] File "C:\Python27\lib\encodings\cp1251.py", line 12, in encode return codecs.charmap_encode(input,errors,encoding_table) UnicodeEncodeError: 'charmap' codec can't encode character u'\xb8' in position 9: character maps to <undefined>
Прикреплённый файлы:
все необходимое для программы.7z (388,2 KБ)
Офлайн
проверил, ошибка осталась все та же…
Traceback (most recent call last): File "C:\Documents and Settings\Администратор\Рабочий стол\123.py", line 54, in <module> text.append(canonize(docs[i])) File "C:\Documents and Settings\Администратор\Рабочий стол\123.py", line 26, in canonize text = [x for x in [y.strip(stop_symbols) for y in source.lower().split()]if x and x not in bad and (x.encode('cp1251') not in stop_words)] File "C:\Python27\lib\encodings\cp1251.py", line 12, in encode return codecs.charmap_encode(input,errors,encoding_table) UnicodeEncodeError: 'charmap' codec can't encode character u'\xb8' in position 9: character maps to <undefined>
Прикреплённый файлы:
все необходимое для программы.7z (388,2 KБ)
Офлайн
boyushaСделай всё в utf-8. Стеммер с другой кодировкой не работает. И файлы там завершаются маковским способом - на \r, а надо сделать на \r\n, раз дело в винде происходит.x.encode('cp1251')
Отредактировано py.user.next (Март 17, 2015 03:57:16)
Офлайн