Python-сообщество

ka8725 · Дек. 1, 2008 21:49:20

Имеется задача: перекодировать файл, содержимое которого в неизвестной кодировке, в другой файл, кодировка которого должна быть UTF-8. Помогите, плиз, разобраться с этой задачкой, а то у меня уже совсем голова пухнет - ниче не получается…

crchemist · Дек. 1, 2008 22:20:30

http://python.su/forum/viewtopic.php?id=3109

bw · Дек. 2, 2008 01:33:45

> содержимое которого в неизвестной кодировке
Тебе по каким то признакам нужно идентифицировать эту кодировку.
Можно решить задачу в лоб. Используя некоторое конечное число кодировок (utf-8, koi8-r, cp1251 и т.д.) декодировать исходный текст. Если не возникло ошибок (исключение UnicodeDecodeError) проанализировать текст на наличие, скажем, частоупотребляемых слов.

..bw

shiza · Дек. 2, 2008 05:33:43

модуль - есть такой =)
http://chardet.feedparser.org/
Определяет кодировку. Весьма успешно юзаю.
Будут вопросы по использованию - задавай.

pythonwin · Дек. 2, 2008 15:24:00

shiza, +1
Ps думаю вопросов не будет - там всё очень просто

ka8725 · Дек. 2, 2008 15:36:38

pythonwin
shiza, +1
Ps думаю вопросов не будет - там всё очень просто

Да, все предельно просто. Спасибо за ссылочку. Вещь очень полезная, я в Java такой не видел…

The gray Cardinal · Дек. 3, 2008 12:41:26

shiza
модуль - есть такой smile
http://chardet.feedparser.org/
Определяет кодировку. Весьма успешно юзаю.
Будут вопросы по использованию - задавай.

Спасибо за ссылку :). Есть вопрос.
По утверждению разработчиков, объект UniversalDetector автоматически остановится, как только сможет достаточно уверено сообщить о результатах. Однако он, похоже, не останавливается. Например:

# -*- coding: utf-8 -*-
import urllib
from chardet.universaldetector import UniversalDetector

usock = urllib.urlopen('http://lib.ru/NICSHE/zaratustra.txt')
detector = UniversalDetector()
num = 0
for line in usock.readlines():
    num += 1
    detector.feed(line)
    if detector.done:
        print num
        break
detector.close()
usock.close()
print detector.result

В этом примере “detector.done” никогда не истинно, текст долго и нудно хавается целиком.

shiza · Дек. 3, 2008 22:02:17

The gray Cardinal
Да, у меня тоже с этой фичей незаладилось.
Нормально она срабатывает, только если какой-нибудь из UTF файлов с BOM ей подсунуть.
Еще есть над чем работать разработчикам =).

P.S. В тему. Я использую в работе собранную из кусочков библиотеку которая разспознает язык текста (типа там немецкий, китайский, русский).
Если кому-то она станет интересной - я ее причешу в боле-менее приличный вид и поделюсь. :)

Python-сообщество

Уведомления

#1 Дек. 1, 2008 21:49:20

Изменение кодировки файла в utf-8

#2 Дек. 1, 2008 22:20:30

Изменение кодировки файла в utf-8

#3 Дек. 2, 2008 01:33:45

Изменение кодировки файла в utf-8

#4 Дек. 2, 2008 05:33:43

Изменение кодировки файла в utf-8

#5 Дек. 2, 2008 15:24:00

Изменение кодировки файла в utf-8

#6 Дек. 2, 2008 15:36:38

Изменение кодировки файла в utf-8

#7 Дек. 3, 2008 12:41:26

Изменение кодировки файла в utf-8

#8 Дек. 3, 2008 22:02:17

Изменение кодировки файла в utf-8

Board footer