Уведомления

Группа в Telegram: @pythonsu

#1 Дек. 23, 2024 15:12:10

Remembo
Зарегистрирован: 2024-12-23
Сообщения: 2
Репутация: +  0  -
Профиль   Отправить e-mail  

парсинг тега div

Перестал работать парсинг веб-страницы на этой строчке:
soup.find('div', class_='….').get_text()
Пишет: AttributeError: ‘NoneType’ object has no attribute ‘get_text’
Весь файл во вложении.
На этой странице https://www.google.com/finance/quote/PLTR:NASDAQ такая же история, ругается на:
soup.find('c-wiz', class_='zQTmif SSPGKf u5wqUe').get_text()
В общем как цену спарсить, на этих двух страничках, помогите))

Отредактировано Remembo (Дек. 23, 2024 15:12:50)

Прикреплённый файлы:
attachment pltr.py (803 байта)

Офлайн

#2 Дек. 24, 2024 11:12:33

py.user.next
От:
Зарегистрирован: 2010-04-29
Сообщения: 9874
Репутация: +  854  -
Профиль   Отправить e-mail  

парсинг тега div

Remembo
На этой странице … такая же история
Открывается у тебя страница в браузере?

Remembo
В общем как цену спарсить, на этих двух страничках
Вообще, у тебя там слишком много деталей указано. Страницы могут меняться, и из-за мелких изменений это всё может сломаться. Поэтому надо опираться на такие элементы страницы, изменение которых маловероятно.



Офлайн

#3 Дек. 24, 2024 17:26:58

Remembo
Зарегистрирован: 2024-12-23
Сообщения: 2
Репутация: +  0  -
Профиль   Отправить e-mail  

парсинг тега div

py.user.next
Открывается у тебя страница в браузере?
да, чрз впн

В этом и вопрос, там постоянно что-то меняется и как в данный момент спарсить не понятно.

Офлайн

#4 Дек. 24, 2024 21:38:26

py.user.next
От:
Зарегистрирован: 2010-04-29
Сообщения: 9874
Репутация: +  854  -
Профиль   Отправить e-mail  

парсинг тега div

Remembo
да, чрз впн
А скрипт у тебя доступ к странице имеет?

Remembo
В этом и вопрос, там постоянно что-то меняется
Вот эти классы
zQTmif SSPGKf u5wqUe
там на месте.

Разберись сначала с тем, что там есть и не изменилось. Когда разберёшся, тогда можно искать элементы на странице, которые с высокой вероятностью останутся инвариантными при любых редактированиях страницы.

Например, есть коробка, в которой содержится вся информация о валюте. Может ли она исчезнуть? Ну скорее всего, не может, так как коробка (основной контейнер) должна быть у всего. Значит, можно на эту коробку опираться. Дальше ты находишь эту коробку, не опираясь на её классы, потому что они могут измениться для создания большей красивости. Когда коробку находишь (по соседним тегам, например, или по гарантированному содержимому в ней), отсекаешь от коробки всё лишнее (всё до неё и всё после неё) и уже работаешь только с этой коробкой и ищешь уже в ней тоже по такому же принципу - что будет неизменным при любых изменениях. И так постепенно, шаг за шагом (через декомпозицию алгоритма), ты доходишь до самой внутренности, до ядрышка в орешке.

Тогда что бы админ ни делал, какие бы внешности у страницы ни менял, твой скрипт будет переживать эти изменения и спокойно работать. Классы поменяются сто раз, внешний вид поменяется, реклама добавится, баннеры там и всё такое, а твой скрипт прыжками всегда будет одинаково доходить до центральной информации.



Отредактировано py.user.next (Дек. 25, 2024 03:14:40)

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version