Python-сообщество

Remembo · Дек. 23, 2024 15:12:10

Перестал работать парсинг веб-страницы на этой строчке:
soup.find('div', class_='….').get_text()
Пишет: AttributeError: ‘NoneType’ object has no attribute ‘get_text’
Весь файл во вложении.
На этой странице https://www.google.com/finance/quote/PLTR:NASDAQ такая же история, ругается на:
soup.find('c-wiz', class_='zQTmif SSPGKf u5wqUe').get_text()
В общем как цену спарсить, на этих двух страничках, помогите))

Отредактировано Remembo (Дек. 23, 2024 15:12:50)

Прикреплённый файлы:
pltr.py (803 байта)

py.user.next · Дек. 24, 2024 11:12:33

Remembo
На этой странице … такая же история

Открывается у тебя страница в браузере?

Remembo
В общем как цену спарсить, на этих двух страничках

Вообще, у тебя там слишком много деталей указано. Страницы могут меняться, и из-за мелких изменений это всё может сломаться. Поэтому надо опираться на такие элементы страницы, изменение которых маловероятно.

Remembo · Дек. 24, 2024 17:26:58

py.user.next
Открывается у тебя страница в браузере?

да, чрз впн

В этом и вопрос, там постоянно что-то меняется и как в данный момент спарсить не понятно.

py.user.next · Дек. 24, 2024 21:38:26

Remembo
да, чрз впн

А скрипт у тебя доступ к странице имеет?

Remembo
В этом и вопрос, там постоянно что-то меняется

Вот эти классы

zQTmif SSPGKf u5wqUe

там на месте.

Разберись сначала с тем, что там есть и не изменилось. Когда разберёшся, тогда можно искать элементы на странице, которые с высокой вероятностью останутся инвариантными при любых редактированиях страницы.

Например, есть коробка, в которой содержится вся информация о валюте. Может ли она исчезнуть? Ну скорее всего, не может, так как коробка (основной контейнер) должна быть у всего. Значит, можно на эту коробку опираться. Дальше ты находишь эту коробку, не опираясь на её классы, потому что они могут измениться для создания большей красивости. Когда коробку находишь (по соседним тегам, например, или по гарантированному содержимому в ней), отсекаешь от коробки всё лишнее (всё до неё и всё после неё) и уже работаешь только с этой коробкой и ищешь уже в ней тоже по такому же принципу - что будет неизменным при любых изменениях. И так постепенно, шаг за шагом (через декомпозицию алгоритма), ты доходишь до самой внутренности, до ядрышка в орешке.

Тогда что бы админ ни делал, какие бы внешности у страницы ни менял, твой скрипт будет переживать эти изменения и спокойно работать. Классы поменяются сто раз, внешний вид поменяется, реклама добавится, баннеры там и всё такое, а твой скрипт прыжками всегда будет одинаково доходить до центральной информации.

Отредактировано py.user.next (Дек. 25, 2024 03:14:40)

Python-сообщество

Уведомления

#1 Дек. 23, 2024 15:12:10

парсинг тега div

#2 Дек. 24, 2024 11:12:33

парсинг тега div

#3 Дек. 24, 2024 17:26:58

парсинг тега div

#4 Дек. 24, 2024 21:38:26

парсинг тега div

Board footer