Веб-скрейпинг с помощью библиотек Selenium и Beautifulsoup

Мастерская Важных историй

Подписаться 12 тыс.

Просмотров 7 тыс.

50% 1

Видео Поделиться Скачать Добавить в

Опубликовано:

21 окт 2024

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист

Посмотреть позже

Комментарии : 23

@istories_workshop 2 года назад

❗❗❗Так называемое Министерство юстиции РФ признало «Важные истории» «нежелательной организацией». Так что репост этого и любого другого нашего видео может караться штрафом, а повторный репост - уголовным делом. Но никто не может запретить вам смотреть и думать. Поэтому подписывайтесь на наш канал, просите подписаться своих друзей и оставайтесь с нами - в это темное время выжить мы сможем только вместе.

@kakw436 2 года назад

за что?

@ruslanvist9958 9 месяцев назад

По мне, так вы очень даже желательная организация. Так держать!

@hihi-hehe 2 года назад

шикарно, молодец плашка про иностранного агента заставила меня не пройти мимо, и я не пожалел. очень грамотно обьяснено.

@oldlipton3443 2 года назад

Смотрю видео уроки, и планирую продолжать смотреть, но после этого чаще обращаюсь к текстовой версии, как я заметил многим видео-туторы очень подходят, но отдельное спасибо, что не забываете про консерваторов которым нужны текст с изображениями! С наступающим годом дымчатого Питона🙂!

@istories_workshop 2 года назад

Как раз поэтому и делаем текстовый вариант, да! И вас с наступающим ❤️ ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

@AntonHHO Год назад

Стрижка - класс ))

@enikeevevgeny 2 года назад

В целом такой подход (Selenium + Beautifulsoup) имеет место быть, но пример выбран не очень удачно. На странице карточек дел мосгорсуда информация во вклаках подгружается не динамически - она уже есть на странице в div id="tabs-3". Поэтому в данном случае оптимально применять Requests + Beautifulsoup.

@ruslanvist9958 9 месяцев назад

Прическа зашла. Более аккуратно выглядите. Нравится ваша грамотная речь без искаверканных слэнгов.

@ruslanvist9958 9 месяцев назад

Лайк за активную гражданскую позицию!

@gavavas3182 2 года назад

Отличное видео. Очень пригодилось keys. А то каким-то костылем для прокрутки пользовался (но это где нужно прокрутить в конец страницы, чтоб подгрузились остальные данные). Реквестом же это тоже можно было сделать? Ведь ВСЕ данные пришли и без нажатия кнопки (дополнительно их не нужно подгружать).

@YntymakPlay 2 года назад

Нужно исследовать дополнительно код страницы на наличие ajax/xhr запросов в инструментах разработчика во вкладке network

@gavavas3182 2 года назад

@@YntymakPlay так ссылка же есть. Я посмотрел. А Вам лень)

@gavavas3182 2 года назад

@@YntymakPlay хотя, я уверен, просто лень проверить)

@YntymakPlay 2 года назад

@@gavavas3182 да мне лень

@gavavas3182 2 года назад

@@YntymakPlay ++))

@hulitolku Год назад

Почему Selenium,а не Scrapy?

@АлександрК-ш 2 года назад

Здравствуйте. Прошу подсказать, в какое место в коде подставлять click() # объеденяем 2 списка в словарь case_info = dict(zip(fields, info)) print(case_info) case = {} case['case_info'] = case_info print(case) # ищем по тексту ссылки, но браузер видет это, но не может взять, так как не пролистнуто до туда element = driver.find_element_by_link_text('Судебные акты') # пролистываем к нужному элементу element.send_keys(Keys.END) soup = BeautifulSoup(driver.page_source, 'lxml') sf = soup.find('table', class_='custom_table mainTable').text print(sf)

@alexeymendrin 2 года назад

А помните ЦИК РФ сделал "шикарные" манипуляции с данными голосования и никто не мог их скопировать для анализа? Есть идеи, как решать такие умышленно созданные ситуации? Вряд ли кто-то будет снова так же портить данные, поэтому писать готовое решение едва ли имеет смысл, а вот о том, как в принципе можно решить вопрос - было бы интересно узнать.

@istories_workshop 2 года назад

Такое же было после выборов 2020 года. Мы в телеграме рассказывали, как активисты создавали зеркала и перетаскивали туда данные t.me/istories_workshop/15 Может будет полезно ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА В целом же есть чаты журналистов и активистов, где они обсуждают данные выборов и работу с ними. Там все свежие лайфхаки по обходу капч и блокировок от ЦИКа