Тёмный

Веб-скрейпинг с помощью библиотек Selenium и Beautifulsoup 

Мастерская Важных историй
Подписаться 12 тыс.
Просмотров 7 тыс.
50% 1

Опубликовано:

 

21 окт 2024

Поделиться:

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист
Посмотреть позже
Комментарии : 23   
@istories_workshop
@istories_workshop 2 года назад
❗❗❗Так называемое Министерство юстиции РФ признало «Важные истории» «нежелательной организацией». Так что репост этого и любого другого нашего видео может караться штрафом, а повторный репост - уголовным делом. Но никто не может запретить вам смотреть и думать. Поэтому подписывайтесь на наш канал, просите подписаться своих друзей и оставайтесь с нами - в это темное время выжить мы сможем только вместе.
@kakw436
@kakw436 2 года назад
за что?
@ruslanvist9958
@ruslanvist9958 9 месяцев назад
По мне, так вы очень даже желательная организация. Так держать!
@hihi-hehe
@hihi-hehe 2 года назад
шикарно, молодец плашка про иностранного агента заставила меня не пройти мимо, и я не пожалел. очень грамотно обьяснено.
@oldlipton3443
@oldlipton3443 2 года назад
Смотрю видео уроки, и планирую продолжать смотреть, но после этого чаще обращаюсь к текстовой версии, как я заметил многим видео-туторы очень подходят, но отдельное спасибо, что не забываете про консерваторов которым нужны текст с изображениями! С наступающим годом дымчатого Питона🙂!
@istories_workshop
@istories_workshop 2 года назад
Как раз поэтому и делаем текстовый вариант, да! И вас с наступающим ❤️ ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА
@AntonHHO
@AntonHHO Год назад
Стрижка - класс ))
@enikeevevgeny
@enikeevevgeny 2 года назад
В целом такой подход (Selenium + Beautifulsoup) имеет место быть, но пример выбран не очень удачно. На странице карточек дел мосгорсуда информация во вклаках подгружается не динамически - она уже есть на странице в div id="tabs-3". Поэтому в данном случае оптимально применять Requests + Beautifulsoup.
@ruslanvist9958
@ruslanvist9958 9 месяцев назад
Прическа зашла. Более аккуратно выглядите. Нравится ваша грамотная речь без искаверканных слэнгов.
@ruslanvist9958
@ruslanvist9958 9 месяцев назад
Лайк за активную гражданскую позицию!
@gavavas3182
@gavavas3182 2 года назад
Отличное видео. Очень пригодилось keys. А то каким-то костылем для прокрутки пользовался (но это где нужно прокрутить в конец страницы, чтоб подгрузились остальные данные). Реквестом же это тоже можно было сделать? Ведь ВСЕ данные пришли и без нажатия кнопки (дополнительно их не нужно подгружать).
@YntymakPlay
@YntymakPlay 2 года назад
Нужно исследовать дополнительно код страницы на наличие ajax/xhr запросов в инструментах разработчика во вкладке network
@gavavas3182
@gavavas3182 2 года назад
@@YntymakPlay так ссылка же есть. Я посмотрел. А Вам лень)
@gavavas3182
@gavavas3182 2 года назад
@@YntymakPlay хотя, я уверен, просто лень проверить)
@YntymakPlay
@YntymakPlay 2 года назад
@@gavavas3182 да мне лень
@gavavas3182
@gavavas3182 2 года назад
@@YntymakPlay ++))
@hulitolku
@hulitolku Год назад
Почему Selenium,а не Scrapy?
@АлександрК-ш
@АлександрК-ш 2 года назад
Здравствуйте. Прошу подсказать, в какое место в коде подставлять click() # объеденяем 2 списка в словарь case_info = dict(zip(fields, info)) print(case_info) case = {} case['case_info'] = case_info print(case) # ищем по тексту ссылки, но браузер видет это, но не может взять, так как не пролистнуто до туда element = driver.find_element_by_link_text('Судебные акты') # пролистываем к нужному элементу element.send_keys(Keys.END) soup = BeautifulSoup(driver.page_source, 'lxml') sf = soup.find('table', class_='custom_table mainTable').text print(sf)
@alexeymendrin
@alexeymendrin 2 года назад
А помните ЦИК РФ сделал "шикарные" манипуляции с данными голосования и никто не мог их скопировать для анализа? Есть идеи, как решать такие умышленно созданные ситуации? Вряд ли кто-то будет снова так же портить данные, поэтому писать готовое решение едва ли имеет смысл, а вот о том, как в принципе можно решить вопрос - было бы интересно узнать.
@istories_workshop
@istories_workshop 2 года назад
Такое же было после выборов 2020 года. Мы в телеграме рассказывали, как активисты создавали зеркала и перетаскивали туда данные t.me/istories_workshop/15 Может будет полезно ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА В целом же есть чаты журналистов и активистов, где они обсуждают данные выборов и работу с ними. Там все свежие лайфхаки по обходу капч и блокировок от ЦИКа
@ОлегСташков-х6з
@ОлегСташков-х6з 2 года назад
у кого есть ссылка на прошлый урок, дайте, пожалуйста
@SleepMashine
@SleepMashine Год назад
Ты зачем усы сбрил)
@Мещерскаяаномалия
Зачем ты постриглась то?...симпатичная, красивая девушка...
Далее
The REAL Truth Behind the DVD Logo
01:00
Просмотров 30 млн
1 Subscriber = 1 Penny
00:17
Просмотров 49 млн
The REAL Truth Behind the DVD Logo
01:00
Просмотров 30 млн