Тёмный

Parsing sites PYTHON - # 2 BEAUTIFUL SOUP, FAKE-USERAGENT 

ZProger [ IT ]
Подписаться 108 тыс.
Просмотров 64 тыс.
50% 1

Parsing sites PYTHON - # 2 BEAUTIFUL SOUP, FAKE-USERAGENT
📗 All links to useful materials are below 📗
We will analyze the parsing of python sites, examine the modules
requests, bs4 (BeautifulSoup), fake-useragent, multiprocessing.
Let's write a lot of parsers in python, learn how to find the elements we need
on the page, we will analyze the structure of requests requests, learn how to transfer
your headers and your data to the site.
During the course, we will write a program to download files
from the site, we will learn how to transfer proxies and user agents to the request.
Let's take a look at how to parse the site using the ones we have already studied.
tools. Towards the end of the course, we will also explore multiprocessing for accelerated parsing. In this video, we will learn how to collect the received data using the beautiful soup module and how to use fake-useragent to generate unique user agents.
⭐ Free version of Kite: bit.ly/3cKz97C
⭐ PyQt5 Python Course: pyqt5.ru
⭐ Channel with useful material: t.me/codeblog8
📁 Website scraping course: bit.ly/394VKtG
📁 Selenium Python Course: bit.ly/3p669ef
📁 Contact me: zproger777@gmail.com
📁 Support channel: www.donationalerts.com/r/zproger
Libraries used:
requests, bs4
lxml, fake-useragent
multiprocessing
#ParsingSites #ParsingSitesPython #ParsingPython

Опубликовано:

 

10 авг 2020

Поделиться:

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист
Посмотреть позже
Комментарии : 147   
@zproger
@zproger 3 года назад
⭐Курс ООП и Приват канал: zproger-school.com/ ⭐Телеграм канал: t.me/+ltjhP8CCll80NTAx Не забывайте оставлять свои идеи для следующих видео в комментариях, большинство из них реализовывается на канале. Также подписывайтесь на канал, так как именно у нас публикуется отборный материал, который позволит вам изучать программирование и другие технологии в разы быстрее.
@user-eq8gz3kj9t
@user-eq8gz3kj9t Год назад
Господи, ура! Целую неделю пытался найти нормальные видео по парсингу данных, уже отчаялся и тут появляетесь вы со своими прекрасными объяснениями! Спасибо)
@maksonaladin4033
@maksonaladin4033 8 месяцев назад
Офигенные уроки. Когда просто бегло смотрел, казалось всё элементарным. Начал повторять и документировать - сразу увидел, сколько же тут нюансов. Очень хорошо проработаны занятия, есть возможность, посмотрев один пример, поставить на паузу и дальше делать самому для закрепления. Многое всё ещё очень поверхностно понимаю в плане того, как оно вообще работает, но в целом всё получается :)
@user-gw7ps9lw3p
@user-gw7ps9lw3p 3 года назад
Отличный курс! Все понятно и кратко. Лаконичность это большой плюс. Спасибо)
@zproger
@zproger 3 года назад
Спасибо, рад что вам понравилось.
@abris_6977
@abris_6977 Год назад
Ты просто лучший, не изучая парсиинг начал заниматься этим по видосу, когда шел строго по видел все работало нормально)) еще бы оно не работало так то, но как начал сам то сразу застрял,и потом нашел твои ролики, тут ты все понятно и с примерами объяснил. От всей души спасибо 🤝
@dol0resh4ze19
@dol0resh4ze19 3 года назад
Вы шикарный учитель, спасибо вам!
@zproger
@zproger 3 года назад
Рад что смог помочь :)
@user-vk3ze8iv4t
@user-vk3ze8iv4t 3 года назад
Классно что хоть кто-то рассказывает про работу модулей, очень интересно и полезно, побольше бы разных модулей
@zproger
@zproger 3 года назад
Ещё много чего интересного будем рассматривать на этом канале :)
@Alex-kp9jy
@Alex-kp9jy 3 года назад
Очень полезный курс, спасибо 😄
@zproger
@zproger 3 года назад
Рад что вам понравилось, сейчас также реализовывается новый курс по Selenium, возможно вам это будет интересно
@fatherlandboy
@fatherlandboy 3 года назад
Чувак, спасибо. Смотрел кучу уроков, нифига не было понятно, а тут получилось!)
@zproger
@zproger 3 года назад
Пожалуйста :)
@kakw436
@kakw436 2 года назад
@@zproger почему у меня не работает .text
@m0hdapuh874
@m0hdapuh874 Год назад
Тоже самое
@ivanbozhko6747
@ivanbozhko6747 3 года назад
Супер подача материала, с меня лайк, а с Вас ЕЩЕ БОЛЬШЕ КОНТЕНТА😄
@zproger
@zproger 3 года назад
Спасибо за поддержку :)
@GFU472
@GFU472 3 года назад
Познавательно! Умеешь объяснять и это круто.
@zproger
@zproger 3 года назад
Спасибо :)
@codelearner2986
@codelearner2986 Год назад
Отличный видос, сильно помог подробными разъяснениями
@Bondik202
@Bondik202 3 года назад
спасибо огромное ! видос вроде короткий но очень содержательный .
@zproger
@zproger 3 года назад
Рад что вам понравилось :)
@user-rm5wi9tu8u
@user-rm5wi9tu8u 10 месяцев назад
а вот это объяснение хорошее! Спасибо за материал!
@zproger
@zproger 10 месяцев назад
Благодарю
@fahrenheit1863
@fahrenheit1863 Год назад
Отлично, материал зашел на ура, осталось только потренироваться для закрепления пройденного. Оказалось html разный приходит если запрос с куками лии без.
@pepemem9215
@pepemem9215 3 года назад
отличное видео, спасибо автору за труд)
@zproger
@zproger 3 года назад
Спасибо, очень приятно
@user-xv7sh6lp7o
@user-xv7sh6lp7o 2 года назад
Спасибо за видео!
@zproger
@zproger 2 года назад
Пожалуйста :)
@msc_Noname
@msc_Noname 3 года назад
Как по мне, так отличные уроки.
@zproger
@zproger 3 года назад
Спасибо
@PrevzoraChannel
@PrevzoraChannel 3 года назад
Спасибо, помогло понять)
@zproger
@zproger 3 года назад
Рад что смог вам помочь
@voron_vrkrft
@voron_vrkrft Год назад
очень помог, спасибо)
@user-hk8bh5jg7s
@user-hk8bh5jg7s 3 года назад
первый человек кто про парсинг на питоне ОБЪЯСНЯЕТ, а не рассказывает
@zproger
@zproger 3 года назад
Спасибо :)
@timon1816
@timon1816 Год назад
Не знаю почему, но я кайфую с такого спокойного голоса
@zproger
@zproger Год назад
благодарю
@Grigorev84
@Grigorev84 2 года назад
Спасибо!
@zproger
@zproger 2 года назад
Рад что понравилось :)
@user-vm7zy7tw1j
@user-vm7zy7tw1j Год назад
Отличная подача. Но вопрос - у меня выдает ошибку при попытке установить lxml. Можно заменить другой библиотекой?
@rafaelhakobyan2848
@rafaelhakobyan2848 2 года назад
Спасибо
@zproger
@zproger 2 года назад
:)
@Monte_Cristo_R
@Monte_Cristo_R 3 года назад
блин сколько видосов про парсинг смотрел, твои пока самые внятные и понятные . всё по полочкам всё понятно. А то вот недавно смотрел видосы у одного чувачка прикольного и вроде всё понятно а потом он такой бах и говорит тут мы прописываем в методе select ксс силектор :nth-child(2) и все погнали дальше по коду. ппц и вот думай гадай что такое эти селекторы пздц
@zproger
@zproger 3 года назад
Рад что смог помочь :))
@4eJICu
@4eJICu 3 года назад
для парсинга, лучше конечно верстку еще знать, видимо у него расчет на такую аудиторию был.
@n_ulls
@n_ulls 2 года назад
Можешь подсказать, как div с browser_lang вывести? Я не могу понять как вывести текст из блока и спан первый , чтобы показывалось пр.: Язык: Русский (ru)
@c1vgk
@c1vgk 2 года назад
Мега крут
@zproger
@zproger 2 года назад
Благодарю :)
@NordieWolf14
@NordieWolf14 Год назад
а как добавить блок в soup если там нету id или класса? Например на github просто ...
@user-il9tp9qx1b
@user-il9tp9qx1b 8 месяцев назад
При парсинге разрешения текущего размера окна с сайта-примера в видео аналогично user-agent - в ответе ничего. Разрешение не удаётся выцепить. Хотя всё аналогично. Подскажите, в чём проблема? Использую код: check_window=block.find('div', id="window_size").text result_window=f'window: {check_window}' print(result_window) В ответе: window: т.е. разрешение не выцепляет
@mihailplehov7892
@mihailplehov7892 Год назад
Спасибо за лекцию! А кто-нибудь сталкивался с такой проблемой: при запуске кода на хостинге не работает модуль фейкового юзер-агента? Пишет, что модуль не найден
@shurfly6961
@shurfly6961 2 года назад
Почему ошибка из за lxml, правильно html.parser возможно из за обновления 3.10 python ?
@egoryasinetsky8792
@egoryasinetsky8792 Год назад
Почему-то при первом и втором способе подмены юзер агента всё равно выдаёт python-requests/2.28.1 Кто может подсказать в чем ошибка?
@Single_Tone
@Single_Tone Год назад
Подскажите пожалуста, как называется музыка на фоне?
@alexzir
@alexzir 3 года назад
Спасибо! Жаль что нет ссылки на следующее видое
@zproger
@zproger 3 года назад
На канал нужно перейти, все видео уже давно в плейлисте
@v.dobroslavskiy
@v.dobroslavskiy Год назад
3:57 что делать если не показывает нужный код сайта? выдает значения которые не нужны, показывает head и то другой какой то, а body якобы пустой
@neilwilson4075
@neilwilson4075 Год назад
На удивление, с моим знаниям довольно маленьким знаниям Пайтона, я смог получить курс евро, и вывести его в консоль, там правда айди не было, а класс
@djdkdkrk
@djdkdkrk Год назад
на 12 строчки кода, это 6 минута видео, у меня выдает Ошибку-индекса :( list index out of range, почему так?
@user-yl6ib4iy9t
@user-yl6ib4iy9t 11 месяцев назад
Шикарный урок. Спасибо. 🤝 Только на будущее не говори пожалуйста яваскрипт, не ява ведь... джава, жаба. Но блин ява эт прям больно слышать 😱👀
@zproger
@zproger 11 месяцев назад
я вроде как никогда не говорил ява скрипт
@TheStrix1
@TheStrix1 Год назад
хорошо если сайт просто отдает данные по Get а если там нужно с ключами как на озон например ничего не отдаст по гет просто так
@user-bu2ho2xr4y
@user-bu2ho2xr4y Год назад
Урок хороший, только у меня подтягивает не верное значение JavaScript, в браузере написано "Включено", а подтягивает "Выключено "
@user-ff8xv2vn7c
@user-ff8xv2vn7c 2 года назад
При попытке использования fake_useragent выдает следующую ошибку: fake_useragent.errors.FakeUserAgentError: Maximum amount of retries reached Может знает кто, в чем проблема?
@astoriy1085
@astoriy1085 Год назад
не особо понял, для чего нужен fake_useragent, можете объяснить на примере?
@zproger
@zproger Год назад
Юзер-агент должен быть всегда разный во время парсинга, чтобы сайт думал что это разные устройства.
@user-ot5iy5es4l
@user-ot5iy5es4l 3 года назад
А что если я получаю не весь html код?Если в браузере смотреть там есть div классы и тд,вывожу через text, там их нету.Через content тоже пробовал.В итоге не получается bs найти значения
@zproger
@zproger 3 года назад
Возможно это значение подгружается через js, а requests не обрабатывает их.
@user-ot5iy5es4l
@user-ot5iy5es4l 3 года назад
@@zproger пробовал json обрабатывать,толку0
@KarikhSergey
@KarikhSergey Год назад
Ну "ФиндОл" всё объясняет ))
@zproger
@zproger Год назад
:))
@Grigorev84
@Grigorev84 2 года назад
Автор, ответьте пожалуйста, зачем мы создали block? Мы же можем искать сразу в soup... этот момент я как то недопоянл
@Grigorev84
@Grigorev84 2 года назад
И ещё вопрос как парсить не через id а через class
@Grigorev84
@Grigorev84 2 года назад
Попробовал спарсить заголовки рбк, не поулчается 'NoneType' object has no attribute 'text'
@Fr0m_GaMes_to_Life
@Fr0m_GaMes_to_Life 14 дней назад
Люди короче вопрос, я просто хочу собрать слова с сайта РЕШУ ЕГЭ в отдельный файл, нужны слова,где есть "..",это я сделал с помощью re, но почему то собираются слова только с первых 5 заданий, а остальной текст насколько я понял даже не пришел после запроса, почему такое может произойти и как можно пофиксить.
@Klon114
@Klon114 2 года назад
Вроде, все то же самое сделал, но все равно пишет User-agent: python-requests/2.26.0
@zproger
@zproger 2 года назад
модуль user-agent обновился и теперь работает по-другому, подробней на офф.странице: pypi.org/project/fake-useragent/
@user-qg2pm9to3w
@user-qg2pm9to3w 2 года назад
А как искать необходимый div, если во всем коде нет ни единого id, только классы?
@zproger
@zproger 2 года назад
Тогда искать по классам
@kakw436
@kakw436 2 года назад
class_=' ' {'class': ' '}
@user-jn1mz3uh2t
@user-jn1mz3uh2t Год назад
Что за музон? Хочу такой
@yuzeless493
@yuzeless493 3 года назад
Вот вместо этой возни с requests.get(url, headers=headers) лучше бы сразу показал сессии, где можно сразу задать Session.headers и Session.proxies
@zproger
@zproger 3 года назад
Безусловно можно, но в данном уроке сессии ещё не рассматриваются, и необходимо знать каким образом можно передавать заголовки помимо сессий.
@user-pn4yn2rw5k
@user-pn4yn2rw5k 2 года назад
bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library?помогите весь интернет облазил уже сто раз перепроверил то что lxml установлен
@user-pn4yn2rw5k
@user-pn4yn2rw5k 2 года назад
если у кого нибудь такая же проблема попробуйте поменять парсер с "lxml" на 'html.parser'
@zproger
@zproger 2 года назад
Нужно устанавливать его глобально
@romashkahehe6270
@romashkahehe6270 Год назад
Видео крутое... Но возникла проблема, помогите пожалуйста. Пишет, что нет модуля fake_useragent, при том, что он установлен.
@romashkahehe6270
@romashkahehe6270 Год назад
Не работает только в pycharm, в идле всё нормально.
@Risehack
@Risehack 3 года назад
У меня возникла проблема. Программа работает, но когда картинка скачивается то она потом просто не открывается. Пытался подсоединить fake_useragent, тоже не помогло. Как быть?
@zproger
@zproger 3 года назад
Какие-то ошибки есть? Нужно больше информации, я к сожалению не читаю мысли :)
@Risehack
@Risehack 3 года назад
@@zproger Ошибок нет. Вот файл с кодом: drive.google.com/file/d/11j-l5ybd4o-HMGMbSsslK0svgjdBkv5L/view?usp=sharing А вот что мне пишет, когда я пытаюсь открыть картинку на ПК: drive.google.com/file/d/1XNsL-1Ypkz-kqQ3qhgQcyKKTEAExgRb7/view?usp=sharing
@Risehack
@Risehack 3 года назад
@@zproger Я парсил другой сайт, хотя на вашем также было
@n_ulls
@n_ulls 2 года назад
А почему список header передался на сайт, если он не учавствовал в коде никак кроме его обьявления?
@zproger
@zproger 2 года назад
Возможно видео неудачно обрезал, но заголовки будут участвовать только в случае если напрямую передать аргумент headers в самом запросе, либо же если это сессия, то в случае с обновлением списка session.headers
@n_ulls
@n_ulls 2 года назад
@@zproger спасибо)
@testtester73
@testtester73 2 года назад
You can use teg find_all
@zproger
@zproger 2 года назад
:/
@ahil7800
@ahil7800 2 года назад
Если вместо user-agent писать случайный набор символов, то не парсит, выдаёт пустой список.
@zproger
@zproger 2 года назад
Да, это не будет работать на всех сайтах
@user-hj4pb5zb2q
@user-hj4pb5zb2q 2 года назад
@@zproger А что тогда делать?
@rolton6307
@rolton6307 2 года назад
что делать если в строке с использованием find-all не работает .text
@zproger
@zproger 2 года назад
Какую ошибку получаете?
@vladimir7759
@vladimir7759 2 года назад
что лучше суп или скрапи? что популярней на фрилансе?)
@zproger
@zproger 2 года назад
Обычно нет четких требований к инструменту, который нужно использовать. Скрапи подойдет для крупных проектов, а небольшие проекты можно на bs4 сделать.
@mykolavarvarchuk937
@mykolavarvarchuk937 3 года назад
+++
@zproger
@zproger 2 года назад
:)
@dor1k991
@dor1k991 11 месяцев назад
Сайт во время урока умер - топ!
@zproger
@zproger 11 месяцев назад
Это сайт не для урока, я нашел рандомный из выдачи) Главное найти что-то подобное
@f4ke543
@f4ke543 Год назад
как понять что это основной блок 3:58, кто тут, можете помочь?
@Awdesk_
@Awdesk_ 2 года назад
топ видео, но почему-то модуль fake-useragent не работает
@Awdesk_
@Awdesk_ 2 года назад
Посмотрю документацию, возможно, модуль обновился
@zproger
@zproger 2 года назад
Модуль был обновлен
@marinamarine5306
@marinamarine5306 3 года назад
а почему lxml а не json?
@zproger
@zproger 3 года назад
Привык всегда его использовать :)
@miami_racer4378
@miami_racer4378 3 года назад
Что делать если я хочу получить ссылку, но вместо ссылки я получаю значок #
@zproger
@zproger 3 года назад
Значит в этом атрибуте и лежит данный символ, необходимо проверить наличие ссылки в нем.
@miami_racer4378
@miami_racer4378 3 года назад
@@zproger проблему решил, я не тот тег смотрел.
@s_merq
@s_merq Год назад
Здравствуйте! Спасибо за видео! Скажите пожалуйста, ваш курс на степике отличается от цикла этих видео? Что я смогу найти на степике, чего нет на ютубе заплатив 30 долларов? И на 3 минуте видео можно же было сразу написать soup.find('div', id="javascript_check") и он бы нашел нужный блок в рамках этого сайта, или я что-то путаю...
@zproger
@zproger Год назад
Здравствуйте, на степике на 3 видео больше чем здесь и он время от времени обновляется. Но это скорее как способ поддержать канал.
@personx5954
@personx5954 3 года назад
Как работает header?
@zproger
@zproger 3 года назад
Это обычные заголовки, которые передаются на сервер.
@personx5954
@personx5954 3 года назад
@@zproger аа, у меня просто не работает, наверное из-за того что я через телефон делаю
@kakw436
@kakw436 2 года назад
почему у меня не работает .text
@zproger
@zproger 2 года назад
Если ошибка NoneType, значит не удалось найти объект по идентификатору
@DonnyWTF
@DonnyWTF Год назад
Жява скрипт😂
@zproger
@zproger Год назад
Жаба скрипт :)
@user-lj7ql4os9o
@user-lj7ql4os9o Год назад
жява скрипт)
@zproger
@zproger Год назад
=))
@ItsGame228
@ItsGame228 3 года назад
если айди нету а только class
@zproger
@zproger 3 года назад
Ну так используйте class_ вместо id
@deniskuznetcov3193
@deniskuznetcov3193 2 года назад
Запутался к концу видео, это изменили,это удалили, тут добавили, там переделали))). К концу видео уже и не понимаю что к чему))
@zproger
@zproger 2 года назад
Спасибо за комментарий, я учту всё это, чтобы сделать следующие видео лучше
@deniskuznetcov3193
@deniskuznetcov3193 2 года назад
@@zproger да если можно)) а то уже к середине не понимал что мы делаем а в конце вообще запутался что писал и для чего)) Если можно в след раз писать и озвучивать вот этот код для этого и делает это, если изменить в коде это, на выходе получаем этот результат)) не сваливать все в одну кучу, и по ходу не изменять его и не удалять))
@Grigorev84
@Grigorev84 2 года назад
Я пишу код вслед за автором, и потом уже анализирую конечный код, вопросов не возникает.
@RoKivals
@RoKivals 2 года назад
Ну концепция парсинга объяснена доступна, а вот то, что по сути он подтягивает неверные данные это вообще не смущает?
@zproger
@zproger 2 года назад
Не заметил этого, где именно оно подтягивает неверные данные?
@network_sw
@network_sw 6 месяцев назад
А где виртуальное окружение, зачем загаживать систему всеми зависимостями пакетов, которые нужны только этому скрипту? Ну и финд олл конечно... )))
@ivanvana
@ivanvana 2 года назад
Когда вы начнёте грамотно писать слово "response"?
@zproger
@zproger 2 года назад
Уже пишу :D
@pulsarofsamsara1625
@pulsarofsamsara1625 6 месяцев назад
а ведь можно в бесконечном цикле запустить get(link), да еще и в несколько потоков. (закадровый смех от собственных грязных мыслей)
@tispoint
@tispoint 3 года назад
английский язык автору стоит подтянуть.. "финд" - это find уши режет
@zproger
@zproger 3 года назад
Я произношу по-разному, знаю что это не правильно, но не замечаю за собой некоторые моменты
@justasemza6945
@justasemza6945 5 месяцев назад
Что то нихуя не работает)...
Далее
Python Requests: Using Fake User-Agents
9:01
Просмотров 2,5 тыс.
ОВР Шоу: Глава Патриков @ovrshow_tnt
09:27
Beautiful Soup 4 Tutorial #1 - Web Scraping With Python
17:01