쿠팡 크롤링 차단되지 않고 상세 페이지, 리뷰까지 스크래핑하는 프로그램 만들기

Подписаться 26 тыс.

Просмотров 12 тыс.

50% 1

파이썬 뷰티풀수프(Beautifulsoup), 셀레니움(selenium)과 함께 브라이트 데이터(bright data)의 웹 언로커(Web Unlocker)와 스크래핑 브라우저(Scraping Browser) API를 사용하여 차단당하지 않고 쿠팡 사이트를 스크래핑 하는 방법을 보여드립니다.
원하는 제품(ex.노트북)을 검색해서 원하는 페이지만큼 제품 목록에서 제품명, 가격, 상세 페이지 링크 등을 수집하고 수집한 링크에 접속하여 상세 정보와 제품 리뷰까지 원하는 만큼 수집하는 방법을 배울 수 있는 강의입니다.
brdta.com/kimfl
위 링크로 가입하시면 복잡한 절차를 거치지 않아도 $10 무료 크레딧이 즉시 제공됩니다.
10:41 쿠팡 제품 목록 수집(광고 제품 제외하는 방법)
19:03 제품명, 가격, 링크등 정보 수집
24:50 여러 페이지 제품 수집
30:50 수집한 모든 제품 상세 페이지 링크로 접속해서 상세 정보 스크랩
48:51 제품 옵션 정보 수집
1:09:09 제품 리뷰 수집을 위한 상세 페이지 분석
1:12:01 브라이트 데이터 스크래핑 브라우저 사용 설정
1:18:32 제품 리뷰 수집 코드 작성
1:31:36 여러 페이지 리뷰 수집 코드 작성
1:50:35 csv 파일 저장 코드 작성
brdta.com/kimfl
위 링크로 가입하시면 복잡한 절차를 거치지 않아도 $10 무료 크레딧이 즉시 제공됩니다.

Опубликовано:

11 сен 2024

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист

Посмотреть позже

Комментарии : 40

@dubbing_dog 7 месяцев назад

안녕하세요~~ 소중한 정보감사합니다 ㅎㅎㅎㅎ 영상을 보고 질문이 있는데...쿠팡 페이지 3페이지 정도면 리뷰를 가져오는 기능까지해서 요청이 어느정도 되나요~???? 비용을 계산해보고 싶어서 질문드립니다 ㅎㅎㅎㅎ

@B3RMUD4 3 месяца назад

별점 추출 하고 싶은데 rating = soup.select_one(".rds-rating-score") rating = 0 if not rating else rating.text.strip() 이러니까 0만 나오는데 어떻게 해야 될까요 ㅜ

@user-hc3fo6mq8w 6 месяцев назад

페이지 넘어가면서 크롤링 하는 부분(29:42)에서 Traceback (most recent call last):~~라는 에러가 뜨는데 어떻게 해결해야하나요?? 문제가 뭔지도 알 수 있을까요

@kimfl 6 месяцев назад

Traceback (most recent call last): 이 부분은 에러 메시지가 시작하는 부분입니다. 메시지에는 몇 번째 줄에서 에러가 발생했고 에러 이름은 무엇인지 나와있습니다. 코드와 함께 그 내용을 올려주셔야 어떤 에러인지, 어떻게 해결하는지 알려드릴 수 있습니다.

@user-ke8zy7xd8j 6 месяцев назад

스크래핑 브라우저 요금정책 중 세션 시간으로 했을 때 세션이라는게 해당 API 하나 호출 당 세션하나 인건가요? 가령 동일 키로 동시에 두개 호출하면 세션이 두개 유지되는거고 요금도 두배로 적용되는건지요?

@kimfl 6 месяцев назад

맞습니다- 가격이나 기타 사항에 대한 부분은 브라이트 데이터로 메일 보내서 문의하시면 더 정확하게 답변 받으실 수 있습니다.

@독서왕-m2l 4 месяца назад

영상 정말 감사합니다. 저는 소프트웨어를 배우는 학생입니다. 이 영상을 바탕으로 네이버 쇼핑에서 크롤링을 할 수 있도록 만들며 연습을 해보고있습니다. 네이버로 물품의 클래스가 같은 것을 찾아 제품 목록을 먼저 찾아서 개수를 세는 것을 만드는 것부터 시작했습니다. 하지만 이떄 맨 위에 뜨는 5개만 카운트 되고 그 밑은 스크롤이나 클릭으로 해결해야하는 것같아서 밑을 클릭하도록 하려고 해도 네이버는 쿠팡처럼 클릭 할 곳도 없어서 문제가 생기네요. 혹시 어떻게 해결할 수 있을까요? 그리고 개발자 도구 열어서 태그를 검색하는건 어떻게 하는건지 궁금합니다. 찾아봐도 그 태그가 몇 개가 있는지 세는 방법이 있는 정보는 없더라고요...가능할 때 답변 주시면 정말 감사하겠습니다.

@kimfl 4 месяца назад

1. 셀레니움을 사용해서 스크롤을 하고 페이지 소스를 가져와서 그 소스코드에서 찾아야 합니다. 2. Ctrl + F 누르면 입력하는 부분이 나오고 거기에 입력하면 옆에 몇개인지 나옵니다. 다만, 이건 일치한 갯수이기때문에 예를 들어 class="aaa"를 찾으려고 하는데 소스코드에 "aaabbb" 이런게 있다면 같이 찾아집니다. 이런 경우에는 입력창에 aaa만 입력하는게 아니라 "aaa" 이런식으로 입력하면 됩니다.

@user-qp4gx3cl6f 4 месяца назад

vba 셀레니움으로 해서 크롤링하는게 나은가요? 파이썬으로 하는게 나은가요? ㅠ 아무것도 몰라서요 ㅜ

@kimfl 4 месяца назад

제가 vba에서 셀레니움을 사용할 줄 모릅니다.

@gototheSky_4 5 месяцев назад

안녕하세요! 상세페이지 url에서 브랜드명이랑 제품명가져올때 traceback(most recent call last) 오류가 뜨는데 혹시 이유를 알 수 있을까요?! ㅠㅠ

@KolisTube 10 месяцев назад

이렇게 크롤링해서 어디에 응용해서 사용 가능할까요?

@kimfl 10 месяцев назад

스크랩한 정보를 필요한데 사용을 해야겠죠? 데이터 자체가 필요해서 크롤링을 할 수도 있을 테고 정보를 다른 웹이나 앱에서 보여줄 수도 있습니다. 가격정보를 사용해서 제품 가격 변화나 다른 쇼핑몰과의 가격비교도 할 수 있고, 제품 리뷰를 분석해서 시장 반응을 볼 수도 있겠죠. 어디에 사용할지는 정해진 건 없습니다. 기획하고 만드는 사람의 몫인 거죠.

@user-l9v7xff567 10 месяцев назад

감사합니다 계속 보니까 용어들이 귀에 들어오네요 한 가지 궁금한 점이 있는데요 예를 들어 만약 쿠팡이라면 100% 자동화하려면 수시로 변경되는 정보도 반영이 필요할 것 같은데요 특정한 시간에 엑셀에 저장된 값을 새롭게 반영된 값으로 받을 수 있게 파이썬에서 조작할 수 있을까요 가능하다면 어떤 명령어를 찾아보고 공부해보면 될까요

@kimfl 10 месяцев назад

파이썬 스케줄러, 파이썬 cron 등으로 검색해보시면 특정 시간을 정해서 또는 정해진 간격으로 프로그램을 실행시키는 방법을 찾으실 수 있습니다.

@yulj3072 Месяц назад

안녕하세요. 스크래핑 브라우저 부분에서 질문이 있어 댓글 남깁니다. url 가져오는 driver.get() 이 부분에서, 네이버 등 다른 사이트 url를 적으면 정상 작동 하는데, 쿠팡사이트 url만 적으면 You don't have permission to access "(쿠팡url)" on this server. 이런 오류가 발생합니다. 혹시 해결 방법을 아실까요???

@kimfl Месяц назад

요즘 쿠팡과 네이버가 크롤링을 엄청 열심히 막고 있습니다. 아래 내용은 브라이트 데이터에 문의하고 받는 답변입니다. KYC라는걸 신청해서 허가를 받으면 되는데 저는 일단 신청 해놓은 상태입니다. Hi, To successfully target coupang.com you'll need to submit and pass KYC, which will allow scraping browser to fully utilize our residential network. I've tested this domain with a demo user with full residential access and found no issue targeting it with the example code below. Please submit your KYC via the following link(brightdata.com/cp/kyc), once your KYC is approved and you'll have full residential access you should be successful in targeting Coupang. To learn more about our residential network and why KYC is needed to obtain full access to it I suggest you review the following article(brightdata.zendesk.com/hc/en-us/articles/13310952273041-Residential-network-policy) Please let me know if further clarification is needed!

@yulj3072 Месяц назад

@@kimfl 감사합니다!

@kimfl 10 месяцев назад

brdta.com/kimfl 위 링크로 가입하시면 복잡한 절차를 거치지 않아도 $10 무료 크레딧이 즉시 제공됩니다. 뷰티풀수프(Beautifulsoup)와 셀레니움(selenium)을 기반으로 저와 협업중인 세계 최고의 웹 데이터 플랫폼 브라이트 데이터(bright data)의 웹 언로커(Web Unlocker)와 스크래핑 브라우저(Scraping Browser) API를 사용하여 차단당하지 않고 원하는 제품(ex.노트북)을 검색해서 원하는 만큼 수십, 수백개의 제품명, 가격, 상세 페이지 링크 등을 스크랩하고 수집한 링크에 접속을 반복하여 상세 정보와 제품 리뷰까지 원하는 만큼 수집하는 방법을 배울 수 있는 강의입니다. 브라이트 데이터의 API 사용법뿐만 아니라 웹 크롤링에 대해 많은 내용을 담았습니다. 사실, API 사용법 위주의 20분정도 짧은 영상을 계획했었는데 만들다보니 '이 내용이 있어야겠는데, 이것도 추가해야겠다.' 이러면서 거의 2시간 가량의 강의가 되었습니다. 그만큼 웹 크롤링에 대해 제대로 다룬 강의입니다. 제가 만들었지만 진짜 강추합니다! brdta.com/kimfl 위 링크로 가입하시면 복잡한 절차를 거치지 않아도 $10 무료 크레딧이 즉시 제공됩니다.

@user-zw4eb7ux7f 8 месяцев назад

프로그램에 대한 개념이 없는데 혹시 저 브라이트데이터 가입하고 이영상만 보면되나여~? 처음사용하는 프로그램은 뭘까요? ㅜ 알려주시면 감사하겠습니다 답변부탁드려용 ㅎㅎㅎㅎㅎ

@kimfl 8 месяцев назад

프로그램이 아예 처음이시라면 많이 어려울듯 합니다. 프로그래밍 언어는 파이썬을 사용하고 소스 코드 편집기는 vscode를 사용합니다. 일단 파이썬 기초를 조금이라도 살펴보신다음 이 영상을 따라 해보시는걸 추천드립니다.

@user-ke8zy7xd8j 6 месяцев назад

선생님 해당 사이트 API를 한 PC 에서 병렬로 호출해서 사용해도 다 다른 IP를 부여받고 크롤링 하게 되는 건가요?

@kimfl 6 месяцев назад

네- 맞습니다.

@spectrum8200 6 месяцев назад

리뷰를 크롤링하려면 꼭 "스크래핑 브라우저"를 써야하나요? 리뷰가 있는 위치까지 스크롤한 뒤에 css 식별자로 검색해도 안나와서요 ㅠㅠ

@kimfl 6 месяцев назад

스크래핑 브라우저는 차단되지 않고 계속해서 스크래핑을 하기 위해 사용하는 도구일 뿐입니다. 셀레니움만으로 리뷰 스크랩이 안된다면 아마도 코드에 문제가 있을 겁니다.

@user-fq8rv3on6n 9 месяцев назад

구글은 프록시로 긁어오는게 안되는걸까요?

@pandaspython2024 8 месяцев назад

구글 자체 크롤링은 난이도가 높아요 bot이라 판단되면 검색 결과 자체를 하나도 안줍니다

@JS_MUSIC272 3 месяца назад

좋은 정보 너무 감사합니다. 로켓배송 뱃지 가져오는 값을 못찾았는데 혹시 아시나요?

@kimfl 3 месяца назад

개발자 도구를 사용하면 간단하게 확인 가능합니다. 클래스 badge rocket입니다.

@JS_MUSIC272 3 месяца назад

@@kimfl 답변 감사드립니다^^

@MoneyHubTips 10 месяцев назад

브라이트 데이터 스크래핑 브라우저는 어떤식으로 비용이 나가나요~

@kimfl 10 месяцев назад

brightdata.com/pricing/scraping-browser 스크래핑 브라우저는 사용량 + 시간입니다. 반면, 웹 언로커는 요청당 가격입니다. brightdata.com/pricing/web-unlocker 보시면 1천번 요청당 2~3달러 수준으로 매우 저렴합니다. 꼭 셀레니움이 필요한 상황이 아니라면 웹 언로커를 사용하는게 속도도 빠르면서 비용도 저렴합니다. brdta.com/kimfl 위 링크로 가입하시면 $10 무료 크레딧이 즉시 제공됩니다. 테스트에 사용해보세요~

@user-kw4pl5gf9h 10 месяцев назад

@@kimfl 가격이 꽤 나가네요

@user-vc4pu7nd8m 9 месяцев назад

@@kimfl 1000번 요청당 3달러라 써있는데.. 1000번 요청이 정확히 무슨 말일까요? 100페이지를 크롤링해~ 라고 한번 시키면 그게 한번인지 아니면 다른 단위로 쪼개지는 건지요~ 그리고 ip를 매번 바꿔준다고 하셨는데 알려주신대로 vsc에 적고 하긴 하는데 이게 작동이 되는중인지 안 되는중인지는 확인하는 방법도 궁금합니다. 영상 초반 proxy_url 이 주소가 크롤링 실행 할 때 마다 똑같이 출력이 되는데 어떻게 매번 다른 주소가 되는건지 이것도 궁금합니다.. 질문이 많아서 죄송합니다 ㅠ

@yulj3072 2 месяца назад

41:24

@yulj3072 2 месяца назад

1:31:33