Тёмный
No video :(

파이썬 웹 크롤링 하기 - 너무 간단해서 민망합니다. 

기술노트with 알렉
Подписаться 55 тыс.
Просмотров 93 тыс.
50% 1

#파이썬#웹크롤링#크롤링#방법 간단하게 웹 사이트 크롤링하는 거 설명드려요~
소스입니다.
from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen("news.naver.com/")
bsObject = BeautifulSoup(html, "html.parser")
#for link in bsObject.find_all('a'):
print(link.text.strip(), link.get('href'))
for link in bsObject.find_all('img'):
print(link.text.strip(), link.get('src'))
안녕하세요. 기술노트 채널을 운영하고 있는 알렉이라고 합니다.
IT분야에 개발자로 일을 하다가 프로젝트 매니저로 현재는 IT컨설턴트로 일하고 있습니다.
IT전반에 걸친 경험이나 지식을 올리고 있습니다.
개발자를 위한 클라우드 강의
inf.run/q1ia
백엔드 직접 번역한 추천 도서
www.yes24.com/...
앱개발을 해본 경험이나 방법들도 올렸습니다.
앱개발 관련해서는 아래 링크 통해서 인프런에 무료로 올린 강좌 리스트를 참고하시구요.
inf.run/4Ug3
기술노트 (클라우드, 빅데이터, 취업, 진로 고민등) 아래 링크 통해서 영상 참고해보시면 좋습니다.
inf.run/x4mm
멘토링도 하고 있습니다. (기술 면접 준비, 진로 고민, 앱 개발 컨설팅 등)
www.inflearn.c...
좋은 인연이 되었으면 좋겠습니다.
혹시 IT 분야 진로 관련 고민이나 빅데이터,
앱개발, 기술사 공부 관련 문의 주실게 있다면
hitouchsoft@gmail.com 자유롭게 문의 주세요.
도움이 되셨다면 구독, 좋아요 눌러주시면
영상 제작에 큰 힘이 됩니다~!

Опубликовано:

 

23 июн 2020

Поделиться:

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист
Посмотреть позже
Комментарии : 63   
@where9810
@where9810 3 года назад
Javascript하고 문법이 비슷하네요. 관심있는 문서를 크롤링 하는방법을 찾다가 이런방법이 있구나 해서 봤는데 오늘 해봐야겠습니다.
@user-uv6hr8zr3z
@user-uv6hr8zr3z 3 года назад
단순하고 명쾌하네요. 초보자들이 이해하기 쉽습니다.
@with2511
@with2511 3 года назад
아~ 그러시면 너무 좋네요.
@user-po4xn8vy7n
@user-po4xn8vy7n 3 года назад
쉽게 잘 설명해주셔서 감사합니다 ^^
@startcoding.official
@startcoding.official 2 года назад
목소리 왜 이렇게 좋으시죠! 부럽네요.. 저는 urlopen 보다 requests 가 편하더라고요ㅋㅋ 그리고 find보다는 select 가 짱편해요!
@with2511
@with2511 2 года назад
칭찬 감사합니다! 목소리를 더 가다듬게 되네요 ㅋㅋ 아 requests가 더 편하시군요. 워낙 기본으로 설명 드리다 보니 그렇게 되었네요.
@funppun4234
@funppun4234 4 года назад
감사합니다!
@rexkimj
@rexkimj 2 года назад
링크만 가져오는것은 간단하죠 ㅋㅋ 실제 텍스터 파싱과 분류 불필요한 문자 제거, 포맷팅이 오래 걸리죠 ㅋ
@rokroktv544
@rokroktv544 4 года назад
크롤링으로 블로그에 작성된 1000개정도 되는글을 폴더화시킨다고 했을때 사진은jpg으로 순서에맞게 이름변경돼서 폴더에 저장, 글원고의 제목은 블로그글의제목으로 글내용은 한글이나 워드로 저장하는 작업도 가능한건가요? 가능하다고하면 대학교 컴공 전공자들도 충분히 할수있는 난이도인가요??
@with2511
@with2511 4 года назад
크롤링을 사용하여 블로그의 내용을 가져오는 것은 가능하고, 이미지 저장도 가능합니다. 다만 한글이나 워드로 저장하는 부분이 라이브러리가 필요할 거 같은데요. 대개는 크롤링한 데이터를 TXT나 CSV정도로 저장을 하거든요. 그리고 TXT, CSV를 한글이나 워드로 저장도 가능할거 같구요. 대학교 컴공 전공자면 아주 훌륭한거 같은데요. 한번 시도해보시고 막히시면 질문 주시면 같이 찾아볼께요~
@boouptime
@boouptime 4 года назад
@@with2511 제가 찾고자 하는 강의가 말씀주신 부분인데요 : ) 강의 요청을...살짝쿵...드려봅니다...^^
@user-vw1rk5lh2u
@user-vw1rk5lh2u 2 года назад
안녕하세요4^^ 잘보고갑니다d
@phrealtytv
@phrealtytv 2 года назад
독학중인 완전 생초보입니다. colab에서는 beautifulsoup를 인식안하나요? 저는 google colab에서 selenium이나 bs4 등을 통해서 크롤링하려고 하는데 작업이 쉽지 않네요 ㅎㅎㅎ
@with2511
@with2511 2 года назад
저도 colab을 사용해보진 않았는데요. 아래 블로그 보니 할 수 있어 보이네요. m.blog.naver.com/xenostep/221987578832
@wonjinyu3441
@wonjinyu3441 3 года назад
와 정말 많이 배웁니다 ^^ 페이스북 댓글 같은것도 같은 방법으로 크롤링이 가능할까요?
@with2511
@with2511 3 года назад
된다고 생각하구요. 자세히는 아래 링크 참고해보세요~ victorydntmd.tistory.com/244
@jameskim7653
@jameskim7653 3 месяца назад
위 스크립트 돌려 보니 "NameError: name 'link' is not defined" 뜨네요. 뭐가 잘못 된 걸 까요?
@with2511
@with2511 3 месяца назад
크롤링 하는 대상 링크 내용 안에 link가 없는 거로 보이는데요.
@user-go3kq4ty4j
@user-go3kq4ty4j 3 года назад
Remote ans closed connection without response 라고 에러가 뜨는데 무엇이 잘못된건가요
@with2511
@with2511 3 года назад
응답 없이 연결이 끊겼다는 의미인거 같은데요. 혹시 여러번 호출 시도를 한건가요?
@gamjatang918
@gamjatang918 3 года назад
@@with2511 html = urlopen 이쪽에서 해당 에러가 발생합니다 bs4 설치 되었음에도 이쪽에서 막히네요
@with2511
@with2511 3 года назад
@@gamjatang918 설치 경로가 다르거나 인식할 수 없는 문제 같은데요..
@eeoim9329
@eeoim9329 3 года назад
네이버가 안되는것같아요 다른 페이지들은 되네요(저는 ytn 뉴스긁어봄)
@with2511
@with2511 3 года назад
@@eeoim9329 네이버는 좀더 치밀하게 차단할 수 있어요. 그래도 다른 곳이 되면 그런 식으로 원하는 곳 하면 될 수 있겠네요.
@gngn4223
@gngn4223 3 года назад
내의 페이지에서 공백이 있는 class명을 가져오고 싶은데 (find_class_name) 공백이 있어서 css로 접근을 하자니 또 안되네요 이런 경우는 어떤 경우 일까용?
@with2511
@with2511 3 года назад
아 제가 내 데이터 관련해서 아래 링크 한번 보실래요. m.blog.naver.com/PostView.nhn?blogId=kiddwannabe&logNo=221253004219&proxyReferer=https:%2F%2Fwww.google.com%2F 별도의 방법이 있어 보이네요.
@gngn4223
@gngn4223 3 года назад
기술노트with 알렉 프레임 스위칭해도 공백 클래스가 문제네용 ㅜㅜㅜㅜㅜ
@user-nu1no2os2r
@user-nu1no2os2r 3 года назад
저는 왜 결과가 HTTP Error 500: Internal Server Error 이렇게 나올까요.. 설마 맥을 사용해서 그런지요.. 서버가 에러가 뜬다고 하는데 이유를 잘 모르겠습니다. ㅜㅜ
@with2511
@with2511 3 года назад
인터널 서버에러는 대개 서버에서 나오는 에러인데요... 맥을 사용한다고 그러진 않을거 같은데요..
@user-nq8rx6id5u
@user-nq8rx6id5u 3 года назад
이미지 가져올 때 src는 어디서 나온 건지 알 수 있을까요?
@with2511
@with2511 3 года назад
이미지가 표시되는 위치를 보면 src= 하고 주소가 나오는데요. 그 주소가 출처가 되는데요. 질문주신게 그 말씀이신지요?
@user-nq8rx6id5u
@user-nq8rx6id5u 3 года назад
기술노트with 알렉 네 감사합니다!! 초보라 모든게 생소하네요!
@with2511
@with2511 3 года назад
@@user-nq8rx6id5u 네, 화이팅입니다!
@user-is1kj9dq1y
@user-is1kj9dq1y 3 года назад
주식 정보를 수집하고싶은데,,, 특정 사이트에서 가져오는 것이 가능할까요? 종목명이나 그런것이라도..
@with2511
@with2511 3 года назад
네~ 주식 정보 수집 가능합니다. 주식의 경우는 두가지 방법으로 정보 수집이 가능한데요. 키움이나 이베스트 같은 곳은 api를 제공하고 있어서 api로 종목명 일자별 주가 등을 가져 올 수 있구요. 네이버 같은 곳에서는 주식 정보를 가져올 수 있습니다. 네이터 주식 정보 사이트 내용을 가져 올 올 수 가 있어요~
@user-is1kj9dq1y
@user-is1kj9dq1y 3 года назад
@@with2511 제가 조금 욕심인걸까요? 안해봤던 파이참이란 프로그램을 깔아서 유튜버님처럼 코딩을 쳐보고해봤는데, 자꾸 오류가 뜨네요,,
@user-gw6py3cn2t
@user-gw6py3cn2t 3 года назад
안녕하세요. 화학물질 정보를 엑셀로 구축하고 싶은데요, 예를들어 물질명을 알면 그에 해당하는 CAS #, chemical formular 등을 특정 웹에서 추출하여 엑셀로 빠르게 정리하고 싶은데 이런 코딩은 웹 스크래핑으로 가능한건가요? 가능하다면 기술노트님의 영상 중 어떤거를 보면 좋을지도 추천 부탁드립니다!
@with2511
@with2511 3 года назад
안녕하세요~ 혹시 파이썬으로 만드실껀가요? 그리고 해당 사이트가 있다라는 말씀이시죠? 그 사이트에 가면 물질명으로 정보를 찾을 수가 있는 것이고, 그것을 가져오고 싶다는 얘기인거 같은데요. 혹시 지금 보신 영상을 활용하시면 어려움이 있으시나요? 엑셀로 저장하는 것은 별도의 라이브러리들이 있구요. 사이트에서 가져오는 것은 기본 로직이 비슷해서요. 해당 사이트의 상황으로 바꿔주시면 될거 같은데요. 해보시고 안되시면 질문주시구요~
@with2511
@with2511 3 года назад
말씀하신 것도 현재 공유드린 크롤링 기술을 응용하면 가능할거 같은데요. 그런데, 특정 사이트에 그 내용들이 좀 있어야 하구요. 검색을 해서 어느 사이트든 들어가서 가져오는 것은 쉽지는 않을거 같네요. 쉽게 말해 해당 내용이 모아져 있는 사이트가 있으면 규칙에 따라 가져 올 수 있을거 같아요.
@namu07202able
@namu07202able 3 года назад
ModuleNotFoundError: No module named 'bs'라고 뜨면 어떻게 하나요? ㅠㅠ
@with2511
@with2511 3 года назад
이런 경우 라이브러리 설치가 잘 안되서 그렇거든요. 경로라든가 설치 여부를 확인해보시는게 좋겠습니다. studyhard24.tistory.com/235 이 링크 가보시고 확인해보세요~
@holee457
@holee457 3 года назад
구글기사도 강의해주세요!
@with2511
@with2511 3 года назад
아~ 한번 구글도 되는지 봐야겠네요.
@Artemis1004
@Artemis1004 3 года назад
네이버랑 외신 경제 주요누스만 20개씩 가져올수 있을까요?
@with2511
@with2511 3 года назад
뉴스 20개 정도 가져오는 것은 가능할 거 같구요. 그리고 Open API 찾아보시는 것도 좋은 방법인거 같아요.
@Artemis1004
@Artemis1004 3 года назад
@@with2511 카톡으로 모은 뉴스 전송하고싶은데 어려워요
@user-fs8sv9hc8g
@user-fs8sv9hc8g 3 года назад
혹시 사진이 아니라 영상링크는 못가져오나요?
@with2511
@with2511 3 года назад
링크도 가져올 수 있어요~ HTML내에 포함된 모든 내용은 크롤링이 가능해요.
@user-xg1xb3xk3x
@user-xg1xb3xk3x 3 года назад
크롤러했고 이제 카톡으로 보내고싶은데 어떻게 하나요?
@with2511
@with2511 3 года назад
카톡으로 보내는 기능은 좀 꼼수가 필요할거 같아요. 카톡은 외부로 전송하거나 받는 API를 제공하지 않더라구요. 그런데, 홍보용으로 사용하려고 오픈해준 것이 있는 그것을 이용하면 되지 않을까 싶네요.
@user-rp7ft1rc6s
@user-rp7ft1rc6s Год назад
개인적으로 문의드릴수있을까요 ??
@with2511
@with2511 Год назад
어떤 문의 이신가요? hitouchsoft@gmail.com로 메일로 주실래요.
@ffffasfasdsafa
@ffffasfasdsafa 4 года назад
아니 광고가 너무 많네요
@ffffasfasdsafa
@ffffasfasdsafa 2 года назад
@@T_Cell 프리미엄쓰는데요?
@ffffasfasdsafa
@ffffasfasdsafa 2 года назад
@@T_Cell 저땐 안썻나보지; 이제 그만하자 내가 잘못했어
@user-mj6zx7lz6r
@user-mj6zx7lz6r 3 года назад
strip 함수가 인식이 안되요
@with2511
@with2511 3 года назад
아 strip은 기본 함수인거 같은데요...좀 찾아봤는데요. 해당 함수를 사용하기 위해서 별도 모듈 설치 과정은 없네요.
@user-mj6zx7lz6r
@user-mj6zx7lz6r 3 года назад
@@with2511 방법을 찾았어요 감사해요ㅜㅜ
@Rrs-5def
@Rrs-5def 3 года назад
불법이에요 이거
@with2511
@with2511 3 года назад
그렇네요. 웹사이트 콘텐츠를 긁어오는 '크롤링'을 이용해 확보한 콘텐츠를 자신의 영업에 무단 사용하는 것은 데이터베이스(DB)권 침해 행위라는 대법원 판단이 나왔다. 크롤링이라는 기술이 허락되는 사이트 또는 데이터로만 해야 할거 같네요. 무단은 안되겠네요.
@starbucks1971
@starbucks1971 Год назад
뭔말인지 하나도 모르겠네여
@with2511
@with2511 Год назад
조만간 크롤링에 대해서 한번 다시 올려볼께요~
Далее
❌Ему повезло больше всех #story
00:41
How To Scrape ANY Website (ft. Scraping Browser)
6:56
수학포기자들은 코딩하면 큰일남
7:49
Просмотров 406 тыс.
웹 크롤링으로 돈 버는 방법
11:05
Просмотров 13 тыс.
❌Ему повезло больше всех #story
00:41