본문 바로가기

python

(2)
02. 재고 크롤러(1) 크롤링 서비스이니 만큼, 주 기능은 크롤링이다. 책 재고를 긁어오기 위해 두 가지가 필요하다 생각했다. 책에 관한 정보 해당 책 재고 책에 관한 정보 책에 관한 정보를 처음에는 네이버 책 페이지에서 받아왔는데, 찾아보니 API가 있었다. API는 크롤링보다 빠르고 간단하다...ㅎㅎ 이에 대한 내용은 다음에 API에 관한 글을 적으면서 다룰 예정이다. 책 재고 크롤링 이번 글의 주제인 크롤링. 재고를 긁어오기 위해 교보문고에서 재고를 올리는 URL을 확인했다. 살펴보니 책의 isbn을 이용해 재고를 확인하는 jsp 페이지로 접속이 가능했다. 아래 링크에서 **isbn**이라고 적힌 곳에 책의 isbn을 입력하면 접속 가능하다. http://www.kyobobook.co.kr/prom/2013/general..
파이썬으로 크롤링하기 - Beautiful Soup 파이썬으로 크롤링을 할 때, Beautiful Soup 모듈을 이용하면 편리하다. 1. Beautiful Soup 설치 pip install beautifulsoup4 2. 크롤링 하려는 페이지의 코드 확인 보안뉴스 메인페이지의 헤드라인 타이들을 긁어 올 생각이다. 확인해보니 li 태그 안에 제목들이 입력되어 있다. li 바로 위에 있는 ul의 클래스는 아래쪽에도 계속 반복되므로, 상위 div의 id를 이용하려 한다. 3. 헤드라인 가져오는 코드 from bs4 import BeautifulSoup import requests #보안뉴스 소스코드 가져오기 req = requests.get('https://www.boannews.com/Default.asp') soup = BeautifulSoup(req...