BeautifulSoup을 이용한 네이버와 다음 실시간 검색어 순위 추출

이왕 Jekyll이랑 github에 손을 댄김에, 그동안 궁금했던 다른 툴을 하나 더 시험해보기로 한다.
BeaufifulSoup은 파이썬 모듈 중 하나인데, 이것을 사용해서 html이나 xml 파일로부터 원하는 정보를 쉽게 뽑아낼 수 있다. 예를들어 뉴욕타임즈 홈페이지에서 헤드라인을 몇달치 긁어서 분석한다던지 (실제로 가능한지는 모르겠다, 막아놨을 수도 있으니까). 워낙 데이터로 할 수 있는 일이 무궁무진해지는 세상이니 한번 맛을 보기로 한다. BeautifulSoup에 대한 번역된 기술 문서는 여기로.

# 일단 필요한 모듈부터 로딩. 마지막 모듈은 현재 시간을 불러오기 위해 사용한다. 
from bs4 import BeautifulSoup
import urllib.request
import datetime

# 메인 페이지를 통째로 가져온 후에 뷰티플수프가 정리를 해놓고, 사용자가 원하는 정보를 취사선택하는 과정이다. 
# soup.find_all('li',{"class":"up"}) 이 부분이 사용자가 규칙을 찾아서 코딩해야 되는 부분이다.
# 이러저래 시도해보다가 li라는 태그의 up이라는 클래스를 모두 찾아와라 이런 명령을 의도하여 (html은 잘 몰라서) 코딩했다.
url = "http://naver.com"
content = urllib.request.urlopen(url)
soup = BeautifulSoup(content,"lxml")
rank=soup.find_all('li',{"class":"up"})

# 다음도 비슷하게 했는데, html 파일에서 처리하는 형태가 조금 달라서 마지막 라인도 그에따라 변경.
url = "http://daum.net"
content = urllib.request.urlopen(url)
soup = BeautifulSoup(content,"lxml")
rank2=soup.find_all('span',{"class":"txt_issue"})

print("현재시각 %s" %datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
print("네이버 검색 순위")
for (i,x) in enumerate(rank):
    print("%d위" %(i+1),x.a['title'])    
print("\n다음 검색 순위")

for (i,x) in enumerate(rank2[0::2]):
    print("%d위" %(i+1),x.text[2:-2]) #스트링 처리가 조금 누더기 같지만, 딱히 최적화할 이유도 없고.

현재시각 2017-02-28 15:53:10
네이버 검색 순위
1위 삼일절
2위 이동건
3위 조윤희
4위 그녀를 찾아줘
5위 롤 점검
6위 완벽한 아내
7위 롤
8위 삼성
9위 mlb
10위 태연
11위 로건
12위 롤챔스
13위 내성적인 보스
14위 피고인
15위 역적
16위 삼성전자
17위 문라이트
18위 오늘의운세
19위 리니지
20위 태극기

다음 검색 순위
1위 류정한
2위 황인영
3위 이동건 조윤희
4위 삼일절의 의미
5위 김문수
6위 해빙
7위 외부자들
8위 삼성 베트남 공장 폭동
9위 심상정
10위 그녀를 찾아줘