라벨이 웹크롤링인 게시물 표시

파이썬을 이용하여 웹 크롤러 만들기 #2 - BeautifulSoup4을 활용하여 크롤링하기

이미지
안녕하세요. 남산돈가스입니다. 지난 포스팅에 이어 오늘은 두번째 순서인 BeautifulSoup4를 활용하여 웹 크롤링을 해보도록 하겠습니다. 우선, BeautifulSoup 이라는 것이 어떤 건지 간단히 말씀드리자면, html코드를 python이라는 언어가 이해할 수 있는 객체 구조로 변환해주는 대표적인 html Parsing 라이브러리입니다. 웹크롤링을 한다면 필수적인 라이브러리로 파이썬 웹크롤링 서적에서도 소개될 만큼 검증 된 라이브러리입니다. 이번 포스팅에선 대표적으로 requests 와 BeautifulSoup4 라이브러리를 이용해서 크롤링을 해보려고 합니다. 먼저 위에서 말씀드린 라이브러리들을 install 해보겠습니다. 터미널에 pip install beautifulsoup4 를 입력하여 beautifulSoup 라이브러리를 설치합니다. $ pip install beautifulsoup4 Collecting beautifulsoup4 Downloading https://files.pythonhosted.org/packages/9e/d4/10f46e5cfac773e22707237bfcd51bbffeaf0a576b0a847ec7ab15bd7ace/beautifulsoup4-4.6.0-py3-none-any.whl (86kB) 100% | ████████████████████████████████ | 92kB 445kB/s Installing collected packages: beautifulsoup4 Successfully installed beautifulsoup4-4.6.0 다음으로 requests 라이브러리를 install 합니다. $ pip install requests Requirement already satisfied: requests in /Users/gimseongsin/Library/Python/3.6/lib/python/site-packages 제 경우

파이썬을 이용하여 웹 크롤러 만들기 #1 - Python 설치 및 환경 설정

안녕하세요. 남산돈가스 입니다. 얼마 전 한국정보기술연구원 재직자교육을 통해 " 파이썬으로 웹 크롤러 만들기" 교육을 수강했습니다. 내용이 어렵지 않아 누구든지 쉽게 따라할 수 있어서 저는 내용들을 상기 시킬 겸, 내용을 소개드릴 겸 해서 이 포스팅을 시작하게 되었습니다. 이번 포스팅은 2회에 걸쳐서 진행될 예정이며, 회차 별 내용은 다음과 같습니다. #1 - Python 설치 및 환경 설정 #2 - BeautifulSoup4을 활용하여 크롤링하기 그렇다면 1회차인 Python 설치 및 환경 설정 부터 시작하도록 하겠습니다. 현재 저는 맥북을 사용 중이므로, mac OS 기준으로 설명 드리겠습니다. 먼저 Python을 설치하기 전 mac os 에서 패키지 관리를 할 수 있는 프로그램으로 "homebrew"라는 패키지 관리도구가 있습니다.  gimseongsin @gimseongsin - ui - MacBook - Pro :~ :> / usr / bin / ruby - e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)" 위 명령어를 실행하면 homebrew를 다운 받을 수 있습니다. homebrew 패키지가 설치되었는지 확인하시려면, /usr/local/bin 폴더로 이동하여 ls 명령어를 이용하여 homebrew가 있는 지 확인해주시면 됩니다. homebrew가 설치되었는지도 확인을 하셨다면, 이제 본격적으로 python을 설치해보겠습니다. 방법은 아주 간단합니다. gimseongsin @gimseongsin - ui - MacBook - Pro :~ :> brew install python3 See : https: / / docs.brew.sh / Homebrew - and - Python == > Summary