loading
본문 바로가기
IT(SW)

파이썬(Python) Beautiful Soup이란?

by Dandy Brain 2021. 6. 9.
반응형

약 32면 분량의 전자신문에서 특정 단어만 뽑아내라고 한다면 도대체 얼마나 걸릴까요? 신문 한 면당 평균 4000자의 글자를 포함하고 있으며, 32면을 고려하면 무려 12만 8000자가 신문 한 부에 포함되어 있는데 이는 소설책 약 6권 분량에 해당한다고 합니다. 양도 양이지만 신문의 글자는 워낙에 작기 때문에 소요되는 시간과 누적되는 피로감은 엄청날 것이며, 설령 그렇게 뽑아냈다고 하더라도 100% 완벽하게 완수했다고 맹신하기는 어려울 겁니다.

앞서 언급한 전자신문에서 단어를 뽑는 것처럼 각종 웹 페이지로부터 특정 정보를 스크랩하는 것을 쉽게 만들어주는 파이썬 라이브러리 중 하나가 바로 Beautifule Soup입니다. Beautiful Soup은 HTML, XML이나 다른 마크업 언어로 파싱 해주는 파이썬 라이브러리로 여기서 말하는 파싱이란 영어로 어떠한 것을 분석하다 라는 의미의 parse를 동명사로 처리한 단어를 말합니다. 쉽게 말해서 원하는 데이터를 특정한 패턴이나 방법, 순서로 추출하는 것을 의미합니다. 웹 스크래핑을 위해 불러온 HTML에서 특정한 패턴이나 방법, 순서를 기준으로 자료를 뽑아내는 기능을 제공하기 때문에 정보를 수집하는 업무에 대한 자동화를 구현할 수 있음에 따라 업무시간을 비약적으로 단축시킬 수 있습니다.

parse 단어 영어사전 검색결과

 

라이브러리 설치

2021년 6월 기준으로 현재 가장 최신버전은 Beautiful Soup 4.9.3이며, 파이썬 환경에서 아래 명령어를 통해 설치가 가능합니다.

pip install beautifulsoup4
반응형

댓글