Beautiful Soup와 기본 사용법

jaegom's study room

BF 2024/웹 데이터 수집

jaegomhoji 2022. 2. 24. 18:28

** bs4 에서 Beautiful Soup import 하기

** 웹 페이지가 아닌 , 로컬 html 파일을 열어보는 것이기 때문에 open, 'r' 사용 후.read()

** 열고자 하는 html 파일을 read해준 후, BeautifulSoup(파일,"html.parser")로 파싱해주어야 한다.

** 이후 print(파싱된 파일.prettify()) 메쏘드로 들여쓰기를 적용해서 깔끔하게 확인해 볼 수 있다

** 태그로 내용 찾기

파싱된 파일.태그

** 헤드, 바디, p 태그 등등

** convert.find 와 convert.find_all

> find는 처음 하나의 태그

> find all 은 모든 태그 , 리스트 형태로 반환함 ( 가져온 데이터에서 텍스트를 출력할때 오프셋[0]인덱스로 찾는다 )

** class 명으로 탐색 시 , class_ 로 써야 한다.

> class는 예약어이기 때문에 오류가 발생한다

> id=""로 id 명으로도 탐색 가능

** 딕셔너리 형태로 class 명 탐색

** 문자열 추출하는 3가지 방법

.text 으로 텍스트만 출력

.string

.get_text() 하면 text + string 모두 반환

** 링크 추출하기

> a태그에 담긴 모든 정보들을 불러온다.

> list 형태이기 때문에 iterable 하여 , 반복문에 객체로 사용할 수 있음

> a태그가 담긴 객체 link에서[번째]의 "href"속성 값을 .get("속성")으로 가져와볼 수 있다.

'BF 2024/웹 데이터 수집' 관련글

Comments