본문 바로가기

Beautiful Soup와 기본 사용법 본문

BF 2024/웹 데이터 수집

Beautiful Soup와 기본 사용법

jaegomhoji 2022. 2. 24. 18:28

** bs4 에서 Beautiful Soup import 하기 

 

** 웹 페이지가 아닌 , 로컬 html 파일을 열어보는 것이기 때문에 open, 'r' 사용 후.read()

 

** 열고자 하는 html 파일을 read해준 후, BeautifulSoup(파일,"html.parser")로 파싱해주어야 한다. 

** 이후 print(파싱된 파일.prettify()) 메쏘드로 들여쓰기를 적용해서 깔끔하게 확인해 볼 수 있다 

 

** 태그로 내용 찾기 

파싱된 파일.태그 

 

** 헤드, 바디, p 태그 등등 

 

** convert.find 와 convert.find_all 

> find는 처음 하나의 태그 

> find all 은 모든 태그 , 리스트 형태로 반환함 ( 가져온 데이터에서 텍스트를 출력할때 오프셋[0]인덱스로 찾는다 ) 

 

** class 명으로 탐색 시 , class_ 로 써야 한다.

> class는 예약어이기 때문에 오류가 발생한다 

> id=""로 id 명으로도 탐색 가능 

** 딕셔너리 형태로 class 명 탐색

 

** 문자열 추출하는 3가지 방법 

.text 으로 텍스트만 출력 

.string 

.get_text() 하면 text + string 모두 반환 

 

 

** 링크 추출하기

> a태그에 담긴 모든 정보들을 불러온다. 

> list 형태이기 때문에 iterable 하여 , 반복문에 객체로 사용할 수 있음 

> a태그가 담긴 객체 link에서[번째]의 "href"속성 값을 .get("속성")으로 가져와볼 수 있다. 

'BF 2024 > 웹 데이터 수집' 카테고리의 다른 글

웹 주소와 utf-8 인코딩  (0) 2022.03.01
request & response, http 상태 코드  (0) 2022.02.28
크롬 개발자 도구와 웹페이지 urlopen  (0) 2022.02.28
html 태그  (0) 2022.02.28
visual studio code  (0) 2022.02.28
Comments