Beautiful Soup와 기본 사용법 본문
** bs4 에서 Beautiful Soup import 하기
** 웹 페이지가 아닌 , 로컬 html 파일을 열어보는 것이기 때문에 open, 'r' 사용 후.read()
** 열고자 하는 html 파일을 read해준 후, BeautifulSoup(파일,"html.parser")로 파싱해주어야 한다.
** 이후 print(파싱된 파일.prettify()) 메쏘드로 들여쓰기를 적용해서 깔끔하게 확인해 볼 수 있다
** 태그로 내용 찾기
파싱된 파일.태그
** 헤드, 바디, p 태그 등등
** convert.find 와 convert.find_all
> find는 처음 하나의 태그
> find all 은 모든 태그 , 리스트 형태로 반환함 ( 가져온 데이터에서 텍스트를 출력할때 오프셋[0]인덱스로 찾는다 )
** class 명으로 탐색 시 , class_ 로 써야 한다.
> class는 예약어이기 때문에 오류가 발생한다
> id=""로 id 명으로도 탐색 가능
** 딕셔너리 형태로 class 명 탐색
** 문자열 추출하는 3가지 방법
.text 으로 텍스트만 출력
.string
.get_text() 하면 text + string 모두 반환
** 링크 추출하기
> a태그에 담긴 모든 정보들을 불러온다.
> list 형태이기 때문에 iterable 하여 , 반복문에 객체로 사용할 수 있음
> a태그가 담긴 객체 link에서[번째]의 "href"속성 값을 .get("속성")으로 가져와볼 수 있다.
'BF 2024 > 웹 데이터 수집' 카테고리의 다른 글
웹 주소와 utf-8 인코딩 (0) | 2022.03.01 |
---|---|
request & response, http 상태 코드 (0) | 2022.02.28 |
크롬 개발자 도구와 웹페이지 urlopen (0) | 2022.02.28 |
html 태그 (0) | 2022.02.28 |
visual studio code (0) | 2022.02.28 |
Comments