본문 바로가기

HTML(www) 본문

BF 2024/웹 데이터 수집

HTML(www)

jaegomhoji 2022. 3. 24. 20:53

** HTML ( HyperText Markup Language) 

> 확장자는 html, htm이며 ie나 chrome,  safari 같은 웹 브라우저에서 읽을 수 있는 웹 문서를 만들기 위한 언어이다 

 

** HTML 의 특성 

> 하이퍼텍스트 : 참조(하이퍼링크)를 통해 독자가 한 문서에서 다른 문서로 즉시 접근할 수 있는 텍스트 

> 마크업 언어 : 문서의 내용 뿐만 아니라, 태그 등을 이용하여 글자 크기, 모양 등 문서의 출력 형태까지 명기하는 언어의 한 형태이다 

vs 마크다운? : 일반 텍스트 문서로 마크업에 비해서 서식이 간결함 

 

> HTML에서는 태그(tag)라고 하는 심볼을 사용하여 문서의 구조, 출력 형태 등을 조정한다 

> 태그는 <>를 사용하여 표시하며, 

 

<태그명>으로 시작하고, 

사이에는 내용이 들어간다 

<\태그명>으로 끝을 맺는다.

 

> 태그에는 태그의 성격을 구체하 하는 속성(attribute)를 부여할 수 있다.  

 

** HTML 문서는 태그를 노드로 하는 트리 구조를 갖는다 

 

** 트리 구조로 만드는 과정을 Parsing, 파싱이라고 한다 

-> 파이썬의 Beautiful Soup 모듈로 html 파싱하는 코드를 떠올려보자 

 

** URL : Uniform Resource Locator 

'BF 2024 > 웹 데이터 수집' 카테고리의 다른 글

NAVER API 이용 + , excel 저장까지 실습  (0) 2022.03.09
네이버 API 사용  (0) 2022.03.08
네이버 API 등록 및 사용  (0) 2022.03.08
Path , css 와 자손 태그  (0) 2022.03.03
Selenium 기초  (0) 2022.03.03
Comments