목록딥러닝/자연어처리 (8)
BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding 서정연 교수님 강의를 필기한 내용입니다 Introduction : word representation 1) local representation 단어라는 것을 one-hot vector 로 표현하는 것은 문제가 많았다 ( local representation ) ex) abc -> a ( 1, 0, 0 ) b ( 0, 1, 0 ) , c(0,0,1) 2) distributed word representation ( word2vec ) 을 가지고 전이학습 간단한 방법이지만, local representation보다 효과가 있는 방법이였음 ex) a -> ( 0...
** 문법 : 문장의 구조적 성질을 규칙으로 표현한 것 ** 구문 분석기 ( Parser ) > 문법을 이용하여 문장의 구조를 찾아내는 과정 > 문장의 구문 구조는 트리로 표현할 수 있다. 즉 몇개의 형태소들이 모여서 구문 요소를 이루고, 이들이 결합된 구조가 트리 구조인 것이다. > 트리를 그릴때 문장 구조를 분석할 때 중요한 두 가지 원칙 1) Headedness Principle ( 핵내재 원리 ) 모든 구조는 핵을 가지고 있어야 하며, 핵이란 병합에 있어서 두 요소 중 의미적으로 더 중요한 성분을 말한다. 2) The Principle of Binarity ( 이분지 원리 ) 촘스키의 분석 방식이며, 모든 병합은 ( 병합을 요구하는 자 - 병합을 요구받은 자 ) 로 나누어진다. 따라서 모든 구조는..
** Grammars and Parsing ** Top Down Parsing ** Bottom up Parsing ** Dynamic Programming Parsing ** CKY parser
* rule based NLP의 경우 실제 사용한 예를 분석 -> 규칙을 만들어 적용 -> 일반화 하기가 어렵다 -> 그래서 확률값을 기준으로 language model 을 구하기 시작했다 * machine readable 한 file 인 corpora : large databases of texts ( corpus 의 복수형 명사 ) > 실제 사용된 문장들의 모음 > raw texts , 이제는 인터넷 상에서 방대한 양의 뉴스 기사 등등 구할 수 있다. > 외국은 google, 우리나라는 naver 등에서 엄청난 양의 corpus를 가지고 있는 것이다. * balanced corpus : 다양한 장르의 문장들을 특정 비율로 모아서 구축한 corpus ex : brown corpus , ..
* 전반적인 프로세스 1. 방대한 문서 ( 정답 문서 / 혹은 plain text ) 준비 2. 기계학습을 통한 학습 3. NLP System 을 구축 4. Raw Text를 input 5. Raw Text 에 대한 응답 * 해당 접근방법의 장점 1. 인터넷에서 어마어마한 전자 문서들을 구할 수 있다. 2. 일일이 전문적인 언어 지식을 풀어내는 것 보다 ( knowledge engineering - 박사급 인력) , 태깅이 훨씬 쉽다. 3. 다양한 방식의 학습 알고리즘이 점점 우수해진다 4. exception 처리도 잘 하고 있음 5. DNN 접근이 통계적 접근보다 거의 모든 단계에서 좋은 성능을 내고 있다. * NLP 의 연구들은 자연어 이해에 대한 부분에 가장 많은 연구가 이루어짐 ( 어려움 ) 자연..
** 제대로 된 언어적 발화(linguistic utterance)를 해석하기 위해서는 다음과 같은 다양한 지식이 필요하다 * Syntax > agent는 동사의 주어이더라는 제약조건이 있다. * Semantics > Austin 은 도시 이름, 혹은 사람 이름일 수도 > 소나타는 음악 형식뿐만이 아니라 자동차 브랜드인 경우도 있다. * Pragmatics * World Knowledge > credit card 에 대한 내용에서 interest란 이자일 수도 > agents는 animate , 의지가 있다. 반면 의지가 있을 수 없는 경우에 대한 제약 1) Manual Knowledge acquisiton 전통적인, rationalist적인 접근. 인적 자원으로 일일이 언어처리에 필요한 룰을 만들고 f..
** Morphology 사전에는 복수형이 없고 기본적으로 단수형이 명시되어 있다. 원형을 찾아주어야 사전에서 엔트리를 연결한다. 또, 규칙/불규칙 변화가 있다. 영어에서의 morphology는 , to make a word plural, add "s" 규칙 변화 + s , es , y -> ies dog -> dogs baby -> babies dish -> dishies 불규칙 변화 goose -> geese child -> children ** ambiguities word sense ambiguities : FED -> federal agent interest -> 더 알고 싶은 느낌 ( 흥미 ) , 혹은 더 배우고 싶어하는 느낌 Semantic interpretation ambiguities a..
NLP ( Natural Language Processing ) * 컴퓨터 과학에서 어떻게 하면 컴퓨터와 사람이 자연어를 통해서 소통할 수 있을까? * computational linguistics 라고도 썼었다. 하지만 CL은 컴퓨터를 통해서 언어학을 연구하는 느낌에서 차이가 있다. Goals of the NLP , 자연언어처리의 목표 컴픂터가 우리 이메일이나 책 내용 요약 등 언어를 이해한다면 굉장히 유용할 것이다 언어의 모호성 ambiguity가 있어서 굉장히 많은 어려움이 있다. > 컴퓨터가 어떻게 하면 human language 등 자연어를 잘 처리할 수 있게 할 것인가? 관련 분야들 - Artificial Intelligence , 인공지능 기법과 자연언어처리 연구는 상당히 밀접하다 - For..