Linguistic Rules와 자연언어처리의 어려움 본문
** Morphology
사전에는 복수형이 없고 기본적으로 단수형이 명시되어 있다. 원형을 찾아주어야 사전에서 엔트리를 연결한다.
또, 규칙/불규칙 변화가 있다.
영어에서의 morphology는 , to make a word plural, add "s"
규칙 변화 + s , es , y -> ies
dog -> dogs
baby -> babies
dish -> dishies
불규칙 변화
goose -> geese
child -> children
** ambiguities
word sense ambiguities :
FED -> federal agent
interest -> 더 알고 싶은 느낌 ( 흥미 ) , 혹은 더 배우고 싶어하는 느낌
Semantic interpretation
ambiguities above the world level
품사정보와 품사체계 태그 표준 ( 영어 ) LDC ( Lexical Data Consortium ) 의 기준을 표준처럼 사용 중임
https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos
Penn Treebank P.O.S. Tags
31. VBP Verb, non-3rd person singular present
www.ling.upenn.edu
** 동사/명사 ambiguity 문제 예시


억지로 번역해야 겠지만, 당연히 품사 태깅이 잘못될 경우 컴퓨터가 잘못 이해하는 것이고, 결과적으로 의미가 잘못된다.
** 언어는 진화한다
Morphology 측면 , 신조어가 계속 생겨난다
얼죽아, 썸타다 , cyberstalker 등
Part-of-speech 측면
예전에는 sort 가 명사로만 거의 사용됨 -> 형용사처럼도 사용됨
i know that sort of men well. -> im sort of hungry
언어는 한번 정립된 기준으로만 이해할 수 없다.
** Natural language is:
> Highly ambiguous at all levels : 품사, 구문, 의미, 담화 등 모든 단계에서 모호성이 존재. 이들이 중첩된다는 것은?
> Complex and subtle : 위의 특성 처럼 매우 복잡한 체계
> Fuzzy, probabilistic : 통계적 성질을 지니고 있으나, 매우 제각각임.
> World knowledge
> Social system of people interacting : 요구, 설득, 협박 등 다양한 상호작용 사례에 따라 대화 분위기가 다르다.
> Evolving over time
그럼에도 computer science 에서 궁극적인 목표는 인간의 말을 알아들어야 하기 때문에, 어려움에도 계속 진행해온 연구.
'딥러닝 > 자연어처리' 카테고리의 다른 글
Grammars and Parsing (0) | 2022.03.23 |
---|---|
N-gram model과 등장 배경 (1) (0) | 2022.03.23 |
ML/DL NLP에서의 접근 방법 (0) | 2022.03.02 |
언어의 모호성과 해결 방법, NLP 기술의 발전사 (0) | 2022.03.02 |
자연어 처리 intro (0) | 2022.03.02 |