본문 바로가기
AI (DeepLearning)/NLP

[자연어 처리 입문 NLP] #4 자연어 처리란?

by Tomining 2024. 8. 30.

 Inflearn에서 NLP 강좌인 "예제로 배우는 딥러닝 자연어 처리 입문 NLP with TensorFlow - RNN부터 BERT까지" 강좌를 들으며 정리한 글입니다. 섹션3까지는 사전 준비 과정이라 별도로 정리하지 않았습니다.


NLP 문제영역

  • Machine Translation: 기계 번역, 파파고 같은 언어 번역
  • Sentiment Analysis: 문장의 감정상태를 분석
    • 영화 리뷰 코메트를 보고 긍정/부정 구분
  • Spam Filtering
    • 스패머도 고도화 되어 창과 방패의 싸움에 NLP가 활용
  • Image Captioning
  • Text Summarization: 내용 요약
  • 🌟 Question Answering
    • 고객상담 봇에 활용
  • Dialogue Generation

 

딥러닝 모델로 진화

  • (2020년 기준)
  • 이때 BERT와 GPT가 시작된 초반 인 듯
    • 현재는 GPT-4o 까지 나옴
    • GPT-5 는 아직 공개되지 않음 (2024-07-16기준)

 

Pre-trained => Fine-Tuning

 

NLP 용어

  • Corpus: NLP에서 다루는 데이터 셋
  • Token: 분석하고자 하는 단위로 나눈 것, 문장에서 형태소까지 다양
    • 한글의 경우 초성, 중성 등을 나눠서 Tokenize 하기도 함
  • Vocabulary Set: 처리하는 문제 영역의 전체 단어 집합
    • Set에 포함되지 않은 단어들은 <UNK> 로 특수 토큰처리
    • <s>, <|s>, <pad> 등 다양.