본문 바로가기
AI (DeepLearning)/NLP

[자연어 처리 입문 NLP] #11 BERT를 다양한 자연어처리 Task에 응용해보자

by Tomining 2024. 8. 30.

SQuAD (Stanford Question Answering Dataset)

100K(10만개) 질답으로 구성된 데이터 셋

https://rajpurkar.github.io/SQuAD-explorer/

v1.1 vs v2.0

  • 1.1: 100K(10만개) 질답

  • v2.0: 기존 1.1에서 50K(5만개)의 답을 할 수 없는 데이터를 추가

 

성능 평가 방식

  • EM (Exact Match): 정확히 일치하는지 체크
  • F1 Score: 정답과 일치하는 비율

실습

bert_squad_v1.1_example

KorQuAD (Korean Question Answering Dataset)

SQuAD 한국어 버전, LG CNS에서 구축

1,560 개의 Wikipedia article에 대해 10,645 건의 문단과 66,181 개의 질의응답 쌍으로, Training set 60,407 개, Dev set 5,774 개의 질의응답쌍으로 구성

https://korquad.github.io/KorQuad%201.0/

실습

simple_transformer_bert_korquad.ipynb