딥러닝8 [자연어 처리 입문 NLP] #7 임베딩(Embedding) - 단어를 의미있는 벡터로 변경해보자 Inflearn에서 NLP 강좌인 "예제로 배우는 딥러닝 자연어 처리 입문 NLP with TensorFlow - RNN부터 BERT까지" 강좌를 들으며 정리한 글입니다. 섹션3까지는 사전 준비 과정이라 별도로 정리하지 않았습니다.One-hot Encoding 문제점데이터 형태가 Sparse 하다 (1인 경우보다 0인 경우가 많다)유사한 의미를 가진 단어 간의 연관성도 표현할 수 없다. Embeding 개념Sparse 한 One-hot Encoding 의 데이터 표현을 Dense 한 표현형태로 변환하는 기법 Embeding Vector 적절한 값을 찾아야...초기값을 가져다 사용할 수도 있고학습 과정에서 찾아갈 수도 있음 (fine tuning)Embedding 장점차원 축속 효과 (Vector 계산으로.. 2024. 8. 30. [자연어 처리 입문 NLP] #6 언어모델(Language Modelling) - 다음에 올 단어를 예측해보자 Inflearn에서 NLP 강좌인 "예제로 배우는 딥러닝 자연어 처리 입문 NLP with TensorFlow - RNN부터 BERT까지" 강좌를 들으며 정리한 글입니다. 섹션3까지는 사전 준비 과정이라 별도로 정리하지 않았습니다. N-gram 언어모델(강의에 기본적인 설명이 있는데, 정리에서는 skip)...N-gram 언어모델의 문제점특정 단어 조합의 경우 데이터셋에 한번도 존재하지 않아서 계산식의 분모나 분자가 0이 될 수 있음이를 방지하기 위해 Laplacian Smoothing 을 하기도 함.최근에는 딥러닝에 기반한 언어 모델이 주로 사용ANN (인공신경망) => 1950년 ML순환 신경망(RNN)CNN - 이미지 구분용RNN - NLP에서 주로 활용하는 신경망 Unfold RNN(좌측) Hid.. 2024. 8. 30. [자연어 처리 입문 NLP] #5 자연어 처리를 위한 기초 지식 Inflearn에서 NLP 강좌인 "예제로 배우는 딥러닝 자연어 처리 입문 NLP with TensorFlow - RNN부터 BERT까지" 강좌를 들으며 정리한 글입니다. 섹션3까지는 사전 준비 과정이라 별도로 정리하지 않았습니다.Tokenizing & One-hot EncodingTokenizing전체 테스트를 원하는 구분 단위로 나누는 것 One-hot Encoding범주형 값(Categorical Value)을 이진화된 값(Binary Value)으로 바꿔서 표현하는 것Integer Encoding 문제점은 정수 값으로부터 잘못된 경향성을 학습하게 될 수도 있음“개”(=1) 와 “말”(=3)의 평균(1+3/2=2)은 “고양이”(=2)이다. => 명백히 잘못된 학습(전통적으로) 단어 하나를 One-h.. 2024. 8. 30. [자연어 처리 입문 NLP] #4 자연어 처리란? Inflearn에서 NLP 강좌인 "예제로 배우는 딥러닝 자연어 처리 입문 NLP with TensorFlow - RNN부터 BERT까지" 강좌를 들으며 정리한 글입니다. 섹션3까지는 사전 준비 과정이라 별도로 정리하지 않았습니다.NLP 문제영역Machine Translation: 기계 번역, 파파고 같은 언어 번역Sentiment Analysis: 문장의 감정상태를 분석영화 리뷰 코메트를 보고 긍정/부정 구분Spam Filtering스패머도 고도화 되어 창과 방패의 싸움에 NLP가 활용Image CaptioningText Summarization: 내용 요약🌟 Question Answering고객상담 봇에 활용Dialogue Generation 딥러닝 모델로 진화(2020년 기준)이때 BERT와 GP.. 2024. 8. 30. 이전 1 2 다음