[바미] 단어를 벡터로 바꾸는 Word2Vec에 대해 알아봅시다.

·
AI
들어가기전에..자연어 처리(NLP)를 공부하다 보면 Word2Vec이라는 이름을 정말 자주 보게 됩니다.Word2Vec은 한 문장으로 말하면 아래와 같습니다. 단어를 숫자 벡터(임베딩)로 바꿔서, 의미가 비슷한 단어끼리 벡터 공간에서 가깝게 만들도록 학습하는 방법 이 글에서는 Word2Vec이 왜 필요한지, 어떤 방식(CBOW/Skip-gram)으로 학습하는지, 그 것의 장단점은 뭔지까지 처음 배우는 관점에서 정리해보겠습니다.왜 굳이 단어를 ‘벡터’로 바꿔야 할까?컴퓨터는 텍스트를 그대로 이해하지 못합니다. 그렇기 때문에 결국 숫자로 바꿔야 하죠.이를 위해 가장 단순한 방법은 원-핫 인코딩(One-hot)입니다. 예를 들어 단어 사전이 10,000개면, 각 단어를 길이 10,000짜리 벡터로 표현하게 ..