[Tensorflow][Keras][NLP]Word2Vec 이란?
이번에는 자연어 처리를 위해 단어들을 어떤 식으로 모델이 처리할 수 있는 데이터인 벡터로 바꿀 수 있을지에 관한 기법인 Word2Vec에 대해 알아보도록 하겠습니다. 먼저 단어들을 모델이 처리할 수 있는 데이터로 바꾸는 방법에는 대표적으로 One-Hot-Encoding과 Word Embedding이 있습니다. One-Hot-Encoding One-Hot-Encoding은 단어별로 index를 부여해서 표현하고자 하는 단어에 1을 나타내는 기법입니다. 예를들어, 단어가 A, B, C, D 총 4개가 있고 각각에 차례대로 index를 부여하고, 이때, A를 표현하고자 하면 [1,0,0,0]으로 표현이 가능합니다. 이러한 방법의 장점은 직관적이고 구현이 간편하다는 장점이 있지만, 단점으로는 단어의 개수가 곧 ..