분산표상은 기존 one-hot-vector 표현식을 보완하기 위해 사용하는 방식이다.
one-hot-vector는
A: [1, 0, 0]
B: [0, 1, 0]
C: [0, 0, 1]
이런식의 사전이 있을 때 사전의 수 만큼의 차원을 가진 벡터가 존재하게 된다는 단점이 있다.
게다가 이러한 벡터들은 자신의 요소를 제외한 나머지 요소는 모두 sparse vector 형태로, 0의 값을 가지게 된다.
또한 이러한 벡터들의 특징은 뭐가 됐건 서로 내적 값이 0이라 벡터간의 연관성을 추론할 수 없는 특징이 있음.
대략적으로 분산표상이란 https://shuuki4.wordpress.com/2016/01/27/word2vec-%EA%B4%80%EB%A0%A8-%EC%9D%B4%EB%A1%A0-%EC%A0%95%EB%A6%AC/ 여기에도 나와있고 https://ratsgo.github.io/from%20frequency%20to%20semantics/2017/03/29/NNLM/ 여기에도 비유적으로 쉽게 설명되어있으니 참고.
결과적으로 보면 위와 같이, one hot vector를 사용하게 되면 단어 수 마다 차원을 가지게 되니까 이걸 클래스화 해서 사용되는 차원의 수를 줄이고 단어별 연관성도 추려내기 위함!
이러한 특성을 이용해서 물체에 대한 사전이 있다면 물체에 대한 가로 세로 크기, 색상, 질량 등을 이용해 다차원이 아닌 1차원으로 나타낼 수 있다. 이를 통해 각 물체간의 연관성도 벡터 공간에서 확인할 수 있다.