분산표상 분산표상은 기존 one-hot-vector 표현식을 보완하기 위해 사용하는 방식이다. one-hot-vector는 A: [1, 0, 0]B: [0, 1, 0]C: [0, 0, 1] 이런식의 사전이 있을 때 사전의 수 만큼의 차원을 가진 벡터가 존재하게 된다는 단점이 있다. 게다가 이러한 벡터들은 자신의 요소를 제외한 나머지 요소는 모두 sparse vector 형태로, 0의 값을 가지게 된다. 또한 이러한 벡터들의 특징은 뭐가 됐건 서로 내적 값이 0이라 벡터간의 연관성을 추론할 수 없는 특징이 있음. 대략적으로 분산표상이란 https://shuuki4.wordpress.com/2016/01/27/word2vec-%EA%B4%80%EB%A0%A8-%EC%9D%B4%EB%A1%A0-%EC%A0%95%EB%.. 더보기 n-gram 모델 https://datascienceschool.net/view-notebook/a0c848e1e2d343d685e6077c35c4203b/ 여기를 참고하면 다양한 확률론적 언어 모형을 볼 수 있다. 이야~ 구글에서는 책에서 n-gram 데이터를 싹 뽑아서 제공해주네 ㅋㅋ https://books.google.com/ngrams n-gram 모델은 위에서 참고하면 알겠지만 unigram, bigram, 경우에따라서 trigram 등으로 나뉘며, unigram을 제외하곤 n-gram이라고 부른다. 결과적으로 이게 독립적인 단어로써 활용할지(unigram), 바로 이전 단어 하나에 의존할 것인지(bigram), 바로 이전 2개의 단어에 대해 의존할지(trigram) 아니면 n개의 단어에 의존할지(n-gram).. 더보기 공부? 생각 정리하면서 공부하기엔 역시 블로그가 짱인 것 같아서 다시 복귀. 머신러닝을 예전부터 깨작깨작 공부하긴 했는데 돌이켜 생각해보면 필요한 컴포넌트만 가져다 쓰는 것이 고작이었다. 적어도 적당한 이해를 하기 위해 기초부터 익히지 않는 한 어떠한 상황에 어떠한 알고리즘을 쓰는 것이 맞고, 이러한 알고리즘을 기반으로 만들어진 컴포넌트가 무엇인지 단계적으로 생각할 수는 없을 것 같다. 뭐 굳이 이러한 이유가 아니라도 이왕 공부할거 기초부터 다지는게 좋다 생각해서 알고리즘 공부부터 차근차근 해보려고 한다. 수학 책도 사서 간간히 공부하고 있긴 한데 목적은 '적당한 이해'기 때문에 깊게 들어갈 생각은 없다. 블로그에 정리하면 그나마 공부도 잘되지 않을까? 싶다 더보기 이전 1 2 3 4 ··· 27 다음