金融と工学のあいだ

興味関心に関するメモ(機械学習、検索エンジン、プログラミングなど)

CS224n「Lecture2 Word Vector Representations: word2vec」


Lecture 2 | Word Vector Representations: word2vec

Word meaning

離散表現の問題

  • 細かいニュアンスが消えてしまう
  • 人手で作らないといけない
  • 単語種長のone-hot vectorが必要になる
  • 近い意味の単語が全く異なる語として扱われる

分散表現

  • ある単語に近い単語はその単語の意味を表現する f:id:kumechann:20170507000225p:plain
  • 単語の意味が固定長のみつベクトルで表現される
    • 意味の近い単語は類似度が高くなるように学習されている f:id:kumechann:20170507000509p:plain

word2vecとは

単語tからのprediction

f:id:kumechann:20170507001215p:plain - 全ての単語t=1,…,Tに対して、距離mにあるた単語の確率が最大化されるように学習を行う

objective functionとは

  • objective function = loss function = cost function

詳細

  • 確率のモデリングにはSoftmax関数を用いる
    • Softmaxは実数を0~1の値(確率)にマップできるf:id:kumechann:20170507002142p:plain

参考文献