自然语言处理--向量语义与嵌入|白晔晔晔Daily

如果在这一节前你阅读过《自然语言处理--文本分类》，那应该对特征向量有印象，我们将一段文本转化为一段向量，维度i的值便是文本位置i上的单词的统计词频。同样的，我们也希望能把每个单词转化为向量，用于表示这个单词的词义，这就是我们常说的“词向量(Word embedding)“。我们按照某种规则，将词义映射到一个向量空间上，每个词转化为了空间中的一个向量，这种操作被称为“词嵌入”。而这一切的原理都来自一个假设：词义相近的词，它们的上下文也是相似的。

摘要：向量语义学，词-文共生矩阵，词-词共生矩阵，向量相似度量与余弦度量，TF-IDF词向量，Word2vec词向量，Skip-gram模型

6.向量语义与嵌入.pdf

6.向量语义与嵌入(续)：Word2vec词向量.pdf