【学习笔记】自然语言处理实践(新闻文本分类)- 基于深度学习的文本分类Word2Vec


Datawhale零基础入门NLP赛事-Task5

    • 文本表示方法
    • Word2Vec模型

本笔记是参加Datawhale零基础入门NLP赛事的学习笔记。
文本表示方法 词向量(Word embedding),语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。
one-hot representation,用一个很长的向量来表示一个词(缺点:维数大,不能表现词间相似性)。
Distributed Representation,通过训练将某种语言中的每一个词映射成一个固定长度的短向量(相对于one-hot)。所有这些向量放在一起形成一个词向量空间,而每一向量则为该空间中的一个点,在这个空间上引入“距离”,则可以根据词之间的距离来判断它们之间的(词法、语义上的)相似性。
Word2Vec模型 【【学习笔记】自然语言处理实践(新闻文本分类)- 基于深度学习的文本分类Word2Vec】Word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。每个词表征为维的实数向量(每个实数都对应着一个特征,可以是和其他单词之间的联系),将相似的单词分组映射到向量空间的不同部分。也就是Word2Vec能在没有人为干涉下学习到单词之间的关系。
word2vec的主要思路:通过单词和上下文彼此预测,对应的两个算法分别为:
  • Skip-grams (SG):预测上下文
  • Continuous Bag of Words (CBOW):预测目标单词
  1. Skip-grams模型
    Skip-Gram(跳字模型)是给定input word来预测上下文。
    【学习笔记】自然语言处理实践(新闻文本分类)- 基于深度学习的文本分类Word2Vec
    文章图片

    Word2Vec模型实际上分为了两个部分,第一部分为建立模型,第二部分是通过模型获取嵌入词向量。Word2Vec的整个建模过程实际上与自编码器(auto-encoder)的思想很相似,即先基于训练数据构建一个神经网络,当这个模型训练好以后,我们并不会用这个训练好的模型处理新的任务,我们真正需要的是这个模型通过训练数据所学得的参数,例如隐层的权重矩阵——后面我们将会看到这些权重在Word2Vec中实际上就是我们试图去学习的“word vectors”。
  2. CBOW模型
    CBOW是给定上下文,来预测input word。
    【学习笔记】自然语言处理实践(新闻文本分类)- 基于深度学习的文本分类Word2Vec
    文章图片

    CBOW模型跟skip-gram的原理是一样的,只不过在输入的时候是该词周围的词向量加总作为输入。

    推荐阅读