Datawhale零基础入门NLP赛事-Task5
- 文本表示方法
- Word2Vec模型
本笔记是参加Datawhale零基础入门NLP赛事的学习笔记。
文本表示方法 词向量(Word embedding),语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。
one-hot representation,用一个很长的向量来表示一个词(缺点:维数大,不能表现词间相似性)。
Distributed Representation,通过训练将某种语言中的每一个词映射成一个固定长度的短向量(相对于one-hot)。所有这些向量放在一起形成一个词向量空间,而每一向量则为该空间中的一个点,在这个空间上引入“距离”,则可以根据词之间的距离来判断它们之间的(词法、语义上的)相似性。
Word2Vec模型 【【学习笔记】自然语言处理实践(新闻文本分类)- 基于深度学习的文本分类Word2Vec】Word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。每个词表征为维的实数向量(每个实数都对应着一个特征,可以是和其他单词之间的联系),将相似的单词分组映射到向量空间的不同部分。也就是Word2Vec能在没有人为干涉下学习到单词之间的关系。
word2vec的主要思路:通过单词和上下文彼此预测,对应的两个算法分别为:
- Skip-grams (SG):预测上下文
- Continuous Bag of Words (CBOW):预测目标单词
- Skip-grams模型
Skip-Gram(跳字模型)是给定input word来预测上下文。
文章图片
Word2Vec模型实际上分为了两个部分,第一部分为建立模型,第二部分是通过模型获取嵌入词向量。Word2Vec的整个建模过程实际上与自编码器(auto-encoder)的思想很相似,即先基于训练数据构建一个神经网络,当这个模型训练好以后,我们并不会用这个训练好的模型处理新的任务,我们真正需要的是这个模型通过训练数据所学得的参数,例如隐层的权重矩阵——后面我们将会看到这些权重在Word2Vec中实际上就是我们试图去学习的“word vectors”。
- CBOW模型
CBOW是给定上下文,来预测input word。
文章图片
CBOW模型跟skip-gram的原理是一样的,只不过在输入的时候是该词周围的词向量加总作为输入。
推荐阅读
- 人工智能|hugginface-introduction 案例介绍
- 中文分词预处理之N最短路径法小结(转)
- 深度学习|2019年CS224N课程笔记-Lecture 17:Multitask Learning
- 深度学习|2018年度总结和2019年度计划
- BERT微调做中文文本分类
- 【学习笔记】自然语言处理实践(新闻文本分类)- 基于深度学习的文本分类Bert
- 自然语言处理|答案选择|语义匹配任务目前表现最好的几个模型
- 深度学习|NLP重铸篇之BERT如何微调文本分类
- NLP实践-Task1