用户工具

站点工具


分布式表示

这是本文档旧的修订版!


单词级别(word-level)

优势

单词有语义信息

缺点

  • 同词根但不同词缀的词视为不同词,互相无关系:surprise surprisely
  • 存在同词根的现象,使得分布式向量维度稀疏
  • 维度取决词典大小:词转换为onehot向量,点乘嵌入矩阵,转换为相应的词向量
  • 无法处理外来词(OOV),外来词均用特定的词来代替:单词拼写错误和新词影响非常大

缓解方案

单词级别的输出可转化为序列标注问题(BIO),降低输出维度,降低计算消耗

字符级别(character-level)

缺点

没有语义信息,需要神经网络学习语义信息

优势

维度小,70左右,计算消耗低

单词级别和字符级别相互结合

分布式表示.1569811175.txt.gz · 最后更改: 2020/02/01 21:40 (外部编辑)