分布式表示
单词级别(word-level)
优势
缺点
同词根但不同词缀的词视为不同词,互相无关系:surprise surprisely
存在同词根的现象,使得分布式向量维度稀疏
维度取决词典大小:词转换为onehot向量,点乘嵌入矩阵,转换为相应的词向量
无法处理外来词(OOV),外来词均用特定的词来代替:单词拼写错误和新词影响非常大
缓解方案
单词级别的输出可转化为序列标注问题(BIO),降低输出维度,降低计算消耗
字符级别(character-level)
缺点
优势
单词级别和字符级别相互结合
参考文章
-
Character-level Convolutional Network for Text Classification Applied to Chinese Corpus
Combining Word-Level and Character-Level Representations forRelation Classification of Informal Text
Named Entity Recognition with Bidirectional LSTM-CNNs
分布式表示.txt · 最后更改: 2020/02/01 21:41 (外部编辑)