====== 处理不定长输入 ====== 在NLP中,一个常见的问题是输入序列长度不等,而mask可以帮助我们处理。虽然RNN等模型可以处理不定长的input,但是在实践中,需要对input做batchize,转换成固定大小的tensor,方便矩阵操作 举个例子: case 1: I like cats. case 2: He does not like cats. 假设默认的seq_len是5,一般会对case 1做pad处理,变成 I like cats 在上述例子数字编码后,开始做embedding,而pad也会有embedding向量,但pad本身没有实际意义,参与训练可能还是有害的。因此,有必要维护一个mask tensor来记录哪些是真实的value,上述例子的两个mask如下: 1 1 1 0 01 1 1 1 1后续再梯度传播中,mask起到了过滤的作用,在pytorch中,有参数可以设置:nn.Embedding(vocab_size, embed_dim,padding_idx=0) ====== Language model中防止未来信息泄露 ====== 在语言模型中,常常需要从上一个词预测下一个词,而现阶段attention是标配,比如Transformer中的self attention,如果不做mask,在decoder的时候很容易把下一个词的信息泄露了,即按上诉例子,不能在预测like这个词时已经知道like后面的词了。