使用 transformer 将字符串转为 id 序列,字符串为中英文混杂形式,
运行中出现报错:'expected sequence of length 4 at dim 1 (got 0)'
发现是在encoder_plus转换时,将输入的文本根据max_length截断了,导致[MASK]等字段没剪除了,生成的 mask_pos (mask 在字符串中的位置)为空,这样在转为 Tensor 时产生了维度错误。
在预处理时,虽然通过设置的最大长度的对字符串做了筛选,但长度是通过空格split计算的,在encoder转换时,每个汉字对应一个id,英文(注:英文是单词或英文字符的拼接) 则根据vocab.txt中的词替换为 id,这样句长就会超过max_length,截断后会将最后的 [MASK] 删除。
解决方法:
在预处理中用 encode 将字符串转为id序列,根据 id 序列长度及max_length过滤样本
Sentence-Pair 分类任务中,遇到有关句子长度不一致的报错,可将 truncation设为'longest_first',这样就会依次删除较长句子的最后一个token,直到符合max_length的最大token数量为止。
例如:设置句子最大长度是256,报错为最后一行显示不同的输入中,句子长度不一致问题。但在encode中已经设置了padding='max_length'和truncation=True,truncation=True 默认是only_first,仅对前面一句话做截断,不对后面一句做截断。当遇到sent1长度是50,sent2 长度是300的极端情况,使用“truncation=True”,总长度还是会超出256;truncation='longest_first' 会依次删除较长句子的最后一个token,直到符合 maxlength 的最大 token 数量为止。
参考:
BERT句子对(sentence pair)分类任务的truncation='longest_first'之我见 - 知乎 (zhihu.com)