BERT相似度实验

Date: 2019/05/10 Categories: 工作 Tags: BERT pair



结论

  • 从验证集的acc来看原始的BERT模型最好, 其次是4层的BERT, word_bert泛化能力比较差
  • 因为BERT使用字作为输入, 在短问题匹配这个问题上, 模型需要的输入长度会更长, 实验中BERT的输入长度是50, 而word bert输入长度为30.
  • 三个实验除了训练数据是否分词以外使用同样的超参数训练, 参数如下

    batch_size: 32
    lr: 0.00001
    bert_dir: /data/chinese_L-12_H-768_A-12/
    epochs: 10
    seq_len: 50
    shuffle: 2000
  • 结果

  • benchmark

从训练过程中看, word_bert的收敛比4block bert快, 但在验证集上表现不好.