pair模型改进计划

Date: 2019/07/09 Categories: 工作 Tags: pair



Plan

  • 模型蒸馏: 使用BERT模型标注百度知道页面数据, 使用baidu短文本相似api
  • 实体关系: 将实体匿名化, 模型只解决句式文法的相似判断
  • 多任务学习: 语言模型, 其他数据集(LCQMC, kbqa数据集…)
  • 集成学习: 统计特征 + xgboost, tfidf/bm25

顺序

  1. 先要搞出多任务学习的框架, 后续可以继续加数据集, 比如各种弱监督方法, pu learning, 公开数据集等
  2. 实体匿名化, 用模型外的方法处理实体问题
  3. 最后加一层特征拼接(加特征, 在之后训练xgboost模型)
  4. 上线优化, 测试各种bert层数和metric关系?