pair模型改进计划
Date: 2019/07/09 Categories: 工作 Tags: pair
Plan
- 模型蒸馏: 使用BERT模型标注百度知道页面数据, 使用baidu短文本相似api
- 实体关系: 将实体匿名化, 模型只解决句式文法的相似判断
- 多任务学习: 语言模型, 其他数据集(LCQMC, kbqa数据集…)
- 集成学习: 统计特征 + xgboost, tfidf/bm25
顺序
- 先要搞出多任务学习的框架, 后续可以继续加数据集, 比如各种弱监督方法, pu learning, 公开数据集等
- 实体匿名化, 用模型外的方法处理实体问题
- 最后加一层特征拼接(加特征, 在之后训练xgboost模型)
- 上线优化, 测试各种bert层数和metric关系?