pair模型改进计划

Date: 2019/07/09 Categories: 工作 Tags: pair

Plan

模型蒸馏: 使用BERT模型标注百度知道页面数据, 使用baidu短文本相似api
实体关系: 将实体匿名化, 模型只解决句式文法的相似判断
多任务学习: 语言模型, 其他数据集(LCQMC, kbqa数据集…)
集成学习: 统计特征 + xgboost, tfidf/bm25

顺序

先要搞出多任务学习的框架, 后续可以继续加数据集, 比如各种弱监督方法, pu learning, 公开数据集等
实体匿名化, 用模型外的方法处理实体问题
最后加一层特征拼接(加特征, 在之后训练xgboost模型)
上线优化, 测试各种bert层数和metric关系?