CasRel项目 P14 统计关系数量并精简Duie数据集
截止到上节课,整个课程内容其实已经结束了。但是同学们反馈了两个问题,一个是模型效果不太好,另一个是用Kaggle训练模型的时候,会出现超时的情况。所以,给大家补录几节课,来解决一下这两个问题。
首先,是模型效果不好的问题,算法界其实有一个共识,数据决定了模型的上限,算法只是去逼近这个上限。所以模型效果不好,我们首先应该去查一下,是不是数据的原因。
数据,又一般从数量、分布、质量三个方面来看。数量和分布一般是比较容易评估的,质量是需要去仔细分析的。数据最好是同一领域的,比如都是医疗的,就比较理想。质量评估的工作量比较大,我们就优先看一下数量和分布。
在关系抽取这个项目中,训练集是17万条,数量是够的,接下来就是看分布,需要去统计一下每一种关系对应的数量,看分布是否均匀。
代码示例
1、统计关系数量
内容不可见,请联系管理员开通权限。
执行结果
内容不可见,请联系管理员开通权限。
从以上结果中,能很明显可以看出,分布是极不均匀的,多的上万,少的只有几十。所以在工业项目中,一般会先做分类合并,或者是补充数据,让分布相对均匀。
工作中处理数据的活,一般都是外包做的,所以在课上,就不花太多时间去处理数据了,直接用一份处理好的数据,来做后面的调试。
2、更换精简数据集
内容不可见,请联系管理员开通权限。
执行结果
内容不可见,请联系管理员开通权限。
这一份数据,分布就是相对均匀的,数量都是四位数,而且主题还是有一定关联的。下节课还需要对模型相关的代码做一点调整。
本文链接:http://edu.ichenhua.cn/edu/note/725
版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!