NER项目 P5-2 定义Dataset数据集和文本等长切分(2)

作者：陈华 • 发布时间：2022-06-16 • 阅读 3893

经过前面的数据预处理操作，我们已经得到了训练样本、测试样本文件，以及词表和标签表的缓存文件，接下来就是定义Dataset类，来加载数据。另外在加载数据时，需要将文本切分为等长的句子。

1、新建文件

内容不可见，请联系管理员开通权限。

2、加载词表和标签表

内容不可见，请联系管理员开通权限。

3、Dataset

type 参数，这个类是训练和测试公用的，所以定义一个参数来区分加载哪个文件。

base_len 参数，用来定义句子的参考长度，特殊情况再稍做处理。

内容不可见，请联系管理员开通权限。

目前我们已经定义好了Dataset类，并将文本加载到DataFrame中，下一步，就是要将长文本拆分成句子。我们这里采用等长切分，每隔50个字切一刀。

但有一种情况需要处理，就是切点上是非O标签，则需要将切点往后移动，直达O标签为止。

1、计算分割点

内容不可见，请联系管理员开通权限。

2、文本数字化

内容不可见，请联系管理员开通权限。

本课程为收费课程，购买后可查看！