前面课程中,搞定了分词和转 ID 的过程,接下来就可以加载数据集了。还是老办法,用 Dataset 和 DataLoader 这两个类,来完成数据集的处理和加载过程。

代码示例

1、创建文件

内容不可见,请联系管理员开通权限。

2、加载数据集

内容不可见,请联系管理员开通权限。

3、单条数据 tokenizer

英文翻译成中文,所以 en_text 是 source,zh_text 是 target,做中文翻译成英文,反过来即可。返回 zh_text 是用于后续做模型评估。

内容不可见,请联系管理员开通权限。

4、调用测试

直接调用会报错,因为 get_item 返回的不是 tensor 结构,下节课处理。

内容不可见,请联系管理员开通权限。

这节课主要讲解数据集的加载,和句子的 Tokenizer 过程,但是 get_item 方法返回的数据不是 tensor,所以下节课我们还需要处理一下 batch 数据。

本文链接:http://edu.ichenhua.cn/edu/note/667

版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!