Transformer P17 翻译任务数据集导入和分词

作者：陈华 • 发布时间：2023-09-02 • 阅读 1022

前面课程中，已经搭建好了完整的 Transformer 模型结构，从这节课开始，就进入 Transformer 的运用阶段，我们要用 Transformer 模型，来完成一个英译中的翻译任务，这节课的任务是配置路径和分词。

用 Transformer 做翻译任务，有两个比较大的值，一是词汇量比较大，生成器输出的分类数量就比较多，另一个就是 Transformer 的模型参数量也比较大，所以这个翻译的生成式任务是比较难训练的。

为了让大家可以尽快的看到效果，同时也是方便调试，防止模型有隐藏的bug，我们先构造一个特别小的数据集，来把流程跑通，然后再换成真实的数据集来做训练，这也是在实际开发中常用的技巧。

训练数据是一些简短的句子，验证集是用训练集中出现过的词汇，重组的新句子，但不完全重复。因为词汇量小，暂不考虑<unk>的情况。

有验证集没有测试集，一般来说验证集是一定要有的，因为要在训练途中观察模型效果，如果没有验证集，可以拿测试集做验证。

内容不可见，请联系管理员开通权限。

1、配置项

内容不可见，请联系管理员开通权限。

2、分词

中文句子和英文句子都要做分词，中文分词最常用的方法，就是 jieba 库，英文分词考虑到标点符号，不能直接用空格切分，所以用正则处理。

内容不可见，请联系管理员开通权限。

分词的方法很多，用其他三方库，或者用BPE算法训练都可以，上面封装成函数的目的，也是方便替换。

这节课是进项目的第一节课，节奏稍微慢一点，给大家留一点时间，自己去造一个简单的数据集，体会一下构造数据集的乐趣，下节课再讲词表生成的逻辑。

本课程为收费课程，购买后可查看！