Transformer P19 词表解析函数和特殊词配置
前面课程当中,一起搞定了中英文的词表生成。在第P17节,讲过生成词表的目的,是为了把分词之后的词语,转化成一个对应的数字,后面才能进行数学计算;另外,在最后的预测生成环节,还需要把预测出来的数字,转化成人能看懂的词语。所以,这节课,我们来搞定词语和数字互转的逻辑。
代码示例
1、词表解析函数
中英文词表的处理逻辑是一样的,只是加载的文件不同,所以用一个参数进行区分。
内容不可见,请联系管理员开通权限。
2、特殊词配置
在后面加载数据时,有几个特殊字符的 ID 可能会比较常用,而且这几个词的 ID 也是固定了,我们给他写到配置项中,方便调用,就不用每次都加载这个函数了。
内容不可见,请联系管理员开通权限。
3、调用测试
内容不可见,请联系管理员开通权限。
到目前为止,词表这块就做完了,其实很简单,就是先分词,再把词语转化为 id 的过程,在 NLP 任务中,是一个非常常用的功能,大家需要掌握。
本文链接:http://edu.ichenhua.cn/edu/note/666
版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!