前面课程中,我们用ChatGPT生成了语料的模板,模板中的疾病、症状这些实体,都是用特殊字符占位的。接下来,就是要用真实的实体内容,去替换占位符,生成真实的训练数据了。

那这些真实的实体内容从哪来呢?我们提前用一下医疗知识图谱的数据,把知识图谱的原始数据里面的实体抽取出来,填充到模板当中。

熟悉数据

内容不可见,请联系管理员开通权限。

代码示例

1、读取数据

内容不可见,请联系管理员开通权限。

2、逐条读取数据

defaultdict()这个方法,在之前电影知识图谱项目里面详细讲过了,不清楚的可以回去复习一下。实体名称可能会有重复,用set类型,就不用去重了。需要注意的是set类型添加单个元素用add,添加序列数据用update。

内容不可见,请联系管理员开通权限。

3、写入文件

内容不可见,请联系管理员开通权限。

这节课内容很简单,有一个数据处理的小技巧,就是defaultdict()这个方法。大家在以后的开发过程中,也可以多使用它,来简化自己的代码。

本文链接:http://edu.ichenhua.cn/edu/note/622

版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!