ChatGPT应用 P3 用于模版填充的实体文件生成
前面课程中,我们用ChatGPT生成了语料的模板,模板中的疾病、症状这些实体,都是用特殊字符占位的。接下来,就是要用真实的实体内容,去替换占位符,生成真实的训练数据了。
那这些真实的实体内容从哪来呢?我们提前用一下医疗知识图谱的数据,把知识图谱的原始数据里面的实体抽取出来,填充到模板当中。
熟悉数据
内容不可见,请联系管理员开通权限。
代码示例
1、读取数据
内容不可见,请联系管理员开通权限。
2、逐条读取数据
defaultdict()这个方法,在之前电影知识图谱项目里面详细讲过了,不清楚的可以回去复习一下。实体名称可能会有重复,用set类型,就不用去重了。需要注意的是set类型添加单个元素用add,添加序列数据用update。
内容不可见,请联系管理员开通权限。
3、写入文件
内容不可见,请联系管理员开通权限。
这节课内容很简单,有一个数据处理的小技巧,就是defaultdict()这个方法。大家在以后的开发过程中,也可以多使用它,来简化自己的代码。
本文链接:http://edu.ichenhua.cn/edu/note/622
版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!