从这节课开始,要给大家介绍一个ChatGPT的应用案例,用ChatGPT生成一批训练样本,来训练医疗知识图谱项目的,用户问题意图识别的深度学习模型。

案例背景

在真实的深度学习项目当中,训练样本一般都要求是真实数据,比如用户提交的真实问题,拿来做标注,然后用于模型训练。但是有些场景是没有历史数据的,比如做课程,或者本身就是一个崭新的项目,确实没有可用的数据,怎么办呢?

ChatGPT诞生(2022年11月)以前,最常见的方法,就是人工根据经验去总结整理,产品经理组织一批人,然后分配任务,每个人给每个类别整理50条语料,然后去重,组合成一个很小的数据集。可想而知,这种方法是既浪费人力,生成的数据质量也不高,属于吃力不讨好的方法。

那现在有了ChatGPT,他最擅长的就是总结整理吧。那能不能让ChatGPT帮我们生成语料,我们再去做筛选呢?如果可以的话,生成语料的成本就低多了,因为自己写和做选择,肯定是选择更省事一些吧。接下来,就尝试用ChatGPT来帮我们生成一些语料。

需求分析

在知识图谱项目里面,预设的意图类别有12个,也就是可以回复用户的12类问题,这个是结合已有的知识图谱数据,和产品需求总结出来的,大家觉得不够也可以灵活的添加。

疾病定义:过敏性鼻炎是一种什么病?
疾病病因:过敏性鼻炎一般是什么原因引起的?
疾病症状:感冒的常见症状有哪些?
症状查疾病:最近经常感觉头疼,可能得了什么病?
治疗方法:感冒了吃什么药好得快?
挂号科室:感冒了去医院挂什么科室的号?
预防:怎么预防过敏性鼻炎?
禁忌:高血压病人有什么忌口?
检查方案:怀疑得了流感,去医院需要做哪些检查?
治愈率:高血脂能治好吗?
并发症:高血压会引发哪些其他疾病?
适用症:阿莫西林能治那些病?

开源数据集:https://github.com/IMU-MachineLearningSXD/CMID

这节课内容很短,主要想给大家留一点时间,让大家自己去想一想,以上对于这些意图分类,ChatGPT的提示词你会怎么写。有ChatGPT账号的同学,也可以先去试一试,下节课再来讲我写的提示词,希望能有一个自己思考和尝试的过程。

本文链接:http://edu.ichenhua.cn/edu/note/620

版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!