医疗问答 P3 模型训练数据集和图谱数据介绍

作者：陈华 • 发布时间：2023-08-11 • 阅读 2185

上节课介绍的课程内容里面，可能有一项内容大家比较关心，就是数据集。这个项目要用到的数据比较多，两个深度模型的训练，和知识图谱的构建，都需要用到数据。下面依次给大家介绍一下，这几个环节需要用到的数据。

1、实体识别

ChineseBLUE/cMedQANER

Github：https://github.com/alibaba-research/ChineseBLUE

内容不可见，请联系管理员开通权限。

整体的 f1-score：0.77，项目需要识别三类实体：desease - 0.85，drug - 0.63，symptom - 0.75，总体可用，

2、意图识别

CMID：https://github.com/IMU-MachineLearningSXD/CMID

内容不可见，请联系管理员开通权限。

CMID这份数据质量不高，类别也不能完全覆盖，这个项目定制的意图类别。所以，用ChatGPT自己生成训练语料，准确率1.0，还可以灵活扩展，无懈可击。

3、图谱数据

寻医问药 - 疾病百科：https://jib.xywy.com/

内容不可见，请联系管理员开通权限。

好的，关于这个课程的总体介绍，就给大家讲完了，后面课程就是带大家一步步的完成项目的功能，下一个章节就开始做实体识别的模型训练了。

本课程为收费课程，购买后可查看！