前面课程中,用正则匹配的方式,提取到了问题中的实体,正常来说,关系和属性也可以用同样的方式处理。但是,关系和属性并不像实体那样具有唯一性。

比如霸王别姬这个电影,正常的提问方式,肯定会包含这个词,这个实体就不会有歧义,但是关系和属性的问法就比较多变,会有一些口语化的表达,比如:

内容不可见,请联系管理员开通权限。

对于这个问题,这个项目中,我们用一种比较简单的方案,定义同义词来处理。比如把演员、主演、谁演的这些词,用同义词替换成“主演”这个词,再去匹配属性和关系。

代码示例

1、定义属性和关系的同义词

内容不可见,请联系管理员开通权限。

2、正则匹配提取属性和关系

内容不可见,请联系管理员开通权限。

3、解析后统一返回

内容不可见,请联系管理员开通权限。

这两节课中,用正则表达式,提取了用户问题中实体和关系等信息,正则的方法虽然简单粗暴,但准确率高,识别的结果基本不会有误差。除此之外,也可以用模型,去做实体抽取和意图识别,当然,这个方法模型处理工作量就比较大,先给大家做一个预告,在后面的项目中再详细讲解。

本文链接:http://edu.ichenhua.cn/edu/note/599

版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!