前面课程,已经完成了页面的文档上传功能,那接下来就要进行后台处理。因为用户上传的文件,可能内容会很多,在文档问答的时候,只需要检索最相关的几个片段就可以了,所以上传文件之后,需要在后台进行分割之后,存储成片段,供后面的对话流程检索。

代码示例

1、新建自定义命令

分割任务是一个异步任务,目前还没学到,我们先用自定义命令,这种简单的方式做调试,调好之后再改成异步任务。

内容不可见,请联系管理员开通权限。

2、读取文件路径

这里我们模拟的是文件上传之后,通过id去处理对应文件。

内容不可见,请联系管理员开通权限。

3、按类型处理文件

文件类型比较多,避免混淆,每一种类型定义一个函数去处理。

内容不可见,请联系管理员开通权限。

4、按行处理csv和excel文件

在以上类型中,结构比较清晰的就是表格数据,我们把表格的每一行,跟表头进行拼接,作为一个完整的片段。

内容不可见,请联系管理员开通权限。

下节课,要处理pdf、word这种非结构化的文档,会稍微麻烦一点。

本文链接:http://edu.ichenhua.cn/edu/note/758

版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!