大模型实战 P33 公司相关文档向量化和存储
前面课程当中,给大家介绍了项目的数据来源,其中一个是关于公司的文档数据。因为文档是需要提前做分割和向量化的,这节课就来完成这个功能。
为了给大家演示多种类型文档的处理方法,给大家准备了常见的三种类型,txt、pdf、csv,文件也在素材文件夹,需要先拷贝到项目 /data/inputs 目录。
代码示例
1、创建文件
内容不可见,请联系管理员开通权限。
2、定义文本分割器
内容不可见,请联系管理员开通权限。
3、读取并分割文件
内容不可见,请联系管理员开通权限。
4、向量化并存储
基础部分向量数据库,给大家讲的是Faiss,但是Faiss只能存储句向量,不能存储元数据(原始文件信息)。这里用另一个叫ChromaDB,用法上跟Faiss是一模一样的。
内容不可见,请联系管理员开通权限。
好的,现在准备工作就基本上做完了,下节课,就可以开始处理Agent了。
本文链接:http://edu.ichenhua.cn/edu/note/712
版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!