TF-IDF项目 P5 jieba分词和加载停用词表

作者：陈华 • 发布时间：2022-12-23 • 阅读 1141

到目前为止，TF-IDF算法的实现就给大家完整的讲完了。从这节课开始，就正式进入项目部分，我们需要把TF-IDF封装成一个类，并且要根据题目要求，实现语料加载、去停用词、缓存等一系列流程。

1、项目结构

内容不可见，请联系管理员开通权限。

2、配置项

首先，我们需要把语料库、停用词文件路径，方便后面的文件导入。另外，还需要设置一个TFIDF值的缓存路径，缓存是为了提升大规模数据场景下的查询速度。

内容不可见，请联系管理员开通权限。

3、加载停用词表

停用词，也叫非检索用词，即不会用于搜索的词，比如标点符号、副词、形容词之类。过滤停用词可以加快检索速度，提高搜索效率。

内容不可见，请联系管理员开通权限。

4、分词和去停用词

内容不可见，请联系管理员开通权限。

5、调用测试

内容不可见，请联系管理员开通权限。

因为我们现在进入了项目环节，模块间的引用，要用相对引用，之后就不能用脚本方式调用了，大家要特别留意。

本课程为收费课程，购买后可查看！