TF-IDF项目 P5 jieba分词和加载停用词表
到目前为止,TF-IDF算法的实现就给大家完整的讲完了。从这节课开始,就正式进入项目部分,我们需要把TF-IDF封装成一个类,并且要根据题目要求,实现语料加载、去停用词、缓存等一系列流程。
代码示例
1、项目结构
内容不可见,请联系管理员开通权限。
2、配置项
首先,我们需要把语料库、停用词文件路径,方便后面的文件导入。另外,还需要设置一个TFIDF值的缓存路径,缓存是为了提升大规模数据场景下的查询速度。
内容不可见,请联系管理员开通权限。
3、加载停用词表
停用词,也叫非检索用词,即不会用于搜索的词,比如标点符号、副词、形容词之类。过滤停用词可以加快检索速度,提高搜索效率。
内容不可见,请联系管理员开通权限。
4、分词和去停用词
内容不可见,请联系管理员开通权限。
5、调用测试
内容不可见,请联系管理员开通权限。
因为我们现在进入了项目环节,模块间的引用,要用相对引用,之后就不能用脚本方式调用了,大家要特别留意。
本文链接:http://edu.ichenhua.cn/edu/note/555
版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!