实战项目

本专栏主要用于,发布 CV / NLP / 推荐算法等领域的实战项目讲义,目前是 Pytorch 实现,后续会加上 TensorFlow 相关的课程内容。

  • 医疗问答 P3 模型训练数据集和图谱数据介绍

    上节课介绍的课程内容里面,可能有一项内容大家比较关心,就是数据集。这个项目要用到的数据比较多,两个深度模型的训练,和知识图谱的构建,都需要用到数据。

    实战项目 902 2023-08-11
  • 医疗问答 P2 意图类别需求说明和课程安排介绍

    上节课,给大家演示了项目的效果,总体来说还是不错的,接下来,就正式进入课程内容了。这节课主要给大家介绍的内容,是预设的意图类别和课程安排。

    实战项目 634 2023-08-11
  • 医疗问答 P1 医疗知识图谱多轮对话机器人项目

    这一期,给大家带来是第二个知识图谱的项目,叫做《基于知识图谱的医疗多轮对话机器人》。从以上的演示,大家可以看出,这个版本对话机器人,因为加入了两个深度学习的模型,比之前的电影问答项目更智能一些。

    实战项目 884 2023-08-09
  • Neo4j实战 P2 使用Cypher语句创建节点

    上节课,我们在Neo4j的云服务上创建了一个实例,这节课开始,我们就可以在这个实例上,学习Neo4j的专用CQL语句了。在正式学习CQL语句之前,还有必要先介绍几个知识图谱的基本概念,帮助大家理解CQL语句中的关键字。

    实战项目 1685 2023-06-27
  • Neo4j实战 P1 Neo4j简介及创建数据库实例

    从这节课开始,我们一起来学习一个新的工具,叫做Neo4j。既然我把它看做是一个工具,也就说明这个课程的目标,不是培养Neo4j的专家,也不会介绍太多理论知识,而是使用Neo4j,去解决某些特定场景的问题。

    实战项目 1712 2023-06-26
  • KBQA项目 P1 加载电影json数据并解析

    在前面两个章节,给大家讲解了豆瓣电影数据的爬取,和Neo4j的Cpyher语法。从这节课开始,终于可以正式进入电影知识问答这个项目了。

    实战项目 1339 2023-06-25
  • KBQA项目 P0 豆瓣电影Top250知识图谱对话机器人

    《基于豆瓣电影TOP250数据的知识图谱对话机器人》课程,是「知识图谱」系列的第一个项目,内容包括:数据爬取、Neo4j图数据库、模板解析、前端交互四个部分。特别适合要做完整知识图谱项目的同学,比如做毕业设计、全栈工程师之类。

    实战项目 1349 2023-06-25
  • 豆瓣爬虫 P2 循环构建豆瓣电影列表地址

    上节课中,给大家介绍了爬取流程,是先爬取列表,解析出详情页地址,再去详情页获取电影信息。这节课,我们就来搞定列表页的数据爬取。

    实战项目 1262 2023-06-18
  • 豆瓣爬虫 P1 豆瓣电影Top250数据爬取流程说明

    在这一章里面,我将带大家来爬取「豆瓣电影Top250」的数据,爬取到的数据,将作为后面知识图谱课程的素材。因为豆瓣没有反爬策略,所以爬取的过程比较简答。我们课上演示的是Top250的数据,大家如果有兴趣,想去爬取豆瓣上全量的电影数据,也是相同的套路。

    实战项目 607 2023-06-18
  • TextCNN项目 P18 电商问答情感分析数据集整理

    前面课程中,问题的多标签分类模型,我们已经做完了。这节课开始,正式进入“问题+回答”的情感分类模型部分。这一部分的数据集,也是业务人员帮我们标注的数据,商品类别还是面霜,训练集是7k条,测试集是2k条。

    实战项目 659 2023-06-03
  • TF-IDF项目 P3 计算TF-IDF值和提取topK关键词

    上节课给大家介绍了TF-IDF的计算公式,这节课方便大家理解,先用面向过程的方式,来实现这个算法。但是项目需求里面,还有动态装载语料库、维护停用词这样一些要求,后面还是需要封装成类。

    实战项目 824 2022-12-22
  • TF-IDF项目 P2 算法计算公式和关键词提取功能介绍

    TF-IDF是一种统计方法,用以评估某个词对于语料库中某一份文档的重要程度。某个词的重要性随着它在文档中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

    实战项目 969 2022-12-22
  • TF-IDF项目 P1 基于关键词的文本排序检索系统介绍

    从本节课开始,我们将给大家介绍一个,文本处理的基础但是很有用的算法:TF-IDF算法。TF-IDF算法,全称:词频-逆文档频率(term frequency–inverse document frequency),本质是一种统计方法,并不属于深度学习的范畴。

    实战项目 532 2022-12-21
  • TextCNN项目 P11 多标签数据集的数据预处理

    上节课我们提到,为了提高模型准确率,后面我们会把多标签和单标签两个模型结合,做成一个 pipline 的联合模型,所以我们先把之前的单标签模型,替换一下数据集,重新训练一个当前数据集对应的模型文件出来备用。

    实战项目 650 2022-12-20
  • TextCNN项目 P10 多标签文本分类数据集介绍

    前面课程当中,给大家讲解了用 Bert+TextCNN,实现文本分类的项目。在这个项目中,目标是给新闻标题做分类,是一个单标签的任务。但在实际项目中,多标签也是一个比较常见的场景。

    实战项目 690 2022-12-20
  • ABSA项目 P4 自定义Dataset类和Bert分词

    上一节课,我们重新整理了样本文件,接下来就可以定义Dataset类,来加载数据了。为了让模型也可以适用于,一个句子有多个实体的情况,我们把样本中相邻两个句子合并,用最小的代价,模拟出多个实体的场景。

    实战项目 1201 2022-09-06
  • ABSA项目 P3 数据预处理与异常值剔除

    上节课给大家详细介绍了模型结构,这节课,我们就开始做数据预处理了。数据预处理阶段,我们需要完成两个任务,一个是将样本文件处理成一句一行的形式,方便读取,另一个是,剔除异常数据。

    实战项目 971 2022-09-06
  • ABSA项目 P2 LCF-ATEPC模型结构详解

    上节课当中,给大家介绍了任务目标,并且演示了项目的最终效果。因为这个模型是一个联合任务,相对复杂,我们还是花一节课时间,给大家详细介绍一下模型结构。另外,论文中模型的配图,不是很好理解,我给大家重新画了一个精简版本,帮助大家更好的理解代码流程。

    实战项目 1219 2022-09-06
  • Pytorch Bert_LCF_ATEPC_ABSA P1 属性级情感分析项目

    从这节课开始,我们将一起来学习一个新的项目,叫做属性级情感分析。属性级情感分析(Aspect-based Sentiment Analysis, ABSA)是一类细粒度情感分析任务,常用于评论分析中,帮助商家深入理解用户偏好。

    实战项目 1731 2022-09-06
  • CasRel项目 P4 构建Dataset数据集和BERT分词

    上节课当中,给大家介绍了这个项目需要用到的数据集,并且做了简单的数据预处理,缓存好了关系分类文件。接下来,我们可以定义Dataset类,来加载数据了。这节课,先完成文件加载和分词这两块内容。

    实战项目 1794 2022-08-26