豆瓣爬虫 P5 爬取影片简介和导演、编剧、主演信息
前面课程中,我们已经把容易获取的节点处理完了,目前,我们还剩下影片简介,和影片属性两块内容,接下来,我们就来解析这两块内容。
代码示例
1、解析影片简介
影片简介节点有三种情况:
1)有豆瓣标识符和展开全部:https://movie.douban.com/subject/1292052/
2)有豆瓣标识符,没有展开全部:https://movie.douban.com/subject/1292722/
3)只有介绍文本,没有标识符和展开全部:https://movie.douban.com/subject/30170448/
内容不可见,请联系管理员开通权限。
2、爬取导演信息
在使用正则匹配,解析bs4筛选出的节点时,可能会和html源码格式不完全相同,要以转化后的文本为准。
内容不可见,请联系管理员开通权限。
3、爬取导演信息
内容不可见,请联系管理员开通权限。
4、爬取编剧和主演信息
内容不可见,请联系管理员开通权限。
这节课的内容虽然不算太难,但我还是建议大家自己动手,去写一下这个匹配的过程。写代码是个手艺活,多练习、多趟坑,才能有进步。
本文链接:http://edu.ichenhua.cn/edu/note/591
版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!