豆瓣爬虫 P6 爬取其他信息并保存json文件
到目前为止,只剩下一小部分影片信息没有获取了,这节课,我们就把最后的几项内容匹配到,然后把完整的影片信息,保存到本地的json文件中。
代码示例
1、影片类型
内容不可见,请联系管理员开通权限。
2、国家、语言
内容不可见,请联系管理员开通权限。
3、上映日期
内容不可见,请联系管理员开通权限。
4、片长
内容不可见,请联系管理员开通权限。
5、别名
内容不可见,请联系管理员开通权限。
6、IMDB
内容不可见,请联系管理员开通权限。
7、写入json文件
内容不可见,请联系管理员开通权限。
8、捕获异常
内容不可见,请联系管理员开通权限。
到目前为止,第一个爬虫入门的项目,就给大家讲完了。豆瓣这个网站没有反爬策略,整个爬取过程还是比较简单的,很多初学爬虫的开发者,也喜欢拿豆瓣,作为第一个练手项目,爬虫基础薄弱的同学,也可以拿这个练练手。
爬虫本身是一个无限游戏,特别是一些做内容的平台,一直在不停地探索新的反爬策略,来保护他们的内容。所以爬虫这块,我准备做成一个连载的专题,在其他项目中,需要爬取数据,这边就会有相应的更新,爬取的难度也会逐渐加大,大家可以持续关注。
本文链接:http://edu.ichenhua.cn/edu/note/592
版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!