推荐文章:【API爬虫】30分钟百万条新浪新闻信息爬取。python得极速之旅
优采云 发布时间: 2022-11-24 21:39推荐文章:【API爬虫】30分钟百万条新浪新闻信息爬取。python得极速之旅
请参考源码,文字为第一思路,未作进一步改动。要更新的源代码
前期准备:requests库:使用pip install requests进行安装。
pymongo 库:使用 pip install pymongo 安装。
先分析目标url:
这个url的规律很好找。通过改变索引后面的数字,我们可以翻页,遍历所有页面。
然后我们查看网页源代码,发现html页面中保存链接和新闻标题的部分,还有时间。
发现li标签下保存了我们需要的所有信息,这里我们可以使用正则表达式获取我们需要的所有信息(title, link, date)
<p>pattern = re.compile(r'