推荐文章:【API爬虫】30分钟百万条新浪新闻信息爬取。python得极速之旅

优采云 发布时间: 2022-11-24 21:39

  推荐文章:【API爬虫】30分钟百万条新浪新闻信息爬取。python得极速之旅

  请参考源码,文字为第一思路,未作进一步改动。要更新的源代码

  前期准备:requests库:使用pip install requests进行安装。

  pymongo 库:使用 pip install pymongo 安装。

  先分析目标url:

  这个url的规律很好找。通过改变索引后面的数字,我们可以翻页,遍历所有页面。

  然后我们查看网页源代码,发现html页面中保存链接和新闻标题的部分,还有时间。

  发现li标签下保存了我们需要的所有信息,这里我们可以使用正则表达式获取我们需要的所有信息(title, link, date)

<p>pattern = re.compile(r&#39;

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线