推荐文章:【API爬虫】30分钟百万条新浪新闻信息爬取。python得极速之旅

优采云发布时间: 2022-11-24 21:39

　　请参考源码，文字为第一思路，未作进一步改动。要更新的源代码

　　前期准备：requests库：使用pip install requests进行安装。

　　pymongo 库：使用 pip install pymongo 安装。

　　先分析目标url：

　　这个url的规律很好找。通过改变索引后面的数字，我们可以翻页，遍历所有页面。

　　然后我们查看网页源代码，发现html页面中保存链接和新闻标题的部分，还有时间。

　　发现li标签下保存了我们需要的所有信息，这里我们可以使用正则表达式获取我们需要的所有信息（title, link, date）

<p>pattern = re.compile(r'

0

2022-11-24

文章采集api

0 个评论

要回复文章请先登录或注册