抓取网页新闻(学习了几天如何使用scrapy去爬取静态网站(图))

优采云发布时间: 2021-09-16 03:23

　　几天来，我已经学会了如何通过使用图表对静态网站进行爬网。今天我尝试抓取动态加载的网站。选择的网站是*敏*感*词*的知识。这篇文章不会详细解释如何像往常一样完成每一步，而是讨论如何攀登

　　您无法获取源代码中的所有数据（有些根本没有数据），但您可以看到网址保持不变，但通过下拉滑块加载了数据。毫无疑问，这是一个动态加载的网页。下面介绍如何查找API接口以获取数据

　　打开developer工具，选择network，refresh，然后选择XHR，如图所示

　　您可以从一开始就逐个单击以检查响应（响应指的是工作台上的响应，如下图所示）是否是您想要的数据。或者滑动滑动条，查看新请求的名称中是否有类似的请求，通常是

　　这里我们重点关注区块链数据，如图所示：

　　然后检查消息头的URL，例如“HTTPS:///apiv1/content/lifes？”？渠道=区块链渠道&amp；客户机=pc&amp；光标=1518567654&amp；极限=20’

　　所需参数为：

　　channel=blockchain-channel

client=pc

cursor=1518567654

limit=20

　　在浏览器中打开URL，并通过待定系数方法删除参数，以查看所需内容

　　从这个可以猜到

　　Limit=20应该是可以删除的请求数据数

　　Client=PC字面意思是PC端

　　通道=区块链通道，可引用区块链相关数据，不能删除

　　Cursor=1518567654最初怀疑它位于加载上一页时的页面或附加信息中，但在搜索后未找到。怀疑它可能是一个时间戳。时间模块验证它是否确实是当前时间。它可以被删除，但实验后，发现没有光标，最多可以加载99个数据

　　这仅适用于区块链的一部分。其他类似于搜索，但在搜索过程中会找到一个API和所有数据。接口：

　　当浏览器打开时，最好安装一个JSON相关插件以方便查看数据。如图所示

　　通过阅读，你可以了解全球、区块链、a股。股票、美股、外汇和商品分别分为六个板块：宏观、区块链、a股、美股、外汇和商品

　　就这样

　　随附信息的接口API：

　　看，这就是代码。不要直接粘贴它

　　'https://api-prod.wallstreetcn.com/apiv1/content/articles?category={}&limit=20&platform=wscn-platform'.format(p) for p in

['global','shares','commodities','china','us','europe','japan','charts','economy']

　　极限参数可以手动控制。还有游标参数。您可以发现，他返回的数据收录display_uuTime、next_uuu光标，可以结合limit访问下一个时间段的数据。您还可以指定当前时间戳和特定时间戳之间的时间

0

2021-09-16

抓取网页新闻

0 个评论

要回复文章请先登录或注册