火车头采集搜狐号自媒体教程方式！（已解决）

优采云发布时间: 2020-04-24 11:02

　　====20191109更新====

　　温馨提示：需要搜狐新闻采集规则的这儿构面《搜狐新闻采集规则》

　　如果须要搜狐号作者采集规则的同学，可以点击两侧的联系方法，联系我QQ

　　====20191109更新====

　　针对某一个搜狐号，进入其主页，进行采集，该主页网址未能采集到列表火车头采集教程，不能采集到列表也就无法进行批量采集，所以，首先要解决该问题。

　　其次，搜狐自媒体号上的文章URL都有一定的特征，如下：

　　变量_114778

　　我们只须要把这个变量找到就好了！然后用火车头拼接一下URL就可以了。

　　难点：抓包找数据剖析

　　案例如下：

　　1、目标搜狐号主页：;_f=index_pagemp_1

　　2、fiddler抓包，如下图所示：

　　查看大图

　　该网址就是列表url原先的地址：%h#u.com/apiV2/profile/newsListAjax?xpt=cHBhZzc5Mjg1OTg1MDkxNEBzb2h1LmNvbQ==&pageNumber=1&pageSize=10&categoryId=&_=1513670508722

　　在火车头中多页采集修改这个地方：pageNumber=1

　　3、采集文章页URL

　　把里面的旧址用浏览器打开，如下图所示：

　　我们把红色圈中的部份采集下来即可。然后火车头采集规则如此编撰：

　　列表页采集到了火车头采集教程，内页文章页可以直接看源码编撰采集规则，上面是难点，简单的就不啰嗦了。

0

2020-04-24

火车头搜狐

0 个评论

要回复文章请先登录或注册