话题：搜狐 - 自动文章采集器-优采云官网

火车头采集搜狐号自媒体教程方式！（已解决）

采集交流 • 优采云发表了文章 • 0 个评论 • 404 次浏览 • 2020-04-24 11:02 • 来自相关话题

　　====20191109更新====
　　温馨提示：需要搜狐新闻采集规则的这儿构面《搜狐新闻采集规则》
　　如果须要搜狐号作者采集规则的同学，可以点击两侧的联系方法，联系我QQ
　　====20191109更新====
　　针对某一个搜狐号，进入其主页，进行采集，该主页网址未能采集到列表火车头采集教程，不能采集到列表也就无法进行批量采集，所以，首先要解决该问题。
　　其次，搜狐自媒体号上的文章URL都有一定的特征，如下：
　　变量_114778
　　我们只须要把这个变量找到就好了！然后用火车头拼接一下URL就可以了。
　　难点：抓包找数据剖析
　　案例如下：
　　1、目标搜狐号主页：;_f=index_pagemp_1
　　2、fiddler抓包，如下图所示：
　　
　　查看大图
　　该网址就是列表url原先的地址：%h#u.com/apiV2/profile/newsListAjax?xpt=cHBhZzc5Mjg1OTg1MDkxNEBzb2h1LmNvbQ==&pageNumber=1&pageSize=10&categoryId=&_=1513670508722
　　在火车头中多页采集修改这个地方：pageNumber=1
　　3、采集文章页URL
　　把里面的旧址用浏览器打开，如下图所示：
　　
　　我们把红色圈中的部份采集下来即可。然后火车头采集规则如此编撰：
　　
　　列表页采集到了火车头采集教程，内页文章页可以直接看源码编撰采集规则，上面是难点，简单的就不啰嗦了。查看全部

　　查看大图
　　该网址就是列表url原先的地址：%h#u.com/apiV2/profile/newsListAjax?xpt=cHBhZzc5Mjg1OTg1MDkxNEBzb2h1LmNvbQ==&pageNumber=1&pageSize=10&categoryId=&_=1513670508722
　　在火车头中多页采集修改这个地方：pageNumber=1
　　3、采集文章页URL
　　把里面的旧址用浏览器打开，如下图所示：
　　

　　我们把红色圈中的部份采集下来即可。然后火车头采集规则如此编撰：
　　

　　列表页采集到了火车头采集教程，内页文章页可以直接看源码编撰采集规则，上面是难点，简单的就不啰嗦了。

AI时代内容工厂

搜狐

火车头采集搜狐号自媒体教程方式！（已解决）

火车头采集搜狐号自媒体教程方式！（已解决）

话题描述

相关话题

1 人关注该话题