火车头采集搜狐号自媒体教程方式!(已解决)

优采云 发布时间: 2020-04-24 11:02

  ====20191109更新====

  温馨提示:需要搜狐新闻采集规则的这儿构面《搜狐新闻采集规则》

  如果须要搜狐号作者采集规则的同学,可以点击两侧的联系方法,联系我QQ

  ====20191109更新====

  针对某一个搜狐号,进入其主页,进行采集,该主页网址未能采集到列表火车头采集教程,不能采集到列表也就无法进行批量采集,所以,首先要解决该问题。

  其次,搜狐自媒体号上的文章URL都有一定的特征,如下:

  变量_114778

  我们只须要把这个变量找到就好了!然后用火车头拼接一下URL就可以了。

  难点:抓包找数据剖析

  案例如下:

  1、目标搜狐号主页:;_f=index_pagemp_1

  2、fiddler抓包,如下图所示:

  

  查看大图

  该网址就是列表url原先的地址:%h#u.com/apiV2/profile/newsListAjax?xpt=cHBhZzc5Mjg1OTg1MDkxNEBzb2h1LmNvbQ==&pageNumber=1&pageSize=10&categoryId=&_=1513670508722

  在火车头中多页采集修改这个地方:pageNumber=1

  3、采集文章页URL

  把里面的旧址用浏览器打开,如下图所示:

  

  我们把红色圈中的部份采集下来即可。然后火车头采集规则如此编撰:

  

  列表页采集到了火车头采集教程,内页文章页可以直接看源码编撰采集规则,上面是难点,简单的就不啰嗦了。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线