不用采集规则就可以采集(采集电影资料筛选结果页面html中列表内容,疑似用一种)

优采云 发布时间: 2022-02-09 18:21

  不用采集规则就可以采集(采集电影资料筛选结果页面html中列表内容,疑似用一种)

  找采集电影素材,发现国内比较全的网站合集,最后锁定了mtime网站:

  经过分析发现,在时光网这个筛选结果页面的html中,使用了输出列表,在html代码中看不到列表的内容。怀疑是通过一种叫做ajax延迟加载的技术手段实现的。

  常规的通过抓取过滤结果页面的HTML代码来查找电影URL的方法在这里行不通,当然过滤结果页面的翻页也行不通,所以需要使用抓包工具查找过滤结果的内部列表页面 URL。 如下:

  .

  

http://service.channel.mtime.com/service/search.mcs?Ajax_CallBack=true&Ajax_CallBackType=Mtime.Channel.Pages.SearchService&Ajax_CallBackMethod=SearchMovieByCategory&Ajax_CrossDomain=1&Ajax_RequestUrl=http%3A%2F%2Fmovie.mtime.com%2Fmovie%2Fsearch%2Fsection%2F%3Ftype%3D201%23pageIndex%32%26year%3D2011%26type%3D201&t=201210271753315856&Ajax_CallBackArgument0=&Ajax_CallBackArgument1=0&Ajax_CallBackArgument2=138&Ajax_CallBackArgument3=&Ajax_CallBackArgument4=0&Ajax_CallBackArgument5=0&Ajax_CallBackArgument6=0&Ajax_CallBackArgument7=0&Ajax_CallBackArgument8=&Ajax_CallBackArgument9=&Ajax_CallBackArgument10=&Ajax_CallBackArgument11=0&Ajax_CallBackArgument12=0&Ajax_CallBackArgument13=0&Ajax_CallBackArgument14=1&Ajax_CallBackArgument15=0&Ajax_CallBackArgument16=1&Ajax_CallBackArgument17=4&Ajax_CallBackArgument18=10&Ajax_CallBackArgument19=0

  注意上面url中红色加粗的参数:

  Ajax_CallBackArgument2=国家 ID

  Ajax_CallBackArgument3=类型 ID

  Ajax_CallBackArgument9=年龄 ID,未过滤则为空

  Ajax_CallBackArgument10=年龄ID,如果不过滤则为空(你没看错,10和9指年龄,同一个ID)

  Ajax_CallBackArgument18=页码,

  可以通过过滤地址#year=2011&type=183&nation=275获取上述参数中的id。

  优采云的批量/多页模式添加采集地址,Ajax_CallBackArgument18=(*),如下图:

  

  在“采集URL 规则”中,选择手动:

  

  最后要注意采集控制的URL的线程和频率。在你采集几十个列表之后,mtime会要求你输入验证码,这很烦人。任何避免这种验证码的方法。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线