不用采集规则就可以采集(采集电影资料筛选结果页面html中列表内容，疑似用一种)

优采云发布时间: 2022-02-09 18:21

　　找采集电影素材，发现国内比较全的网站合集，最后锁定了mtime网站：

　　经过分析发现，在时光网这个筛选结果页面的html中，使用了输出列表，在html代码中看不到列表的内容。怀疑是通过一种叫做ajax延迟加载的技术手段实现的。

　　常规的通过抓取过滤结果页面的HTML代码来查找电影URL的方法在这里行不通，当然过滤结果页面的翻页也行不通，所以需要使用抓包工具查找过滤结果的内部列表页面 URL。如下：

　　.

http://service.channel.mtime.com/service/search.mcs?Ajax_CallBack=true&Ajax_CallBackType=Mtime.Channel.Pages.SearchService&Ajax_CallBackMethod=SearchMovieByCategory&Ajax_CrossDomain=1&Ajax_RequestUrl=http%3A%2F%2Fmovie.mtime.com%2Fmovie%2Fsearch%2Fsection%2F%3Ftype%3D201%23pageIndex%32%26year%3D2011%26type%3D201&t=201210271753315856&Ajax_CallBackArgument0=&Ajax_CallBackArgument1=0&Ajax_CallBackArgument2=138&Ajax_CallBackArgument3=&Ajax_CallBackArgument4=0&Ajax_CallBackArgument5=0&Ajax_CallBackArgument6=0&Ajax_CallBackArgument7=0&Ajax_CallBackArgument8=&Ajax_CallBackArgument9=&Ajax_CallBackArgument10=&Ajax_CallBackArgument11=0&Ajax_CallBackArgument12=0&Ajax_CallBackArgument13=0&Ajax_CallBackArgument14=1&Ajax_CallBackArgument15=0&Ajax_CallBackArgument16=1&Ajax_CallBackArgument17=4&Ajax_CallBackArgument18=10&Ajax_CallBackArgument19=0

　　注意上面url中红色加粗的参数：

　　Ajax_CallBackArgument2=国家 ID

　　Ajax_CallBackArgument3=类型 ID

　　Ajax_CallBackArgument9=年龄 ID，未过滤则为空

　　Ajax_CallBackArgument10=年龄ID，如果不过滤则为空（你没看错，10和9指年龄，同一个ID）

　　Ajax_CallBackArgument18=页码，

　　可以通过过滤地址#year=2011&type=183&nation=275获取上述参数中的id。

　　优采云的批量/多页模式添加采集地址，Ajax_CallBackArgument18=(*)，如下图：

　　在“采集URL 规则”中，选择手动：

　　最后要注意采集控制的URL的线程和频率。在你采集几十个列表之后，mtime会要求你输入验证码，这很烦人。任何避免这种验证码的方法。

0

2022-02-09

不用采集规则就可以采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

不用采集规则就可以采集(采集电影资料筛选结果页面html中列表内容，疑似用一种)

0 个评论

发起人

AI时代内容工厂

不用采集规则就可以采集(采集电影资料筛选结果页面html中列表内容，疑似用一种)

0 个评论

发起人

相关问题