网站文章采集平台(有些网站需要用户登录才能显示相关信息,可靠性高方法 )

优采云 发布时间: 2021-09-29 10:20

  网站文章采集平台(有些网站需要用户登录才能显示相关信息,可靠性高方法

)

  有些网站需要用户登录才能显示相关信息,如果要采集这类网站,有以下几个方法:

  1.写发布模块来抓包获取post的数据;

  2. 有些采集器内置浏览器获取这些信息,但是经常获取的不准确,可靠性太低;

  3. 获取到登录后网站cookie ,用采集器模拟用户登录来采集;

  优采云采集平台使用第3种方法,操作相对简单,可靠性高。

  详细步骤如下:

  一、获取登录网站后的cookie方法 方式1---最简单的方法是通过现代浏览器来获取,以chrome为例:

  1. F12或右键检查进入开发者模式界面;

  2. 点击NetWork,F5重新加载页面;

  3. 选择对应页面名称的html文件;

  4. 获取cookie;

  

  方式2---还可以使用fiddler工具来进行抓取

  fiddler是介于客户端和服务器端的HTTP代理,也是常用的http抓包工具之一 。 它可以记录下客户端和服务器之间的所有HTTP请求,也可以针对指定的HTTP请求,进分析请求数据、设置断点、修改请求的数据,甚至还可以修改服务器返回的数据,功能十分强大,是网站调试的得力助手。

  fiddler官网下载:

  下载安装完成后,按照以下流程来操作:(本文章是基于Fiddler 4版本)

  1. 右侧显示页面中先选择Inspectors栏;

  

  2. 由于左侧显示页面已有许多访问网站的信息,我们接下先清空一下,方便接下来寻找指定的网页;

  可以用快捷键ctrl+x或者在左侧显示页面右键Remove------>>all sessions;

  

  3. 接下来登陆上需要抓取cookie的网站或者刷新已经登录的网页,就可以在左侧显示栏轻松找到网站的Host(网站域名)+ URL,以我这个

  例子,选取的就是这一条,注意URL内容是斜杠 / 的那一条信息;

  

  4. 右边显示栏选择raw栏,这时能看到获取的cookie了;

  

  5. 为了获取完整的cookie,我们点击右侧显示栏中间的view in Notepad,即打开记事本来获取完整的cookie;

  

  二、获取的cookie填写入优采云

  最后把获取的cookie和user-engent信息拷贝到采集器中,再打开详情提取器即可查看到之前隐藏的内容;

  优采云采集有三处入口可填写cookie:

  I、新建任务时,高级选项处:

  

  II、点击 “启动 | 定时采集 ” ,在网络配置中填上相关信息;

  

  III、详情提起器左侧列表的网络配置:

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线