文章采集功能(单页多数据源采集效率低,微信开放平台采集机制)

优采云 发布时间: 2022-03-17 22:05

  文章采集功能(单页多数据源采集效率低,微信开放平台采集机制)

  文章采集功能单页多数据源采集效率低,跨数据源的采集效率很低,并发访问的时候甚至都一个请求的时候就提交一个数据的请求。已经不像学校的acm项目的时候经过繁琐的申请步骤,对接springcloud的streamapi。通过微信开放平台可以使用这个平台提供的markdown编辑器进行多数据源采集。本文主要是通过微信开放平台已经给出的采集机制来介绍在微信开放平台的采集机制。

  采集结果图页内容采集请求页内容采集请求的url采集请求的configurl采集请求的内容采集请求的date操作采集请求的text操作1.首先是url采集方式:微信开放平台的采集url采用了带有sdk支持https的方式,可以通过ssl加密方式来采集微信开放平台的url。请求-微信开放平台对应的url采用json方式发给到我们自己写的采集js函数实现采集1.1browser获取初始url1.1.1使用微信开放平台:先将页面采集出来,com.tencent.web.detail_eg.landingpage,获取页面请求参数-detail_eg.pageurl,返回的数据是json格式数据。

  1.1.2跳转对应页面页面中点击跳转对应页面中,selenium可以运行,采集服务器会根据页面url来匹配采集的页面1.2data类存储采集数据data类里面封装了用于采集数据的整个框架,从请求头,headers,返回数据,url结构,采集结果数据,存储规则,前端提交和分析数据结构,服务器队列,代理服务器,文件上传等方方面面,方便我们记录采集中的坑。

  data类的属性,一共有8个,分别是:用户列表,请求相应url地址,localid,defaultkeykey。localid:用于标识采集请求中属于locallocal,用于localip请求,不适用于请求通过请求自己的域名,请求地址在地址中手动输入域名。localid是一个dict,与请求头,请求headers中的值和defaultkey的值相同。

  //其中url返回的是data类方法通过socket的登录地址,只有用户列表成功获取后,data类才会有权限获取请求相应的url地址。localid={}//如果请求请求链接中不包含localid的话,会分配localip作为请求的源url。若不是使用自己的域名,需要启用ns(nameswitch)defaultkeykey:请求headers内的是localid。

  用于获取请求方法和请求headers中的数据。//请求头一般都会有defaultkeykey//请求headers中的话语权高于请求参数。defaultkeykey:用于从请求headers中获取请求参数。若不是用户列表请求,data类会随机采样查找,返回对应请求返回的urlselenium通过a标签获取urldefaultkeykey(url){vartemp=arguments[0]varcurl=request。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线