解决方案:云优cms采集插件领域和技术领域,如何完成上述工作

优采云 发布时间: 2022-12-20 06:10

  解决方案:云优cms采集插件领域和技术领域,如何完成上述工作

  云优cms采集插件领域和技术领域,不乏优秀的cms产品,如:国内的e店宝,一品威客,新派,凡科。国外的inhouse,osphere等。在其中选择上,有些特点:一个是常规方案如mms爬虫采集库+ebda,部署过程比较麻烦。另一个是云优的cms产品有扩展性好的通用产品,譬如client采集库等云优的seo插件、淘宝app、网页入口存取插件等。

  还有mesh方案以及ddcp方案可以应用。云优产品易上手、灵活、性价比高,所以也是大家应用普遍的一个原因。今天有一个要求,需要支持idm报文以及ifds报文,以及一个协议,接着还要满足cdn覆盖率的要求。没有idm报文,是无法入库的,这里同时提供了idm跟ifds报文配置。今天的讲解偏重业务,如何来完成上述工作。

  

  需要说明的是,我不仅仅提供了文档,对于任何一个稍微懂点的人员,照着做一遍就行。当然,如果会给出代码,那就更方便很多了。另外,这里提供的代码没有对于云优跟idm方案相关的接口说明,如果要了解,可以找我要。接着上面需求,mms挖掘以及协议业务处理。这个以后会有第三篇文章继续介绍。mms要做过程中,需要代码有效性来完成挖掘mms过程中所有相关事务上传、查询事务安全问题。

  安全问题解决方案可以利用igmp或者profill来改善。官方对于流式的处理有较多的方案以及相关资料。本篇文章仅选取基于httprestful请求的流程,然后,针对mms以及idm协议方案进行数据转化。流程上面数据调取是发生在php或者jsp方案,因为服务器采用了nginx或者tomcat等进行反向代理。

  

  本文以基于php的方案为例。传统的php数据调取流程,是通过来查询html的embedding。这种方案服务器压力较大,而且很容易会让页面出现pagetoolarge情况,甚至出现页面打不开的问题。而基于php的服务器一般都是挂载好了php_nginx服务,embedding请求是通过php_nginxpost或者php_nginxget请求的,这个post请求本身是不会出现任何问题的。

  但是因为embedding方案其实是一个原生的http协议方案,在最终对服务器压力有限制的情况下,php对于这个协议本身是不支持的。实现问题,需要利用php_http_referer_push,再将请求包装成一个post请求,在soup源代码中使用preparedurl返回body,用urllib来验证请求内容。

  这里面利用preparedurl调用url函数,在本地可以直接转换,apache等服务器端进行包装,所以会比本地转换报错更多。再开始注册等功能,然后返回一个完整的sql,就可以将请求返回给最终的浏览器了。如果不是很熟悉这一。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线