解决方案:使用优采云 采集器采集大众点评商家数据.docx 12页

优采云 发布时间: 2022-11-23 11:26

  解决方案:使用优采云

采集器采集大众点评商家数据.docx 12页

  在采集器中打开,红框内的列表就是我们需要采集的信息 使用优采云

采集器采集大众点评业务数据 图3 Step 2: /article/javascript:; 创建翻页循环找到翻页按钮,设置翻页周期 1)将页面下拉到底部,找到下一页按钮,点击鼠标,在右侧的操作提示框中,选择“循环”点击下一页”,使用优采云

采集器采集大众点评业务数据 图4 Step 3: /article/javascript:; 商户信息采集 选择需要采集的字段信息,创建采集列表,编辑采集字段名称 1)如图,移动鼠标选中列表中的商户名称,右击,

  

" />

  2) 移动鼠标选中红框中的任意文本域后,列表中所有适配的内容都会变成绿色。在右侧的操作提示框中勾选提取的字段,删除不需要的字段,然后点击“全选” 使用优采云

采集器采集大众点评业务数据 图6 注: ? 当鼠标放在该字段上时,会出现一个删除图标,点击可删除该字段。使用优采云

采集器采集大众点评商户数据 图73)点击“采集以下数据” 使用优采云

采集器采集大众点评商户数据 图84)修改采集字段名称 使用优采云

采集器 采集大众点评业务数据 图95)点击下图红框中的“保存并开始采集” 使用优采云

采集器采集大众点评商家数据 图106)根据采集情况选择合适的采集方式,这里选择“开始本地采集”使用优采云

采集器采集大众点评商户数据 图11所示:本地采集占用当前电脑采集资源,如果有采集时间要求或者当前电脑长时间无法采集,可以使用云采集功能,云采集在网络中进行,无需当前电脑支持,电脑可关闭,可设置多个云节点分担任务。10个节点相当于10台电脑分配任务帮你采集

,速度降低到原来的十分之一;采集的数据可在云端保存三个月,并可随时导出。第 4 步:/article/javascript:; 数据采集​​导出 1)采集完成后会弹出提示,选择导出数据使用优采云

采集器采集大众点评业务数据 图122)选择合适的导出方式,并采集好数据导出使用优采云

采集器采集大众点评业务数据 图13优采云

——70万用户选择的网页数据采集器。

  

" />

  1、操作简单,任何人都可以使用:不需要技术背景,会上网就可以采集

数据。流程完全可视化,点击鼠标即可完成操作,2分钟即可快速上手。2、功能强大,任何网站均可采集:对于点击、登录、翻页、识别验证码、瀑布流、Ajax脚本等异步加载数据的网页,通过简单设置即可采集。3.云采集,关机也可以。采集任务配置完成后,可以关机,在云端执行任务。庞大的云采集集群24*7不间断运行,无需担心IP被封、网络中断。4.功能免费+增值服务,可以根据需要选择。免费版功能齐全,可以满足用户的基本采集

需求。同时设置一些增值服务(如私有云),以满足高端付费企业用户的需求。优采云

·云采集服务平台

  解决方案:码农节快乐|一个系统,高效解决复杂事件采集-计算-实时触达

  1个

  第一部分:第 1024 周年快乐

  今天是1024,一个特殊的数字。比如某网站的解压密码,一般都是1024,如果要*敏*感*词*留言,也是1024。1024是广大码农的节日。在这样的节日里,各种“黑”节目猿的新旧笑话会陆续出现在各大媒体网站上。为什么程序员属于经常被黑的群体?凌乱的发型、黑框眼镜、背包、格子衬衫、牛仔裤、运动鞋,钱多话少,是很多人眼中程序员的形象。

  程序员之所以经常被黑,也是因为他们喜欢黑自己,但程序员真的是他们所描述的那样吗?

  除了钱多话少是对的,其他的也不完全对。比如我穿国际名牌‘优衣库’,喝酒,烫头发,不抽烟,但我只是一个二流程序员。在闲鱼,顶级程序猿长这样。

  程序员接到最多的需求:这是老板的需求。程序员代码发布时间:明天。程序员写的bug:怎么会有bug。1024 祝所有程序员节日快乐,继续加班写bug!!!

  2个

  第二部分:这真的是一篇技术文章

  闲鱼作为闲置物品交易平台,让用户的闲置物品再次价值流通,让每一位用户受益。考虑以下业务场景:

  <p>场景1:在闲鱼的一次活动中,用户进入活动会场后,浏览了几个不同的宝贝,就会奖励一个包邮券。

  场景2:用户关注的用户宝贝降价了,实时告知用户该降价信息。

  场景3:在用户搜索租房后,并浏览N个租房信息,则为其推送一套合适的房源。

  场景4:双十一会场活动,用户进入会场,点击商品详情,对其发送优惠。</p>

  像这样的企业还有很多。如果每次都逐个解决,不仅重复施工,而且浪费人力。程序员最大的优点就是懒惰。他们喜欢将看似不同的交易抽象出来,找出它们的共性,进行归纳和演绎,设计一个结构来解决相似场景下的众多业务,减少重复性的工作。工作。架构的设计是有套路可循的。然而,虽然了解了很多架构原理和设计理念,但在实际操作过程中往往容易空口。这是设计架构的例程。:定义系统要解决的问题-&gt;系统设计目标-&gt;核心设计-&gt;各子系统模块详细设计。

  系统解决的问题定义

  问题的定义从要解决的业务场景开始。以上业务场景的共性是什么?一句话概括为:“用户的一系列操作在满足一定的复杂规则和条件后,实时达成相应的权益。” 这里有个要求,就是要“实时”,能够秒级到达用户。因此,系统解决的问题可以定义为:一个能够处理复杂规则事件的实时触控系统。

  系统设计目标对于业务场景有一个问题定义,如何设计一个架构来解决这个问题,在设计之初,老大给出了一些目标要求:

  

" />

  <p>1.技术与业务分离,构建技术组件和能力,组合后实现业务需求;

  2.事件的数据格式需要结构化和标准化,支持扩展;

  3.规则的表达定义类似SQL的申明式DSL,贴合业务领域;

  4.客户端和服务端有各⾃的行动触发能力,⽀持扩展开发;客户端支持服务端驱动;

  5.触发和计算分离,计算模式插件化;</p>

  系统设计的目标是保证最终的实现不会和最初的想法有太大的偏差。有一个措施。合理情况;第二,项目的验收可以根据这个目标来判断,这是合理的。

  核心内容设计

  核心设计步骤是对基本功和技术眼光的考验。需要根据设计目标综合判断、权衡、选择当前最优解。在系统的设计目标中,其中之一就是标准化。标准化最大的好处就是可以统一连接,不变。互联网是一个才发展了不到30年的行业,但是这个行业已经发展了上百年。互联网行业的很多问题,在行业内已经有了标准化的定义。在技​​术方案资料的采集

中,RFID(Radio Frequency Identification)流式处理复杂事件的方案进入了我们的视野[参考文献1]。

  RFID系统信息架构

  该行业场景中的问题定义具有标准化和通用性,其核心内容包括三个模块:数据采集模块、复杂事件处理模块、结果触发对应时间模块。这样的设计正好契合了我们的业务场景需要解决的问题。结合自身业务,我们将其定义为“日志采集模块、复杂事件实时处理(EPL)模块、结果传递模块”。核心架构图设计如下:

  核心架构图

  这三个核心模块都是通过异步消息进行通信的。目的是各个模块可以解耦,即可以独立使用,也可以作为一个整体提供。通过日志采集模块,进行日志采集和归一化,得到输入数据;然后进入EPL模块进行规则定义和计算;最终结果进入reach模块到达用户的结果。下面分别介绍这三个模块的详细设计。

  子系统模块的详细设计

  日志采集模块

  闲鱼的系统架构入口应用很多,而且也是异构的(java应用、dart应用、Fass应用)。我们做了一个*敏*感*词*来屏蔽这些应用的细节,进行统一的拦截处理。经过统一的请求拦截层,所有的请求日志都写入SLS。

  但是这些日志的格式千变万化,给下游的业务处理带来很大的不便。因此,需要将原有的日志数据清洗成统一的格式。同时,这个清洗任务需要随着原创

数据的变化支持可配置性。我们使用 blink 来实时清理原创

数据。同时,我们在 blink 任务中嵌入了一个 UDTF。这个UDTF连接到动态配置平台,支持清洗任务的可配置性。blink清洗后的数据格式归一化为:

  规范化格式的数据通过rocketMQ和SLS向下游输出。这里提一下为什么要通过两个数据通道输出:rocketMQ对于线上业务接入非常方便;SLS 对下游 Blink 任务的实时并发计算速度更快。

  EPL引擎模块

  EPL模块,在之前的文章中已经详细讲解,这里不再赘述。这里提到我们设计这个DSL的目的和目标。

  1.简化本业务领域的书写。

  2.统一云/端表达。

  

" />

  3、这种写法应该作为blink的一般抽象表达。

  4. DSL应尽可能符合行业规范。

  在最终的DSL实现中,一个task的编写只需要5行左右,但是如果使用blink代码来实现,至少要几百行。我们与blink合作,将DSL作为blink上层业务的抽象表达来推广,可以扩展blink的使用范围。同时,DSL的设计并不是天方夜谭,而是基于这两篇论文[1][2]的设计,并尽量符合业界的规范。同时,这里的EPL引擎模板,除了云计算,还包括端测计算能力。后续会有此内容的文章,敬请期待

  结果到达模块

  结果接入模块包括EPL计算结果的处理,支持可配置和定制,提供“push、poplayer、openPage”等基础接入能力。后面会有详细的文章介绍,敬请期待。

  应用效果

  业务方接入只需3步:1.配置要获取的日志数据,2.使用DSL编写任务规则。3. 配置可达性。无需开发一行代码,通过配置半天即可上线业务。同时,从上游数据采集-&gt;计算-&gt;结果到达,整个链路仅需10s即可完成。

  总结与展望

  我们使用*敏*感*词*来解决很多异构应用的日志采集

问题,然后使用可配置的blink任务来清洗原创

日志数据并输出标准化格式的数据。然后根据行业规范设计了自定义DSL,方便编写复杂的规则任务,配合blink无缝对接blink实时计算平台进行任务计算。计算出来的结果只需要配置到达端到端的push/poplayer/openPage即可。目前,我们的这款科技产品已经接入了十余家商家,线上运行稳定,接入效率大大提高。

  未来我们会进一步加强DSL的表达能力,同时对接接入端的计算能力,让一些满足终端测试直接计算的业务场景在实时性上得到进一步提升. 同时结合算法能力挖掘潜在商业价值。

  参考:

  1.【SASE: Complex Event Processing over Streams】

  2.【面向RFID的复杂事件描述语言的研究与应用】

  闲鱼团队是Flutter+Dart FaaS前后端一体化新技术的行业领先者,就是现在!面向社会招聘客户端/服务端java/架构/前端/质量工程师,立足杭州阿里巴巴西溪园区,做有创意空间的社区产品,做有深度和顶级的开源项目,拓展技术边界做到极致!

  *投简历给小闲鱼→

  开源项目,峰会直击,关键洞察,深度解读

  请认准闲鱼科技

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线