网页抓取解密(的技术架构相关知识(图))
优采云 发布时间: 2021-12-20 05:11网页抓取解密(的技术架构相关知识(图))
本次采访的对象是技术总监杨光。负责9466智能建站平台。本次WOT软件技术峰会,将分享9466技术架构相关知识。敬请关注!
【讲师简历】
杨光,2005年毕业于西北大学,从物理系转入软件学院。同年加入并从事新一代战略ERP产品U9的研发,这是国内第一款基于SOA架构的大型商业软件。2010年加入腾讯,在手Q浏览器团队工作,负责浏览器后台整体运营体系建设。2013年加入与钟胜辉共同打造9466智能网站建设平台。
以下是采访记录:
记者:9466网络助手是什么时候推出的?开发的初衷是什么?使用了哪些新技术?开发过程中遇到了哪些困难,又是如何克服的?
杨光:9466第一版于2013年10月上线,自上线以来一直处于公测阶段(需要邀请码)。我们仍在打磨我们的产品。
当初开发这个产品是为了彻底解决网页问题和网站生产烦恼。因为目前做网页还是网站,还有很多知识需要理解,比如:创意、设计、页面制作、素材制作、样式定义、数据读写等等. 要制作页面,需要各种技能。对于新手用户来说,这个问题就更加突出了。然而,在这个领域有很多需求。于是就有了这个想法,目的是利用9466平台,任何人都可以轻松做出漂亮的网页。
本产品是一款非常前端的产品,技术难度和积累主要在前端,比如:响应式设计、按需加载、异步事件等等。因为我们的设计师是一个所见即所得的操作体验,所以设计一个合理的模型来模拟网页上的这种原生操作是非常重要的。在这方面,我们花了很多时间,多人协作和讨论。经过几个版本,不断优化,终于在体验和浏览器执行性能上有了不错的表现。
记者:您认为9466网络助手最大的亮点是什么?
杨光:我个人认为9466最大的亮点是:开放性。我们有一个非常强大的设计引擎。这个引擎不仅仅是传统意义上的所见即所得,而是一个可以拖拽设计的操作界面。动力是这台发动机是开着的。通过引擎,可以组装各种组件、应用程序、模板和样式。只要满足既定规范,任何第三方都可以开发各种组件以嵌入 9466 平台。这样,9466平台就相当于胶水,任何有优秀创意和实现的第三方都可以通过平台贡献自己的价值,服务他人。
记者:目前9466网络助手的模板有专题模板、企业网站、个人网站三种。哪种类型的模板更受欢迎?新模板的更新状态如何?
杨光:目前抄题目和企业模板的人比较多。我们将在不久的将来研究这个主题。现有功能的优化和新功能的加入,会更好的贴合话题制作的场景。因此,主题模板将在不久的将来更频繁地更新。
记者:对于9644网络助手的发展前景,您怎么看?您认为哪些方面需要改进?
杨光:9466的发展前景是毋庸置疑的,因为只要有网页,就会有大量的网页制作需求。这是一个刚性需求,并没有得到满足。迫切需要这样一种有用的产品来填补这一空白。而且,Wix等几家国外大公司已经上市,市值7.5亿美元。Weebly 刚刚获得了红衫军和腾讯的联合投资。中国还没有垄断企业,大家还在竞争。
记者:最后一个问题,就您而言,您比较关注的技术领域是什么?您预测2014年会流行哪些新技术?
杨光:我的顾虑比较复杂,我不说2014年哪种技术会流行。但除了工作,我对人工智能更感兴趣。我和电脑打交道的时间越长,我就越觉得电脑比起人类来说太愚蠢了。对于人类来说,一个非常简单的问题需要非常复杂的算法才能由计算机来解决。比如腾讯之前的QQ浏览器,对于抓取到的网页,需要分析哪些是核心内容(如文章文字),哪些是杂质(如广告)。对于人来说,这样的事情再简单不过了。但是对于电脑来说,要能够适应所有的网页,真的很难。我们还采用了基于视觉的块分析方法,使用类似于人类观察的逻辑进行分析,效果得到了提升,
我总觉得现在人工智能的发展太依赖电脑了。即冯诺依曼计算系统。或许在这个系统中,根本就没有人工智能,只有模拟智能。神经网络算法很复杂,但能解决的问题还是很有限的。