整体解决方案:爬虫数据采集技术趋势－智能化解析

优采云发布时间: 2022-11-03 17:45

　　注：文章于6月29日发布于公司公众号。

　　写的感觉很好。转载到这里存档。

　　-------------------------------------------------- -------------------------------------------------- --

　　一句话总结爬虫工程师的工作就是我们构建世界的知识。

　　爬虫的工作

　　互联网作为人类历史上最大的知识库，结构不够完善。目前，互联网只是文本等一些多媒体数据的聚合。虽然内容很有价值，但程序不能使用那些非结构化数据。

　　2006年前后，有专家提出web3.0、语义互联网、知识共享。虽然现在 API 已经开放，SOA 的概念也越来越流行，但真正意义上的互联网时代似乎还很遥远。因此，爬虫仍然是最重要的手段。一端不断分析和汇总互联网上的数据，另一端将数据传输到各种应用程序。

　　现有爬虫开发技术存在问题

　　从招聘市场的职位需求可以看出，近年来对爬虫工程师的需求越来越旺盛。

　　个人判断有两个原因：

　　信息聚合是互联网公司的基本需求。

　　随着数据时代的到来，对数据的需求更加旺盛。

　　以下是一些依靠爬虫聚合信息的初创公司，按时间顺序排列：

　　最后5种，几乎都是2014年开始的。很多金融场景相关的应用已经开始出现，对准确性和可靠性提出了更高的要求。但是现有的爬虫开发技术能否满足高可靠、*敏*感*词*、高效开发的需求呢？

　　从软件工程的角度来看，如果一个事物不能被评估，它就不能被管理。爬虫开发经常被抱怨的原因之一是工作量经常无法评估。一般来说，软件项目的开发过程会随着时间的推移逐渐减少工作量，也就是所谓的倦怠效应。

　　爬虫开发生命周期如下：

　　爬虫开发主要有两个方面：下载网页和解析网页。解析网页约占开发工作的 80%。

　　下载网页功能的开发会涉及到IP限制、验证码等问题，问题在意料之中。同时，随着优秀爬虫框架和云服务器的普及，问题会更容易解决。

　　编写解析代码，虽然有一些基本的工具chrome和firecdebug可以使用，但是编写解析规则总是需要人工分析。无论是使用xpath、正则表达式、css选择器，都不能减少这部分的工作量。

　　大量重复性工作会导致两个问题：

　　即使相同类型的网页看起来 99% 相同，也需要编写单独的爬虫。这会给人一种印象，即爬虫开发中的大部分工作都是重复的。

　　数据源网页改版，几乎整个爬虫项目都需要重做。重做的工作量几乎是100%，爬虫工程师经常有10000只羊驼在里面跑。*敏*感*词*融场景的需求。

　　智能分析

　　这是新浪新闻的图片。

　　可以发现，新闻报道的事件的标题、发布时间和文字很容易直观地理解。自然我也觉得，我们能不能通过一些机器学习算法来达到自动解析的目的呢？这样就无需手动编写解析量，减少重复劳动。2008年开始，研究机构陆续发表相关论文。

　　~deepay/mywww/papers/www08-segments.pdf

　　/en-us/um/people/znie/p048.special.nie.pdf

　　也就是2008年，有一家相关的创业公司，在斯坦福大学孵化。

　　DiffBot智能数据采集公司

　　总部位于加利福尼亚的 Diffbot 由斯坦福大学*敏*感*词* Mike Tung 于 2008 年创立。Diffbot 使用人工智能技术，让“机器”识别网页内容，抓取关键内容，输出软件可以直接识别的结构化数据。其创始人兼首席执行官 Mike Tung 表示：“Diffbot 现在正在做与人类浏览网页时相同的操作文章，以找出页面上最核心的相关信息。” Diffbot 现已发布 Front Page API 和文章 API，以及 Product API。服务的客户包括三星、eBay、思科、美国在线等。

　　Diffbot 的想法是通过“视觉机器人”扫描识别不同的网页类型（主要是非结构化数据），然后将这些丰富的数据源用于其他应用。Mike Tung 说：“我们抓取页面后，我们对其进行分析，然后通过成熟和先进的技术对其进行结构化。” 我们之前提到的构建世界知识是公司提出的概念。

　　Diffbot在智能采集的基础上，开发了知识图谱、智能商业BI等众多数据产品。2016年，腾讯与硅谷风投公司Felicis Ventures领投了人工智能初创公司Diffbot的1000万美元A轮融资，众多互联网巨头开始发现这家公司的价值。

　　算法实践

　　以智能方式解析网页需要两个步骤：

　　基于视觉网页分割，将网页划分为若干视觉块。

　　通过机器学习训练来判断每个视觉块的类型，是标题还是文本。主流程与一般机需流程没有区别。这个就不详细解释了。使用的开源框架有：scikit-learn、phantomjs

　　Scikit-Learn 机器学习库非常成熟且易于上手。

　　phantomjs，是一个无头的 webkit 渲染引擎。做爬虫开发的同学应该是非常需要的。

　　网页分割算法

　　从早期Diffbot发布的文章来看，视觉块是通过图像处理来切割的。使用的算法包括边界检查、文本识别和其他算法。但这种方法计算量大，复杂度高。

　　另一种实现方式是基于 Dom 树结构导出所需的视觉特征。

　　聚合期间要使用的特征变量。与视觉相关的主要因素是页面元素的位置、宽度和高度，以及 Dom 的层次结构。

　　需要注意的一点是，现在许多网页都是动态生成的。您需要使用 phantomjs 工具进行动态网页渲染。

　　可以选择 DBSCAN 聚类算法。DBSCAN 算法的优点是划分得更密集。与 K-mean 算法相比，优点是它可以处理任何形状的聚合。

　　具体实现方法可以参考以下博文：

　　分类算法

　　经过第一步处理后，网页上的标签会被分成几类。需要确定标签的类型，是标题、文字、广告、导航等。需要整理出一个类似下面的训练矩阵。

　　整个学习过程与一般的机器学习训练过程没有区别。由于数据样本量小，采用分类算法的基本算法。分类算法可以选择朴素贝叶斯或SVM。

　　总结与展望

　　本文介绍的方法比较粗略。一般来说，解析模型只能针对特定网络训练解析模型，比如新闻和电商产品页面。因此，不同类型的网页需要不同的特征变量。对于不同类型的数据，你需要花费自己的时间去探索和实践。

　　随着数据化和智能化时代的到来，爬虫作为重要的数据来源，需要进行一些技术改进以适应时代的要求，这也对爬虫工程师提出了更高的要求。文笔很粗糙，应该作为指导。欢迎您留言讨论。

　　------------

　　汇总:7网上新闻资源自动采集系统

　　毕业设计（论文）开题报告材料 1.开题主题报告 2.文献综述 3.文献翻译随着互联网的飞速发展，人们获取信息的方式不再仅仅是从报纸或电视上获取。更多的人选择浏览互联网或通过手机获取。与前两种方式相比，后者更及时，信息量更大，传播范围更广。由此衍生出第五种媒体说法，也带动了相当多的周边产业的发展。这些优势的体现也需要强大的技术平台和相当数量的人员来支持。本文将通过资源采集的介绍，为搭建这样一个低成本的信息共享平台提供建议系统。一、新闻采集系统的现状动态网络技术的出现彻底改变了传统的互联网模式。它使网站管理员更容易更新其网站的内容信息。同时也让网络的应用更加丰富。使用动态 Web 技术实现的应用程序如雨后春笋般涌现。新闻采集系统也在那个时期开始发展。从最初的 ASP 版本到现在的多语言版本，虽然架构一次次更新，功能也越来越齐全，当然系统的设计目标并没有改变，自动采集资源的实现减少劳动力输入增加的成本。如今，消息采集系统技术已经非常成熟。

　　在百度输入“news采集system”可以找到近39.3万条信息，可见该应用的广泛性。尤其是一些新兴网站，主要以广告盈利为目的，如果你使用新闻采集系统，那么站长就不用担心如何更新内容网站，一旦设置好了，几乎可以“一劳永逸”。2. 项目背景通常为新闻专业或大型门户网站网站，有自己的新闻频道或专业的编辑人员，往往需要很高的成本。news采集系统（手机应用版）用于在资源比较匮乏的情况下，通过程序进行远程爬取。自动采集和资源共享，无需人工干预。一方面，一方面可以保证信息更加及时有效，另一方面可以提高工作效率，减轻编辑负担。为企业提供可靠的信息来源，降低可观的成本。3. 主流系统分析总体来说，目前的news采集系统比较成熟，主流的news采集系统基本可以实现以下功能： 1.向目标网站提供信息自动抓取，支持HTML页面中各种数据的采集，如文本信息、URL、数字、日期、图片等 2.用户可以自定义各类信息的来源和分类 3.支持4、使用用户名和密码自动登录。

　　传统新闻采集系统是基于WWW网站的。采集比 WAP 网站稍微难一些。因为 WWW 网站页面的内容比较复杂和丰富，而且最重要的是它没有类似 XML 的约束，所以网页源文件的格式内容可能会有很多错误由于编写者的疏忽，导致我们在抓取时，可能会遇到很多解析问题，比如缺少符号、无法匹配等。对于采集系统来说最重要的是能够以匹配您要抓取的内容。如果无法解析网页的源代码，就无法构建完整的目录树，即不完整的结构，很可能会导致我们偏离采集具体内容或采集不成功。因此，对于采集 WWW的网站，不仅要求采集程序的规则编写者有一定的判断力，还要求网站的编写者能够根据 W3C 规范编写页面。但是目前的情况是用户的浏览器往往可以排除大量的错误，所以会给真正的开发者一个错误的信号，说他的页面没有问题。这个时候，我建议将页面提交给W3C检查工具进行测试。，这是一个相对繁琐的步骤。WAP网站的优势在这个时候就体现出来了，因为它严格遵守这些规范，如果有无法匹配或识别的标签就会报错，这对于测试人员来说无疑是个好消息。将大大降低测试成本，加快项目建设。对于采集程序的开发者来说绝对是个好消息，我们在编写规则的时候不用考虑太多的意外情况，这也为我们项目的提出奠定了一定的基础。

　　当然，随着移动上网的普及和3G网络的建立，越来越多的人已经习惯使用手机获取信息。这已经成为一种趋势。也许将来电脑会被手机取代。网络最终将取代现有的布线。我们抓住这种形式，将基于移动浏览器平台开发浏览内容。我们采集的对象也是WAP网站，可以将内容无缝嵌入现有栏目，真正实现即时抓取即用。二、研究的基本内容、主要要解决的问题 1、功能规划 1、新闻信息化的过程。阅读新闻时，需要保持一个连接，需要分析各种网络连接情况，而系统维护者需要为特殊页面定制一套规则来解析每一个需要的信息部分，而这套规则必须满足一定的规范。我们会针对一些任务制定规则规范： 1. 页面地址：列表的入口地址 2. 附加参数：详细内容地址的一些附加参数（例如：显示全文） 3. 列表规则（常规表达式）： 1. exceptWords：用于替换列表中不需要的字符 2. TextRegEXP：用于过滤新闻项（包括：链接和地址） 4. 内容规则（正则表达式）： 1. ImgRegexp：用于获取地址新闻图片 2.TextBegMark：用于标记文章内容的开始 3.TextEndMark：用于标记文章内容采集的结束，

　　文字主要是编码的问题，图片需要考虑压缩和格式的问题。我们暂时考虑采集 JPG和GIF这两种格式，因为这两种是手机上最常用的。图像在网络上捕获并下载到本地后，需要保持格式的一致性。由于JPG和GIF的压缩编码算法不同，需要分别处理。二、功能设计 1、任务配置模块任务配置是整个系统最重要的部分。新闻采集系统正常工作的第一个前提是配置好每一个采集任务。任务配置包括目标地址和页面规则的定义，力求将用户的' s 文本定义成更严格的正则表达式，保证采集内容的正确性。2、采集功能模块采集的过程主要是分析资源并添加到我们的数据库中的过程。采集进程要充分考虑资源的正确性和完整性以及采集进程的稳定性。确保资源的正确编码和流程的透明度。3.资源检索模块采集的资源是我们的终极目标。我们需要从采集中实现对资源的搜索、查询、编辑等操作，并且可以对资源进行过滤和控制。4.统计模块可以根据任务的分类实时监控采集的进度和进程，让用户及时掌握采集资源的状态。节省。三、研究步骤、方法和措施 1、系统配置程序的运行和维护需要一系列的配置，这些配置对整个系统至关重要。

　　组态人员需要有一定的计算机技术基础。最终的程序能否捕捉到想要的信息，离不开系统配置和一系列的测试。2、存储接口为了考虑到系统可能在不同的数据库环境中使用，我们选择了数据库框架，这将极大地方便系统的二次开发和数据库的更换。系统使用ibatis作为数据库访问框架。这也是一个开源框架，相对于hibernate来说是轻量级的，我们这里之所以使用它是因为它比hibernate的操作粒度更小，以提高我们数据库的存储效率。3.调度任务我们的系统是由任务驱动的，每个采集目标就是一个任务。维护者需要做的是维护任务和制定计划。这个计划任务类似于调度安排，这样我们的任务调度框架就可以实现任务控制。4、日志系统在网络中有很多不确定因素，经常会导致程序超时等，我们需要一个强大的日志系统来记录这些问题，维护人员也需要对日志进行分析以确定错误原因。5、统计系统采集资源必须有完整的统计机制，记录当前或历史记录。如果需要开发绩效评估系统，统计系统将提供完整的可维护性文件。6.内容检索通过内容检索模块，可以实时获取当前存储信息，以便管理员可以删除或修改内容。其功能类似于新闻管理系统的后台，可以有效控制抓取到的信息。

　　新闻采集系统架构图 4. 工作进度 5. 序号 6. 时间 7. 内容 8. 1 9. 08/12/11-09/01/12 10. 选题，熟悉相关内容课题背景 11. 2 12. 09/01/13-09/02/19 13. 英文翻译，学习相关技术学习，开题报告 14. 3 15. 09/02/20-09/02/27 16.开盘 17. 4 18. 09 /02/28-09/03/15 19. 完成整体设计 20. 5 21. 09/03/16-09/04/03 22. 完成程序编码 23. 6 24. 09/04/04-09/04 /10 25. 中期检查 26. 7 27. 09/04/11-09/05/01 28. 完成相关文件 29. 8 30. 09/05/02- 09/05/22 31. 撰写毕业论文初稿 32. 9 33. 09/05/23-09/05/29 34. 修改毕业论文 35. 10 36. 09/05/30-09/06 /05 37. 防御 38. 主要参考文献 1. Quartz - QuickStart [EB/OL].1. Httpclient 用户文档。[EB/OL]。iBatis for Java 用户指南。[EB/OL]。-14。《开源技术选型手册》编委。开源技术选择手册。电子工业出版社。2008 年 5 月 15 日。孙维钦。Java 网络编程（第 3 版）- O'Reilly Java 系列。电子工业出版社。2007 年 3 月 16 日。孙维钦。JAVA 面向对象编程。电子工业出版社。2006 年 7 月 17 日。埃克，陈浩鹏。Java 编程思想（第 4 版）。机械工业出版社。2007 年 6 月 18 日。块，潘爱民。有效的Java。机械工业出版社。2003 年 1 月 19 日。Goetz (Goetz, B.).JAVA 并发编程实践。电子工业出版社。2007-6-110。于成浩。JAVA多线程设计模式。中国铁道出版社. 2005-4-1 六。在“自动采集系统”课题中，通过有针对性的文献阅读，在开题报告的准备过程中分析理解，基本明确了本次毕业设计的总体需求和具体任务，基本提出了系统设计思路和期望。目标方面，开场报告内容比较齐全，内容和格式基本符合要求。

　　同意开篇。指导教师签字：2009年2月27日 7、系、处、部（所）意见： 1、适合本专业的毕业项目；2、毕业项目不适合本专业；3、其他部门、办公室、部（所）主任签字：日期，8日。开题组意见：开题组组长签字：日期，9日，学院领导（答辩委员会）审核意见：1. 2.通过；2、改进后通过；未通过院领导（答辩委员会）签字：日期、日期、毕业项目（论文）、杭州电子科技大学、文献综述新闻采集系统技术与研究新闻采集系统有一直因其高效率、低成本受到众多站长的青睐，尤其是在这个信息爆炸的时代，如果能及时掌握信息，就可以先占优势。虽然这是一个比较热门的应用，但是网上对这方面的介绍比较少，也没有相应的规范。，导致该领域没有系统的知识结构和完整的文档资源。其实新闻采集的主要工作不仅仅是采集的流程，还有整个流程和任务的管理和内容的分类。涉及的主要技术有多线程技术、网络编程、数据库编程和正则表达式的应用。多线程编程能力是衡量一个程序员能力的重要指标。尤其是当计算机硬件配置越来越好时，更需要程序员充分调动和利用系统的资源，充分发挥系统的性能。正确使用多核编程和多线程编程技术无疑可以提高程序的执行力。效率并提供更好的用户体验。

　　[1] 自互联网诞生以来，这项革命性的技术给世界带来了翻天覆地的变化。无法想象没有互联网的世界会是什么样子。网络作为载体，承载着各种应用。而这一切都离不开网络编程，它的普及是必然的，尤其是“云计算”的概念，未来所有的应用都可能离不开网络。JAVA语言本身就是为网络而生的。非常适合网络编程。强大的基础类库让开发者可以轻松开发网络应用。在新闻采集系统中，网络编程也是重要的一环。我们需要使用网络来采集新闻资源，这无非是非常考验JAVA网络编程的稳定性和效率的。[2] 正则表达式的历史可以追溯到1840年代，它出现在理论计算机科学和自动控制理论和形式语言理论中。那么什么是正则表达式？维基百科是这样定义的：在计算机科学中，描述或匹配符合特定句法规则的字符串序列的单个字符串。正则表达式，通常称为模式，用于匹配符合特定语法规则的字符串序列。在许多文本编辑器或其他工具中，正则表达式通常用于检索和/或替换与模式匹配的文本。许多编程语言都支持使用正则表达式进行字符串操作。从这里，

　　[3] 这听起来可能有点复杂和深奥，但在我们的日常生活和学习中，我们需要在不经意间使用它。例如，在编写处理字符串的程序或网页时，往往需要找到符合一些复杂规则的字符串。这时候就需要正则表达式了。就像我们要开发一个新闻采集系统一样，第一步就是解析目标页面，对文档进行正则化，并根据我们的规则从中提取有用的数据。通常在这个过程中，目标页面是复杂且不可预测的。这要求我们能够编写一个可应用于更改的正则表达式，以正确提取我们需要的数据。如果没有正则表达式，我们可以实现它...

0

2022-11-03

智能采集组合文章

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

整体解决方案:爬虫数据采集技术趋势－智能化解析

0 个评论

发起人