如何在一个网页中识别文章标题(1)_光明网
优采云 发布时间: 2021-07-05 03:06如何在一个网页中识别文章标题(1)_光明网
网站采集,就是从网站页面中提取指定的数据。手动方法是打开网页,开始Ctrl+C Ctrl+V复制粘贴。人工方法采集数据最准确,但效率最低。因此,期望计算机能够自动执行手动操作,完成数据采集的工作。 Ctrl+CCtrl+V的自动执行需要一定的引导操作,比如:电脑需要打开哪个页面,需要复制哪些信息,复制的信息应该粘贴到哪里?这些都是手工操作时必须制定的操作。转换成电脑的时候,你也必须知道电脑是这样运行的。因此,需要配置一些规则来指导计算机的操作。这种规则组合在网络矿工中称为“采集task”。从上面的描述我们知道采集任务至少要收录网页地址和网页数据复制规则。网页地址很容易理解。每次我们打开一个网站,都要先输入一个地址。该地址称为“Url”。输入Url复制数据的规则:手动复制数据容易,人工智能? ,识别需要采集的数据很容易,但是对于电脑来说,就有点困难了。电脑不知道它要什么数据采集?必须手动告知计算机采集 数据规则。比如我们需要采集文章title,那么我们就需要告诉电脑如何识别网页中的文章title并准确采集。在这个引导过程中,计算机可以理解的方式有两种(当然还有其他方式,比如:计算机智能): 根据字符串获取的规则,引导计算机采集数据:一个网页浏览器 浏览器解析一个大字符串后显示的结果。这个大字符串就是网页的源代码。任何浏览器都可以查看网页的源代码。打开网页的源代码后,通常可以在网页的源代码中找到该网页(注意:通常是)。显示的内容自然也能找到文章title。找到文章标题后,告诉电脑采集标题数据。规则是:从哪个字符到该字符的结尾,举个简单的例子:“