从Docker到K8s,业务容器化遇瓶颈怎么办(图)
优采云 发布时间: 2021-07-19 07:04从Docker到K8s,业务容器化遇瓶颈怎么办(图)
从Docker到K8s,业务容器化遇到瓶颈怎么办? >>>
网络爬虫有很多种。下面是一个非常粗略的分类,并说明了网络爬虫/数据提取/信息提取工具包MetaSeeker中的爬虫属于哪个类别。
如果按照部署的地方来划分,可以分为:
1.服务器端:一般是多线程程序,同时下载多个目标HTML,可以使用PHP、Java、Python(目前比较流行)等,一般集成搜索引擎爬虫都是这样做的。但是,如果对方讨厌爬虫,很可能会封掉服务器的IP,不容易更改,而且消耗的带宽也相当昂贵。
2、Client:非常适合部署固定主题的爬虫,或者专注的爬虫。与谷歌、百度等竞争的综合搜索引擎成功的机会很少,而垂直搜索或比价服务或推荐引擎的机会要多得多。这种类型的爬虫不会抓取所有页面,而只会抓取您关心的内容。页面,只抓取页面上你关心的内容,比如提取黄页信息、产品价格信息、提取竞争对手的广告信息等。这种爬虫可以部署很多,而且攻击性很强,对方很难拦截。
网页爬虫/数据提取/信息提取工具包MetaSeeker中的爬虫属于客户端固定主题爬虫(产品特性更详细),可以低成本大批量部署。由于客户端IP地址是动态的,很难被目标网站拦截。
我们只讨论固定主题的爬虫。普通的爬虫要简单得多,网上也有很多。如果按照如何提取数据来划分,可以分为两类:
1.通过正则表达式提取内容。 HTML 文件是一个文本文件。只需使用正则表达式提取指定位置的内容即可。 “指定地点”不一定是绝对定位。例如,您可以参考 HTML 标签定位。 , 更准确
2、使用DOM提取内容,HTML文件先转换成DOM数据结构,然后遍历这个结构提取内容。
可能有人会问,为什么还要用DOM的方法,把它翻过来呢? DOM方法存在的原因有很多:一是不用自己分析DOM结构,有现成的库,编程不复杂;其次,可以实现非常复杂但灵活的定位规则,而正则表达式很难写;第三,如果定位是考虑到HTML文件的结构,用正则表达式解析起来并不容易。 HTML 文件经常有错误。如果把这个任务交给现成的图书馆,那就容易多了。第四,假设要解析Javascript的内容,正则表达式是无能为力的。当然,DOM方法本身是无能为力的,但是利用某个平台的能力,提取AJAX网站内容是可以的。原因有很多。
网页抓取/数据提取/信息提取工具包MetaSeeker中的爬虫使用DOM方式。它使用 Mozilla 平台的功能。只要火狐看到就可以解压。