汇总:网页数据抓取之自动分类功能
优采云 发布时间: 2022-11-29 20:25汇总:网页数据抓取之自动分类功能
我们在使用优采云
采集器进行数据采集时,需要将采集内容中包括某个字段在内的所有内容替换为某个固定的内容。使用场景比如:我们从一个网站上采集
城市名称,然后城市名称示例是:浙江省杭州市,但是我们需要把这个内容替换成杭州,然后我们就可以使用自动分类功能了。
下面以百度为例介绍使用方法。首先在优采云
采集
器V9中创建一条规则,编辑内容采集
规则的标签如下:
如上图所示,我们要将收录
百度的标题内容替换为“常用搜索站点”,则写成如下格式:
" />
运行结果为:
以上就是在抓取数据时自动对一个字段的所有内容进行分类的方法。在操作中,还需要注意:
" />
1.一行一个类别,可以写多个类别。如果一个关键词遇到多个分类,则优先替换上面的分类,按照从上到下的原则替换优采云
采集
器。
2、如果所有的分类都不匹配,你想赋值关键词作为默认值,如下图:
学会数据抓取的自动分类操作,对收录
相似字段的内容进行分类会方便很多。我们也试试吧。
汇总:网站采集(根据正则表达式截取需要的html数据)
网站采集
(根据正则表达式拦截所需的 HTML 数据)。
" />
所有网站都可以通过URL地址获取网站编译好的HTML源代码,具体如下:所需的命名空间:使用System;使用System.采集
s.Generic;使用System.Text;使用System.Diagnostics;使用System.Text.RegularExpressions;使用 System.IO;使用 System.Net;///获取网页的源代码/// /
//
" />
网
发表于 @ 2012-01-31 16:22沈锋阅读 (4124)评论 (0)编辑