网络爬虫的数据预处理
优采云 发布时间: 2020-08-08 20:47原创链接
提取的数据不能直接使用?该文件尚未下载?格式等是否不符合要求?不用担心,网络抓取工具优采云采集器具有自己的解决方案-数据处理.
图片1.png
Web爬网程序的数据处理功能包括三个部分,即内容处理,文件下载和内容过滤. 让我依次向您介绍:
1. 内容处理: 为了进一步处理从内容页面提取的数据(例如替换,标签过滤,分词等),我们可以同时添加多个操作,但是请注意,如果有多个操作,按照上一步的顺序执行上述操作,即,上一步的结果将用作下一步的参数.
下面让我们一一介绍:
①提取的内容为空: 如果以前的规则不能准确提取提取的内容,或者提取的内容为空,请选择此选项. 申请之后,将使用常规匹配从原创页面再次提取.
②内容替换/排除: 将采集到的内容替换为字符串. 如果需要排除它,请用一个空字符串替换它,这非常灵活. 如下图所示,可以直接替换内容,也可以使用参数替换字符串(与工具栏中的同义词替换不同).
③html标签过滤: 过滤指定的html标签,例如④字符截取: 通过开始和结束字符串截取内容. 适合截取和调整提取的内容.
⑤纯替换: 如果某些内容(例如单个出现的文本)无法通过常规内容替换操作,则需要通过功能强大的正则表达式执行复杂的替换.
例如,“最受欢迎的美国餐馆在这里”,我们将其替换为“美国餐馆”,正则表达式如下:
图片2.png
⑥数据转换: 包括将结果从简化转换为复杂,将结果从复杂转换为简化,自动转换为拼音和时间校正转换,共四个处理.
智能提取: 包括提取第一张图片,智能提取时间,智能提取邮箱,智能提取手机号码和智能提取电话号码.
⑧高级功能: 包括自动摘要,自动分词,自动分类,Http请求,字符编码转换,同义词替换,空内容默认值,内容加前缀和后缀,随机插入,运行C#代码,批处理内容替换,统计信息标签字符串长度等一系列功能.
⑨完成单个URL: 以URL形式完成当前内容.
2. 文件下载: 它可以自动检测和下载文件,并设置下载路径和文件名样式.
注意: 文件下载中引用的下载图片在源代码中具有标准样式
标签的图片地址.
例如,如果它是直接图片地址或不规则图片源代码,则采集器会将其视为文件下载.
①将相对地址填写为绝对地址: 检查后,标签采集的相对地址将作为绝对地址填写.
②下载图片: 检查后,源代码收录标准样式
代码图像将被下载.
③检测文件的真实地址但不下载: 有时会采集附件的下载地址,而不是实际的下载地址. 单击后,将有一个跳转. 在这种情况下,选中此选项将采集真实地址,但仅获取下载地址而不下载它.
④检测并下载文件: 检查后,您可以下载采集到的任何格式的文件附件.
3. 内容过滤: 通过设置内容过滤,可以删除某些不符合条件的记录或将其标记为不接受. 有几种处理内容过滤的方法:
①不得收录内容,也必须收录内容: 可以设置多个单词,并且必须满足所有条件或可以满足其中一个条件.
②采集结果不能为空: 此功能可以防止字段中的内容为空.
③不得重复采集结果: 此功能可以防止字段中重复内容. 设置此项目之前,请确保没有采集任何数据,否则您需要先清除采集的数据.
④当内容长度小于(大于,等于,不等于)N时过滤: 将符号或字母或数字或汉字视为一个.
注意: 如果满足以上四个项目中的任何一个或多个,则可以设置直接在采集器的其他设置中删除此记录,或者在运行下一个任务时将该记录标记为未采集. 再次.
在Web爬网工具优采云采集器中进行一系列数据处理的优点是,当我们需要做的只是一个小操作时,我们不需要编写插件,生成和编译它们,但是一键传递数据可以处理成我们需要的东西.