网络爬虫的数据预处理

优采云发布时间: 2020-08-08 20:47

　　原创链接

　　提取的数据不能直接使用？该文件尚未下载？格式等是否不符合要求？不用担心，网络抓取工具优采云采集器具有自己的解决方案-数据处理.

　　图片1.png

　　Web爬网程序的数据处理功能包括三个部分，即内容处理，文件下载和内容过滤. 让我依次向您介绍:

　　1. 内容处理: 为了进一步处理从内容页面提取的数据（例如替换，标签过滤，分词等），我们可以同时添加多个操作，但是请注意，如果有多个操作，按照上一步的顺序执行上述操作，即，上一步的结果将用作下一步的参数.

　　下面让我们一一介绍:

　　①提取的内容为空: 如果以前的规则不能准确提取提取的内容，或者提取的内容为空，请选择此选项. 申请之后，将使用常规匹配从原创页面再次提取.

　　②内容替换/排除: 将采集到的内容替换为字符串. 如果需要排除它，请用一个空字符串替换它，这非常灵活. 如下图所示，可以直接替换内容，也可以使用参数替换字符串（与工具栏中的同义词替换不同）.

　　③html标签过滤: 过滤指定的html标签，例如④字符截取: 通过开始和结束字符串截取内容. 适合截取和调整提取的内容.

　　⑤纯替换: 如果某些内容（例如单个出现的文本）无法通过常规内容替换操作，则需要通过功能强大的正则表达式执行复杂的替换.

　　例如，“最受欢迎的美国餐馆在这里”，我们将其替换为“美国餐馆”，正则表达式如下:

　　图片2.png

　　⑥数据转换: 包括将结果从简化转换为复杂，将结果从复杂转换为简化，自动转换为拼音和时间校正转换，共四个处理.

　　智能提取: 包括提取第一张图片，智能提取时间，智能提取邮箱，智能提取手机号码和智能提取电话号码.

　　⑧高级功能: 包括自动摘要，自动分词，自动分类，Http请求，字符编码转换，同义词替换，空内容默认值，内容加前缀和后缀，随机插入，运行C#代码，批处理内容替换，统计信息标签字符串长度等一系列功能.

　　⑨完成单个URL: 以URL形式完成当前内容.

　　2. 文件下载: 它可以自动检测和下载文件，并设置下载路径和文件名样式.

　　注意: 文件下载中引用的下载图片在源代码中具有标准样式

　　标签的图片地址.

　　例如，如果它是直接图片地址或不规则图片源代码，则采集器会将其视为文件下载.

　　①将相对地址填写为绝对地址: 检查后，标签采集的相对地址将作为绝对地址填写.

　　②下载图片: 检查后，源代码收录标准样式

　　代码图像将被下载.

　　③检测文件的真实地址但不下载: 有时会采集附件的下载地址，而不是实际的下载地址. 单击后，将有一个跳转. 在这种情况下，选中此选项将采集真实地址，但仅获取下载地址而不下载它.

　　④检测并下载文件: 检查后，您可以下载采集到的任何格式的文件附件.

　　3. 内容过滤: 通过设置内容过滤，可以删除某些不符合条件的记录或将其标记为不接受. 有几种处理内容过滤的方法:

　　①不得收录内容，也必须收录内容: 可以设置多个单词，并且必须满足所有条件或可以满足其中一个条件.

　　②采集结果不能为空: 此功能可以防止字段中的内容为空.

　　③不得重复采集结果: 此功能可以防止字段中重复内容. 设置此项目之前，请确保没有采集任何数据，否则您需要先清除采集的数据.

　　④当内容长度小于（大于，等于，不等于）N时过滤: 将符号或字母或数字或汉字视为一个.

　　注意: 如果满足以上四个项目中的任何一个或多个，则可以设置直接在采集器的其他设置中删除此记录，或者在运行下一个任务时将该记录标记为未采集. 再次.

　　在Web爬网工具优采云采集器中进行一系列数据处理的优点是，当我们需要做的只是一个小操作时，我们不需要编写插件，生成和编译它们，但是一键传递数据可以处理成我们需要的东西.

0

2020-08-08

内容采集软件

0 个评论

要回复文章请先登录或注册