优采云通用文章采集器(网站管理员工具)v1.12特别版
优采云 发布时间: 2020-08-08 04:16因此您可以根据实际情况切换模式. 您可以使用本地批处理的读取网页正文功能来测试指定网页适合的模式.
获取过程中的处理选项
在采集过程中可以同时执行翻译,过滤和单词搜索等处理. 所采集的文章可以通过“本地批处理”进行处理.
翻译功能是将中文翻译成英文,然后再翻译回中文,从而产生伪原创效果. 支持原创格式翻译,即不要更改文章的原创标签结构和排版格式.
采集目标是URL
您可以在URL模板中插入#URL#,#title#来合并引用
页面采集和相对路径转换为绝对路径
勾选“自动采集和分页”以合并分页的文章. 编辑框的设置值为最大采集页数. 建议设置一个有限的值(例如10页),以免出现分页时间过长的集合,并且合并后的文章过大. 如果需要采集所有页面,可以将其设置为0.
文章中的所有相对路径将自动转换为绝对路径,这样可以确保图片等的正常显示.
多线程
支持网页的多线程高速采集. 可以根据网络速度来确定. 电信2m可以有5个线程,电信4m可以有10个线程,依此类推,但是需要适当设置. 太多的设置可能会严重影响采集效率甚至系统效率. 如果在采集过程中运行了占用流量的其他软件(例如在线视频播放),则可以适当减少线程数.
处理重复的文章标题和文章内容
该程序可以智能地判断和过滤重复的文章
当采集到的文章的标题(文件名)与本地保存的文章的标题相同时,优采云将首先判断这两篇文章的相似性. 当相似度大于60%时,优采云将确定同一文章,然后比较这两篇文章的文本量,并自动使用收录更多文本的文章来覆盖和写入相同的文件名. 这种世代情况并不等于世代数.
当相似度低于60%时,优采云判断这是另一篇文章,并将自动重命名标题(标题末尾取3到5个随机字母)并将其保存到文件中.
快速文章过滤器
尽管优采云研究了非常精确的人体提取算法,但提取错误仍然很少. 这些错误主要是: 目标页面的主体是在线视频,或者主体内容太短而无法形成主体特征. 因此,可以通过设置最终结果中的单词数来提高准确性(在“最小字符数”参数中,该单词数是程序删除标签,行和空格后的纯文本单词数) ).
文章快速过滤器用于快速查看采集到的文章,并有助于判断和删除文本错误的文章. 同时,基于网络信息采集的目的,方便了细化和选择过程.
生成的文章数量可变的问题
百度和搜搜默认每页100个结果,而Google默认每页10个结果.
某些网站已超时(特别是Google所收录的许多网站被阻止),或在文本中设置了最少字数,或者该程序忽略了具有相同名称,黑名单和白名单的内容相似的本地文章等会导致实际生成的文章数低于每次页面搜索的最大结果数.
总的来说,百度的质量是最好的,生成的文章数量接近搜索结果的数量.
更新日志:
1.12: 继续增强Web批处理列URL采集器识别文章URL的能力,并支持多种地址格式的同时匹配.
1.11: 增强了Web批处理列URL采集器识别文章URL的能力.
1.10: 解决了翻译功能无法翻译的问题.