网站文章采集平台(产品名字:万能文章采集器(正版):电脑一码 )
优采云 发布时间: 2022-02-04 01:02网站文章采集平台(产品名字:万能文章采集器(正版):电脑一码
)
产品名称:通用文章采集器(正版)
支持系统:电脑
一码一机:支持更换绑定电脑,
一款万能的文章采集营销软件出品的软件,可以进入关键词采集各大搜索引擎网页和新闻,或者采集指定网站页面文章
基于营销自主研发的文本识别智能算法,能够从互联网上复杂的网页中尽可能准确地提取文本内容。
身体识别有自动识别(即前“标准”、“严格”模式)、“精确标签”、“头尾标签”。它的自动识别可以适应大部分网页的文本提取,“精确标签”只需要指定文本标签头,如“
",可以取所有网页的所有body文本;head和tail标签指定body的开始和结束。
关键词采集目前支持的搜索引擎有:百度、搜狗、360、Google、Bing、雅虎
采集指定网站文章的功能也很简单。只需要一点点设置(没有复杂的规则),就可以批量 采集targets网站@ >文章 是。
因为墙的问题,要使用谷歌搜索和谷歌翻译的功能文章,需要使用VPN更改国外IP。
________________________________________________
以下是接口组件的说明:
采集分页:如果文字显示有分页,会自动采集分页合并
删除链接:删除网页中锚文本的链接功能,只留下锚文本的标题
txt格式:另存为txt文本(自动去除HTML标签)
调试模式:在文本开头插入“调试模式:标题和链接”的内容,方便进入原网页对比文本识别效果
标题有关键词:只有标题中有搜索关键词的页面是采集
丢弃短标题:当自动识别的标题长度小于原标题的三分之一时,为短标题。通常这个标题是错误的,可以勾选丢弃,这样就可以使用原来的标题(遇到这一段就明白了)。
去除外层代码:使用自动识别和精确标记时,通常包括
如果你不需要这样的外部代码,你应该勾选并删除它。
过滤文本:部分文本收录标题元素,如
这三个需要删除,很多带有class属性的标签也是系统定义的非文本内容,比如
推荐内容
,一般只要删除类代码,就可以去掉大部分非文字内容,然后进入类不能删除的异常编辑框,直接填写类的值, 多个值使用 |分开。
________________________________________________
【精准标签】特别说明:
请使用谷歌浏览器或傲游浏览器,右键body-inspect元素的起始位置,定位到body的代码段,复制代码段的标签头。
如代码片段:
正文部分,然后复制
多个标签可以用“|”隔开
________________________________________________
关键词采集的文章自动比较本地文章同标题,相似度超过60%跳过,相似度自动重命名保存低于 60%。
下载地址: