解决方案:优采云采集器设置不要img参数教程
优采云 发布时间: 2022-11-08 14:45解决方案:优采云采集器设置不要img参数教程
当我们在采集内容中,比如一些网站img图片内容很多或者对方网站加了密集的水印,这个时候我们需要过滤掉,如何设置和阻止他们,请参阅下面的教程。
登录优采云采集器后台:任务----任务列表----选择对应任务
点击---获取内容字段---选择要过滤的字段名---选择数据处理
选择:html标签过滤(设置如下图)
选择需要过滤的img的参数内容,点击保存,这样我们返回的内容采集就会自动过滤掉img的内容,比如我们也可以手动添加,png.jpeg,以上就是全部的操作教程。如果您有任何问题,请在下方留言。
相关知识点:img滤镜
本站文章均摘自树融网络权威资料、书籍或互联网原创文章。如有版权纠纷或侵权,请立即联系我们删除,未经许可禁止复制转载!感激的...
最新版:优采云·万能文章采集器革新版 v6.12.0.0
|
其他提示: 1.本软件为新版重构。和之前的软件差不多,操作也差不多,但整体功能创新,采集个数更多,性能更好,支持搜索时间、代理、多线程、多线程语 。
2、关键词采集可以附带搜索引擎参数,就像在网页中输入关键词搜索一样,如果指定网站,则输入“关键词站点:", 如果 URL 必须收录 bbs,请输入 "关键词 inurl:bbs.",
3、验证前清除Cookies:如果验证不正常,可以选择该选项试一试,打开浏览器前会自动删除旧的Cookies文件;如果还是不行,你可以右击(不是左击)[开始采集]按钮尝试不使用Cookies采集。
4.如果验证频繁,IP可能已经被锁定。需要设置间隔秒数,将线程数设置为1或根据需要更改IP。如果不行,只能隔天再试。
关于验证: 1、搜狗系统:目前搜狗网页、搜狗新闻、搜狗手机、微信均支持自动验证。您需要到验证平台注册自动验证账号并填写软件。充值10元可验证1000次。其他搜索引擎只能手动验证。
2、360系列:只要360手机的间隔设置为3秒以上,基本不会验证。如果验证发生,您可以继续;360网页必须设置至少5秒的间隔,否则很容易出现验证,有时验证很不正常,验证过,无法继续采集。这个时候只能用代理试试。
3、必应部门:暂时没有查到验证。必应国际版会在首页弹出验证窗口,是获取cookies,不是真实验证。软件会自动关闭,你可以忽略它。
4、谷歌部:验证会在采集的几页内发生,谷歌似乎能识别软件内置的浏览器,但验证失败。必须使用代理。
总而言之,目前最好用的是百度网页和搜狗网页,百度手机和搜狗手机似乎也不错。
升级记录(2022年11月2日):5.0.0.0:整体创新版本2021年12月19日发布。虽然版本号是5.0,但是是为了区分老版本,本质上是1.0。创新版本超级强大。
5.1.0.0:【列表页采集.Address】功能栏,新增抓包工具和连续抓包工具,可以方便快捷的找到隐藏的列表页地址;修复360采集部分网页崩溃;修复快捷信息个别页面识别不准确的问题;在[文章查看]功能栏中,如果要跳转的目录在目录树中不存在,则会自动重建并刷新目录树,目录右键菜单的操作项树将被添加。并增加操作提示;【计划任务】功能栏更新;其他更新。
5.2.0.0:修复关键词采集收录:等符号不转换导致无法保存;添加关键词采集异常退出后下次恢复采集进度;其他图标更新。
5.3.0.0:修复[List page采集.Address.Generation]生成列表页时缺少最后一页的问题;优化采集条数的跳出逻辑
5.5.0.0:增加百家账号为采集时自动弹出验证;增加标题识别和文字识别的JSON路径值提前解码功能
5.6.0.0:优化列表页地址采集表示任意字符的内部逻辑,预处理URL相关转义符号,增加地址中地址提取解码功能。详情见帮助按钮;其他更新
5.7.0.0:优化列表框的显示效率;改进抓包和连续抓包工具,尤其是POST抓包的改进;弥补百度知道验证的自动检测和弹窗问题;右上角添加2个工具链接;添加[User-Agent]、[Content-Type]、[Referer]设置;文章查看左侧区域宽度调整;其他界面调整;其他更新
5.8.0.0:文章的标题添加CR转义字符解码;修复搜狐文章页面自动识别失败(因为页面head标签不符合规范);修复采集分页时多线程崩溃;改进网页编码的UTF-8识别;其他更新
5.9.0.0:提高文本识别能力(提高区分版权相关信息和文本的准确性);改进浏览器加载方式,解决个别网站算法异常导致的崩溃问题;改进采集分页识别;标题为空时自动选择一个随机句子;转换标题的空白转义字符并删除前导和尾随空格;【列表页采集.Single】增加源码选项,去掉原来的点击排版设置切换源码方式;验证发生时一条推文(虚假验证没有推文,它将自动关闭);百度mbd域名免于Class标签过滤;百度网页添加关键词采集时得到的验证cookies 共享给百家号和百度知道,并添加来源可能避免验证,并添加按Ctrl键可以禁止自动弹出验证的问题,包括禁止百家号、百度知道、等等。因为在某些情况下,百家账号无法正常验证,不断反复弹出,导致其他非百家账号采集的网址被屏蔽。所以这个功能是为了防止百家账号的验证弹出(让百家账号采集fail),让其他的url可以正常采集。包括禁止百家号、百度知道等弹出。因为在某些情况下,百家号无法正常验证,不断反复弹出,导致其他不是百家号的网址采集被封锁。所以这个功能是为了防止百家账号的验证弹出(让百家账号采集fail),让其他的url可以正常采集。包括禁止百家号、百度知道等弹出。因为在某些情况下,百家号无法正常验证,不断反复弹出,导致其他不是百家号的网址采集被封锁。所以这个功能是为了防止百家账号的验证弹出(让百家账号采集fail),让其他的url可以正常采集。
5.11.0.0:添加标题识别的随机句子;在第一行添加标题;其他
5.12.0.0:调整百家账号的响应策略。当假验证不断弹出无法使用采集百家账号时,可以关闭,重新打开软件,按住Ctrl键启动采集。打开,可以强制浏览器加载百家账号;同时调整百度其他部门的采集或Cookies政策;其他
5.13.0.0:提高文字识别能力;百家号强制浏览器加载;其他
5.15.0.0:进一步提升文字识别能力;文章如果跳转路径不存在,不会弹出信息框,但状态栏提示;列表页采集文章 批量渐进式命名 标题改进了多线程下的顺序问题;其他
5.16.0.0:删除文章标识的文字,把删除链接和删除标题的动作放在删除类之后,解决部分链接有类无法清除的问题;修复win7情况下浏览器加载失败的问题;修复oem版盒子注册文件无法识别的问题;百家号强制浏览器加载;其他
5.17.0.0:关键词采集,删除关键词的前后空白字符,避免保存失败,结束采集时,更改个数更准确剩余线程数为剩余任务数,采集修改进度列表部分描述,修改关键词列表自动换行;其他
5.18.0.0:修复文章标识-隔壁跑的其他选项设置内容,调整其他选项设置界面配色,调整输入框界面大小和图标;其他
5.19.0.0:修改网页转义字符的转换时机,修复网页代码转义为文本显示时自动识别不准确的问题;其他
5.21.0.0:进一步完善文本识别;其他
5.22.0.0:关键词采集增加URL黑名单和白名单设置;修复文本配置换行错误的问题;浏览器读码功能取消外部程序,改为内置程序;其他
5.23.0.0:联众码已关闭,新增飞飞码和超鹰码;其他
5.25.0.0:将白名单改为基于黑名单的例外名单;添加文章标识的接入参数的UA列表选择;修复个别内置标识网站的扩展在保存时丢失的问题;其他
5.26.0.0:增加白名单功能
5.27.0.0:增加删除文章标识功能最后一段的选项;修复了必应国内和国际版本的采集;优化百度手机验证弹窗逻辑;改进了验证时的自动关闭判断逻辑;移除自动关闭选项(鸡肋功能);其他 5.28.0.0:修复知乎内容页面内置识别的若干错误;增强支持今日头条问答和微头条的内容页面的内置识别,可以在批量界面信息、问答、微头条链接批量粘贴今日头条采集;关键词采集功能新增今日头条问答和微头条栏目;其他。
5.29.0.0:修改主界面导航栏图标;今日头条采集和谷歌认证强制使用外部谷歌浏览器操作(所以需要先安装谷歌浏览器),以解决不能采集或者认证的Bugs;修复复杂网页上的数据包捕获和连续捕获工具崩溃;其他
5.31.0.0:修复必应国际的链接解析问题;为采集谷歌添加外置浏览器(已经测试有效,需要先安装谷歌Chrome或者Edge浏览器,然后弹出外置浏览器进行验证,验证完成后软件自动继续 采集); 其他
5.32.0.0:修复采集原创网页保存时缺少文件扩展名的问题
5.33.0.0:修复文本最小字数有时不起作用的问题
5.35.0.0:调整关键词采集界面布局,现在启动顶部的采集按钮,避免小屏笔记本看不到;修复连续抓包工具的一个小问题;外部浏览器加上断开和重新连接;其他更新
5.36.0.0:继续调整部分图标和界面;修复64位抓包崩溃问题;优化连续捕获工具;微调内置浏览器;将 cookie 设置添加到 Web 代码查看器;其他
5.37.0.0:尝试修复部分电脑使用外接浏览器异常的问题
5.39.0.0:尝试修复部分电脑无法调用外部浏览器的问题;增加谷歌和边缘浏览器的切换功能
5.51.0.0:列表页采集的代理IP增加隧道代理指令;去除外部浏览器端口查询功能中的毒DLL(改用其他方式查询)
5.52.0.0:优化外部浏览器策略;其他更新
5.55.0.0:修复微标题采集内容重叠的问题;其他更新
5.56.0.0:修复百度有时验证异常的问题;修复 Bing采集 更改导致 URL 转换失败的问题;修改界面字体为粗体,匹配dpi整体无损放大;同时缩放网页;修改微信采集策略(但目前严重受限);修改导航栏功能名称以简化;其他更新
5.57.0.0:再次修复百度采集验证异常(直接使用验证后代码解析);其他更新
5.58.0.0:继续优化上一版本;继续优化外部浏览器策略;
5.59.0.0:修复Bing*敏*感*词*采集问题(支持内置浏览器和外置浏览器切换采集);优化搜狗验证逻辑(支持内外浏览器验证);其他更新;
6.0.0.0:全界面支持无损放大(文字和图标可以无损放大),文字全部改成微软雅黑。不管你的屏幕多大,都能高清显示;修复标题中个别图片链接地址异常的问题;组合框替换为专属新外观(支持带图标的列表更直观);各种界面调整;优化启动速度;目录树图标替换;改进的机器码获取功能;第一行插入标题选项添加空的第二行选项
6.1.0.0:插入搜索词到标题和文本功能,支持自定义搜索词格式(搜索词和标题自由组合);其他小调整
6.2.0.0:360改用外部浏览器认证
6.3.0.0:将第一行标题后空第二行的功能改为自定义;搜索词插入功能有更多的内置格式
6.5.0.0:新版EDGE运行时,内置浏览器效率更高,浏览器加载和抓包功能更强大;界面高度调整为符合14英寸笔记本,支持关键词采集的识别设置隐藏和展开;将一些原本被迫使用外部浏览器的引擎和网址改为使用内置的新边缘浏览器,而今日头条和微信也因为新浏览器而多了采集;其他
6.6.0.0:修复插入词遇到非法字符不转换的问题;检测到打开路径失败;其他
6.8.0.0:浏览器相关的错误修复
6.9.0.0:尝试修复电脑验证窗口极少的黑屏现象;文章查看页面修复切换文件夹时显示列表的一些问题;其他
6.11.0.0:修复由于使用新的浏览器内核导致长时间运行崩溃的问题;修复网站号称GBK实为UTF-8的解码问题;其他。
6.12.0.0:百度网页上的百度新闻改为浏览器读码(可以减少和避免验证);其他