文章采集发布(关于最好验证的一些常见问题及解决办法(二))
优采云 发布时间: 2022-03-15 06:31文章采集发布(关于最好验证的一些常见问题及解决办法(二))
|
其他提示:1、本软件为新版重构,与之前的软件类似,操作类似,但整体功能创新,采集个数越多,性能越好,它支持搜索时间、代理、多线程、多语言。
2、关键词采集可以附加搜索引擎参数,就像在网页中输入关键词搜索一样,如果指定网站,则输入“关键词 site :", URL 必须收录 bbs,然后输入 "关键词 inurl:bbs.",
3、验证前清除Cookies:如果验证不正常,可以选择该选项试一试,打开浏览器前会自动删除旧的Cookies文件;如果还是不行,你可以右击(不是左击)[开始]采集]按钮尝试不使用Cookies采集。
4、如果验证频繁,IP可能已经被锁定。需要以秒为单位设置间隔,将线程数设置为 1 或根据需要更改 IP。如果不行,只能隔天再试。
关于验证:1、搜狗部:目前搜狗网页、搜狗新闻、搜狗手机、微信均支持自动验证。您需要到验证平台注册自动验证账号并填写软件。充值10元可验证1000次。其他搜索引擎只能手动验证。
2、360系列:只要360手机设置间隔3秒以上,基本不会验证。如果验证发生,您可以继续;360网页必须设置至少5秒的间隔,否则很容易出现验证,有时验证很变态,验证过验证过,无法继续采集。这个时候只能用代理试试。
3、必应部:暂时没有查到验证。必应国际版会在首页弹出验证窗口,是获取cookies,不是真实验证。软件会自动关闭,可以忽略。
4、谷歌部:验证会在采集的几页内发生,谷歌似乎能识别软件内置的浏览器,但验证失败。必须使用代理。
总而言之,目前最好用的是百度网页和搜狗网页,百度手机和搜狗手机似乎也不错。
升级记录(2022年1月12日):5.0.0.0:2021年12月19日,整体创新版本发布。虽然版本号是5.0,那是为了区分老版本,本质上是1.0。创新版本超级强大。
5.1.0.0:【列表页面采集.地址】功能栏,添加抓包工具和连续抓包工具,可以方便快捷的找到隐藏的列表页面地址;修复360采集部分网页崩溃问题;修复快捷信息个别页面识别不准确;[文章查看]功能栏,如果要跳转的目录不存在则添加目录树,会自动重建目录树刷新,增加目录树右键菜单的操作项,增加操作提示;【计划任务】功能栏更新;
5.2.0.0:修复关键词采集收录:等符号不转换导致保存失败;添加关键词采集启动采集异常退出后下次恢复进度;其他图标已更新。
5.3.0.0:修复[列表页采集.address.generate]生成列表页时缺少最后一页的问题;优化采集跳出文章数的逻辑
5.5.0.0:增加百家账号为采集时自动弹窗验证;增加了标题识别和文本识别的JSON路径值的高级解码功能
5.6.0.0:优化列表页地址采集表示任意字符的内部逻辑,预处理URL相关的转义符号,增加函数地址中地址的提取和解码,详见帮助按钮;其他更新
5.7.0.0:优化列表框的显示效率;改进抓包和连续抓包工具,尤其是POST抓包的改进;补充百度知道验证的自动检测和弹窗;增加右上角2个工具链接;新增 [User-Agent]、[Content-Type]、[Referer] 设置用于网页代码查看;文章 查看左侧区域宽度调整;其他界面调整;其他多项更新
5.8.0.0:文章的标题添加CR转义字符解码;修复搜狐文章页面自动识别失败(由于页面head标签不符合规范);修复采集分页时多线程崩溃;改进网页编码的UTF-8识别;其他更新
5.9.0.0:提高文本识别能力(提高区分版权相关信息和文本的准确性);改进浏览器加载方式,解决个别网站异常算法崩溃问题;改进采集分页识别;标题为空时自动取一个随机句子;转换标题的页空白转义字符并删除前导和尾随空格;[列表页采集.single]增加源代码选项,去掉原来点击排版设置切换源代码的方式;验证发生时一条推文(虚假验证没有推文,它将自动关闭);百度mbd域名免于Class标签过滤;添加了 关键词采集 同时,百度网页获取的验证cookie共享给百家号和百度知道,并添加了origin避免验证,按Ctrl键会阻止自动弹出验证的问题,包括百家号、百度知道等。被禁止的弹出窗口。因为在某些情况下,百家账号无法正常验证,不断反复弹出,导致其他非百家账号的网址采集被屏蔽。所以这个功能是为了防止百家账号的验证弹出(让百家账号采集fail),让其他的url可以正常采集。以及按Ctrl键会阻止自动弹窗验证的问题,包括百家号、百度知道等被禁止弹窗。因为在某些情况下,百家账号无法正常验证,不断反复弹出,导致其他非百家账号的网址采集被屏蔽。所以这个功能是为了防止百家账号的验证弹出(让百家账号采集fail),让其他的url可以正常采集。以及按Ctrl键会阻止自动弹窗验证的问题,包括百家号、百度知道等被禁止弹窗。因为在某些情况下,百家账号无法正常验证,不断反复弹出,导致其他非百家账号的网址采集被屏蔽。所以这个功能是为了防止百家账号的验证弹出(让百家账号采集fail),让其他的url可以正常采集。
5.11.0.0:添加随机句子进行标题识别;在第一行添加标题;其他
5.12.0.0:调整百家账号的响应策略,当假验证不断弹出无法工作时采集百家账号可以关闭再重新打开软件,按住Ctrl键启动采集,然后松开,可以强制浏览器加载百家账号;同时调整其他百度系统的采集或Cookies政策;其他
5.13.0.0:提高文字识别能力;强制浏览器加载百家账号;其他
5.15.0.0:进一步提高文字识别能力;文章如果跳转路径不存在,不会弹出信息框,但状态栏提示;列表页采集文章通过在批处理时推进命名标题改善多线程下的顺序问题;其他
5.16.0.0:删除文章标识的文字,把删除链接和删除标题的动作放在删除类之后,解决问题部分链接有类,无法清除的问题;修复win7某些情况下浏览器加载失败的问题;修复OEM版盒子注册文件无法识别的问题;百家账号强制浏览器加载;其他
5.17.0.0:关键词采集,删除关键词的前导和尾随空格,避免保存失败,结束时< @采集 将剩余线程数改为剩余任务数更准确。采集进度列表修改为部分描述,关键词列表修改为自动换行;其他
5.18.0.0:修复隔壁文章-identification-other选项设置内容乱码的问题,调整其他选项设置界面颜色,以及调整输入框和图标等界面大小;其他
5.19.0.0:修改网页转义字符的转换时机,修复网页代码转义为文本显示时自动识别不准确的问题;其他
5.21.0.0:进一步提高文字识别能力;其他