话题：自动识别采集内容 - 自动文章采集器-优采云官网

baoai: 小宝人工智能和量化平台BaoAI开发文档、安装、部署、功能说明、选

采集交流 • 优采云发表了文章 • 0 个评论 • 300 次浏览 • 2020-08-22 13:04 • 来自相关话题

　　baoai: 小宝人工智能和量化平台BaoAI开发文档、安装、部署、功能说明、选
　　BaoAI 小宝人工智能和量化系统
　　人工智能和量化从这开始
　　
　　
　　
　　
　　
　　
　　
　　
　　小宝人工智能和量化平台是简约、直观、强大的后端和前端SPA开发框架，支持国际化，以模块为基础，让WEB应用、人工智能和量化系统开发更迅速、更简单。平台收录多个模块，主要包括基于角色的权限管理基础平台（用户、角色、权限、日志、附件、配置参数、分类管理）、通知模块、自动代码形成模块、任务系统模块、内容管理系统模块、网站模块、电子指南模块、人工智能模块、图像辨识模块，人脸辨识模块，金融数据采集模块，大数据模块，量化交易模块等。
　　功能特性：下载源码
　　BaoAI前前端分离框构，收录有后端项目和前端项目
　　文档BaoAI 开发指南 BaoAI 后端开发指南
　　API
　　模块扩充
　　前端和前端开发工具
　　Visual Studio Code
　　安装插件：
　　Chinese (Simplified) Language Pack for Visual Studio Code
　　jshint
　　Python
　　项目后端 BaoAIFront 安装步骤
　　需要安装 Node.js
　　# 安装 bower:
npm install -g bower
# 安装 gulp
npm install -g gulp
# npm 安装第三方js
bower install
# npm 安装依赖库:
npm install
# 运行前端代码方式一：自带数据模拟API，适合前端工程师
gulp server
# 运行前端代码方式二：Python全栈开发工程师
gulp serve
# 运行前端代码方式三：Python全栈开发工程师，反向代理(前后端共用相同地址和端口，仅目录不同)
gulp proxy
# 构建生产代码
gulp build
# 运行前端代码方式四：测试运行生产代码
gulp prod
　　生产代码保存在 dist 目录.
　　项目前端 BaoAIBack 安装步骤
　　需要 Python 3.6
　　# 1. 创建虚拟环境
# windows, 假设项目根路径：d:/baoai/BaoaiBack/
cd d:/baoai/BaoaiBack
mkdir venv
cd venv
python -m venv .
# 运行虚拟环境
d:/baoai/BaoaiBack/venv/Scripts/activate.bat
cd d:/baoai/BaoaiBack
# linux, 假设项目根路径：/baoai/BaoaiBack/
cd /baoai/BaoaiBack
mkdir venv
cd venv
python -m venv .
# 运行虚拟环境
source /baoai/BaoaiBack/venv/bin/activate
cd /baoai/BaoaiBack
# 2. 安装依赖库(必须处于虚拟环境)
# windows 安装依赖库
python -m pip install --upgrade pip
pip install -r requirements.txt
# 如果下载速度慢可以采用国内镜像
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt
# linux 安装依赖库
python -m pip3 install --upgrade pip
pip3 install -r requirements.txt
# 如果下载速度慢可以采用国内镜像
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt
# 3. 运行 Restful 服务
# windows
run_baoai.bat
# linux
# 默认使用gunicorn做为wsgi
chmod +x run_baoai.sh
./run_baoai.sh
# 4. 运行 www 服务(Jinja模块)
# windows
run_www.bat
# linux
chmod +x run_www.sh
./run_www.sh
# 常用功能
# 清空缓存
python manage.py clean
　　项目前端数据库
　　本项目支持绝大部门流行的关系数据库，包括：SQLite、MySQL、Postgres、Oracle、MS-SQL、SQLServer 和 Firebird。
　　已提供Sqlite数据库，和MySQL数据脚本文件。MySQL支持5.5及以上版本。
　　数据库转换无需更改代码，仅更改config.py中的SQLALCHEMY_DATABASE_URI即可。
　　默认使用sqlite数据库，优点是无需安装专门数据库软件，方便测试开发，生产布署请使用mysql或其它数据库软件。
　　sqlite数据保存在 db/baoai.db，直接使用。
　　mysql数据库脚本保存在 db/baoai.mysql.sql，需要新建数据库如baoai，然后导出脚本。
　　如果使用其他数据库，可以使用Navicat Premium工具菜单中的数据传输，进行不同数据库之前的数据迁移。
　　数据库相关操作：
　　# 数据迁移服务
# 初始化
python manage.py db init
# 模型迁移
python manage.py db migrate
# 数据库脚本更新（操作数据）
python manage.py db upgrade
　　项目代码手动形成模块
　　使用手动代码形成模块，可以让数组、模型、生成数据库、前端代码、后端代码和权限配置一并可视化完成，一般项目可以零代码实现。该部分主要包括三个扩充模块：数据迁移模块、自动代码模型模块和手动代码形成模块
　　BaoAI 小宝人工智能和量化平台系统构架
　　
　　BaoAI 小宝人工智能和量化平台知识体系
　　可用于各行业的后端和前端系统软件开发、CMS、人工智能、图像辨识、人脸辨识、大数据和量化投资领域等。前前端分离SPA构架，使用AngularJS/Bootstrap等后端框架实现响应式和SPA程序设计，后端主要使用Python语言，主要包括如下框架：flask提供web服务，Jinja2提供模板服务，Numpy、Pandas、Scikit-Learn、Tensorflow和Keras等实现人工智能服务，celery实现任务调度，scrapy提供网路爬虫，基于Backtrader的金融量化服务等。
　　
　　基于BaoAI设计案例：
　　内容管理网站：
　　
　　管理系统后台：
　　
　　人工智能：
　　
　　量化系统：查看全部

　　baoai: 小宝人工智能和量化平台BaoAI开发文档、安装、部署、功能说明、选
　　BaoAI 小宝人工智能和量化系统
　　人工智能和量化从这开始
　　

　　小宝人工智能和量化平台是简约、直观、强大的后端和前端SPA开发框架，支持国际化，以模块为基础，让WEB应用、人工智能和量化系统开发更迅速、更简单。平台收录多个模块，主要包括基于角色的权限管理基础平台（用户、角色、权限、日志、附件、配置参数、分类管理）、通知模块、自动代码形成模块、任务系统模块、内容管理系统模块、网站模块、电子指南模块、人工智能模块、图像辨识模块，人脸辨识模块，金融数据采集模块，大数据模块，量化交易模块等。
　　功能特性：下载源码
　　BaoAI前前端分离框构，收录有后端项目和前端项目
　　文档BaoAI 开发指南 BaoAI 后端开发指南
　　API
　　模块扩充
　　前端和前端开发工具
　　Visual Studio Code
　　安装插件：
　　Chinese (Simplified) Language Pack for Visual Studio Code
　　jshint
　　Python
　　项目后端 BaoAIFront 安装步骤
　　需要安装 Node.js
　　# 安装 bower:
npm install -g bower
# 安装 gulp
npm install -g gulp
# npm 安装第三方js
bower install
# npm 安装依赖库:
npm install
# 运行前端代码方式一：自带数据模拟API，适合前端工程师
gulp server
# 运行前端代码方式二：Python全栈开发工程师
gulp serve
# 运行前端代码方式三：Python全栈开发工程师，反向代理(前后端共用相同地址和端口，仅目录不同)
gulp proxy
# 构建生产代码
gulp build
# 运行前端代码方式四：测试运行生产代码
gulp prod
　　生产代码保存在 dist 目录.
　　项目前端 BaoAIBack 安装步骤
　　需要 Python 3.6
　　# 1. 创建虚拟环境
# windows, 假设项目根路径：d:/baoai/BaoaiBack/
cd d:/baoai/BaoaiBack
mkdir venv
cd venv
python -m venv .
# 运行虚拟环境
d:/baoai/BaoaiBack/venv/Scripts/activate.bat
cd d:/baoai/BaoaiBack
# linux, 假设项目根路径：/baoai/BaoaiBack/
cd /baoai/BaoaiBack
mkdir venv
cd venv
python -m venv .
# 运行虚拟环境
source /baoai/BaoaiBack/venv/bin/activate
cd /baoai/BaoaiBack
# 2. 安装依赖库(必须处于虚拟环境)
# windows 安装依赖库
python -m pip install --upgrade pip
pip install -r requirements.txt
# 如果下载速度慢可以采用国内镜像
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt
# linux 安装依赖库
python -m pip3 install --upgrade pip
pip3 install -r requirements.txt
# 如果下载速度慢可以采用国内镜像
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt
# 3. 运行 Restful 服务
# windows
run_baoai.bat
# linux
# 默认使用gunicorn做为wsgi
chmod +x run_baoai.sh
./run_baoai.sh
# 4. 运行 www 服务(Jinja模块)
# windows
run_www.bat
# linux
chmod +x run_www.sh
./run_www.sh
# 常用功能
# 清空缓存
python manage.py clean
　　项目前端数据库
　　本项目支持绝大部门流行的关系数据库，包括：SQLite、MySQL、Postgres、Oracle、MS-SQL、SQLServer 和 Firebird。
　　已提供Sqlite数据库，和MySQL数据脚本文件。MySQL支持5.5及以上版本。
　　数据库转换无需更改代码，仅更改config.py中的SQLALCHEMY_DATABASE_URI即可。
　　默认使用sqlite数据库，优点是无需安装专门数据库软件，方便测试开发，生产布署请使用mysql或其它数据库软件。
　　sqlite数据保存在 db/baoai.db，直接使用。
　　mysql数据库脚本保存在 db/baoai.mysql.sql，需要新建数据库如baoai，然后导出脚本。
　　如果使用其他数据库，可以使用Navicat Premium工具菜单中的数据传输，进行不同数据库之前的数据迁移。
　　数据库相关操作：
　　# 数据迁移服务
# 初始化
python manage.py db init
# 模型迁移
python manage.py db migrate
# 数据库脚本更新（操作数据）
python manage.py db upgrade
　　项目代码手动形成模块
　　使用手动代码形成模块，可以让数组、模型、生成数据库、前端代码、后端代码和权限配置一并可视化完成，一般项目可以零代码实现。该部分主要包括三个扩充模块：数据迁移模块、自动代码模型模块和手动代码形成模块
　　BaoAI 小宝人工智能和量化平台系统构架
　　

　　BaoAI 小宝人工智能和量化平台知识体系
　　可用于各行业的后端和前端系统软件开发、CMS、人工智能、图像辨识、人脸辨识、大数据和量化投资领域等。前前端分离SPA构架，使用AngularJS/Bootstrap等后端框架实现响应式和SPA程序设计，后端主要使用Python语言，主要包括如下框架：flask提供web服务，Jinja2提供模板服务，Numpy、Pandas、Scikit-Learn、Tensorflow和Keras等实现人工智能服务，celery实现任务调度，scrapy提供网路爬虫，基于Backtrader的金融量化服务等。
　　

　　基于BaoAI设计案例：
　　内容管理网站：
　　

　　管理系统后台：
　　

　　人工智能：
　　

　　量化系统：

优采云浏览器新版下载地址直达

采集交流 • 优采云发表了文章 • 0 个评论 • 191 次浏览 • 2020-08-21 04:48 • 来自相关话题

　　优采云浏览器新版下载地址直达
　　软件介绍
　　优采云浏览器是一款才能通过自动化设置脚本来实现数据递交、文件下载、邮件收发等功能的实用软件，界面简约直观，一目了然，能够帮助实现自动化的网页操作，也才能帮助用户做的脚本生成程序，达到销售目的，同时支持生成程序自定义命名。欢迎下载使用！
　　软件特色
　　1、可视化操作
　　操作简单，完全可视化图形操作，无需专业IT人员。操作的内容是浏览器处理过的内容，jax,瀑布流之类的采集非常简单，一些js加密的数据也能轻易得到，不需要抓取数据包剖析。
　　2、自定义流程
　　完全自定义采集流程。打开网页，输入数据，提取数据，点击网页上的元素，操作数据库，验证码识别，抓取循环记录，处理列表，条件判定，完全自定义流程，采集就像是搭积木，功能自由组合。
　　3、自动打码
　　采集速度快，程序重视采集效率，页面解析速率飞快，不需要访问的页面或广告之类可以直接屏蔽，加快访问速率。
　　4、生成EXE
　　不只是个采集器，更是营销神器。不光能采集数据保存到数据库或其它地方，还可以群发现有的数据到各个网站。可以做到手动登入，自动辨识验证码，是万能的浏览器。
　　5、项目管理
　　利用解决方案可以直接生成单个应用程序。单个程序可以脱离优采云浏览器并运行，官方提供了一个软件管理平台，用户可以进行授权等管理。每个用户都是开发者，每个人都能从平台中获利。
　　常见问题
　　1、软件是如何授权的？
　　浏览器是永久使用，免费升级服务三年。软件须要绑定一台机器，但是可以自由更换。
　　2、浏览器是不是没有免费版？
　　优采云浏览器的脚本管理器是免费使用的，用户可以制做脚本，还可以直接运行单个脚本。
　　3、项目管理器有哪些非常的？
　　项目管理器正是优采云浏览器的核心价值。我们单个的脚本，可以独立的运行。但是我们有很多各种各样的需求须要整合，那就须要项目管理器了。
　　4、可以拿来采微博吗？
　　可以的，使用浏览器的滚动条设置，可以采集瀑布流这种数据。
　　5、可以识别验证码吗？
　　可以的，软件自带手工打码和各类打码平台。可以手动辨识并手动输入打码结果。
　　6、我可以从优采云浏览器中赚到钱吗？
　　优采云浏览器是可以帮助你们实现自动化的网页操作。也能使你们做的脚本生成程序去销售，生成的程序可以自定义软件名子。官方提供注册服务和手动升级。用户只要管脚本和服务，就能快速的挣钱了。
　　7、可以操作数据库吗？
　　浏览器可以读取写入mysql,sqlserver,sqlite,access四种数据库。你可以在将任务数据放到数据库，通过浏览器读取并运行，运行完成后，再使用浏览器标记为已使用过。你可以在浏览器的使用过程中随时使用数据库，十分便捷。查看全部

　　优采云浏览器新版下载地址直达
　　软件介绍
　　优采云浏览器是一款才能通过自动化设置脚本来实现数据递交、文件下载、邮件收发等功能的实用软件，界面简约直观，一目了然，能够帮助实现自动化的网页操作，也才能帮助用户做的脚本生成程序，达到销售目的，同时支持生成程序自定义命名。欢迎下载使用！
　　软件特色
　　1、可视化操作
　　操作简单，完全可视化图形操作，无需专业IT人员。操作的内容是浏览器处理过的内容，jax,瀑布流之类的采集非常简单，一些js加密的数据也能轻易得到，不需要抓取数据包剖析。
　　2、自定义流程
　　完全自定义采集流程。打开网页，输入数据，提取数据，点击网页上的元素，操作数据库，验证码识别，抓取循环记录，处理列表，条件判定，完全自定义流程，采集就像是搭积木，功能自由组合。
　　3、自动打码
　　采集速度快，程序重视采集效率，页面解析速率飞快，不需要访问的页面或广告之类可以直接屏蔽，加快访问速率。
　　4、生成EXE
　　不只是个采集器，更是营销神器。不光能采集数据保存到数据库或其它地方，还可以群发现有的数据到各个网站。可以做到手动登入，自动辨识验证码，是万能的浏览器。
　　5、项目管理
　　利用解决方案可以直接生成单个应用程序。单个程序可以脱离优采云浏览器并运行，官方提供了一个软件管理平台，用户可以进行授权等管理。每个用户都是开发者，每个人都能从平台中获利。
　　常见问题
　　1、软件是如何授权的？
　　浏览器是永久使用，免费升级服务三年。软件须要绑定一台机器，但是可以自由更换。
　　2、浏览器是不是没有免费版？
　　优采云浏览器的脚本管理器是免费使用的，用户可以制做脚本，还可以直接运行单个脚本。
　　3、项目管理器有哪些非常的？
　　项目管理器正是优采云浏览器的核心价值。我们单个的脚本，可以独立的运行。但是我们有很多各种各样的需求须要整合，那就须要项目管理器了。
　　4、可以拿来采微博吗？
　　可以的，使用浏览器的滚动条设置，可以采集瀑布流这种数据。
　　5、可以识别验证码吗？
　　可以的，软件自带手工打码和各类打码平台。可以手动辨识并手动输入打码结果。
　　6、我可以从优采云浏览器中赚到钱吗？
　　优采云浏览器是可以帮助你们实现自动化的网页操作。也能使你们做的脚本生成程序去销售，生成的程序可以自定义软件名子。官方提供注册服务和手动升级。用户只要管脚本和服务，就能快速的挣钱了。
　　7、可以操作数据库吗？
　　浏览器可以读取写入mysql,sqlserver,sqlite,access四种数据库。你可以在将任务数据放到数据库，通过浏览器读取并运行，运行完成后，再使用浏览器标记为已使用过。你可以在浏览器的使用过程中随时使用数据库，十分便捷。

流程步骤中级选项说明

采集交流 • 优采云发表了文章 • 0 个评论 • 180 次浏览 • 2020-08-20 11:37 • 来自相关话题

　　流程步骤中级选项说明
　　1、打开网页
　　该步骤按照设定的网址打开网页，一般为网页采集流程的第一个步骤，用来打开指定的网站或者网页。如果有多个类似的网址须要分别打开执行同样的采集流程，则应当放置在循环的内部，勾选上使用循环，并作为第一个子步骤。
　　
　　1）页面URL
　　页面URL，一般可以从网页浏览器地址栏中复制得到，如：
　　2）操作名
　　自定义操作名
　　3）超时
　　在网页加载完成前等待的最大时间。如果网页打开平缓，或者长时间未能打开，则流程最多等待超时指定的时间，之后无论网页是否加载完成，都直接执行下一步骤。应尽量避开设置过长的超时时间，因为这会影响采集速度
　　4）阻止弹出
　　用以屏蔽网页弹窗广告，如果打开的网页时常会弄成另外一个广告页面，则可以使用本选项制止广告页面弹出
　　5）使用循环
　　配合循环步骤来使用，用以重复打开多个类似的网页，然后执行同样的一套流程，循环打开网页时，应为作为循环步骤的第一个子步骤。如果勾选此项，则无需自动设置网页地址，网页地址会手动显示循环设定的网址列表的当前循环项
　　6）滚动页面
　　个别网页在打开网页后并没有显示所有数据，导致采集异常停止或数据不全，故须要滚动滑鼠滚轮或则拖动页面滚动条到顶部，才会加载没有显示的数据。使用此选项在页面加载完成后向上滚动，滚动形式有向上滚动一屏和直接滚动到顶部两种。一般而言滚动一屏，页面加载疗效会优于直接滚动到顶部，但更花费时间。滚动的时间间隔和次数，应按照所需数据凸显须要多少次来合理设置。
　　7）清理缓存
　　在优采云中，如果须要切换帐号，可使用清除浏览器缓存，重新设置其他帐号
　　8）自定义cookie
　　cookie指个别网站为了分辨用户身分、进行 session 跟踪而存储在用户本地终端上的数据（通常经过加密）。在优采云中，可以通过做一次预登陆获取页面cookie，通过勾选打开网页时使用指定cookie获取登入后的cookie，从而记住登入状态。获取的当前页面cookie，可以通过点击查看cookie。此外也可以自定义cookie，请参考
　　9）重试
　　如果网页没有根据成功打开预期页面，例如显示服务器错误（500），访问频度很快等，或者跳转到其他正常打开不应当出现的页面，可以使用本选项进行重试，但必须配合以下几个重试参数执行，请注意以下几种判定的情况满足任意一种出现就会进行重试
　　① 当前网页的网址/文本/XPath，收录/不收录
　　如果当前页面网址/文本/XPath总是出现/不出现某个特殊内容，则使用此选项可以判定有没有打开预期页面，需要重试
　　② 最大重试次数
　　为了防止无限制重复尝试，请使用本选项限制最大重复尝试的次数，如果重试抵达最大容许的次数，任然没有成功，则流程将停止重试，继续执行下一步骤
　　③ 时间间隔
　　在两次重试之间等待的时间，一般情况下，当打开网页出错时，立即重试太有可能是同样的错误，适当等待则可能成功打开预期网页，但应当尽量避开设置过长的等待时间，因为这会影响采集速度
　　在重试的过程中还可以配合切换代理IP和浏览器版本，从而防止网站的防采集封锁。在出现某甲条件时进行重试并切换IP，将比设置固定时间切换IP消耗更少的代理IP。详情操作请参考：
　　2、点击元素
　　该步骤对网页上指定的元素执行键盘左键单击动作，比如点击按键，点击超链接等
　　
　　1）操作名
　　自定义操作名
　　2）执行前等待
　　对此步骤设置执行前等待，即等待设置的时间后，再进行此步骤
　　3）或者出现元素
　　或者出现元素，配合执行前等待使用，在其中输入元素的XPath可以在出现该元素的时侯结束执行前的等待。例如我们设置执行前等待10秒，或者出现元素设置为某元素。假如第13秒元素加载下来，则优采云会在第10秒尝试进行循环提取操作，假如第8秒元素加载下来，则优采云会在第8秒元素加载下来后立即结束循环的执行前等待，进行循环提取操作。则优采云会在第8秒元素加载下来后立即结束循环的执行前等待，进行循环提取操作。4）使用循环
　　配合循环步骤来使用，用以重复点击循环中设置的多个元素，适用于循环单个固定元素，循环固定元素列表，循环不固定元素列表。如果勾选此项，则无需设置点击的元素，要点击的元素会手动显示循环设定的当前循环项，使用该选项时，应当作为循环步骤的子步骤，但毋须是第一个子步骤
　　5）开新标签
　　如果点击元素时希望在新的标签页中打开，而不是在当前页打开，请勾选此选项。一般情况下，在须要循环打开一个页面上的多个超链接时，需要勾选此选项便于保留列表页面，以便点击列表页上的下一个超链接；但是若果是循环点击下一页时，则不要勾选此选项，以在当前页面打开下一页
　　6）ajax加载
　　ajax，即异步加载，是一种无需重新加载网页能够刷新局部数据的技术，因此流程不能测量到网页加载完成，就不能决定何时该执行下一个步骤。此会按一个默认时间120秒进行等待后再继续往下执行，故引起采集过慢。使用此选项后，流程会按设定的超时时间进行等待，从而继续执行后续流程步骤。本选项须要配合异步加载超时使用。
　　ajax超时：等待异步加载完成的时间，在点击元素以后，流程会开始计时，超时时间抵达后，执行下一个流程步骤。时间的长短应依照网页中自己所需数据加载的快慢来设置。简易多1-2秒。本选项须要配合异步加载使用，通常使用本选项时，不能勾选“新标签页中打开”。
　　7）页面加速
　　有的网页不是ajax网页，勾选此项后，系统会依照网页加载情况，判断要采集的数据是否加载下来了。如果要采集的数据早已加载下来了但网页还处于加载状态，则强制停止加载，进入下一步骤。因是系统手动判定的，可能会有问题，一般不建议使用此项
　　8）定位锚点
　　锚点是网页制做中超级链接的一种，又叫命名锚记。命名锚记象一个迅速定位器一样是一种页面内的超级链接，运用相当普遍。在优采云中，对于运用了定位锚点的网页，可通过输入锚点id，迅速定位到页面中的锚点
　　9）滚动页面（与打开网页中的滚动作用一样）
　　个别网页在加载完成后并没有显示所有数据，需要滚动滑鼠滚轮或则拖动页面滚动条到顶部，才会加载没有显示的数据，使用此选项在页面加载完成后滚动到顶部。
　　10）重试（与打开网页中的重试作用一样）
　　如果网页没有根据成功打开预期页面，例如显示服务器错误（500），访问频度很快等，或者跳转到其他正常执行不应当出现的页面，可以使用本选项进行重试，但必须配合以下几个重试参数执行，请注意以下几种判定的情况任意一种出现就会造成重试
　　① 当前网页的网址/文本/XPath，收录/不收录
　　如果当前页面网址/文本/XPath总是出现/不出现某个特殊内容，则使用此选项可以判定没有打开预期页面，需要重试
　　② 最大重试次数
　　为了防止无限制重复尝试，请示用本选项限制最大重复尝试的次数，如果重试抵达最大容许的次数，任然没有成功，则流程将停止重试，继续执行下一步骤
　　③ 时间间隔
　　在两次重试之间等待的时间，一般情况下，当打开网页出错时，立即重试太有可能是同样的错误，适当等待则可能成功打开预期网页，但应当尽量避开设置过长的等待时间，因为这会影响采集速度
　　3、输入文字
　　本步骤在输入框中输入指定的文本，例如输入搜索关键词，输入帐号等。将设定的文本输入到网页的某个输入框中，如使用搜索引擎时输入关键词
　　
　　1）输入框
　　一般而言显示“Type：INPUT”字样时，则输入框生效。如果显示空白，则输入框无效。但也有的网页输入框并不是“INPUT”，故主要还是要看网页中是否顺利输入文字。部分网页在输入完文字后，还须要点击“确定”后才会触发，往网页中填写文字。
　　2）要输入的文本
　　自定义要输入的关键词
　　3）执行前等待
　　对此步骤设置执行前等待，即等待设置的时间后，再进行此步骤
　　4）出现元素
　　或者出现元素，配合执行前等待使用，在其中输入元素的XPath可以在出现该元素的时侯结束执行前的等待。例如我们设置执行前等待10秒，或者出现元素设置为某元素。假如第13秒元素加载下来，则优采云会在第10秒尝试进行循环提取操作，假如第8秒元素加载下来，则优采云会在第8秒元素加载下来后立即结束循环的执行前等待，进行循环提取操作。
　　5）使用循环
　　配合循环骤来使用，用以循环输入多个关键词，然后执行同样的一套流程。循环输入关键词，应为作为循环步骤的第一个子步骤。如果勾选此项，则无需自动填写要输入的文本，文本会手动显示循环设定的文本列表的当前循环项
　　6）自定义
　　自定义，即自定义定位文本输入框。一般情况下，优采云会手动生成定位输入框的XPath，自动生成的定位XPath是正确可用的。如果优采云自动生成的定位输入框的XPath不能满足需求，则需我们自己自定义输入能正确定位到输入框的XPath
　　4、提取数据
　　本步骤按照提取数据模板的配置，从网页中提取数据，同时还可配置为提取网址，网页标题，或者生成一些数据如当前时间等
　　
　　1) 抓取模板
　　本步骤按照提取数据模板的配置，从网页中提取数据
　　① 字段名称
　　给抓取的数据数组取个别称，如新闻标题、新闻正文
　　② 提取到的数据
　　从网页上提取到的数据，将会在本列显示所抓取到的示例
　　③ 找不到时怎样处理
　　该数组留空，整行留空，或使用某个固定值。
　　2）操作名
　　可自定义操作的名称
　　3）执行前等待
　　对此步骤设置执行前等待，即等待设置的时间后，再进行此步骤
　　4）或者出现元素
　　或者出现元素，配合执行前等待使用，在其中输入元素的XPath可以在出现该元素的时侯结束执行前的等待。例如我们设置执行前等待10秒，或者出现元素设置为某元素。假如第13秒元素加载下来，则优采云会在第10秒尝试进行循环提取操作，假如第8秒元素加载下来，则优采云会在第8秒元素加载下来后立即结束循环的执行前等待，进行循环提取操作。
　　5）使用循环
　　配合循环步骤来使用，用以重复的从循环中设置的多个元素中提取数据，适用于循环单个固定元素，循环固定元素列表，循环不固定元素列表。如果勾选此项，会从循环所设置的元素中按照抓取规则提取出示例数据，使用该选项时，提取数据步骤应该作为循环步骤的子步骤，但毋须是第一个步骤
　　6）添加特殊数组
　　可添加当前时间、固定数组、空数组、当前网页信息（页面网址、页面标题......）等特殊数组
　　7）自定义处理数组
　　
　　①
　　
　　：自定义数组按键，选中数组后点击此按键，可自定义抓取形式、自定义定位元素形式、格式化数据、自定义数据合并形式
　　②
　　
　　：删除按键，选中数组后点击此按键，可删掉数组
　　③
　　
　　：上移和下移按键，选中数组后点击此按键，可上移或下移数组
　　④
　　
　　：导入和导入抓取配置按键，可点击导入抓取配置按键将配置好的模板保存到想要的位置，下次有须要时，再点击导出抓取配置按键直接，直接导出并使用抓取配置
　　5、循环
　　本步骤拿来重复执行一系列步骤，根据配置不同，支持多种模式
　　
　　1）操作名
　　自定义操作名
　　2）执行前等待
　　对此步骤设置执行前等待，即等待设置的时间后，再进行此步骤
　　3）或者出现元素
　　或者出现元素，配合执行前等待使用，在其中输入元素的XPath可以在出现该元素的时侯结束执行前的等待。例如我们设置执行前等待10秒，或者出现元素设置为某元素。假如第13秒元素加载下来，则优采云会在第10秒尝试进行循环提取操作，假如第8秒元素加载下来，则优采云会在第8秒元素加载下来后立即结束循环的执行前等待，进行循环提取操作。
　　4）元素在iframe 、Iframe XPath
　　如果循环中设置的元素在Iframe里，请勾选此项，并在旁边的Iframe XPath中填写Iframe XPath；Iframe XPath 元素所在Iframe的路径，只有当勾选“元素在Iframe里”时这个设置才能生效
　　5）循环形式查看全部

　　流程步骤中级选项说明
　　1、打开网页
　　该步骤按照设定的网址打开网页，一般为网页采集流程的第一个步骤，用来打开指定的网站或者网页。如果有多个类似的网址须要分别打开执行同样的采集流程，则应当放置在循环的内部，勾选上使用循环，并作为第一个子步骤。
　　

　　1）页面URL
　　页面URL，一般可以从网页浏览器地址栏中复制得到，如：
　　2）操作名
　　自定义操作名
　　3）超时
　　在网页加载完成前等待的最大时间。如果网页打开平缓，或者长时间未能打开，则流程最多等待超时指定的时间，之后无论网页是否加载完成，都直接执行下一步骤。应尽量避开设置过长的超时时间，因为这会影响采集速度
　　4）阻止弹出
　　用以屏蔽网页弹窗广告，如果打开的网页时常会弄成另外一个广告页面，则可以使用本选项制止广告页面弹出
　　5）使用循环
　　配合循环步骤来使用，用以重复打开多个类似的网页，然后执行同样的一套流程，循环打开网页时，应为作为循环步骤的第一个子步骤。如果勾选此项，则无需自动设置网页地址，网页地址会手动显示循环设定的网址列表的当前循环项
　　6）滚动页面
　　个别网页在打开网页后并没有显示所有数据，导致采集异常停止或数据不全，故须要滚动滑鼠滚轮或则拖动页面滚动条到顶部，才会加载没有显示的数据。使用此选项在页面加载完成后向上滚动，滚动形式有向上滚动一屏和直接滚动到顶部两种。一般而言滚动一屏，页面加载疗效会优于直接滚动到顶部，但更花费时间。滚动的时间间隔和次数，应按照所需数据凸显须要多少次来合理设置。
　　7）清理缓存
　　在优采云中，如果须要切换帐号，可使用清除浏览器缓存，重新设置其他帐号
　　8）自定义cookie
　　cookie指个别网站为了分辨用户身分、进行 session 跟踪而存储在用户本地终端上的数据（通常经过加密）。在优采云中，可以通过做一次预登陆获取页面cookie，通过勾选打开网页时使用指定cookie获取登入后的cookie，从而记住登入状态。获取的当前页面cookie，可以通过点击查看cookie。此外也可以自定义cookie，请参考
　　9）重试
　　如果网页没有根据成功打开预期页面，例如显示服务器错误（500），访问频度很快等，或者跳转到其他正常打开不应当出现的页面，可以使用本选项进行重试，但必须配合以下几个重试参数执行，请注意以下几种判定的情况满足任意一种出现就会进行重试
　　① 当前网页的网址/文本/XPath，收录/不收录
　　如果当前页面网址/文本/XPath总是出现/不出现某个特殊内容，则使用此选项可以判定有没有打开预期页面，需要重试
　　② 最大重试次数
　　为了防止无限制重复尝试，请使用本选项限制最大重复尝试的次数，如果重试抵达最大容许的次数，任然没有成功，则流程将停止重试，继续执行下一步骤
　　③ 时间间隔
　　在两次重试之间等待的时间，一般情况下，当打开网页出错时，立即重试太有可能是同样的错误，适当等待则可能成功打开预期网页，但应当尽量避开设置过长的等待时间，因为这会影响采集速度
　　在重试的过程中还可以配合切换代理IP和浏览器版本，从而防止网站的防采集封锁。在出现某甲条件时进行重试并切换IP，将比设置固定时间切换IP消耗更少的代理IP。详情操作请参考：
　　2、点击元素
　　该步骤对网页上指定的元素执行键盘左键单击动作，比如点击按键，点击超链接等
　　

　　1）操作名
　　自定义操作名
　　2）执行前等待
　　对此步骤设置执行前等待，即等待设置的时间后，再进行此步骤
　　3）或者出现元素
　　或者出现元素，配合执行前等待使用，在其中输入元素的XPath可以在出现该元素的时侯结束执行前的等待。例如我们设置执行前等待10秒，或者出现元素设置为某元素。假如第13秒元素加载下来，则优采云会在第10秒尝试进行循环提取操作，假如第8秒元素加载下来，则优采云会在第8秒元素加载下来后立即结束循环的执行前等待，进行循环提取操作。则优采云会在第8秒元素加载下来后立即结束循环的执行前等待，进行循环提取操作。4）使用循环
　　配合循环步骤来使用，用以重复点击循环中设置的多个元素，适用于循环单个固定元素，循环固定元素列表，循环不固定元素列表。如果勾选此项，则无需设置点击的元素，要点击的元素会手动显示循环设定的当前循环项，使用该选项时，应当作为循环步骤的子步骤，但毋须是第一个子步骤
　　5）开新标签
　　如果点击元素时希望在新的标签页中打开，而不是在当前页打开，请勾选此选项。一般情况下，在须要循环打开一个页面上的多个超链接时，需要勾选此选项便于保留列表页面，以便点击列表页上的下一个超链接；但是若果是循环点击下一页时，则不要勾选此选项，以在当前页面打开下一页
　　6）ajax加载
　　ajax，即异步加载，是一种无需重新加载网页能够刷新局部数据的技术，因此流程不能测量到网页加载完成，就不能决定何时该执行下一个步骤。此会按一个默认时间120秒进行等待后再继续往下执行，故引起采集过慢。使用此选项后，流程会按设定的超时时间进行等待，从而继续执行后续流程步骤。本选项须要配合异步加载超时使用。
　　ajax超时：等待异步加载完成的时间，在点击元素以后，流程会开始计时，超时时间抵达后，执行下一个流程步骤。时间的长短应依照网页中自己所需数据加载的快慢来设置。简易多1-2秒。本选项须要配合异步加载使用，通常使用本选项时，不能勾选“新标签页中打开”。
　　7）页面加速
　　有的网页不是ajax网页，勾选此项后，系统会依照网页加载情况，判断要采集的数据是否加载下来了。如果要采集的数据早已加载下来了但网页还处于加载状态，则强制停止加载，进入下一步骤。因是系统手动判定的，可能会有问题，一般不建议使用此项
　　8）定位锚点
　　锚点是网页制做中超级链接的一种，又叫命名锚记。命名锚记象一个迅速定位器一样是一种页面内的超级链接，运用相当普遍。在优采云中，对于运用了定位锚点的网页，可通过输入锚点id，迅速定位到页面中的锚点
　　9）滚动页面（与打开网页中的滚动作用一样）
　　个别网页在加载完成后并没有显示所有数据，需要滚动滑鼠滚轮或则拖动页面滚动条到顶部，才会加载没有显示的数据，使用此选项在页面加载完成后滚动到顶部。
　　10）重试（与打开网页中的重试作用一样）
　　如果网页没有根据成功打开预期页面，例如显示服务器错误（500），访问频度很快等，或者跳转到其他正常执行不应当出现的页面，可以使用本选项进行重试，但必须配合以下几个重试参数执行，请注意以下几种判定的情况任意一种出现就会造成重试
　　① 当前网页的网址/文本/XPath，收录/不收录
　　如果当前页面网址/文本/XPath总是出现/不出现某个特殊内容，则使用此选项可以判定没有打开预期页面，需要重试
　　② 最大重试次数
　　为了防止无限制重复尝试，请示用本选项限制最大重复尝试的次数，如果重试抵达最大容许的次数，任然没有成功，则流程将停止重试，继续执行下一步骤
　　③ 时间间隔
　　在两次重试之间等待的时间，一般情况下，当打开网页出错时，立即重试太有可能是同样的错误，适当等待则可能成功打开预期网页，但应当尽量避开设置过长的等待时间，因为这会影响采集速度
　　3、输入文字
　　本步骤在输入框中输入指定的文本，例如输入搜索关键词，输入帐号等。将设定的文本输入到网页的某个输入框中，如使用搜索引擎时输入关键词
　　

　　1）输入框
　　一般而言显示“Type：INPUT”字样时，则输入框生效。如果显示空白，则输入框无效。但也有的网页输入框并不是“INPUT”，故主要还是要看网页中是否顺利输入文字。部分网页在输入完文字后，还须要点击“确定”后才会触发，往网页中填写文字。
　　2）要输入的文本
　　自定义要输入的关键词
　　3）执行前等待
　　对此步骤设置执行前等待，即等待设置的时间后，再进行此步骤
　　4）出现元素
　　或者出现元素，配合执行前等待使用，在其中输入元素的XPath可以在出现该元素的时侯结束执行前的等待。例如我们设置执行前等待10秒，或者出现元素设置为某元素。假如第13秒元素加载下来，则优采云会在第10秒尝试进行循环提取操作，假如第8秒元素加载下来，则优采云会在第8秒元素加载下来后立即结束循环的执行前等待，进行循环提取操作。
　　5）使用循环
　　配合循环骤来使用，用以循环输入多个关键词，然后执行同样的一套流程。循环输入关键词，应为作为循环步骤的第一个子步骤。如果勾选此项，则无需自动填写要输入的文本，文本会手动显示循环设定的文本列表的当前循环项
　　6）自定义
　　自定义，即自定义定位文本输入框。一般情况下，优采云会手动生成定位输入框的XPath，自动生成的定位XPath是正确可用的。如果优采云自动生成的定位输入框的XPath不能满足需求，则需我们自己自定义输入能正确定位到输入框的XPath
　　4、提取数据
　　本步骤按照提取数据模板的配置，从网页中提取数据，同时还可配置为提取网址，网页标题，或者生成一些数据如当前时间等
　　

　　1) 抓取模板
　　本步骤按照提取数据模板的配置，从网页中提取数据
　　① 字段名称
　　给抓取的数据数组取个别称，如新闻标题、新闻正文
　　② 提取到的数据
　　从网页上提取到的数据，将会在本列显示所抓取到的示例
　　③ 找不到时怎样处理
　　该数组留空，整行留空，或使用某个固定值。
　　2）操作名
　　可自定义操作的名称
　　3）执行前等待
　　对此步骤设置执行前等待，即等待设置的时间后，再进行此步骤
　　4）或者出现元素
　　或者出现元素，配合执行前等待使用，在其中输入元素的XPath可以在出现该元素的时侯结束执行前的等待。例如我们设置执行前等待10秒，或者出现元素设置为某元素。假如第13秒元素加载下来，则优采云会在第10秒尝试进行循环提取操作，假如第8秒元素加载下来，则优采云会在第8秒元素加载下来后立即结束循环的执行前等待，进行循环提取操作。
　　5）使用循环
　　配合循环步骤来使用，用以重复的从循环中设置的多个元素中提取数据，适用于循环单个固定元素，循环固定元素列表，循环不固定元素列表。如果勾选此项，会从循环所设置的元素中按照抓取规则提取出示例数据，使用该选项时，提取数据步骤应该作为循环步骤的子步骤，但毋须是第一个步骤
　　6）添加特殊数组
　　可添加当前时间、固定数组、空数组、当前网页信息（页面网址、页面标题......）等特殊数组
　　7）自定义处理数组
　　

　　①
　　

　　：自定义数组按键，选中数组后点击此按键，可自定义抓取形式、自定义定位元素形式、格式化数据、自定义数据合并形式
　　②
　　

　　：删除按键，选中数组后点击此按键，可删掉数组
　　③
　　

　　：上移和下移按键，选中数组后点击此按键，可上移或下移数组
　　④
　　

　　：导入和导入抓取配置按键，可点击导入抓取配置按键将配置好的模板保存到想要的位置，下次有须要时，再点击导出抓取配置按键直接，直接导出并使用抓取配置
　　5、循环
　　本步骤拿来重复执行一系列步骤，根据配置不同，支持多种模式
　　

　　1）操作名
　　自定义操作名
　　2）执行前等待
　　对此步骤设置执行前等待，即等待设置的时间后，再进行此步骤
　　3）或者出现元素
　　或者出现元素，配合执行前等待使用，在其中输入元素的XPath可以在出现该元素的时侯结束执行前的等待。例如我们设置执行前等待10秒，或者出现元素设置为某元素。假如第13秒元素加载下来，则优采云会在第10秒尝试进行循环提取操作，假如第8秒元素加载下来，则优采云会在第8秒元素加载下来后立即结束循环的执行前等待，进行循环提取操作。
　　4）元素在iframe 、Iframe XPath
　　如果循环中设置的元素在Iframe里，请勾选此项，并在旁边的Iframe XPath中填写Iframe XPath；Iframe XPath 元素所在Iframe的路径，只有当勾选“元素在Iframe里”时这个设置才能生效
　　5）循环形式

识别User Agent屏蔽一些Web爬虫防采集

采集交流 • 优采云发表了文章 • 0 个评论 • 360 次浏览 • 2020-08-20 03:00 • 来自相关话题

　　识别User Agent屏蔽一些Web爬虫防采集
　　识别User Agent屏蔽一些Web爬虫防采集
　　from:%E5%8D%9A%E5%AE%A2/%E8%AF%86%E5%88%ABUser_Agent%E5%B1%8F%E8%94%BD%E4%B8%80%E4%BA%9BWeb%E7%88%AC%E8%99%AB%E9%98%B2%E9%87%87%E9%9B%86
　　自从做网站以来，大量手动抓取我们内容的爬虫仍然是个问题，防范采集是个常年任务，这篇是我5年前的博客文章：《Apache中设置屏蔽IP地址和URL网址来严禁采集》，另外，还可以辨识User Agent来鉴别和屏蔽一些采集器，在Apache中设置的代码事例如下：
　　RewriteCond %{HTTP_USER_AGENT} ^(.*)(DTS\sAgent|Creative\sAutoUpdate|HTTrack|YisouSpider|SemrushBot)(.*)$
RewriteRule .* - [F,L]
　　屏蔽User Agent为空的代码：
　　RewriteCond %{HTTP_USER_AGENT} ^$
RewriteRule .* - [F]
　　屏蔽Referer和User Agent都为空的代码：
　　RewriteCond %{HTTP_REFERER} ^$ [NC]
RewriteCond %{HTTP_USER_AGENT} ^$ [NC]
RewriteRule .* - [F]
　　下面把一些可以屏蔽的常见采集软件或则机器爬虫的User Agent的特点关键词列一下供参考：
　　其它也可以考虑屏蔽的：
　　一般不要屏蔽的主流搜索引擎特点：
　　一些常见浏览器或则通用代码也不要轻易屏蔽：查看全部

　　识别User Agent屏蔽一些Web爬虫防采集
　　识别User Agent屏蔽一些Web爬虫防采集
　　from:%E5%8D%9A%E5%AE%A2/%E8%AF%86%E5%88%ABUser_Agent%E5%B1%8F%E8%94%BD%E4%B8%80%E4%BA%9BWeb%E7%88%AC%E8%99%AB%E9%98%B2%E9%87%87%E9%9B%86
　　自从做网站以来，大量手动抓取我们内容的爬虫仍然是个问题，防范采集是个常年任务，这篇是我5年前的博客文章：《Apache中设置屏蔽IP地址和URL网址来严禁采集》，另外，还可以辨识User Agent来鉴别和屏蔽一些采集器，在Apache中设置的代码事例如下：
　　RewriteCond %{HTTP_USER_AGENT} ^(.*)(DTS\sAgent|Creative\sAutoUpdate|HTTrack|YisouSpider|SemrushBot)(.*)$
RewriteRule .* - [F,L]
　　屏蔽User Agent为空的代码：
　　RewriteCond %{HTTP_USER_AGENT} ^$
RewriteRule .* - [F]
　　屏蔽Referer和User Agent都为空的代码：
　　RewriteCond %{HTTP_REFERER} ^$ [NC]
RewriteCond %{HTTP_USER_AGENT} ^$ [NC]
RewriteRule .* - [F]
　　下面把一些可以屏蔽的常见采集软件或则机器爬虫的User Agent的特点关键词列一下供参考：
　　其它也可以考虑屏蔽的：
　　一般不要屏蔽的主流搜索引擎特点：
　　一些常见浏览器或则通用代码也不要轻易屏蔽：

最常见6大防采集套路及解决方式，建议采集！

采集交流 • 优采云发表了文章 • 0 个评论 • 510 次浏览 • 2020-08-15 03:51 • 来自相关话题

　　什么是防采集？
　　用大白话来说，就是我们想借助工具采集某个网站的数据（前提其实是公开合法数据），但网站不想给你采集而设置的技术抵挡举措。
　　网站常见的防采集套路有什么？
　　防采套路1：输入验证码框验证
　　
　　采集难度：★☆☆☆☆
　　常见网站：搜狗陌陌
　　在采集某些网站过程中，爪子们是不是常常会碰到这样的情况，要求你输入验证码，否则就卡住进行不下去？
　　对的，这是网站最常用且最基础的防采举措之一，它要求你必须你自动输入验证码里的数字和字母，才能继续听到更多信息或则进行下一步，以此来判定你是机器人还是真人。
　　防采套路2：滑动拼图进行验证
　　
　　采集难度：★★☆☆☆
　　常见网站：拉勾、B站
　　验证码防采套路升级版，也是网站最常用来验证当前浏览用户是机器人还是人工的方法之一。
　　它要求你必须滑动拼图到它指定的位置，才能通过验证进行下一步操作。
　　防采套路3：登录验证
　　
　　采集难度：★★★☆☆
　　常见网站：新浪微博、新榜
　　这类网站通常须要登陆能够看见更丰富的信息，否则只会突显十分有限的内容。放在优采云采集器里，只要一启动，这类网站就立刻弹出登陆窗口，才能进行下一步，有时候都会出现在采集的过程当中。如果不懂的怎么设置登陆流程的脚爪，很快会提醒“采集终止”。
　　防采套路4：数据加密
　　
　　采集难度：★★★★☆
　　常见网站：大众点评
　　有些网站通过对数据加密进行防采集。如大众点评（上图），我们在网页上见到的内容是这家饭店的“地址”，但我们打开源代码看，这段文字被早已被加密分离，这会导致哪些结果？
　　这将造成即使你将它采集下来，文字也是乱码或支离破碎的，无法整合成一段完整的文字。
　　防采套路5：反馈虚假数据
　　
　　采集难度：★★★★★
　　常见网站：携程网
　　最近见到一个同程开发写的贴子，关于她们是怎样给爬虫反馈“假数据”的。看完认为同程很“可怕了”！
　　当你发觉辛辛苦苦采集下来的数据竟然是假的，请问你心累不心累？！所谓道高一尺，魔高一丈，遇到这些给你“投毒”的网站就请绕路吧，除非你想到更好的破解方式！
　　防采套路6：禁止访问
　　
　　采集难度：★★★★★
　　常见网站：个别网站
　　小八目前还没怎样遇见过此类情况。当然，我们没事也不会故意“以身试法”，去试探网站的防采底线。
　　这种情况，主要还是看网站的防采机制设计，如果触发了，通常的结果就是全面封锁和严禁。比如封你的帐号、封你的IP地址。一旦被封锁，网站会手动给你错误页面或未能使你正常浏览。
　　几种最容易触发防采集的情况。
　　
　　1、采集速度过快、频次过低
　　嗯？这个用户如何会1分钟浏览几十个页面呢？而且还是一天24小时不休息？有问题，我要去查查！啊，绝对是机器，封掉~！
　　采集速度过快、频次过快很容易造成对方网站注意，对方人员很容易就辨识出你是机器在爬取它的内容，不是人类。毕竟正常人是没法象机器人那样不休不眠地高速运转。
　　2、采集数据量过大
　　当你速率和频次上来了，你采集的数据量将会太庞大，小八曾遇见脚爪三天采集几百万条数据的情况，如果对方官网防采严格，则容易触发防采集机制。
　　3、一直使用同一个IP或帐户
　　一旦对方网站发现你的IP/账户为机器爬虫，那么很有可能你的IP/账户都会被纳入她们的黑名单，以后不容许你访问或则给你展示一个错误页面，让你无从下手。
　　针对防采集优采云推出了一系列智能防封解决方式！
　　解决方式1：自动辨识输入验证码
　　优采云提供验证码辨识控件，目前支持手动辨识8种类型智能辨识，包括字母、数字、汉字，还包括混和算数估算！
　　
　　解决方式2：自动滑动拼图验证
　　遇到滑块？别担心，优采云支持手动辨识滑块验证，并且使机器手动拖动到指定位置，网站验证妥妥滴。
　　
　　优采云自动通过滑块验证
　　解决方式3：设置手动登入
　　优采云提供以下2种登陆模式：
　　1）文本+点击登陆
　　
　　在优采云里设计登陆流程，在采集过程中优采云将手动输入用户和密码进行登陆（PS，优采云不会获取任何用户个人隐私）
　　2）Cookie登陆
　　在优采云中进行登陆，通过记住登入后的Cookie，下次直接以登陆后的状态打开网页进行采集。
　　
　　解决方式4：放慢采集速度
　　1）Ajax加载
　　
　　AJAX：延时加载、异步更新的一种脚本技术。简单来说就是，我们可以通过Ajax技术使网页加载的时间更长一些（可以设置0-30秒），让浏览速率变慢一点点防止查封。
　　2）执行前等待
　　
　　执行前等待是指在进行采集操作之前，优采云会手动默认等待一段时间，确保要采集的数据早已加载下来。这个方式同样适用于防采比较严格的网站，通过放慢采集速度来躲避反爬虫的追踪。
　　解决方案5：优质代理IP
　　
　　优采云提供了优质的代理IP池，在采集过程中支持智能定时切换IP，避免同个IP采集被网站追踪封锁。查看全部

　　什么是防采集？
　　用大白话来说，就是我们想借助工具采集某个网站的数据（前提其实是公开合法数据），但网站不想给你采集而设置的技术抵挡举措。
　　网站常见的防采集套路有什么？
　　防采套路1：输入验证码框验证
　　

　　采集难度：★☆☆☆☆
　　常见网站：搜狗陌陌
　　在采集某些网站过程中，爪子们是不是常常会碰到这样的情况，要求你输入验证码，否则就卡住进行不下去？
　　对的，这是网站最常用且最基础的防采举措之一，它要求你必须你自动输入验证码里的数字和字母，才能继续听到更多信息或则进行下一步，以此来判定你是机器人还是真人。
　　防采套路2：滑动拼图进行验证
　　

　　采集难度：★★☆☆☆
　　常见网站：拉勾、B站
　　验证码防采套路升级版，也是网站最常用来验证当前浏览用户是机器人还是人工的方法之一。
　　它要求你必须滑动拼图到它指定的位置，才能通过验证进行下一步操作。
　　防采套路3：登录验证
　　

　　采集难度：★★★☆☆
　　常见网站：新浪微博、新榜
　　这类网站通常须要登陆能够看见更丰富的信息，否则只会突显十分有限的内容。放在优采云采集器里，只要一启动，这类网站就立刻弹出登陆窗口，才能进行下一步，有时候都会出现在采集的过程当中。如果不懂的怎么设置登陆流程的脚爪，很快会提醒“采集终止”。
　　防采套路4：数据加密
　　

　　采集难度：★★★★☆
　　常见网站：大众点评
　　有些网站通过对数据加密进行防采集。如大众点评（上图），我们在网页上见到的内容是这家饭店的“地址”，但我们打开源代码看，这段文字被早已被加密分离，这会导致哪些结果？
　　这将造成即使你将它采集下来，文字也是乱码或支离破碎的，无法整合成一段完整的文字。
　　防采套路5：反馈虚假数据
　　

　　采集难度：★★★★★
　　常见网站：携程网
　　最近见到一个同程开发写的贴子，关于她们是怎样给爬虫反馈“假数据”的。看完认为同程很“可怕了”！
　　当你发觉辛辛苦苦采集下来的数据竟然是假的，请问你心累不心累？！所谓道高一尺，魔高一丈，遇到这些给你“投毒”的网站就请绕路吧，除非你想到更好的破解方式！
　　防采套路6：禁止访问
　　

　　采集难度：★★★★★
　　常见网站：个别网站
　　小八目前还没怎样遇见过此类情况。当然，我们没事也不会故意“以身试法”，去试探网站的防采底线。
　　这种情况，主要还是看网站的防采机制设计，如果触发了，通常的结果就是全面封锁和严禁。比如封你的帐号、封你的IP地址。一旦被封锁，网站会手动给你错误页面或未能使你正常浏览。
　　几种最容易触发防采集的情况。
　　

　　1、采集速度过快、频次过低
　　嗯？这个用户如何会1分钟浏览几十个页面呢？而且还是一天24小时不休息？有问题，我要去查查！啊，绝对是机器，封掉~！
　　采集速度过快、频次过快很容易造成对方网站注意，对方人员很容易就辨识出你是机器在爬取它的内容，不是人类。毕竟正常人是没法象机器人那样不休不眠地高速运转。
　　2、采集数据量过大
　　当你速率和频次上来了，你采集的数据量将会太庞大，小八曾遇见脚爪三天采集几百万条数据的情况，如果对方官网防采严格，则容易触发防采集机制。
　　3、一直使用同一个IP或帐户
　　一旦对方网站发现你的IP/账户为机器爬虫，那么很有可能你的IP/账户都会被纳入她们的黑名单，以后不容许你访问或则给你展示一个错误页面，让你无从下手。
　　针对防采集优采云推出了一系列智能防封解决方式！
　　解决方式1：自动辨识输入验证码
　　优采云提供验证码辨识控件，目前支持手动辨识8种类型智能辨识，包括字母、数字、汉字，还包括混和算数估算！
　　

　　解决方式2：自动滑动拼图验证
　　遇到滑块？别担心，优采云支持手动辨识滑块验证，并且使机器手动拖动到指定位置，网站验证妥妥滴。
　　

　　优采云自动通过滑块验证
　　解决方式3：设置手动登入
　　优采云提供以下2种登陆模式：
　　1）文本+点击登陆
　　

　　在优采云里设计登陆流程，在采集过程中优采云将手动输入用户和密码进行登陆（PS，优采云不会获取任何用户个人隐私）
　　2）Cookie登陆
　　在优采云中进行登陆，通过记住登入后的Cookie，下次直接以登陆后的状态打开网页进行采集。
　　

　　解决方式4：放慢采集速度
　　1）Ajax加载
　　

　　AJAX：延时加载、异步更新的一种脚本技术。简单来说就是，我们可以通过Ajax技术使网页加载的时间更长一些（可以设置0-30秒），让浏览速率变慢一点点防止查封。
　　2）执行前等待
　　

　　执行前等待是指在进行采集操作之前，优采云会手动默认等待一段时间，确保要采集的数据早已加载下来。这个方式同样适用于防采比较严格的网站，通过放慢采集速度来躲避反爬虫的追踪。
　　解决方案5：优质代理IP
　　

　　优采云提供了优质的代理IP池，在采集过程中支持智能定时切换IP，避免同个IP采集被网站追踪封锁。

集客陌生群营销专家

采集交流 • 优采云发表了文章 • 0 个评论 • 302 次浏览 • 2020-08-14 15:30 • 来自相关话题

　　主要功能介绍：
　　1、批量搜索采集群
　　按关键词采集群。可设置按活跃度、人气等采集，也可按人数筛选,还可以按地区采集
　　2、批量检查是否为公开群
　　公开群全部可以提取群成员
　　3、批量检查是否可以群发群消息
　　公开群里有一部分群支持不加群直接旅客发言.软件可以全手动测量出这部份群
　　4、批量群发群消息
　　全手动登入进行群发群消息
　　5、批量提取群成员
　　直接快速公开群的全部现有群成员，实时数据，一个不留,全部提取
　　什么是公开群？大家打开QQ查找面板，然后搜索群，有的群有一个步入按键，这种就是公开群，而只有加群按键的就不是。
　　必不可少的辅助功能：
　　1、验证码辨识方法全面
　　可跳过不予辨识，可自行自动输入，可验证码平台手动辨识(只需简单注册冲值，填写账号密码即可)，实现全手动无人值守挂机，省心
　　2、全能的换IP模块，可自定义换IP时机
　　软件拥有ADSL宽带换IP、路由器换IP、91VPN换IP等方法，可当天IP不重复使用，全面的换IP形式，满足不同顾客需求，而且也是躲避腾讯限制不可缺乏的策略
　　3、软件功能强悍，参数设置非常灵活、全面，且手动保存
　　可自行设置循环轮数，各种时间间隔，各种操作次数，轻松应付腾讯不同时期的不同限制策略，各种参数全部手动保存，贴心
　　4、支持定时发送
　　可以设置在某个时间后才开始操作
　　5、支持发送截图功能
　　可以设置在发送消息后手动截取发送记录
　　6、发送内容支持多条，支持图片，支持链接，支持多种发送方法
　　可自行编撰N条消息内容，可发送图片，可插入随机干扰变量，如随机数字、随机汉字、随机字母、随机表情，可纯文字发送，也可文字转图片后发送(可自定义图片背景颜色，文字颜色，图片长度，高度)，更可2者相结合随机发送。这是又一躲避腾讯限制的策略。发送内容支持随机发送、顺序发送、单条发送、多条发送。
　　7、支持多个全手动轮换
　　软件支持多个全手动轮换，自动登入、自动操作，完全模拟人工真实操作，有效减少号码被封、屏蔽的可能性
　　
　　抱歉，此资源仅限VIP下载，请先登入
　　全站软件199元一年，299元终生使用！
　　下载价钱：VIP专享
　　此资源仅对VIP开放下载
　　下载说明：全站软件199元一年，299元终生使用！查看全部

　　主要功能介绍：
　　1、批量搜索采集群
　　按关键词采集群。可设置按活跃度、人气等采集，也可按人数筛选,还可以按地区采集
　　2、批量检查是否为公开群
　　公开群全部可以提取群成员
　　3、批量检查是否可以群发群消息
　　公开群里有一部分群支持不加群直接旅客发言.软件可以全手动测量出这部份群
　　4、批量群发群消息
　　全手动登入进行群发群消息
　　5、批量提取群成员
　　直接快速公开群的全部现有群成员，实时数据，一个不留,全部提取
　　什么是公开群？大家打开QQ查找面板，然后搜索群，有的群有一个步入按键，这种就是公开群，而只有加群按键的就不是。
　　必不可少的辅助功能：
　　1、验证码辨识方法全面
　　可跳过不予辨识，可自行自动输入，可验证码平台手动辨识(只需简单注册冲值，填写账号密码即可)，实现全手动无人值守挂机，省心
　　2、全能的换IP模块，可自定义换IP时机
　　软件拥有ADSL宽带换IP、路由器换IP、91VPN换IP等方法，可当天IP不重复使用，全面的换IP形式，满足不同顾客需求，而且也是躲避腾讯限制不可缺乏的策略
　　3、软件功能强悍，参数设置非常灵活、全面，且手动保存
　　可自行设置循环轮数，各种时间间隔，各种操作次数，轻松应付腾讯不同时期的不同限制策略，各种参数全部手动保存，贴心
　　4、支持定时发送
　　可以设置在某个时间后才开始操作
　　5、支持发送截图功能
　　可以设置在发送消息后手动截取发送记录
　　6、发送内容支持多条，支持图片，支持链接，支持多种发送方法
　　可自行编撰N条消息内容，可发送图片，可插入随机干扰变量，如随机数字、随机汉字、随机字母、随机表情，可纯文字发送，也可文字转图片后发送(可自定义图片背景颜色，文字颜色，图片长度，高度)，更可2者相结合随机发送。这是又一躲避腾讯限制的策略。发送内容支持随机发送、顺序发送、单条发送、多条发送。
　　7、支持多个全手动轮换
　　软件支持多个全手动轮换，自动登入、自动操作，完全模拟人工真实操作，有效减少号码被封、屏蔽的可能性
　　

　　抱歉，此资源仅限VIP下载，请先登入
　　全站软件199元一年，299元终生使用！
　　下载价钱：VIP专享
　　此资源仅对VIP开放下载
　　下载说明：全站软件199元一年，299元终生使用！

Goonie网络舆情监控分析系统

采集交流 • 优采云发表了文章 • 0 个评论 • 181 次浏览 • 2020-08-14 10:47 • 来自相关话题

　　
　　
　　
　　
　　
　　
　　
　　
　　Goonie网络舆情监控分析系统
　　2009-05-07guoyanggb...
　　Goonie网络舆情监控分析系统系统背景
　　随着互联网的快速发展，网络媒体作为一种新的信息传播方式，已深入人们的日常生活。网友言论活跃已达到前所未有的程度，不论是国外还是国际重大风波，都能马上产生网上舆论，通过这些网路来抒发观点、传播思想，进而形成巨大的舆论压力，达到任何部门、机构都难以忽略的地步。可以说，互联网已成为思想文化信息的集散地和社会舆论的放大器。
　　网络舆情是通过互联网传播的公众对现实生活中个别热点、焦点问题所持的有较强影响力、倾向性的言论和观点，主要通过BBS峰会、博客、新闻跟帖、转贴等实现并加以加强。当今，信息传播与意见交互空前迅捷，网络舆论的抒发诉求也渐趋多元。如果引导不善，负面的网络舆情将对社会公共安全产生较大恐吓。对相关政府部门来说，如何强化对网路舆论的及时检测、有效引导，以及对网路舆论危机的积极化解，对维护社会稳定、促进国家发展具有重要的现实意义，也是创建和谐社会的应有内涵。
　　系统概述
　　Goonie互联网舆情监控剖析系统依托自主研制的搜索引擎技术和文本挖掘技术，通过网页内容的手动采集处理、敏感词过滤、智能降维分类、主题检查、专题聚焦、统计剖析，实现各单位对自己相关网路舆情监督管理的须要，最终产生舆情简报、舆情专报、分析报告、移动快报，为决策层全面把握舆情动态，做出正确舆论引导，提供剖析根据。
　　系统结构
　　
　　功能特性
　　·自定义URL来源及采集频率
　　用户可以设定采集的栏目、URL、更新时间、扫描间隔等，系统的扫描间隔最小可以设置成1分钟，即每隔一分钟，系统将手动扫描目标信息源，以便及时发觉目标信息源的最新变化，并以最快的速度采集到本地。
　　·支持多种网页格式
　　可以采集常见的静态网页（HTML/HTM/SHTML）和动态网页（ASP/PHP/JSP），还可以采集网页中收录的图片信息。
　　·支持多种字符集编码
　　采集子系统才能手动辨识多种字符集编码，包括英文、英文、中文繁体、中文简体等，并可以统一转换为GBK编码格式。
　　·支持整个互联网采集
　　Goonie互联网舆情监控系统元搜索模式是以国外著名互联网搜索引擎的结果为基础并借助Goonie采集器直接面向互联网订制内容进行直接采集，用户只须要输入搜索关键词就可以了。
　　·支持内容抽取辨识
　　系统可对网页进行内容剖析和过滤，自动清除广告、版权、栏目等无用信息，精确获取目标内容主体。
　　·基于内容相似性去重
　　通过内容相关辨识技术手动判断分类中文章的关系，如果发觉描述相同风波的文章自动清除重复部份。
　　功能描述
　　1、热点话题、敏感话题辨识
　　可以按照新闻出处权威度、发言时间密集程度等参数，识别出给定时间段内的热门话题。利用内容主题单词和回帖数进行综合语义剖析，识别敏感话题。
　　2、舆情主题跟踪
　　分析新发表文章、贴子的话题是否与已有主题相同。
　　3、自动摘要
　　对各种主题，各类倾向才能产生手动摘要。
　　4、舆情趋势剖析
　　分析某个主题在不同的时间段内，人们所关注的程度。
　　5、突发事件剖析
　　对突发事件进行跨时间、跨空间综合剖析，获知风波发生的概貌并预测风波发展的趋势。
　　6、舆情报案系统
　　对突发事件、涉及内容安全的敏感话题及时发觉并报案。
　　7、舆情统计报告
　　根据舆情剖析引擎处理后生成报告，用户可通过浏览器浏览，提供信息检索功能，根据指定条件对热点话题、倾向性进行查询，并浏览信息的具体内容，提供决策支持。iricngy
　　共11人赞赏查看全部

　　Goonie网络舆情监控分析系统
　　2009-05-07guoyanggb...
　　Goonie网络舆情监控分析系统系统背景
　　随着互联网的快速发展，网络媒体作为一种新的信息传播方式，已深入人们的日常生活。网友言论活跃已达到前所未有的程度，不论是国外还是国际重大风波，都能马上产生网上舆论，通过这些网路来抒发观点、传播思想，进而形成巨大的舆论压力，达到任何部门、机构都难以忽略的地步。可以说，互联网已成为思想文化信息的集散地和社会舆论的放大器。
　　网络舆情是通过互联网传播的公众对现实生活中个别热点、焦点问题所持的有较强影响力、倾向性的言论和观点，主要通过BBS峰会、博客、新闻跟帖、转贴等实现并加以加强。当今，信息传播与意见交互空前迅捷，网络舆论的抒发诉求也渐趋多元。如果引导不善，负面的网络舆情将对社会公共安全产生较大恐吓。对相关政府部门来说，如何强化对网路舆论的及时检测、有效引导，以及对网路舆论危机的积极化解，对维护社会稳定、促进国家发展具有重要的现实意义，也是创建和谐社会的应有内涵。
　　系统概述
　　Goonie互联网舆情监控剖析系统依托自主研制的搜索引擎技术和文本挖掘技术，通过网页内容的手动采集处理、敏感词过滤、智能降维分类、主题检查、专题聚焦、统计剖析，实现各单位对自己相关网路舆情监督管理的须要，最终产生舆情简报、舆情专报、分析报告、移动快报，为决策层全面把握舆情动态，做出正确舆论引导，提供剖析根据。
　　系统结构
　　

　　功能特性
　　·自定义URL来源及采集频率
　　用户可以设定采集的栏目、URL、更新时间、扫描间隔等，系统的扫描间隔最小可以设置成1分钟，即每隔一分钟，系统将手动扫描目标信息源，以便及时发觉目标信息源的最新变化，并以最快的速度采集到本地。
　　·支持多种网页格式
　　可以采集常见的静态网页（HTML/HTM/SHTML）和动态网页（ASP/PHP/JSP），还可以采集网页中收录的图片信息。
　　·支持多种字符集编码
　　采集子系统才能手动辨识多种字符集编码，包括英文、英文、中文繁体、中文简体等，并可以统一转换为GBK编码格式。
　　·支持整个互联网采集
　　Goonie互联网舆情监控系统元搜索模式是以国外著名互联网搜索引擎的结果为基础并借助Goonie采集器直接面向互联网订制内容进行直接采集，用户只须要输入搜索关键词就可以了。
　　·支持内容抽取辨识
　　系统可对网页进行内容剖析和过滤，自动清除广告、版权、栏目等无用信息，精确获取目标内容主体。
　　·基于内容相似性去重
　　通过内容相关辨识技术手动判断分类中文章的关系，如果发觉描述相同风波的文章自动清除重复部份。
　　功能描述
　　1、热点话题、敏感话题辨识
　　可以按照新闻出处权威度、发言时间密集程度等参数，识别出给定时间段内的热门话题。利用内容主题单词和回帖数进行综合语义剖析，识别敏感话题。
　　2、舆情主题跟踪
　　分析新发表文章、贴子的话题是否与已有主题相同。
　　3、自动摘要
　　对各种主题，各类倾向才能产生手动摘要。
　　4、舆情趋势剖析
　　分析某个主题在不同的时间段内，人们所关注的程度。
　　5、突发事件剖析
　　对突发事件进行跨时间、跨空间综合剖析，获知风波发生的概貌并预测风波发展的趋势。
　　6、舆情报案系统
　　对突发事件、涉及内容安全的敏感话题及时发觉并报案。
　　7、舆情统计报告
　　根据舆情剖析引擎处理后生成报告，用户可通过浏览器浏览，提供信息检索功能，根据指定条件对热点话题、倾向性进行查询，并浏览信息的具体内容，提供决策支持。iricngy
　　共11人赞赏

如何从互联网采集海量数据？租房,二手房,薪酬...

采集交流 • 优采云发表了文章 • 0 个评论 • 612 次浏览 • 2020-08-13 18:14 • 来自相关话题

　　
　　作者：沙漠君
　　不少同学看了沙漠君的文章后，都会问：那几十万条租房，二手房，薪酬，乃至天气数据都是从那里来的？其实我还没告诉你这种数据在十几分钟内就可以采集到！一般我会回答，我用专门的工具，无需编程也能快速抓取。之后肯定又会被问，在那里能下载这个工具呢？我淡淡的说，我自己写的。。。(这个B装的...我给95分！)沙漠君近来比较忙乱，说好的一大堆写作任务都还没有完成。授人以虾不如授人以渔，我做了一个决定，将这套软件全部开源到GitHub ！免费使用，开放源代码！从此以后，估计好多做爬虫的工程师要待业了。。。因为我的目标是使普通人也能使用！！！目标有点远大，不过其实距离不远了（不到一光年吧）。这篇文章介绍爬虫大约的原理，文末会有程序地址。什么是爬虫？互联网是一张大网，采集数据的小程序可以形象地称之为爬虫或则蜘蛛。爬虫的原理很简单，我们在访问网页时，会点击翻页按键和超链接，浏览器会帮我们恳请所有的资源和图片。所以，你可以设计一个程序，能够模拟人在浏览器上的操作，让网站误觉得爬虫是正常访问者，它还会把所需的数据乖乖送回去。爬虫分为两种，一种象百度（黑）那样哪些都抓的搜索引擎爬虫。另一种就是沙漠君开发的，只精确地抓取所需的内容：比如我只要二手房信息，旁边的广告和新闻一律不要。爬虫这样的名子并不好听，所以我给这套软件取名为Hawk，指代为"鹰"，能够精确，快速地捕捉猎物。基本不需编程，通过图形化拖放的操作来快速设计爬虫，有点像Photoshop。它能在20分钟内编撰大众点评的爬虫（简化版只需3分钟），然后使它运行就好啦
　　自动将网页导入为Excel这么，一个页面这么大，爬虫如何晓得我想要哪些呢？
　　
　　人其实可以很容易地看出，上图的红框是二手房信息，但机器不知道。网页是一种有结构的树，而重要信息所在的节点，往往枝繁叶茂。举个不恰当的比方，一大伙子人构成树形世系，谁最厉害？当然是：
　　大家都会认为这一家子太厉害了！
　　我们对整个树结构进行打分，自然能够找到哪个最牛的节点，就是我们要的表格。找到最牛父亲以后，儿子们其实相像：个子高，长得帅，两条手指两条腿，但这种都是共性，没有信息量，我们关心的是特点。大女儿锥子脸，跟其他人都不一样，那脸部就是重要信息；三女儿最有钱——钱也是我们关心的。因此，对比儿子们的不同属性，我们能够晓得什么信息是重要的了。回到网页采集这个反例，通过一套有趣的算法，给一个网页的地址，软件都会手动地把它转成Excel! （听不懂吧？听不懂正常，不要在乎那些细节！总之你晓得这是沙漠君设计的就好了）
　　破解翻页限制获取了一页的数据，这还不够，我们要获取所有页面的数据！这简单，我们使程序依次地恳求第1页，第2页...数据就搜集回去了就那么简单吗？网站怎么可能使自己宝贵的数据被如此轻松地捉住呢？所以它只能翻到第50页或第100页。链家就是这样：
　　
　　这也难不倒我们，每页有30个数据，100页最多能呈现3000条数据。北京有16个区县两万个新村，但每位县的新村数目就没有3000个了，我们可分别获取每位县的新村列表。每个新村最多有300多套在售二手房，这样才能获取链家的所有二手房了。哈哈哈，是不是被沙漠君的机智所倾倒了？然后我们启动抓取器，Hawk都会给每位子线程（可以理解为机器人）分配任务：给我抓取这个新村的所有二手房！然后你才会看见壮丽的场面：一堆小机器人，同心协力地从网站上搬数据，超牛迅雷有没有？同时100个任务！！上个公厕回去就抓完了！！！
　　
　　清洗：识别并转换内容
　　获取的数据大约长这样：
　　
　　但你会看见，里面会有些奇怪的字符应当去去除。xx平米应当都把数字提取下来。而售价，有的是2130000元，有的是373万元，这些都很难处理。
　　BUT，没关系！Hawk才能手动辨识所有的数据：
　　哈哈，然后你能够够轻松地把这种数据拿去作剖析了，纯净无污染！
　　破解须要登陆的网站此处的意思其实不是去破解用户名密码，沙漠君还没强到哪个程度。有些网站的数据，都须要登陆能够访问。这也难不倒我们。当你开启了Hawk外置了嗅探功能时，Hawk如同一个录音机一样，会记录你对目标网站的访问操作。之后它还会将其重放下来，从而实现手动登入。你会不会害怕Hawk保存你的用户名密码？不保存如何手动登入呢？但是Hawk是开源的，所有代码都经过了审查，是安全的。你的私密信息，只会躺在你自己的硬碟里。
　　
　　(我们就这样手动登入了大众点评)
　　是不是我也可以抓数据了？理论上是的。但道高一尺魔高一丈，不同的网站千差万别，对抗爬虫的技术也有很多种。而且虫子虫对细节十分敏感，只要错一点，后面的步骤就可能进行不下去了。怎么办呢？沙漠君把之前的操作保存并分享下来，你只要加载这种文件才能快速获取数据了。如果你有其他网站的获取需求，可以去找你身边的程序员朋友，让她们来帮忙抓数据，或使她们来试试Hawk，看看谁的效率更高。如果你是文科生姑娘，那还是建议你多看看东野奎吾和村上春树，直接上手如此复杂的软件会使你郁闷的。那该找谁帮忙抓数据呢？嘿嘿嘿...
　　在哪里获取软件和教程？软件的最新版本早已公布在百度网盘里了，有兴趣可留言获取链接。
　　via：沙漠之鹰
　　End. 查看全部

　　作者：沙漠君
　　不少同学看了沙漠君的文章后，都会问：那几十万条租房，二手房，薪酬，乃至天气数据都是从那里来的？其实我还没告诉你这种数据在十几分钟内就可以采集到！一般我会回答，我用专门的工具，无需编程也能快速抓取。之后肯定又会被问，在那里能下载这个工具呢？我淡淡的说，我自己写的。。。(这个B装的...我给95分！)沙漠君近来比较忙乱，说好的一大堆写作任务都还没有完成。授人以虾不如授人以渔，我做了一个决定，将这套软件全部开源到GitHub ！免费使用，开放源代码！从此以后，估计好多做爬虫的工程师要待业了。。。因为我的目标是使普通人也能使用！！！目标有点远大，不过其实距离不远了（不到一光年吧）。这篇文章介绍爬虫大约的原理，文末会有程序地址。什么是爬虫？互联网是一张大网，采集数据的小程序可以形象地称之为爬虫或则蜘蛛。爬虫的原理很简单，我们在访问网页时，会点击翻页按键和超链接，浏览器会帮我们恳请所有的资源和图片。所以，你可以设计一个程序，能够模拟人在浏览器上的操作，让网站误觉得爬虫是正常访问者，它还会把所需的数据乖乖送回去。爬虫分为两种，一种象百度（黑）那样哪些都抓的搜索引擎爬虫。另一种就是沙漠君开发的，只精确地抓取所需的内容：比如我只要二手房信息，旁边的广告和新闻一律不要。爬虫这样的名子并不好听，所以我给这套软件取名为Hawk，指代为"鹰"，能够精确，快速地捕捉猎物。基本不需编程，通过图形化拖放的操作来快速设计爬虫，有点像Photoshop。它能在20分钟内编撰大众点评的爬虫（简化版只需3分钟），然后使它运行就好啦
　　自动将网页导入为Excel这么，一个页面这么大，爬虫如何晓得我想要哪些呢？
　　

　　人其实可以很容易地看出，上图的红框是二手房信息，但机器不知道。网页是一种有结构的树，而重要信息所在的节点，往往枝繁叶茂。举个不恰当的比方，一大伙子人构成树形世系，谁最厉害？当然是：
　　大家都会认为这一家子太厉害了！
　　我们对整个树结构进行打分，自然能够找到哪个最牛的节点，就是我们要的表格。找到最牛父亲以后，儿子们其实相像：个子高，长得帅，两条手指两条腿，但这种都是共性，没有信息量，我们关心的是特点。大女儿锥子脸，跟其他人都不一样，那脸部就是重要信息；三女儿最有钱——钱也是我们关心的。因此，对比儿子们的不同属性，我们能够晓得什么信息是重要的了。回到网页采集这个反例，通过一套有趣的算法，给一个网页的地址，软件都会手动地把它转成Excel! （听不懂吧？听不懂正常，不要在乎那些细节！总之你晓得这是沙漠君设计的就好了）
　　破解翻页限制获取了一页的数据，这还不够，我们要获取所有页面的数据！这简单，我们使程序依次地恳求第1页，第2页...数据就搜集回去了就那么简单吗？网站怎么可能使自己宝贵的数据被如此轻松地捉住呢？所以它只能翻到第50页或第100页。链家就是这样：
　　

　　这也难不倒我们，每页有30个数据，100页最多能呈现3000条数据。北京有16个区县两万个新村，但每位县的新村数目就没有3000个了，我们可分别获取每位县的新村列表。每个新村最多有300多套在售二手房，这样才能获取链家的所有二手房了。哈哈哈，是不是被沙漠君的机智所倾倒了？然后我们启动抓取器，Hawk都会给每位子线程（可以理解为机器人）分配任务：给我抓取这个新村的所有二手房！然后你才会看见壮丽的场面：一堆小机器人，同心协力地从网站上搬数据，超牛迅雷有没有？同时100个任务！！上个公厕回去就抓完了！！！
　　

　　清洗：识别并转换内容
　　获取的数据大约长这样：
　　

　　但你会看见，里面会有些奇怪的字符应当去去除。xx平米应当都把数字提取下来。而售价，有的是2130000元，有的是373万元，这些都很难处理。
　　BUT，没关系！Hawk才能手动辨识所有的数据：
　　哈哈，然后你能够够轻松地把这种数据拿去作剖析了，纯净无污染！
　　破解须要登陆的网站此处的意思其实不是去破解用户名密码，沙漠君还没强到哪个程度。有些网站的数据，都须要登陆能够访问。这也难不倒我们。当你开启了Hawk外置了嗅探功能时，Hawk如同一个录音机一样，会记录你对目标网站的访问操作。之后它还会将其重放下来，从而实现手动登入。你会不会害怕Hawk保存你的用户名密码？不保存如何手动登入呢？但是Hawk是开源的，所有代码都经过了审查，是安全的。你的私密信息，只会躺在你自己的硬碟里。
　　

　　(我们就这样手动登入了大众点评)
　　是不是我也可以抓数据了？理论上是的。但道高一尺魔高一丈，不同的网站千差万别，对抗爬虫的技术也有很多种。而且虫子虫对细节十分敏感，只要错一点，后面的步骤就可能进行不下去了。怎么办呢？沙漠君把之前的操作保存并分享下来，你只要加载这种文件才能快速获取数据了。如果你有其他网站的获取需求，可以去找你身边的程序员朋友，让她们来帮忙抓数据，或使她们来试试Hawk，看看谁的效率更高。如果你是文科生姑娘，那还是建议你多看看东野奎吾和村上春树，直接上手如此复杂的软件会使你郁闷的。那该找谁帮忙抓数据呢？嘿嘿嘿...
　　在哪里获取软件和教程？软件的最新版本早已公布在百度网盘里了，有兴趣可留言获取链接。
　　via：沙漠之鹰
　　End.

调研相片太多究竟如何用？零基础带你跑通图片辨识丨城市数据派

采集交流 • 优采云发表了文章 • 0 个评论 • 229 次浏览 • 2020-08-13 18:08 • 来自相关话题

　　在线视频教程
　　
　　此套课程【城市数据派会员】免费看，免费下载讲义PDF+工具安装包+源代码包！
　　免费体验，领取福利
　　非会员可免费体验第一讲视频以及免费发放讲义PDF，详细了解该课程的具体讲课内容~关注城市数据派微信号，在微信号中回复“图片辨识”，即可获知免费体验形式。
　　
　　授课老师：
　　高级城市数据师张新运
　　宁波市镇海规划勘测设计研究院一线规划师，城市数据派中级城市数据师，从事规划新技术大数据研究两年，精通ArcGIS、空间复句、python以及其他大数据分析可视化软件，擅长网路爬虫、数据剖析与挖掘，目前研究人工智能、机器学习与城市规划的结合，有丰富的实际项目结合经验，技术宅，摄影发烧友......
　　如果你也是一枚城市数据玩家/达人，乐于分享技术，享受知识变现，城市数据派正在招募线上线下课程的合作老师，欢迎勾引（点击看详情）
　　学完课程后我能把握哪些？
　　图片辨识技术日趋成熟为城市规划和城市研究提供一种新的思索维度。当网路图片资源越来越多，当项目督查相片饱含手机，你晓得怎样实现图片标签信息辨识和通过颜色辨识要素（计算图片中的绿视率）？
　　如何借助平台驯养属于自己的标签辨识图片数据集？
　　如何借助优采云采集器对网页进行数据获取？
　　如何设置ip代理应对各类情况？
　　如何将督查相片落到ArcGIS空间上产生点以便查看？
　　如何进行ArcGIS与txt文件、csv 文件的交互操作？
　　想把握以上全部技能，这门视频课程不容错过！张老师将分享图片辨识的基础理论和工具操作，并且包括在两大项目中的应用思路和技术技巧，包括《某市登山步道规划研究》项目以及《城市环境品质提升》项目，所有实操将手把手带你操作，解决以上所有问题，本课程还将附送课程所需的所有python源代码以及讲义PDF和工具安装包。
　　这套课程有哪些特色呢？
　　特色1：内容相对全面，类似课程资源稀缺
　　目前主流的图片辨识方法有三种：标签信息辨识、颜色辨识要素、图片语义分割，在整个课程中笔者将对这两种进行详尽教学，市面上类似课程少之又少。
　　
　　特色2：个性化驯养专属数据集，提高辨识精度
　　目前学术界用的较多的为图片语义分割，由于数据集基本上来自美国（语义分割数据集驯养存在一定门槛，笔者也在研究中）且以夜景辨识为主，有一定的局限性和差异性。在课程中，张老师除了会教你们怎么使用人工智能开放平台进行标签信息辨识，还会教你们利用平台来驯养属于自己的专属数据集，提高辨识精度。
　　
　　特色3：两大规划应用，带你实操
　　图片辨识在《某市登山步道规划研究》项目中的应用：
　　目前在国外对城市规划而言大数据是一种锦上添花的新型研究手段，并未抵达缺之不可的程度。然而在该规划中大数据起了至关重要的作用。由于该市的徒步绿道有上千条，在时间有限的情况下大数据的应用大大减少了现况督查的工作量。图片辨识是该项目大数据应用的重要组成部份，笔者希望对通过辨识户外爱好者留下的带有座标的图片，并获取相关要素来进行现况徒步绿道价值评估，为规划线路提供根据。为了提升准确性，笔者调用多个人工智能开放平台的API进行图片标签信息辨识。
　　
　　
　　图片辨识在《城市环境品质提升》项目中的应用：
　　街道是城市的重要组成部份，对于城市环境品质而言街道的环境品质常常是最直接的彰显，而绿视率和天空开敞度是街道品质优劣的重要剖析因子之一。因此笔者希望通过对夜景图片的辨识来剖析街道的绿视率和天空开敞度，从而对现况街道品质进行评价，为下一步规划提供根据。由于天空和红色都有独到的色相，因此，笔者借助Python图象剖析库OpenCV对图片色相进行辨识获取绿化和天空的占比。
　　
　　
　　特色4：Python零基础玩转图片辨识
　　在课程中，张老师将详尽地述说和演示操作过程，并附送所有Python源代码。学员对源代码稍作更改即可达到图片自动化辨识的要求。
　　
　　
　　特色5：优采云采集器和Python相结合的网页数据获取思路
　　在课程中，考虑到大部分学员无Python编程基础，张老师将对优采云采集器（零代码）的使用进行教学，降低学习门槛。
　　
　　特色6：设置ip代理应对各类情况
　　在课程中，张老师将教你们怎么获取和使用ip代理。
　　
　　
　　特色7：调研相片空间化
　　在课程中，张老师将教你们怎么将督查相片落到ArcGIS空间上产生点便于查看使用。
　　
　　
　　特色8：熟悉ArcGIS与txt文件、csv的交互操作
　　在课程中，张老师将教你们ArcGIS与txt文件、csv文件之间的交互操作。
　　详细的讲课大纲是哪些？
　　（一）课程打算
　　1、课程简介
　　2、人工智能图片辨识理论
　　3、Python及PyCharm安装
　　4、优采云采集器安装
　　
　　（二）图片辨识在《某市登山步道规划研究》项目中的应用
　　1、项目介绍
　　2、某户外网站数据介绍
　　3、某户外网站图片及座标的爬取
　　4、人工智能开放平台API调用
　　5、图片辨识及成果输出
　　6、图片辨识成果与座标配对
　　7、成果在ArcGIS中可视化展示
　　8、拓展：提高准确性——训练属于自己的训练集
　　9、补充内容：调研图片转成ArcGIS内的点
　　
　　（三）图片辨识在《城市环境品质提升》项目中的应用
　　1、项目介绍
　　2、街道品质评价指标绿视率
　　3、百度地图开放平台与夜景API介绍
　　4、道路网数据转点及座标转换
　　5、百度夜景图片获取
　　6、Python图象处理库OpenCV简介
　　7、OpenCV估算原理解析
　　8、利用OpenCV估算绿视率
　　9、成果在ArcGIS中可视化展示
　　
　　有什么配套的课程材料呢？
　　课件PDF+软件工具安装包+代码包
　　会员免费看
　　会员可直接在城市数据派官网免费观看学习该课程，请在笔记本端打开以下链接观看视频和下载课程配套材料。非会员可直接单独订购此套视频教程：
　　非会员免费体验视频和讲义
　　非会员可免费体验第一讲视频以及免费发放讲义PDF，详细了解该课程的具体内容~关注城市数据派微信号，在微信号中回复“图片辨识”，即可获知免费体验形式。
　　如遇任何问题，请加会员客服小派派陌陌咨询（ID：xiaopaipai_udparty）：查看全部

　　在线视频教程
　　

　　此套课程【城市数据派会员】免费看，免费下载讲义PDF+工具安装包+源代码包！
　　免费体验，领取福利
　　非会员可免费体验第一讲视频以及免费发放讲义PDF，详细了解该课程的具体讲课内容~关注城市数据派微信号，在微信号中回复“图片辨识”，即可获知免费体验形式。
　　

　　授课老师：
　　高级城市数据师张新运
　　宁波市镇海规划勘测设计研究院一线规划师，城市数据派中级城市数据师，从事规划新技术大数据研究两年，精通ArcGIS、空间复句、python以及其他大数据分析可视化软件，擅长网路爬虫、数据剖析与挖掘，目前研究人工智能、机器学习与城市规划的结合，有丰富的实际项目结合经验，技术宅，摄影发烧友......
　　如果你也是一枚城市数据玩家/达人，乐于分享技术，享受知识变现，城市数据派正在招募线上线下课程的合作老师，欢迎勾引（点击看详情）
　　学完课程后我能把握哪些？
　　图片辨识技术日趋成熟为城市规划和城市研究提供一种新的思索维度。当网路图片资源越来越多，当项目督查相片饱含手机，你晓得怎样实现图片标签信息辨识和通过颜色辨识要素（计算图片中的绿视率）？
　　如何借助平台驯养属于自己的标签辨识图片数据集？
　　如何借助优采云采集器对网页进行数据获取？
　　如何设置ip代理应对各类情况？
　　如何将督查相片落到ArcGIS空间上产生点以便查看？
　　如何进行ArcGIS与txt文件、csv 文件的交互操作？
　　想把握以上全部技能，这门视频课程不容错过！张老师将分享图片辨识的基础理论和工具操作，并且包括在两大项目中的应用思路和技术技巧，包括《某市登山步道规划研究》项目以及《城市环境品质提升》项目，所有实操将手把手带你操作，解决以上所有问题，本课程还将附送课程所需的所有python源代码以及讲义PDF和工具安装包。
　　这套课程有哪些特色呢？
　　特色1：内容相对全面，类似课程资源稀缺
　　目前主流的图片辨识方法有三种：标签信息辨识、颜色辨识要素、图片语义分割，在整个课程中笔者将对这两种进行详尽教学，市面上类似课程少之又少。
　　

　　特色2：个性化驯养专属数据集，提高辨识精度
　　目前学术界用的较多的为图片语义分割，由于数据集基本上来自美国（语义分割数据集驯养存在一定门槛，笔者也在研究中）且以夜景辨识为主，有一定的局限性和差异性。在课程中，张老师除了会教你们怎么使用人工智能开放平台进行标签信息辨识，还会教你们利用平台来驯养属于自己的专属数据集，提高辨识精度。
　　

　　特色3：两大规划应用，带你实操
　　图片辨识在《某市登山步道规划研究》项目中的应用：
　　目前在国外对城市规划而言大数据是一种锦上添花的新型研究手段，并未抵达缺之不可的程度。然而在该规划中大数据起了至关重要的作用。由于该市的徒步绿道有上千条，在时间有限的情况下大数据的应用大大减少了现况督查的工作量。图片辨识是该项目大数据应用的重要组成部份，笔者希望对通过辨识户外爱好者留下的带有座标的图片，并获取相关要素来进行现况徒步绿道价值评估，为规划线路提供根据。为了提升准确性，笔者调用多个人工智能开放平台的API进行图片标签信息辨识。
　　

　　图片辨识在《城市环境品质提升》项目中的应用：
　　街道是城市的重要组成部份，对于城市环境品质而言街道的环境品质常常是最直接的彰显，而绿视率和天空开敞度是街道品质优劣的重要剖析因子之一。因此笔者希望通过对夜景图片的辨识来剖析街道的绿视率和天空开敞度，从而对现况街道品质进行评价，为下一步规划提供根据。由于天空和红色都有独到的色相，因此，笔者借助Python图象剖析库OpenCV对图片色相进行辨识获取绿化和天空的占比。
　　

　　特色4：Python零基础玩转图片辨识
　　在课程中，张老师将详尽地述说和演示操作过程，并附送所有Python源代码。学员对源代码稍作更改即可达到图片自动化辨识的要求。
　　

　　特色5：优采云采集器和Python相结合的网页数据获取思路
　　在课程中，考虑到大部分学员无Python编程基础，张老师将对优采云采集器（零代码）的使用进行教学，降低学习门槛。
　　

　　特色6：设置ip代理应对各类情况
　　在课程中，张老师将教你们怎么获取和使用ip代理。
　　

　　特色7：调研相片空间化
　　在课程中，张老师将教你们怎么将督查相片落到ArcGIS空间上产生点便于查看使用。
　　

　　特色8：熟悉ArcGIS与txt文件、csv的交互操作
　　在课程中，张老师将教你们ArcGIS与txt文件、csv文件之间的交互操作。
　　详细的讲课大纲是哪些？
　　（一）课程打算
　　1、课程简介
　　2、人工智能图片辨识理论
　　3、Python及PyCharm安装
　　4、优采云采集器安装
　　

　　（二）图片辨识在《某市登山步道规划研究》项目中的应用
　　1、项目介绍
　　2、某户外网站数据介绍
　　3、某户外网站图片及座标的爬取
　　4、人工智能开放平台API调用
　　5、图片辨识及成果输出
　　6、图片辨识成果与座标配对
　　7、成果在ArcGIS中可视化展示
　　8、拓展：提高准确性——训练属于自己的训练集
　　9、补充内容：调研图片转成ArcGIS内的点
　　

　　（三）图片辨识在《城市环境品质提升》项目中的应用
　　1、项目介绍
　　2、街道品质评价指标绿视率
　　3、百度地图开放平台与夜景API介绍
　　4、道路网数据转点及座标转换
　　5、百度夜景图片获取
　　6、Python图象处理库OpenCV简介
　　7、OpenCV估算原理解析
　　8、利用OpenCV估算绿视率
　　9、成果在ArcGIS中可视化展示
　　

　　有什么配套的课程材料呢？
　　课件PDF+软件工具安装包+代码包
　　会员免费看
　　会员可直接在城市数据派官网免费观看学习该课程，请在笔记本端打开以下链接观看视频和下载课程配套材料。非会员可直接单独订购此套视频教程：
　　非会员免费体验视频和讲义
　　非会员可免费体验第一讲视频以及免费发放讲义PDF，详细了解该课程的具体内容~关注城市数据派微信号，在微信号中回复“图片辨识”，即可获知免费体验形式。
　　如遇任何问题，请加会员客服小派派陌陌咨询（ID：xiaopaipai_udparty）：

Elastic 中文社区

采集交流 • 优采云发表了文章 • 0 个评论 • 214 次浏览 • 2020-08-12 13:06 • 来自相关话题

　　Advent接力传到我这儿了，今天我给你们介绍一下Beats，刚好前几天也有好多人问我它是干嘛的，之前的北京我有分享过Beats的内容，PPT在这里：事实上Beats是一系列产品的总称，属于ElasticStack上面搜集数据的这一层：Data Shipper Layer，包括以下若干Beats：PacketBeat，用来嗅探和剖析网路流量，如HTTP、MySQL、Redis等TopBeat，用来搜集系统的监控信息，功能如其名，类似*nix下的top命令，只不过所有的信息就会发送给前端的集中储存：Elasticsearch，这样你就可以很方便的监控所有的服务器的运行情况了FileBeat，用来搜集数据源是文件的数据，比如常见的系统日志、应用日志、网站日志等等，FIleBeat思路来自Logstash-forwarder，Beats团队加入然后构建改写而成，解决的就是Logstash作为Agent采集时占用太多被搜集系统资源的问题，Beats家族都是Golang编撰，效率高，占用显存和CPU比较少，非常适宜作为agent跳着服务器上。。。所以Beats似乎是一套框架，另外的一个子项目Libbeat，就是所有beats都共用的模块，封装了所有的公共的组件，如配置管理、公共基础类、协议的解析处理、与Elasticsearch的操作等等，你可以很方便基于它实现你自己的beats，这也是Beats的目标，希望将来会出现更多的Beats，做各种各样的事情。
　　另外PacketBeat比较特殊，它又是网路合同抓包和处理的一个框架，目前支持了常见的一些合同，要扩充未知的合同似乎十分简单，PacketBeat作为一个框架，数据抓包和后续的储存早已帮你处理好了，你只须要实现你的合同的解码操作就行了，当然这块也是最难和最业务相关的。关于PacketBeat我回头再单独写一篇文章来介绍如何编撰一个PacketBeat的合同扩充吧，PacketBeat扩充的其它合同最终还是须要和PacketBeat集成在一起，也就是最终你的代码是要和PacketBeat的代码在一个工程上面的，而其它的Beats使用Libbeat完全是单独的Beat，如Filebeat和TopBeat，完全是独立打包和独立运行，这个也是两大Beats的主要区别。随便提一下，现在所有的这种Beats早已合并到一个项目上面来便捷管理了，golang，you know：现在社区早已递交了的Beats： ... .html明明天在Beijing的ArchSummit2015，我将在Elastic展厅，欢迎过来恐吓，领取Elastic的各类贴纸，还有限量的印有Elastic的外套，数量有限哦明天的Advent就那些吧。Advent接力活动，规则：查看全部

　　Advent接力传到我这儿了，今天我给你们介绍一下Beats，刚好前几天也有好多人问我它是干嘛的，之前的北京我有分享过Beats的内容，PPT在这里：事实上Beats是一系列产品的总称，属于ElasticStack上面搜集数据的这一层：Data Shipper Layer，包括以下若干Beats：PacketBeat，用来嗅探和剖析网路流量，如HTTP、MySQL、Redis等TopBeat，用来搜集系统的监控信息，功能如其名，类似*nix下的top命令，只不过所有的信息就会发送给前端的集中储存：Elasticsearch，这样你就可以很方便的监控所有的服务器的运行情况了FileBeat，用来搜集数据源是文件的数据，比如常见的系统日志、应用日志、网站日志等等，FIleBeat思路来自Logstash-forwarder，Beats团队加入然后构建改写而成，解决的就是Logstash作为Agent采集时占用太多被搜集系统资源的问题，Beats家族都是Golang编撰，效率高，占用显存和CPU比较少，非常适宜作为agent跳着服务器上。。。所以Beats似乎是一套框架，另外的一个子项目Libbeat，就是所有beats都共用的模块，封装了所有的公共的组件，如配置管理、公共基础类、协议的解析处理、与Elasticsearch的操作等等，你可以很方便基于它实现你自己的beats，这也是Beats的目标，希望将来会出现更多的Beats，做各种各样的事情。
　　另外PacketBeat比较特殊，它又是网路合同抓包和处理的一个框架，目前支持了常见的一些合同，要扩充未知的合同似乎十分简单，PacketBeat作为一个框架，数据抓包和后续的储存早已帮你处理好了，你只须要实现你的合同的解码操作就行了，当然这块也是最难和最业务相关的。关于PacketBeat我回头再单独写一篇文章来介绍如何编撰一个PacketBeat的合同扩充吧，PacketBeat扩充的其它合同最终还是须要和PacketBeat集成在一起，也就是最终你的代码是要和PacketBeat的代码在一个工程上面的，而其它的Beats使用Libbeat完全是单独的Beat，如Filebeat和TopBeat，完全是独立打包和独立运行，这个也是两大Beats的主要区别。随便提一下，现在所有的这种Beats早已合并到一个项目上面来便捷管理了，golang，you know：现在社区早已递交了的Beats： ... .html明明天在Beijing的ArchSummit2015，我将在Elastic展厅，欢迎过来恐吓，领取Elastic的各类贴纸，还有限量的印有Elastic的外套，数量有限哦明天的Advent就那些吧。Advent接力活动，规则：

新型爬虫怎么构建“网站URL采集”这件小事？（内附视频演示）

采集交流 • 优采云发表了文章 • 0 个评论 • 323 次浏览 • 2020-08-12 06:00 • 来自相关话题

　　随着 Web 发展的日渐成熟，人们开始步入“数字化生存”时代。网上银行、电子商务、个人空间、云存储等不断涌向生活，Web 应用安全问题也日渐显现。
　　根据 Gartner 的调查，信息安全功击有75%都是发生在 Web 应用而非网路层面上。同时，OWASP 发布的数据也显示，三分之二的 Web 站点都相当脆弱，易受功击。
　　对 Web 应用的安全性进行手工测试和审计是一项复杂且历时的工作，对于安全运维人员来说，基于安全的管理占用大量工作时间。自动化的 Web 漏洞扫描器才能急剧简化针对安全隐患的测量工作，有助于安全运维人员将精力转向怎样处理安全风险上来。
　　一般来讲，Web 漏洞扫描器是基于 URL 的漏洞扫描工具，在工作时须要解决采集和核心检查两个关键问题：
　　怎样去评价一个扫描器的优劣？首先要关注的就是：采集的 URL 够不够全面？资产采集不全，检测准确率就无从谈起。
　　在 Web 漏扫中，采集输入源的方法通常包括爬虫、流量、代理和日志，其中爬虫是获取扫描网站 URL 最常见的、不可或缺的一种主动采集模式。
　　Web 漏洞扫描器的爬虫面临着比其他网路爬虫更高的技术挑战，这是因为漏洞扫描器的爬虫不仅仅须要爬取网页内容、分析链接信息，还须要尽可能多的触发网页上的各类风波，从而获取更多的有效链接信息。
　　然而，现有的爬虫受限于其在技术上的先天不足，给使用 Web 漏洞扫描工具的安全运维人员引起了众多困惑：
　　通常情况下，网站的防火墙会对某个固定 IP 在某段时间内恳求的次数做限制，如果没有超过上限则正常返回数据，超过了，则拒绝恳求。值得说明的是，IP限制大多数时侯是出于网站安全缘由针对 DOS 攻击的防御举措，而不是专门针对爬虫的。但是传统爬虫工作时，机器和 IP 有限，很容易达到 WAF 设置的 IP 上限而造成恳求被拒绝。
　　时代，Web 应用与用户交互非常频繁，给漏扫爬虫引起了干扰。以输入验证码登陆为例，网站将一串随机形成的数字或符号，生成一幅图片，图片里加上一些干扰象素（防止 OCR），由用户肉眼辨识其中的验证码信息，输入表单递交网站验证，验证成功后就能使用某项功能。传统爬虫在碰到这些情况时，通常无法手动处理。
　　JavaScript 框架的诞生是研制工程师在效率至上时代的一大福音，工程师们得以甩掉了开发与维护之苦。毋庸置疑，Angular、React、Vue 等单页应用的 Web 框架成了开发者的首选，JavaScript 解析的网页日渐普及，所以网页中大多数有用的数据都是通过 ajax/fetch 动态获取后之后再由js填充到网页 DOM 树中，单纯的 HTML 静态页面中有用的数据甚少，这也直接造成了 Web 漏扫爬虫的爬取不全面问题。
　　纵观市面上常用的漏洞扫描产品，所使用的爬虫一般收录以下两类，即传统爬虫和聚焦爬虫：
　　它的工作流程是从一个或若干初始网页的 URL 开始，获得初始网页上的 URL，在抓取网页的过程中，不断从当前页面上抽取新的 URL 放入队列，直到满足系统设置的一系列停止条件，爬取操作停止。
　　聚焦爬虫的工作流程比传统爬虫复杂，需要按照一定的网页剖析算法过滤与扫描目标无关的 URL，保留有用的 URL，并将其倒入等待抓取的 URL 队列。然后，它将按照一定的搜索策略从队列中选择下一步要抓取的网页 URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统储存，进行一定的剖析、过滤，并构建索引，以便以后的查询和检索；所以一个完整的聚焦爬虫通常会收录如下三个模块：网络恳求模块、爬取流程控制模块、内容剖析提取模块。
　　然而，无论是传统爬虫还是聚焦爬虫，因其技术上的先天不足，导致在网站采集 URL 时均存在难以手动处理网页交互、JavaScript 解析以及极易触发外界 WAF 防御举措限制等问题。
　　洞鉴（X-Ray）安全评估系统针对目前用户碰到的漏扫爬虫采集目标URL不全的问题，创造性地提出了基于语义剖析、机器学习技术和高仿真实时渲染 DOM 遍历算法的“新型爬虫”：
　　对于传统网站，在聚焦爬虫的基础上，长亭科技创新采用 js 语义剖析算法，针对 WAF 对 DOS 攻击采取的 IP 访问限制防御举措，洞鉴（X-Ray）爬虫会在本地对 JS 文件进行剖析，从理解语义的基础上来解析网站结构，不会疯狂触发恳求，从而防止了因超过 IP 访问限制，而被拒绝访问的情况发生。
　　对于单页应用网站，洞鉴（X-Ray）内嵌了模拟浏览器爬虫。通过运用机器学习技术，洞鉴（X-Ray）的模拟浏览器爬虫以各种 Web 应用页面结构作为训练样本，在访问每位页面时，可以智能地判定各类交互操作，其判定逻辑大约是这样的：
　　针对采用 JavaScript 解析的单页Web应用，洞鉴（X-Ray）模拟浏览器创新引入高仿真实时渲染 DOM 遍历算法，在这些算法引擎的驱动下，可以完美解析 Angular、React、Vue 等 Web 框架实现的单页应用网站，对 Web 页面中所有内容进行操作，达到全面获取目标网站 URL 信息的目的，其判定逻辑如下：
　　在机器学习技术和高仿真实时渲染 DOM 遍历算法的驱动下，洞鉴（X-Ray）模拟浏览器爬虫智能模拟人的行为，自动进行单击、双击、拖拽等操作，从而防止了传统爬虫在 URL 获取时未能满足交互和难以应对 JavaScript 解析等问题。
　　下面以访问 DVWA 为例，展示模拟浏览器的行为
　　以网上银行、电子商务、云存储等 Web 应用为代表的时代早已将至，洞鉴（X-Ray）安全评估系统蓄势待发，你，准备好了吗？查看全部

　　随着 Web 发展的日渐成熟，人们开始步入“数字化生存”时代。网上银行、电子商务、个人空间、云存储等不断涌向生活，Web 应用安全问题也日渐显现。
　　根据 Gartner 的调查，信息安全功击有75%都是发生在 Web 应用而非网路层面上。同时，OWASP 发布的数据也显示，三分之二的 Web 站点都相当脆弱，易受功击。
　　对 Web 应用的安全性进行手工测试和审计是一项复杂且历时的工作，对于安全运维人员来说，基于安全的管理占用大量工作时间。自动化的 Web 漏洞扫描器才能急剧简化针对安全隐患的测量工作，有助于安全运维人员将精力转向怎样处理安全风险上来。
　　一般来讲，Web 漏洞扫描器是基于 URL 的漏洞扫描工具，在工作时须要解决采集和核心检查两个关键问题：
　　怎样去评价一个扫描器的优劣？首先要关注的就是：采集的 URL 够不够全面？资产采集不全，检测准确率就无从谈起。
　　在 Web 漏扫中，采集输入源的方法通常包括爬虫、流量、代理和日志，其中爬虫是获取扫描网站 URL 最常见的、不可或缺的一种主动采集模式。
　　Web 漏洞扫描器的爬虫面临着比其他网路爬虫更高的技术挑战，这是因为漏洞扫描器的爬虫不仅仅须要爬取网页内容、分析链接信息，还须要尽可能多的触发网页上的各类风波，从而获取更多的有效链接信息。
　　然而，现有的爬虫受限于其在技术上的先天不足，给使用 Web 漏洞扫描工具的安全运维人员引起了众多困惑：
　　通常情况下，网站的防火墙会对某个固定 IP 在某段时间内恳求的次数做限制，如果没有超过上限则正常返回数据，超过了，则拒绝恳求。值得说明的是，IP限制大多数时侯是出于网站安全缘由针对 DOS 攻击的防御举措，而不是专门针对爬虫的。但是传统爬虫工作时，机器和 IP 有限，很容易达到 WAF 设置的 IP 上限而造成恳求被拒绝。
　　时代，Web 应用与用户交互非常频繁，给漏扫爬虫引起了干扰。以输入验证码登陆为例，网站将一串随机形成的数字或符号，生成一幅图片，图片里加上一些干扰象素（防止 OCR），由用户肉眼辨识其中的验证码信息，输入表单递交网站验证，验证成功后就能使用某项功能。传统爬虫在碰到这些情况时，通常无法手动处理。
　　JavaScript 框架的诞生是研制工程师在效率至上时代的一大福音，工程师们得以甩掉了开发与维护之苦。毋庸置疑，Angular、React、Vue 等单页应用的 Web 框架成了开发者的首选，JavaScript 解析的网页日渐普及，所以网页中大多数有用的数据都是通过 ajax/fetch 动态获取后之后再由js填充到网页 DOM 树中，单纯的 HTML 静态页面中有用的数据甚少，这也直接造成了 Web 漏扫爬虫的爬取不全面问题。
　　纵观市面上常用的漏洞扫描产品，所使用的爬虫一般收录以下两类，即传统爬虫和聚焦爬虫：
　　它的工作流程是从一个或若干初始网页的 URL 开始，获得初始网页上的 URL，在抓取网页的过程中，不断从当前页面上抽取新的 URL 放入队列，直到满足系统设置的一系列停止条件，爬取操作停止。
　　聚焦爬虫的工作流程比传统爬虫复杂，需要按照一定的网页剖析算法过滤与扫描目标无关的 URL，保留有用的 URL，并将其倒入等待抓取的 URL 队列。然后，它将按照一定的搜索策略从队列中选择下一步要抓取的网页 URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统储存，进行一定的剖析、过滤，并构建索引，以便以后的查询和检索；所以一个完整的聚焦爬虫通常会收录如下三个模块：网络恳求模块、爬取流程控制模块、内容剖析提取模块。
　　然而，无论是传统爬虫还是聚焦爬虫，因其技术上的先天不足，导致在网站采集 URL 时均存在难以手动处理网页交互、JavaScript 解析以及极易触发外界 WAF 防御举措限制等问题。
　　洞鉴（X-Ray）安全评估系统针对目前用户碰到的漏扫爬虫采集目标URL不全的问题，创造性地提出了基于语义剖析、机器学习技术和高仿真实时渲染 DOM 遍历算法的“新型爬虫”：
　　对于传统网站，在聚焦爬虫的基础上，长亭科技创新采用 js 语义剖析算法，针对 WAF 对 DOS 攻击采取的 IP 访问限制防御举措，洞鉴（X-Ray）爬虫会在本地对 JS 文件进行剖析，从理解语义的基础上来解析网站结构，不会疯狂触发恳求，从而防止了因超过 IP 访问限制，而被拒绝访问的情况发生。
　　对于单页应用网站，洞鉴（X-Ray）内嵌了模拟浏览器爬虫。通过运用机器学习技术，洞鉴（X-Ray）的模拟浏览器爬虫以各种 Web 应用页面结构作为训练样本，在访问每位页面时，可以智能地判定各类交互操作，其判定逻辑大约是这样的：
　　针对采用 JavaScript 解析的单页Web应用，洞鉴（X-Ray）模拟浏览器创新引入高仿真实时渲染 DOM 遍历算法，在这些算法引擎的驱动下，可以完美解析 Angular、React、Vue 等 Web 框架实现的单页应用网站，对 Web 页面中所有内容进行操作，达到全面获取目标网站 URL 信息的目的，其判定逻辑如下：
　　在机器学习技术和高仿真实时渲染 DOM 遍历算法的驱动下，洞鉴（X-Ray）模拟浏览器爬虫智能模拟人的行为，自动进行单击、双击、拖拽等操作，从而防止了传统爬虫在 URL 获取时未能满足交互和难以应对 JavaScript 解析等问题。
　　下面以访问 DVWA 为例，展示模拟浏览器的行为
　　以网上银行、电子商务、云存储等 Web 应用为代表的时代早已将至，洞鉴（X-Ray）安全评估系统蓄势待发，你，准备好了吗？

深度解析百度辨识采集内容原理

采集交流 • 优采云发表了文章 • 0 个评论 • 281 次浏览 • 2020-08-11 16:09 • 来自相关话题

　　近日，百度再次上线飓风算法2.0，重点严打内容作弊，尤其是采集和伪原创内容。很多同学都会问了，百度是怎样辨识内容是采集的呢？我对文章的首段和尾端都进行了更改，甚至是做了纯原创操作，百度能够辨识下来吗？本文，SEO就来和你们说说百度辨识采集内容原理。
　　大家都晓得，“分词”技术是百度最先对于内容的辨识和判定的主要方式，简单说，百度会把抓取到的文章内容进行动词，然后会依照词频的高低来判定文章的主题。这里举个简单事例，例如我们在某篇文章里插入大量的目标关键词，百度仅仅用动词来判定，就会觉得这篇文章的主题是我们插入的关键词。这也是我们做SEO优化指出的关键词密度的诱因。关于关键词密度的重要性，之前很重要，现在和之后还是会很重要，这是判定搜索相关性很重要的诱因。
　　再来谈谈采集，因为之前百度对于内容的判定仅仅逗留在动词上，所以其对采集的辨识判定能力是十分有限的，在个别程度上说依据动词得出的指纹特点并不是太科学。这也就造成出现了好多伪原创工具，通过替换词能够达到误导百度的目的，因为经过换词处理之后，百度是判定不出是否是采集内容的。不过对于全篇不做更改的采集，百度还是就能轻松辨识的，毕竟指纹一模一样的。
　　现在工具时代也将被淘汰，此次百度飓风算法2.0的推出，百度搜索早已能挺好解决这个漏洞了。我们来瞧瞧百度搜索飓风算法2.0的说明，其中有一点是：
　　通常表现为站群网站，利用采集工具，针对特定的多个目标网站，根据对方标签的特点，定期采集多个网站的不同段落，进行组合拼接，形成所谓的原创内容。
　　大家请仔细理解这句话，很明显，百度早已能挺好的辨识段落了，也就是说从之前的动词已然上升到分句和分段。如果我们对于采集内容仅仅是做简单的首尾处理的话，还是会被百度搜索判断为采集内容的。
　　只能说，百度搜索仍然在建立，想要在内容上误导百度搜索早已越来越难，最好的做法就是踏踏实实的提供高质量的原创内容，或者是整合真正满足用户需求的有价值的内容。
　　总结：“内容为王”永远不会过时，因为在用户面前，任何所谓的技术都是浮云，只有真正对用户有价值的东西能够长久生存。就好比本文，如果你们看完本文没有任何收获，不能使你们明白百度辨识采集内容原理，那么本文也就没有价值。
　　本文地址：查看全部

　　近日，百度再次上线飓风算法2.0，重点严打内容作弊，尤其是采集和伪原创内容。很多同学都会问了，百度是怎样辨识内容是采集的呢？我对文章的首段和尾端都进行了更改，甚至是做了纯原创操作，百度能够辨识下来吗？本文，SEO就来和你们说说百度辨识采集内容原理。
　　大家都晓得，“分词”技术是百度最先对于内容的辨识和判定的主要方式，简单说，百度会把抓取到的文章内容进行动词，然后会依照词频的高低来判定文章的主题。这里举个简单事例，例如我们在某篇文章里插入大量的目标关键词，百度仅仅用动词来判定，就会觉得这篇文章的主题是我们插入的关键词。这也是我们做SEO优化指出的关键词密度的诱因。关于关键词密度的重要性，之前很重要，现在和之后还是会很重要，这是判定搜索相关性很重要的诱因。
　　再来谈谈采集，因为之前百度对于内容的判定仅仅逗留在动词上，所以其对采集的辨识判定能力是十分有限的，在个别程度上说依据动词得出的指纹特点并不是太科学。这也就造成出现了好多伪原创工具，通过替换词能够达到误导百度的目的，因为经过换词处理之后，百度是判定不出是否是采集内容的。不过对于全篇不做更改的采集，百度还是就能轻松辨识的，毕竟指纹一模一样的。
　　现在工具时代也将被淘汰，此次百度飓风算法2.0的推出，百度搜索早已能挺好解决这个漏洞了。我们来瞧瞧百度搜索飓风算法2.0的说明，其中有一点是：
　　通常表现为站群网站，利用采集工具，针对特定的多个目标网站，根据对方标签的特点，定期采集多个网站的不同段落，进行组合拼接，形成所谓的原创内容。
　　大家请仔细理解这句话，很明显，百度早已能挺好的辨识段落了，也就是说从之前的动词已然上升到分句和分段。如果我们对于采集内容仅仅是做简单的首尾处理的话，还是会被百度搜索判断为采集内容的。
　　只能说，百度搜索仍然在建立，想要在内容上误导百度搜索早已越来越难，最好的做法就是踏踏实实的提供高质量的原创内容，或者是整合真正满足用户需求的有价值的内容。
　　总结：“内容为王”永远不会过时，因为在用户面前，任何所谓的技术都是浮云，只有真正对用户有价值的东西能够长久生存。就好比本文，如果你们看完本文没有任何收获，不能使你们明白百度辨识采集内容原理，那么本文也就没有价值。
　　本文地址：

ios无埋点 SDK集成

采集交流 • 优采云发表了文章 • 0 个评论 • 239 次浏览 • 2020-08-11 07:31 • 来自相关话题

　　ios无埋点 SDK集成打算条件获取项目ID，请参考查看项目基本信息。
　　获取URL Scheme，在GrowingIO平台创建对应的应用时会生成URL Scheme。请参考。
　　使用GrowingIO平台创建相应的应用，平台在应用创建界面手动为您生成已加载当前项目ID、URL Scheme的跟踪代码。
　　1. 添加跟踪代码
　　集成环境：Xcode 9.0及以上；
　　App适配最低系统版本：iOS 8及以上
　　组件化SDK
　　GrowingIO iOS SDK 收录以下2个组件SDK:
　　 GrowingCoreKit (组件基础库,具备剖析功能)
　　 GrowingAutoTrackKit (无埋点库)
　　请保证Growing、GrowingCoreKit、GrowingAutoTrackKit版本号一致。
　　1. 添加依赖
　　使用CocoaPods快速添加
　　手动添加
　　在您的Podfile中添加pod 'GrowingAutoTrackKit'。
　　执行或 pod update 更新pod依赖库。不要使用 --no-repo-update选项。
　　（可选）GrowingIO推荐您添加 AdSupport.framework 依赖库，用于来源管理激活匹配,有利于您更好的剖析数据 ,添加项目依赖库的位置在项目设置target -> 选项卡General -> Linked Frameworks and Libraries
　　在工程项目中添加以下库文件。
　　添加项目依赖库的位置在项目设置target -> 选项卡General -> Linked -> Linked Frameworks and Librarie
　　库名称
　　说明
　　Foundation.framework
　　基础依赖库
　　Security.framework
　　用户App联接圈选页面SSL连接
　　CoreTelephony.framework
　　用于读取运营商
　　SystemConfiguration.framework
　　用于判定网路状态
　　AdSupport.framework
　　用于来源管理激活匹配
　　libicucore.tbd
　　用户App联接圈选页面解析
　　libsqlite3.tbd
　　存储日志
　　CoreLocation.framework
　　用于读取地理位置信息（如果您的App有权限）
　　JavaScriptCore.framework
　　Web圈选App交互
　　WebKit.framework
　　Web圈选
　　添加编译参数，并注意大小写。
　　
　　2. 添加 URL Scheme
　　添加URL Scheme 到项目中，以便唤起您的程序进行圈选。
　　
　　3. 初始化配置
　　在 AppDelegate 中引入#import "Growing.h"并添加初始化技巧。
　　#import "Growing.h"
- (BOOL)application:(UIApplication *)application
didFinishLaunchingWithOptions:(NSDictionary *)launchOptions {
   ...
    // 启动GrowingIO

       [Growing startWithAccountId:@"您的项目ID"];   // 替换为您的项目ID
            // 其他配置
            // 开启Growing调试日志可以开启日志
            // [Growing setEnableLog:YES];
　　请确保将代码添加在上述位置，添加到其他方式或异步block中可能造成数据不确切。
　　4.添加激活圈选的代码
　　在 AppDelegate 中添加激活圈选的代码
　　因为您代码的复杂程度以及iOS SDK的版本差别，有时候 [Growing handleUrl:url] 并没有被调用。请在各个平台上调试这段代码，确保当App被URL scheme唤起以后，该函数能被调用到。
　　- (BOOL)application:(UIApplication *)application openURL:(NSURL *)url sourceApplication:(NSString *)sourceApplication annotation:(id)annotation
{
    ...
   if ([Growing handleUrl:url]) // 请务必确保该函数被调用
   {
       return YES;
   }
   return NO;
   ...
}
　　常用示例：
　　若您在 AppDelegate 中实现了以下一个或多个方式，请在已实现的函数中，调用[Growing handleUrl:]
　　- (BOOL)application:(UIApplication *)application openURL:(NSURL *)url sourceApplication:(nullable NSString *)sourceApplication annotation:(id)annotation
- (BOOL)application:(UIApplication *)application handleOpenURL:(NSURL *)url
- (BOOL)application:(UIApplication *)app openURL:(NSURL *)url options:(NSDictionary *)options
　　若以上所有方式均未实现，请实现以下方式并调用[Growing handleUrl:]
　　- (BOOL)application:(UIApplication *)application openURL:(NSURL *)url sourceApplication:(nullable NSString *)sourceApplication annotation:(id)annotatio
　　2. 重要配置
　　下列内容为常用配置，更多属性及插口详尽信息见 Growing.h
　　1. 设置页面别称
　　有些时侯，对于完成某个功能的页面，统计时可能须要进一步细分。比如，对于展示商品列表的页面，需要分辨衣服类商品，以及食品类商品的两种列表的访问量。
　　为处理这些场景，我们提供了取别称的方式来分辨这两种情况下的页面，方法如下：
　　//手动标识该页面的标题，必须在该UIViewController显示之前设置
@property (nonatomic,copy) NSString* growingAttributesPageName;
　　必须在该UIViewController显示之前设置。
　　页面别称建议设置为字母、数字、下划线的组合。
　　未查看数据便捷，请尽量对不同端、不同页面的取不同的名称。
　　2. 设置界面元素ID
　　当您的应用界面改版时，可能会造成难以准确地统计早已圈选的元素。因此，对于应用中的主要流程涉及到的界面元素，建议您为它们设置固定的惟一ID，以保证数据的一致性。
　　若要为元素设置ID，请在viewWillAppear或则时机更早的方式里添加以下代码：
　　-(void)viewWillAppear {
    UIView *MyView;
    …
    MyView.growingAttributesUniqueTag = @"my_view";
}
　　3. 设置元素内容
　　当您想采集一些可能没有文字的控件（比如UIImageView，UIView）时，也可以给属性growingAttributesValue 赋值作为文字，用来在圈选的时侯分辨不同的内容。
　　如果您的 app 上方有纵向滚动的 Banner 广告，若要搜集 Banner 相关数据，请在响应点击的控件上添加如下代码：
　　UIView *view;
…
view.growingAttributesValue = 广告的唯一ID;
　　其中 view 是您的广告元素，请确保两点：
　　【例子】当您的纵向滚动广告共有3张广告图时，您可以在3个响应点击的View上分别设置不同的广告惟一ID，实现方法：
　　view1.growingAttributesValue = @"ad1";
view2.growingAttributesValue = @"ad2";
view3.growingAttributesValue = @"ad3";
　　4. 采集输入框数据
　　如果您须要采集应用内某个输入框内的文字（例如搜索框），请调用如下插口进行设置：
　　UIView *view; // view 可以是 UITextField, UITextView, UISearchBar
   ...
view.growingAttributesDonotTrackValue = NO;
　　view代表要被采集的输入框。当这个输入框丧失焦点（包括应用挪到后台），且输入框内容跟获取焦点前相比发生变化时，输入框内文字会被发送回GrowingIO。
　　对于密码输入框，即便标记为须要采集，SDK也会忽视，不采集它的数据。
　　5. Facebook广告SDK
　　如果您使用了 Facebook 广告 SDK，请勿必在 main 函数第一行调用以下代码来防止冲突，否则可能导致难以创建项目或则统计准确性问题。注意：APP启动后，将不容许更改采集模式。
　　[Growing setAspectMode:GrowingAspectModeDynamicSwizzling];
　　6.采集WebView页面数据
　　SDK会手动采集H5页面的数据，不需要特殊配置。
　　7. 采集GPS数据
　　如果您的应用有相应的圈选，SDK将手动采集您的GPS数据。
　　SDK 2.8.6及以上版本支持自动关掉采集GPS数据。
　　//设置为NO，将关掉GPS采集 +(void)setEnableLocationTrack:(BOOL)enable;
　　8. 启用Hashtag辨识
　　您可以在项目中添加以下方式以启用Hashtag辨识：
　　// 设置为 YES, 将启用 HashTag
+ (void)enableHybridHashTag:(BOOL)enable;
　　9. GDPR数据采集开关
　　SDK 版本支持：2.3.2及以上。
　　GrowingIO SDK 针对欧盟区的通常数据保护法（GDPR）提供了以下的API共开发者调用。
　　// 开启GDPR，不采集数据
[Growing disableDataCollect];
// 关闭GDPR，采集数据
[Growing enableDataCollect];
　　10. DeepLink & Universal Link
　　DeepLink功能
　　SDK版本查看全部

　　ios无埋点 SDK集成打算条件获取项目ID，请参考查看项目基本信息。
　　获取URL Scheme，在GrowingIO平台创建对应的应用时会生成URL Scheme。请参考。
　　使用GrowingIO平台创建相应的应用，平台在应用创建界面手动为您生成已加载当前项目ID、URL Scheme的跟踪代码。
　　1. 添加跟踪代码
　　集成环境：Xcode 9.0及以上；
　　App适配最低系统版本：iOS 8及以上
　　组件化SDK
　　GrowingIO iOS SDK 收录以下2个组件SDK:
　　 GrowingCoreKit (组件基础库,具备剖析功能)
　　 GrowingAutoTrackKit (无埋点库)
　　请保证Growing、GrowingCoreKit、GrowingAutoTrackKit版本号一致。
　　1. 添加依赖
　　使用CocoaPods快速添加
　　手动添加
　　在您的Podfile中添加pod 'GrowingAutoTrackKit'。
　　执行或 pod update 更新pod依赖库。不要使用 --no-repo-update选项。
　　（可选）GrowingIO推荐您添加 AdSupport.framework 依赖库，用于来源管理激活匹配,有利于您更好的剖析数据 ,添加项目依赖库的位置在项目设置target -> 选项卡General -> Linked Frameworks and Libraries
　　在工程项目中添加以下库文件。
　　添加项目依赖库的位置在项目设置target -> 选项卡General -> Linked -> Linked Frameworks and Librarie
　　库名称
　　说明
　　Foundation.framework
　　基础依赖库
　　Security.framework
　　用户App联接圈选页面SSL连接
　　CoreTelephony.framework
　　用于读取运营商
　　SystemConfiguration.framework
　　用于判定网路状态
　　AdSupport.framework
　　用于来源管理激活匹配
　　libicucore.tbd
　　用户App联接圈选页面解析
　　libsqlite3.tbd
　　存储日志
　　CoreLocation.framework
　　用于读取地理位置信息（如果您的App有权限）
　　JavaScriptCore.framework
　　Web圈选App交互
　　WebKit.framework
　　Web圈选
　　添加编译参数，并注意大小写。
　　

　　2. 添加 URL Scheme
　　添加URL Scheme 到项目中，以便唤起您的程序进行圈选。
　　

　　3. 初始化配置
　　在 AppDelegate 中引入#import "Growing.h"并添加初始化技巧。
　　#import "Growing.h"
- (BOOL)application:(UIApplication *)application
didFinishLaunchingWithOptions:(NSDictionary *)launchOptions {
   ...
    // 启动GrowingIO

       [Growing startWithAccountId:@"您的项目ID"];   // 替换为您的项目ID
            // 其他配置
            // 开启Growing调试日志可以开启日志
            // [Growing setEnableLog:YES];
　　请确保将代码添加在上述位置，添加到其他方式或异步block中可能造成数据不确切。
　　4.添加激活圈选的代码
　　在 AppDelegate 中添加激活圈选的代码
　　因为您代码的复杂程度以及iOS SDK的版本差别，有时候 [Growing handleUrl:url] 并没有被调用。请在各个平台上调试这段代码，确保当App被URL scheme唤起以后，该函数能被调用到。
　　- (BOOL)application:(UIApplication *)application openURL:(NSURL *)url sourceApplication:(NSString *)sourceApplication annotation:(id)annotation
{
    ...
   if ([Growing handleUrl:url]) // 请务必确保该函数被调用
   {
       return YES;
   }
   return NO;
   ...
}
　　常用示例：
　　若您在 AppDelegate 中实现了以下一个或多个方式，请在已实现的函数中，调用[Growing handleUrl:]
　　- (BOOL)application:(UIApplication *)application openURL:(NSURL *)url sourceApplication:(nullable NSString *)sourceApplication annotation:(id)annotation
- (BOOL)application:(UIApplication *)application handleOpenURL:(NSURL *)url
- (BOOL)application:(UIApplication *)app openURL:(NSURL *)url options:(NSDictionary *)options
　　若以上所有方式均未实现，请实现以下方式并调用[Growing handleUrl:]
　　- (BOOL)application:(UIApplication *)application openURL:(NSURL *)url sourceApplication:(nullable NSString *)sourceApplication annotation:(id)annotatio
　　2. 重要配置
　　下列内容为常用配置，更多属性及插口详尽信息见 Growing.h
　　1. 设置页面别称
　　有些时侯，对于完成某个功能的页面，统计时可能须要进一步细分。比如，对于展示商品列表的页面，需要分辨衣服类商品，以及食品类商品的两种列表的访问量。
　　为处理这些场景，我们提供了取别称的方式来分辨这两种情况下的页面，方法如下：
　　//手动标识该页面的标题，必须在该UIViewController显示之前设置
@property (nonatomic,copy) NSString* growingAttributesPageName;
　　必须在该UIViewController显示之前设置。
　　页面别称建议设置为字母、数字、下划线的组合。
　　未查看数据便捷，请尽量对不同端、不同页面的取不同的名称。
　　2. 设置界面元素ID
　　当您的应用界面改版时，可能会造成难以准确地统计早已圈选的元素。因此，对于应用中的主要流程涉及到的界面元素，建议您为它们设置固定的惟一ID，以保证数据的一致性。
　　若要为元素设置ID，请在viewWillAppear或则时机更早的方式里添加以下代码：
　　-(void)viewWillAppear {
    UIView *MyView;
    …
    MyView.growingAttributesUniqueTag = @"my_view";
}
　　3. 设置元素内容
　　当您想采集一些可能没有文字的控件（比如UIImageView，UIView）时，也可以给属性growingAttributesValue 赋值作为文字，用来在圈选的时侯分辨不同的内容。
　　如果您的 app 上方有纵向滚动的 Banner 广告，若要搜集 Banner 相关数据，请在响应点击的控件上添加如下代码：
　　UIView *view;
…
view.growingAttributesValue = 广告的唯一ID;
　　其中 view 是您的广告元素，请确保两点：
　　【例子】当您的纵向滚动广告共有3张广告图时，您可以在3个响应点击的View上分别设置不同的广告惟一ID，实现方法：
　　view1.growingAttributesValue = @"ad1";
view2.growingAttributesValue = @"ad2";
view3.growingAttributesValue = @"ad3";
　　4. 采集输入框数据
　　如果您须要采集应用内某个输入框内的文字（例如搜索框），请调用如下插口进行设置：
　　UIView *view; // view 可以是 UITextField, UITextView, UISearchBar
   ...
view.growingAttributesDonotTrackValue = NO;
　　view代表要被采集的输入框。当这个输入框丧失焦点（包括应用挪到后台），且输入框内容跟获取焦点前相比发生变化时，输入框内文字会被发送回GrowingIO。
　　对于密码输入框，即便标记为须要采集，SDK也会忽视，不采集它的数据。
　　5. Facebook广告SDK
　　如果您使用了 Facebook 广告 SDK，请勿必在 main 函数第一行调用以下代码来防止冲突，否则可能导致难以创建项目或则统计准确性问题。注意：APP启动后，将不容许更改采集模式。
　　[Growing setAspectMode:GrowingAspectModeDynamicSwizzling];
　　6.采集WebView页面数据
　　SDK会手动采集H5页面的数据，不需要特殊配置。
　　7. 采集GPS数据
　　如果您的应用有相应的圈选，SDK将手动采集您的GPS数据。
　　SDK 2.8.6及以上版本支持自动关掉采集GPS数据。
　　//设置为NO，将关掉GPS采集 +(void)setEnableLocationTrack:(BOOL)enable;
　　8. 启用Hashtag辨识
　　您可以在项目中添加以下方式以启用Hashtag辨识：
　　// 设置为 YES, 将启用 HashTag
+ (void)enableHybridHashTag:(BOOL)enable;
　　9. GDPR数据采集开关
　　SDK 版本支持：2.3.2及以上。
　　GrowingIO SDK 针对欧盟区的通常数据保护法（GDPR）提供了以下的API共开发者调用。
　　// 开启GDPR，不采集数据
[Growing disableDataCollect];
// 关闭GDPR，采集数据
[Growing enableDataCollect];
　　10. DeepLink & Universal Link
　　DeepLink功能
　　SDK版本

网站万能信息采集器

采集交流 • 优采云发表了文章 • 0 个评论 • 317 次浏览 • 2020-08-10 20:11 • 来自相关话题

　　网站万能信息采集器-能看到的信息都能抓到-5年的不断建立改进-功能十分强悍【软件特征】1.信息采集添加全手动网站抓取的目的主要是添加到您的网站中，软件可以实现采集添加全手动完成。其它网站刚刚更新的信息五分钟之内都会手动挪到您的网站中.2.需要登入的网站也照抓对于须要登陆能够听到信息内容的网站，网站优采云采集器可以实现轻松登陆并采集，即使有验证码也可以穿过登陆采集到您须要的信息。3.任意类型的文件都能下载假如须要采集图片等二进制文件，经过简单设置网站优采云采集器就可以把任意类型的文件保存到本地。4.多级页面采集可以同时采集到多级页面的内容。如果一条信息分布在好多不同的页面上，网站优采云采集器也能手动辨识多级页面实现采集5.自动辨识JavaScript等特殊网址不少网站的网页联接是类似javascript:openwin(\'1234\')这样的特殊网址，不是一般的开头的，软件也能手动辨识并抓到内容6.自动获取各个分类网址例如供求信息，往往有很多好多个分类，经过简单设置软件就可以手动抓到那些分类网址，并把抓到的信息手动分类7.多页新闻手动抓取、广告过滤有些一条新闻上面还有下一页，软件也可以把各个页面都抓到的。并且抓到的新闻中的图片和文字同时可以保存出来，并能把广告过滤掉8.自动破解防盗链好多下载类的网站都做了防盗链了，直接输入网址是抓不到内容的，但是软件中能手动破解防盗链，，确保您能抓到想要的东西另加入了模拟人工递交的功能，租用的网站asp+access空间也能远程发布了，实际上能够模拟一切网页递交动作，可以批量注册会员、模拟群发消息。查看全部

　　网站万能信息采集器-能看到的信息都能抓到-5年的不断建立改进-功能十分强悍【软件特征】1.信息采集添加全手动网站抓取的目的主要是添加到您的网站中，软件可以实现采集添加全手动完成。其它网站刚刚更新的信息五分钟之内都会手动挪到您的网站中.2.需要登入的网站也照抓对于须要登陆能够听到信息内容的网站，网站优采云采集器可以实现轻松登陆并采集，即使有验证码也可以穿过登陆采集到您须要的信息。3.任意类型的文件都能下载假如须要采集图片等二进制文件，经过简单设置网站优采云采集器就可以把任意类型的文件保存到本地。4.多级页面采集可以同时采集到多级页面的内容。如果一条信息分布在好多不同的页面上，网站优采云采集器也能手动辨识多级页面实现采集5.自动辨识JavaScript等特殊网址不少网站的网页联接是类似javascript:openwin(\'1234\')这样的特殊网址，不是一般的开头的，软件也能手动辨识并抓到内容6.自动获取各个分类网址例如供求信息，往往有很多好多个分类，经过简单设置软件就可以手动抓到那些分类网址，并把抓到的信息手动分类7.多页新闻手动抓取、广告过滤有些一条新闻上面还有下一页，软件也可以把各个页面都抓到的。并且抓到的新闻中的图片和文字同时可以保存出来，并能把广告过滤掉8.自动破解防盗链好多下载类的网站都做了防盗链了，直接输入网址是抓不到内容的，但是软件中能手动破解防盗链，，确保您能抓到想要的东西另加入了模拟人工递交的功能，租用的网站asp+access空间也能远程发布了，实际上能够模拟一切网页递交动作，可以批量注册会员、模拟群发消息。

网站万能信息采集器 10.0

采集交流 • 优采云发表了文章 • 0 个评论 • 370 次浏览 • 2020-08-10 15:16 • 来自相关话题

　　网站上海量的信息您想要吗？网站万能信息采集器就可以把网站上的信息统统抓出来而且手动发布到您的网站里，只有你想不到的，没有网站万能信息采集器抓不到的，能看到能够抓到；网站万能信息采集器还可以无人工全手动干活，您午睡时也可以保持您的网站拥有最新的信息。专业软件，全天在线服务。八大特色功能： 1.数据采集添加全手动网站抓取的目的主要是添加到您的网站中，网站万能信息采集器软件可以实现信息采集添加全手动完成。其它网站刚刚更新的信息五分钟之内都会手动挪到您的网站中，您说轻松不轻松？ 2.多级页面采集整站一次抓取不管有多少大类和小类,一次设置,就可以同时采集到多级页面的内容。如果一条信息分布在好多不同的页面上，网站万能信息采集器也能手动辨识N级页面实现信息采集抓取。软件自带了一个8层网站采集例子3.任意类型的文件都能下载如果须要采集图片、Flash、视频等二进制文件，网站万能信息采集器经过简单设置就可以把任意类型的文件保存到本地。4.自动辨识JavaScript特殊网址不少网站的网页联接是类似javascript:openwin('1234')这样的特殊网址，不是一般的开头的，网站万能信息采集器也能手动辨识抓到内容5.采集过滤重复导出过滤重复有些时侯网址不同，但是内容一样，优采云采集器依然可以依照内容过滤重复。（新版本新加功能）6.多页新闻手动合并、广告过滤有些一条新闻上面还有下一页，网站万能信息采集器也可以把各个页面都抓取到的。并且抓取到的新闻中的图片和文字同时可以保存出来，并能把广告过滤掉7.自动破解Cookie和防盗链很多下载类的网站都做了Cookie验证或则防盗链了，直接输入网址是抓不到内容的，但是网站万能信息采集器能手动破解Cookie验证和防盗链，呵呵，确保您能抓到想要的东西8.需要登入的网站也照抓对于须要登陆能够听到信息内容的网站，网站万能信息采集器可以实现轻松登陆并采集，即使有验证码也可以穿过登陆采集到您须要的信息。查看全部

　　网站上海量的信息您想要吗？网站万能信息采集器就可以把网站上的信息统统抓出来而且手动发布到您的网站里，只有你想不到的，没有网站万能信息采集器抓不到的，能看到能够抓到；网站万能信息采集器还可以无人工全手动干活，您午睡时也可以保持您的网站拥有最新的信息。专业软件，全天在线服务。八大特色功能： 1.数据采集添加全手动网站抓取的目的主要是添加到您的网站中，网站万能信息采集器软件可以实现信息采集添加全手动完成。其它网站刚刚更新的信息五分钟之内都会手动挪到您的网站中，您说轻松不轻松？ 2.多级页面采集整站一次抓取不管有多少大类和小类,一次设置,就可以同时采集到多级页面的内容。如果一条信息分布在好多不同的页面上，网站万能信息采集器也能手动辨识N级页面实现信息采集抓取。软件自带了一个8层网站采集例子3.任意类型的文件都能下载如果须要采集图片、Flash、视频等二进制文件，网站万能信息采集器经过简单设置就可以把任意类型的文件保存到本地。4.自动辨识JavaScript特殊网址不少网站的网页联接是类似javascript:openwin('1234')这样的特殊网址，不是一般的开头的，网站万能信息采集器也能手动辨识抓到内容5.采集过滤重复导出过滤重复有些时侯网址不同，但是内容一样，优采云采集器依然可以依照内容过滤重复。（新版本新加功能）6.多页新闻手动合并、广告过滤有些一条新闻上面还有下一页，网站万能信息采集器也可以把各个页面都抓取到的。并且抓取到的新闻中的图片和文字同时可以保存出来，并能把广告过滤掉7.自动破解Cookie和防盗链很多下载类的网站都做了Cookie验证或则防盗链了，直接输入网址是抓不到内容的，但是网站万能信息采集器能手动破解Cookie验证和防盗链，呵呵，确保您能抓到想要的东西8.需要登入的网站也照抓对于须要登陆能够听到信息内容的网站，网站万能信息采集器可以实现轻松登陆并采集，即使有验证码也可以穿过登陆采集到您须要的信息。

如何测量陌陌文章是否是原创？

采集交流 • 优采云发表了文章 • 0 个评论 • 173 次浏览 • 2020-08-10 15:11 • 来自相关话题

　　如何测量陌陌文章是否是原创?我们都晓得有时候原创是十分重要的，如果我们剽窃他人的作品是对原创作者最大的不公平，最近好多陌陌用户问我怎样测量陌陌文章是否是原创?下面小编就带你了解一下怎样测量陌陌文章是否是原创文章?
　　
　　一、搜索引擎为何要注重原创
　　1.1 采集泛滥化
　　来自百度的一项调查显示，超过80%的新闻和资讯等都在被人工转载或机器采集，从传统媒体的报纸到娱乐网站花边消息、从游戏攻略到产品评测，甚至高校图书馆发的催还通知都有站点在做机器采集。可以说，优质原创内容是被包围在采集的汪洋大海中之一粟，搜索引擎在海中淘粟，是既艰辛又具有挑战性的事情。
　　1.2 提高搜索用户体验
　　数字化增加了传播成本，工具化增加了采集成本，机器采集行为混淆内容来源增加内容质量。采集过程中，出于无意或有意，导致采集网页内容残缺不全，格式错乱或附加垃圾等问题层出不穷，这早已严重影响了搜索结果的质量和用户体验。搜索引擎注重原创的根本缘由是为了提升用户体验，这里讲的原创为优质原创内容。
　　1.3 鼓励原创作者和文章
　　转载和采集，分流了优质原创站点的流量，不再具属原创作者的名称，会直接影响到优质原创站长和作者的利润。长期看会影响原创者的积极性，不利于创新，不利于新的优质内容形成。鼓励优质原创，鼓励创新，给予原创站点和作者合理的流量，从而促使互联网内容的繁荣，理应是搜索引擎的一个重要任务。
　　二、采集很狡猾，识别原创太艰辛
　　2.1 采集冒充原创，篡改关键信息
　　当前，大量的网站批量采集原创内容后，用人工或机器的方式，篡改作者、发布时间和来源等关键信息，冒充原创。此类假扮原创是须要搜索引擎辨识下来给以适当调整的。
　　2.2 内容生成器，制造伪原创
　　利用手动文章生成器等工具，“独创”一篇文章，然后安一个吸引眼珠的title，现在的成本也低得太，而且一定具有独创性。然而，原创是要具有社会共识价值的，而不是胡乱制造一篇根本不通的垃圾才能算做有价值的优质原创内容。内容其实奇特，但是不具社会共识价值，此类伪原创是搜索引擎须要重点辨识下来并给以严打的。
　　2.3 网页差异化，结构化信息提取困难
　　不同的站点结构化差别比较大，html标签的涵义和分布也不同，因此提取关键信息如标题、作者和时间的难易程度差异也比较大。做到既提得全，又提得准，还要最及时，在当前的英文互联网规模下实属不易，这部份将须要搜索引擎与站长配合好才能更顺畅的运行，站长们假如用更清晰的结构告知搜索引擎网页的布局，将使搜索引擎高效地提取原创相关的信息。
　　三、百度辨识原创之路怎么走?
　　3.1 成立原创项目组，打持久战
　　面对挑战，为了提升搜索引擎用户体验、为了让优质原创者原创网站得到应有的利润、为了促进英文互联网的前进，我们选派大量人员组成原创项目组：技术、产品、运营、法务等等，这不是临时组织不是1个月2个月的项目，我们做好了打持久战的打算。
　　3.2 原创辨识“起源”算法
　　互联网动辄上百亿、上千亿的网页，从中挖掘原创内容，可以说是大海捞针，千头万绪。我们的原创辨识系统，在百度大数据的云计算平台上举办，能够快速实现对全部英文互联网网页的重复聚合和链接指向关系剖析。
　　首先，通过内容相像程度来聚合采集和原创，将相像网页聚合在一起作为原创辨识的候选集合;
　　其次，对原创候选集合，通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种诱因来辨识判定出原创网页;
　　最后，通过价值剖析系统判定该原创内容的价值高低因而适当的指导最终排序。
　　目前，通过我们的实验以及真实线上数据，“起源”算法早已取得了一定的进展，在新闻、资讯等领域解决了绝大部分问题。当然，其他领域还有更多的原创问题等待“起源”去解决，我们坚定的走着。
　　3.3 原创星火计划
　　我们仍然致力于原创内容的辨识和排序算法调整，但在当前互联网环境下，快速辨识原创解决原创问题确实面临着很大的挑战，计算数据规模庞大，面对的采集方式层出不穷，不同站点的建站方法和模版差别巨大，内容提取复杂等等问题。这些诱因就会影响原创算法辨识，甚至造成判定出错。这时候就须要百度和站长共同努力来维护互联网的生态环境，站长推荐原创内容，搜索引擎通过一定的判定后优待原创内容，共同推动生态的改善，鼓励原创，这就是“原创星火计划”，旨在快速解决当前面临的严重问题。另外，站长对原创内容的推荐，将应用于“起源”算法，进而帮助百度发觉算法的不足，不断改进，用愈发智能的辨识算法手动辨识原创内容。
　　目前，原创星火计划也取得了初步的疗效，一期对部份重点原创新闻站点的原创内容在百度搜索结果中给与了原创标记、作者展示等等，并且在排序及流量上也取得了合理的提高。
　　最后，原创是生态问题，需要常年的改善，我们将持续投入，与站长牵手推进互联网生态的进步;原创是环境问题，需要你们来共同维护，站长们多做原创，多推荐原创，百度将持续努力改进排序算法，鼓励原创内容，为原创作者、原创站点提供合理的排序和流量。
　　如何测量陌陌文章是否是原创?通过小编以上的内容，你晓得怎样测量陌陌文章是否是原创了吗?希望小编的内容对你有所帮助，如果须要了解更多信息，请关注微微风。查看全部

　　如何测量陌陌文章是否是原创?我们都晓得有时候原创是十分重要的，如果我们剽窃他人的作品是对原创作者最大的不公平，最近好多陌陌用户问我怎样测量陌陌文章是否是原创?下面小编就带你了解一下怎样测量陌陌文章是否是原创文章?
　　

　　一、搜索引擎为何要注重原创
　　1.1 采集泛滥化
　　来自百度的一项调查显示，超过80%的新闻和资讯等都在被人工转载或机器采集，从传统媒体的报纸到娱乐网站花边消息、从游戏攻略到产品评测，甚至高校图书馆发的催还通知都有站点在做机器采集。可以说，优质原创内容是被包围在采集的汪洋大海中之一粟，搜索引擎在海中淘粟，是既艰辛又具有挑战性的事情。
　　1.2 提高搜索用户体验
　　数字化增加了传播成本，工具化增加了采集成本，机器采集行为混淆内容来源增加内容质量。采集过程中，出于无意或有意，导致采集网页内容残缺不全，格式错乱或附加垃圾等问题层出不穷，这早已严重影响了搜索结果的质量和用户体验。搜索引擎注重原创的根本缘由是为了提升用户体验，这里讲的原创为优质原创内容。
　　1.3 鼓励原创作者和文章
　　转载和采集，分流了优质原创站点的流量，不再具属原创作者的名称，会直接影响到优质原创站长和作者的利润。长期看会影响原创者的积极性，不利于创新，不利于新的优质内容形成。鼓励优质原创，鼓励创新，给予原创站点和作者合理的流量，从而促使互联网内容的繁荣，理应是搜索引擎的一个重要任务。
　　二、采集很狡猾，识别原创太艰辛
　　2.1 采集冒充原创，篡改关键信息
　　当前，大量的网站批量采集原创内容后，用人工或机器的方式，篡改作者、发布时间和来源等关键信息，冒充原创。此类假扮原创是须要搜索引擎辨识下来给以适当调整的。
　　2.2 内容生成器，制造伪原创
　　利用手动文章生成器等工具，“独创”一篇文章，然后安一个吸引眼珠的title，现在的成本也低得太，而且一定具有独创性。然而，原创是要具有社会共识价值的，而不是胡乱制造一篇根本不通的垃圾才能算做有价值的优质原创内容。内容其实奇特，但是不具社会共识价值，此类伪原创是搜索引擎须要重点辨识下来并给以严打的。
　　2.3 网页差异化，结构化信息提取困难
　　不同的站点结构化差别比较大，html标签的涵义和分布也不同，因此提取关键信息如标题、作者和时间的难易程度差异也比较大。做到既提得全，又提得准，还要最及时，在当前的英文互联网规模下实属不易，这部份将须要搜索引擎与站长配合好才能更顺畅的运行，站长们假如用更清晰的结构告知搜索引擎网页的布局，将使搜索引擎高效地提取原创相关的信息。
　　三、百度辨识原创之路怎么走?
　　3.1 成立原创项目组，打持久战
　　面对挑战，为了提升搜索引擎用户体验、为了让优质原创者原创网站得到应有的利润、为了促进英文互联网的前进，我们选派大量人员组成原创项目组：技术、产品、运营、法务等等，这不是临时组织不是1个月2个月的项目，我们做好了打持久战的打算。
　　3.2 原创辨识“起源”算法
　　互联网动辄上百亿、上千亿的网页，从中挖掘原创内容，可以说是大海捞针，千头万绪。我们的原创辨识系统，在百度大数据的云计算平台上举办，能够快速实现对全部英文互联网网页的重复聚合和链接指向关系剖析。
　　首先，通过内容相像程度来聚合采集和原创，将相像网页聚合在一起作为原创辨识的候选集合;
　　其次，对原创候选集合，通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种诱因来辨识判定出原创网页;
　　最后，通过价值剖析系统判定该原创内容的价值高低因而适当的指导最终排序。
　　目前，通过我们的实验以及真实线上数据，“起源”算法早已取得了一定的进展，在新闻、资讯等领域解决了绝大部分问题。当然，其他领域还有更多的原创问题等待“起源”去解决，我们坚定的走着。
　　3.3 原创星火计划
　　我们仍然致力于原创内容的辨识和排序算法调整，但在当前互联网环境下，快速辨识原创解决原创问题确实面临着很大的挑战，计算数据规模庞大，面对的采集方式层出不穷，不同站点的建站方法和模版差别巨大，内容提取复杂等等问题。这些诱因就会影响原创算法辨识，甚至造成判定出错。这时候就须要百度和站长共同努力来维护互联网的生态环境，站长推荐原创内容，搜索引擎通过一定的判定后优待原创内容，共同推动生态的改善，鼓励原创，这就是“原创星火计划”，旨在快速解决当前面临的严重问题。另外，站长对原创内容的推荐，将应用于“起源”算法，进而帮助百度发觉算法的不足，不断改进，用愈发智能的辨识算法手动辨识原创内容。
　　目前，原创星火计划也取得了初步的疗效，一期对部份重点原创新闻站点的原创内容在百度搜索结果中给与了原创标记、作者展示等等，并且在排序及流量上也取得了合理的提高。
　　最后，原创是生态问题，需要常年的改善，我们将持续投入，与站长牵手推进互联网生态的进步;原创是环境问题，需要你们来共同维护，站长们多做原创，多推荐原创，百度将持续努力改进排序算法，鼓励原创内容，为原创作者、原创站点提供合理的排序和流量。
　　如何测量陌陌文章是否是原创?通过小编以上的内容，你晓得怎样测量陌陌文章是否是原创了吗?希望小编的内容对你有所帮助，如果须要了解更多信息，请关注微微风。

万字干货 | 图像标明工具竞品剖析

采集交流 • 优采云发表了文章 • 0 个评论 • 148 次浏览 • 2020-08-10 10:17 • 来自相关话题

　　通常，企业会有各式各样的标明需求，作为一款通用的标明产品，产品功能（如支持各类输入格式，各种标明类型，各种标明方式，以及额外功能）会是我们关注的一个重点。
　　另一方面，实际情况中标明是一件非常费时吃力的工作，例如须要标出上图中的大部分行人，而这样的图片起码得有几百上千张。由此可见，因此用户体验是我们须要关注的另一个重点。
　　综上，本文将主要从产品功能和用户体验这两个维度来剖析行业中的代表性产品。
　　2. 核心业务流程
　　完成图片标明训练的整个工作流程，通常须要经历”数据打算”、”数据标明”、“数据进化”三个环节。具体业务流程如下图所示：
　　
　　图3：图像标明通用业务流程
　　2.1 数据打算
　　数据打算收录：数据采集、数据预处理两步。
　　1. 数据采集：采集途径好多如：本地上传，调用其他数据集数据，摄像头数据导出，从云服务调用获取数据等。
　　2. 数据预处理：数据清洗是获取高质量训练数据的前提，并且通过清洗不合格的数据也可以降低无意义的标明工作，提高标明效率。数据清洗一般的操作包括：清洗模糊数据，清洗相像数据，裁剪，旋转，镜像，图片色温，图片对比度，图片色阶等。
　　2.2 数据标明
　　数据标明包括：建立标明集、数据标明、标注初审。
　　2.2.1 建立标注集
　　标注集是标明工作的基本任务管理单元，在此不做过多赘言。
　　2.2.2 数据标明
　　具体方法见表1：
　　
　　表1：数据标明具体形式
　　2.2.3 标注初审
　　针对“任务标明”，标注初审是对下发的标明任务进行管理并对标明结果初审，一般初审维度包括：标注进度、验收情况、标签数目、难例、标注质量等。
　　针对“自动标明”，标注初审是对手动标明的结果进行逐一检测确认，并更改标明有误的图片。
　　2.3 数据进化
　　数据进化包括：模型训练、模型推理。
　　2.3.1 模型训练：
　　是将标明数据进行训练得出模型结果的过程。
　　2.3.2 模型推理：
　　用于对训练的模型结果进行校准预测，并将错误或则有偏差的校准结果记录出来带入到下一次模型训练中用于模型的优化迭代，从而产生由数据标明到模型训练再到模型迭代优化的闭合支路。
　　3. 竞品简介
　　目前市面上标明工具较多，首先须要确定竞品选定原则：
　　综上，选取了以下3款竞品：
　　: Intel出品的开源标明工具，发布于2018年6月。其支持视频、图片等多种数据类型的标明，功能全面。 : 华为出品的机器学习平台，发布于2018年10月，其中收录了数据标明模块。其支持从数据导出到模型运维的全流程开发，训练速率较快。 : 俄罗斯Deep System旗下的模型训练平台，发布于2017年8月。其数据标明功能强悍，特别是Smart Tool令人影响深刻：可以快速完成语义分割任务的标明。
　　
　　表2：3款产品的概括对比
　　4. 功能对比
　　本节中，针对3款产品，我们从按照第2章的核心业务流程来探究产品功能间差别。
　　4.1 CVAT
　　CVAT的使用流程其实非常简单，但功能非常全面和丰富。
　　
　　图4：CVAT的标明流程
　　4.1.1 创建数据集
　　CVAT中以标明任务（Task）的概念取代数据集，一个任务可以收录多个作业，每个作业可以分配一个标明人员。
　　在创建标明任务时，CVAT也提供了丰富的中级选项，例如：
　　支持使用Git LFS: Git Large File Storage, 大文件的git管理插件。调整图片质量：通过增加图片质量（压缩比）来推动高清图片的加载。作业数和重叠数：如果一个任务中的图片量很大，可以将其分成多个作业。再配合重叠数，可以实现分配一张图片到多个作业的疗效，不过暂时没有想到重叠数的使用场景。
　　总结来看，CVAT在标明任务模块汇中的一个优势是支持直接上传视频类型文件，上传完的视频会被按照用户设定的分辨率（Frame）转换成图片。
　　CVAT在该模块中也有个显著的劣势：缺少一个统一的视角去总览任务中所有的图片（如下图所示，任务详情页中仅能看见首张图的相片），以及每张图片上所有的标明，推测是因为因为一张图片可能存在在多个作业中所造成。
　　
　　图5：CVAT的标明任务详情页
　　4.1.2 自动标明
　　由于CVAT并未提供模型服务的能力，其手动标明功能还处在发展的早期，仅能满足个人实验。
　　添加手动标明模型须要用户上传模型文件，而非镜像或API，这种非服务化的形式很容易由于运行环境差别（例如2个服务器上安装了不同版本的依赖包），而影响标明成功率以及准确率。
　　4.1.3 人工标明
　　4.1.3.1 人工标明支持3种标明模式，且各个模式之前可来回切换：
　　标准模式（Standard）：用于常规标明。属性标明模式（Attribute Annotation）：在“属性模式”下用户可以专注于更改标明框属性和标签属性，提升了对标明属性检测和更改的效率。此模式专门用于对同一个物体设置一个或多个属性的场景，如人脸标明中须要标明年纪，性别等。标签标明模式（Tag Annotation）：在“标签模式”下用户可以迅速实现增删标签和对标签属性的选择和更改。同时为图片分类型标明订制的模式，还可为每位标签设置快捷键。极大提高了图片分类的标明效率。
　　4.1.3.2 针对CVAT我们体验出来总结了以下几点优势：
　　1）灵活的标签和属性定义
　　同一图片可以标明多个标签，且一个标签可以设置多个属性且平台将属性定义分为：多选（Select）、单选（Radio）、是否（Checkbox）、文本（Text）、数字（Number）五种。CVAT标签自定义的自由度基本满足了绝大部分的标明需求。
　　
　　图6：CVAT中的5种标签属性
　　2）丰富的标明方式
　　为了支持各类类型的标明，CVAT提供了6种的标明方式，包括：标签、点、矩形、折线、多边形、长方体等。同时支持AI六边形标明：只需指定起码四个点就可以在系统的帮助下框选出一个目标的轮廓，这点同Supervisely相同，我们者体验出来在AI辨识速率上还是期盼进一步提高。
　　3）标注方法快捷键的统一
　　选择一个标明方法则快捷键”N“就代表这些标明形式。重新选择标明方法则”N”代表的形式急剧对应改变。快捷键的统一进一步增加了用户的操作成本。
　　4）任务剖析
　　通过任务剖析仪表板中的剖析，您可以查看每位用户在每位任务上耗费了多少时间，以及她们在任何时间范围内完成了多少工作，任务剖析拓展了CVAT的团队标明能力。
　　
　　图7：CVAT中的Analytics仪表板（图片来源CVAT用户指南）
　　5）追踪模式（Track mode）
　　用于对视频文件进行标明。视频会根据分辨率被分割成若干画面（Frame）。用户仅需在关键画面（Key frame，和Flash中的关键帧太类似）上进行标明，关键画面之间的画面也会手动带上标明。CVAT目前仅支持包围框和点使用配准模式。Propagate功能很实用，场景：如果想将当前图片中的标明传递（Propagate）给前面的n张图片。同时CVAT的追踪模式结合合并（Merge）功能、分割（Split）功能共同支撑起CVAT颇具优势的视频或动图标明能力。
　　4.1.3.3 可能正由于其支持的功能过分丰富，导致使用上去有一定的学习成本，用户体验会有些差强人意。例如：
　　标注时图片未能预览难以得知图片的总体标明情况，当上次在步入作业时不能快速定位到未标明的图片，这点虽然对与效率不会有很大影响但会影响用户的操作体验。另外假如是做用户图片分类的标明，则须要使用属性模式，这一点用户无法感知。（我们一开始还以为只能通过画一个完全覆盖图片的框能够实现） 4.2 ModelArts
　　Modelarts在2019年10月17日版本更新后（特别是团队标明功能），业务流程覆盖趋向完整。整体用户流程如下：
　　
　　图8：ModelArts的标明流程（图片来自ModelArts官网）
　　由于本文以数据标明功能的讨论为主，数据标明以后的功能（包括训练、推理、数据校准等）不在本文的讨论范围内。
　　4.2.1 创建数据集
　　在创建图片数据集时，ModelArts将图象标明类型设定在了数据集层面，即创建数据集时就须要分辨标明类型.
　　这一点与Supervisely和CVAT区别较大，具体剖析见Supervisely的人工标明章节。目前支持图片分类及目标测量两种任务。
　　
　　图9：ModelArts中倒入创建数据集
　　4.2.2 数据处理
　　华为的数据处理功能坐落对象存储服务中，其提供了便利且功能全面的图片处理能力。
　　华为对象存储服务中提供了“图形界面模式”和“代码编辑模式”两种图片处理操作方法，适用了普通用户和开发者用户的使用。
　　同时最终的处理结果储存于内容分发网络（Content Delivery Network，CDN）加速，后续恳求可以通过URL直接从CDN下载，可以将结果用于任意可以通过URL导出数据的标明平台，极大的拓展了平台的功能拓展性。
　　华为图片处理提供的能力主要包括：设置图片疗效（亮度、对比度、锐化、模糊）、设置缩略、旋转图片、剪切图片、设置水印、转化格式、压缩图片。
　　
　　图10：华为对象存储中的图片处理模块
　　4.2.3 智能标明
　　ModelArts智能标明收录：主动学习（半自动标明）和预标明（全手动标明），目前只有“图像分类”和“物体检查”类型的数据集支持智能标明功能。下面简单剖析一下智能标明模块：
　　系统只对未标明图片进行标明，这样可以降低重复标明，减少对于运算资源的浪费。使用疗效不理想，系统实际体验出来标明的准确性大约只能维持在60%。系统筛选难例的准确性也较低。全手动标明支持选择自行训练的模型或ModelArts自带模型，在模型选择上灵活性较高，在上次进行作业时可以承继每次标明的结果进一步提高模型的准确率。智能标明结果展示页面可以进行条件筛选，可选的条件包括：难例级，标签，样本创建时间，文件名，标注人，样本属性，置信度。精准的筛选可以满足大部分场景的需求。
　　4.2.4 人工标明
　　华为ModelArts人工标明的特征主要有以下三点：
　　4.2.4.1 目标测量标明支持多达6种方式的标明
　　包括圆形、多边形、正圆、点、单线、虚线（见图11），丰富的标明形式覆盖了更广泛的标明场景，同时可以提升标明的精度。
　　4.2.4.2 高效的标签选择方法
　　在数据标明的交互上，华为ModelArts在画完选框后会手动弹出标签下拉框早已展开的添加标签弹窗（见图11），省去了用户框选完成后自行点击标签下拉框的步骤。且弹出的标签选项卡就在选框门口（见图11），这样缩短了滑动键盘选择标签的键盘联通行程。
　　
　　图11：ModelArts图象测量的数据标明界面
　　4.2.4.3 图片分组
　　在标明预览页面华为ModelArts提供了图片分组功能（见图12），此功能会使用聚类算法或按照清晰度、亮度、图像色调对图片进行分组。自动分组可以理解为数据标明的预处理，用户可依照分组结果，进行分组打标、图片清洗等操作。此功能可以提升图片标明效率，尤其是在图片分类标明的情况下再配合批量标明功能可以在标明速率上有质的提高。但我们在实际体验后觉得此功能分组的成功率较低。
　　
　　图12：ModelArts中的图片手动分组
　　4.2.5 团队标明
　　华为ModelArts的团队标明功能设置挺齐全，有很多亮点，这里从创建，标注，审核三个方面阐述：
　　4.2.5.1 创建
　　华为启用团队标明后可以直接指定标明团队，也可以选择指定管理员之后由管理员分配标明人力并做初审工作。选则完类型后团队成员会收到系统电邮，按电邮提示可以太轻松的完成标明和初审。
　　可以选择是否将新增文件手动同步至标明团队。同时可以选择标明团队的文件是否加载智能标明结果。这些操作降低了管理员对任务分配和手动标明之间关系的调节自由度。
　　
　　图13：ModelArts团队标明创建页面
　　4.2.5.2 标注
　　标注一张图片并保存后，图片手动步入“待初审”状态。我们觉得这样的状态切换超出用户预期，特别是用户假如还想再检测标明是否有误的话还需切换到“待初审”页面去检测，这样会给用户带来不便。
　　“待初审”的图片依然可以更改，在管理员发起初验前，修改有效。但在初验时，如果图片被抽样到则更改不会保存在数据集中，如果图片未被抽样到则更改会被保存在数据集中。这样的初审逻辑限定可以降低在初审中形成不必要的混乱，防止初审结果形成偏差。
　　4.2.5.3 审核
　　ModelArts将初审称为“验收”，验收分了2个层级：单张图片的初验和一批次图片的初验。流程是用户对一批图片做初验。审核层级过多，逻辑复杂，导致操作结果可能不符合用户预期。
　　标注状态混乱：例如管理员分配图片A给到标明人a，a标明完，管理员使用智能标明同时标明图片A，如果2个结果都被管理员确认，无论先确认哪种标明，最后只有智能标明的结果有效，而标明人a的标明则无效。
　　ModelArts提供了初审的仪表盘，仪表盘便捷了初审的统计环节，用可视化的方法展示了任务进度。仪表盘的衡量指标包括：验收进展统计、难例集数目、标签数与含标签的样本数、标注人进展统计等5个，见图14：
　　
　　图14：ModelArts中的标明初审仪表盘
　　4.3 Supervisely
　　
　　图15：Supervisely的标明流程
　　从图中可以见到团队标明一块的逻辑相比其他产品愈加复杂，分析背后的缘由：
　　表面上看好多步骤是为了满足团队标明这一需求（特别是外部标明团队），包括创建团队、邀请成员、创建标明作业、标注初审等等，但本质上则是安全把控和质量把控需求：
　　安全把控彰显在管理员可以分配给团队成员不同的角色以控制成员的权限，例如标注者（Annotator）只能查看自己任务中的图片；质量把控彰显在标明完后都会有管理员初审标明情况以保证标明质量。
　　因此，这样复杂的链路是一个企业级标明产品应有的设计，尽管这样不可防止会导致用户认知成本的下降，以及用户体验的减少。
　　4.3.1 创建数据集
　　在Supervisely中，用户可以在一个数据集中完成4种标明（视频标明除外），即分类、检测、分割、姿态恐怕。
　　与ModelArts不同，Supervisely对数据集的定位更象是图片集。一批图片只须要导出一次，无论做哪种类型的标明都可以在同一个数据集上完成。且后续做训练时，可以直接得到一张图片上的所有标明。
　　综上，Supervisely统一的数据集模块，提升了图片导出，图片标明以及图片后处理的效率。但这些方法也有缺点：所有标明类型的操作模式固定，无法针对特定类型（例如Modelarts的图片分类可同时选择多张图片一起标明）做深入优化。
　　4.3.2 数据处理
　　Supervisely的数据处理模块称作DTL, Data Transformation Language，是一种基于JSON的脚本语言，通过配置DTL脚本可以完成合并数据集、标签映射、图片提高、格式转换、图片去噪、图片翻转等46种操作，满足各种数据处理需求。
　　图16：Supervisely中为图片加入高斯模糊
　　虽然功能相比ModelArts来说愈发强悍，但是因为仅提供代码方式操作，仅适宜工程师，然而大部分工程师已把握通过python处理图片的形式，再额外学习一种语言无疑会降低学习成本。
　　另一方面这些特殊的语言对效率的提高也存在未知数，例如用户想进行某种图片操作，但督查了半天发觉该语言不支持，最后还是要通过python来完成，到头来增加了效率。
　　4.3.3 自动标明
　　Supervisely目前提供了14款预训练的模型，训练用数据大部分来自COCO（微软发布的小型图象数据集），少部份来自PASCAL VOC2012, Cityscapes, ADE20K等其他公开数据集。
　　在手动标明部份，Supervisely的优势在于支持语义分割型的手动标明，加上产品在语义分割型的人工标明上拥有出众的体验，使这类型任务的标明效率得以急剧提高。
　　Supervisely的手动标明模块产品化程度较低，主要彰显在以下两点：
　　由于本身不提供模型训练及推理服务，需要用户自行打算手动标明所需的硬件环境，且限制较多（仅支持Nvidia GPU，需要Linux和Cuda驱动）。通过JSON格式的配置文件来配置模型推理参数（见图17）。相比华为简单的配置界面，这种方式的灵活性其实更高，但用户真的须要这么配置还是指想系统直接给出一个手动标明的结果就好呢？
　　
　　图17：Supervisely（左）与华为ModelArts（右）的全手动标明配置对比
　　4.3.4 人工标明
　　Supervisely的标明功能非常强悍，主要有以下2个特征：
　　丰富的标明方式：为了支持各类类型的标明，Supervisely提供了多达9种的标明方式，包括：标签、点、矩形、折线、多边形、长方体、像素图、智能工具 (Smart Tool)、关键点等。复杂的标签系统：抽象出了对象（Object），类（Class），标签（Tag）三个实体，在复杂场景中增强了实体之间的复用性。
　　4.3.4.1 丰富的标明方式
　　在所有9种标明方式中，智能工具令人印象深刻：
　　智能工具用于分割类型的标明，用户只须要2次点击框选一个物体，通过算法对目标进行遮罩即可完成一个初步的分割，再通过标明积极点和悲观点完成精确标明，大大增加了分割类任务的标明成本。
　　
　　图18：Supervisely中经过11次点击后完成了一个语义分割
　　4.3.4.2 复杂的标签系统
　　为了满足一个数据集囊括多种标明类型的需求，Supervisely有一套复杂的标签系统。我们通过对3款产品的ER图来具体剖析一下这套标签系统的好坏。
　　在图19的行人辨识场景中，我们会画一个个行人包围框。那么我们就须要定义一个标签叫：行人。
　　
　　图19：Supervisely中的行人标明场景
　　但是每位行人的属性又有不同，例如行人A戴帽，行人B不戴帽.如果我们须要分辨戴帽的行人和不戴帽的行人，一种做法是创建两个标签：戴帽的行人、不戴帽的行人。
　　但这样的两个标签会失去关联性——如果模型只要检查行人，还须要对这两个标签进行转换，效率较低。
　　比较合理的做法是在行人标签下创建一个属性——是否戴帽；并具象出一个概念：对象。
　　用户每画一个包围框，系统还会创建一个对象（例如：行人A），每个对象会对应一个标签（例如：行人），然后每位对象可以设置该标签所具有的属性值（例如：是否戴帽=是）。
　　CVAT和ModelArts都是这样的做法，区别是CVAT可以直接为图片加上标签，用于图片分类。而ModelArts因为界定了图片分类和目标测量数据集，因此标签仅能在图片分类型数据中被应用在图片上。
　　
　　图20：CVAT（左）和ModelArts（右）的图片-对象-标签ER图对比
　　而Supervisely则是把标签和属性分拆成了两个实体（如下图）：
　　这种做法可以提升属性的复用，例如在Supervisely中，用户只须要定义一遍颜色属性，之后无论是标明行人还是汽车的颜色都可以应用同一个“颜色”下面的属性，提高了复杂标明集的打算效率。
　　但同时这些做法对用户体验设计提出了较大挑战，从上手难度来看，Supervisely无疑是三款产品中最难上手的。
　　
　　图21：Supervisely的图片-对象-标签-对象ER图
　　5. 总结与展望 5.1 总结对比
　　下表为三款标明产品的功能总结：
　　
　　表3：三款产品的功能总结对比
　　CVAT: 人工标明功能最为强悍，但手动标明功较为薄弱。独有的追踪模式免去了对视频的预处理，对标明效率的提高也非常巨大。CVAT的任务剖析功能因为环境诱因无法完全体验，从介绍来看应当会在这块加码。 ModelArts: 作为华为云的一个功能模块，ModelArts的产品战略也愈发偏向通用性，平台性。通过与华为OBS系统的结合给其带来了强悍的数据处理能力也加强了其平台的可拓展性和兼容性。同时手动标明和半自动标明作为ModelArts的优势是CVAT和Supervisely所不具备的，也从侧面彰显了ModelArts借助华为云所带来的强悍运算力和算法优势。总体来说ModelArts是一个均衡的选手，具有优秀的业务拓展能力。 Supervisely：整体功能最为建立，适合企业级应用。对语义分割类任务支持较好，但部份功能（如数据处理，自动标明）需要通过代码形式完成，效率提高有限。
　　当然我们也发觉有一些功能在3款产品中都没有看见，例如水印功能，会适用于保密要求的场景，如看守所，银行等。
　　5.2 标注工具的未来趋势
　　5.2.1 人工标明这个环节不会消失
　　这似乎是个悖论：假设我需要训练一个CV模型，训练模型须要打算标明好的图片，如果图片标明只须要手动标明而无需人工干预，那意味着模型早已才能确切预测出结果.
　　如果能做到确切预测，说明早已这个模型早已被训练完全，不再须要训练，这就和假定偏颇了。
　　5.2.2 自动标明的价值主要彰显在单个标明须要耗费较长时间的标明类型中，如分割和姿态恐怕
　　既然人工标明一定会存在，那么手动标明存在意义就是提升人工标明效率，而非替代人工标明。在分类和测量任务这类单次标明历时较短的场景中，自动标明的价值较小。
　　假设从0开始完成一个标明耗费5秒钟，而早已进行了手动标明的情况下，修改一个标明须要花2秒，标注效率提高60%（假设跑手动标明模型是在上班以后，不影响人工标明时间）。
　　但我们听到可能有些图片上模型的标明结果误差很大，这样用户还须要话一秒来删除手动标明的结果，反而此次标明的效率增加了20% （IE,1/5），如此高的负利润致使整体效率算出来没有提升好多。
　　5.2.3 人工标明的主要内容将从创建标明转变为更改标明
　　虽然人工标明环节不会消失，但其实手动标明将会在标明环节起到越来越重要的作用，今后常见的标明流程将会从创建一个新标明，转变为更改一个由模型创建的标明。
　　因此，优化更改标明时的用户体验将会是一个提升标明效率的突破点。
　　作者：薛康杰，AIoT产品总监，AIops, CV和IoT等平台类产品；江海龙，AI产品实习生，主攻CV产品设计。查看全部

　　通常，企业会有各式各样的标明需求，作为一款通用的标明产品，产品功能（如支持各类输入格式，各种标明类型，各种标明方式，以及额外功能）会是我们关注的一个重点。
　　另一方面，实际情况中标明是一件非常费时吃力的工作，例如须要标出上图中的大部分行人，而这样的图片起码得有几百上千张。由此可见，因此用户体验是我们须要关注的另一个重点。
　　综上，本文将主要从产品功能和用户体验这两个维度来剖析行业中的代表性产品。
　　2. 核心业务流程
　　完成图片标明训练的整个工作流程，通常须要经历”数据打算”、”数据标明”、“数据进化”三个环节。具体业务流程如下图所示：
　　

　　图3：图像标明通用业务流程
　　2.1 数据打算
　　数据打算收录：数据采集、数据预处理两步。
　　1. 数据采集：采集途径好多如：本地上传，调用其他数据集数据，摄像头数据导出，从云服务调用获取数据等。
　　2. 数据预处理：数据清洗是获取高质量训练数据的前提，并且通过清洗不合格的数据也可以降低无意义的标明工作，提高标明效率。数据清洗一般的操作包括：清洗模糊数据，清洗相像数据，裁剪，旋转，镜像，图片色温，图片对比度，图片色阶等。
　　2.2 数据标明
　　数据标明包括：建立标明集、数据标明、标注初审。
　　2.2.1 建立标注集
　　标注集是标明工作的基本任务管理单元，在此不做过多赘言。
　　2.2.2 数据标明
　　具体方法见表1：
　　

　　表1：数据标明具体形式
　　2.2.3 标注初审
　　针对“任务标明”，标注初审是对下发的标明任务进行管理并对标明结果初审，一般初审维度包括：标注进度、验收情况、标签数目、难例、标注质量等。
　　针对“自动标明”，标注初审是对手动标明的结果进行逐一检测确认，并更改标明有误的图片。
　　2.3 数据进化
　　数据进化包括：模型训练、模型推理。
　　2.3.1 模型训练：
　　是将标明数据进行训练得出模型结果的过程。
　　2.3.2 模型推理：
　　用于对训练的模型结果进行校准预测，并将错误或则有偏差的校准结果记录出来带入到下一次模型训练中用于模型的优化迭代，从而产生由数据标明到模型训练再到模型迭代优化的闭合支路。
　　3. 竞品简介
　　目前市面上标明工具较多，首先须要确定竞品选定原则：
　　综上，选取了以下3款竞品：
　　: Intel出品的开源标明工具，发布于2018年6月。其支持视频、图片等多种数据类型的标明，功能全面。 : 华为出品的机器学习平台，发布于2018年10月，其中收录了数据标明模块。其支持从数据导出到模型运维的全流程开发，训练速率较快。 : 俄罗斯Deep System旗下的模型训练平台，发布于2017年8月。其数据标明功能强悍，特别是Smart Tool令人影响深刻：可以快速完成语义分割任务的标明。
　　

　　表2：3款产品的概括对比
　　4. 功能对比
　　本节中，针对3款产品，我们从按照第2章的核心业务流程来探究产品功能间差别。
　　4.1 CVAT
　　CVAT的使用流程其实非常简单，但功能非常全面和丰富。
　　

　　图4：CVAT的标明流程
　　4.1.1 创建数据集
　　CVAT中以标明任务（Task）的概念取代数据集，一个任务可以收录多个作业，每个作业可以分配一个标明人员。
　　在创建标明任务时，CVAT也提供了丰富的中级选项，例如：
　　支持使用Git LFS: Git Large File Storage, 大文件的git管理插件。调整图片质量：通过增加图片质量（压缩比）来推动高清图片的加载。作业数和重叠数：如果一个任务中的图片量很大，可以将其分成多个作业。再配合重叠数，可以实现分配一张图片到多个作业的疗效，不过暂时没有想到重叠数的使用场景。
　　总结来看，CVAT在标明任务模块汇中的一个优势是支持直接上传视频类型文件，上传完的视频会被按照用户设定的分辨率（Frame）转换成图片。
　　CVAT在该模块中也有个显著的劣势：缺少一个统一的视角去总览任务中所有的图片（如下图所示，任务详情页中仅能看见首张图的相片），以及每张图片上所有的标明，推测是因为因为一张图片可能存在在多个作业中所造成。
　　

　　图5：CVAT的标明任务详情页
　　4.1.2 自动标明
　　由于CVAT并未提供模型服务的能力，其手动标明功能还处在发展的早期，仅能满足个人实验。
　　添加手动标明模型须要用户上传模型文件，而非镜像或API，这种非服务化的形式很容易由于运行环境差别（例如2个服务器上安装了不同版本的依赖包），而影响标明成功率以及准确率。
　　4.1.3 人工标明
　　4.1.3.1 人工标明支持3种标明模式，且各个模式之前可来回切换：
　　标准模式（Standard）：用于常规标明。属性标明模式（Attribute Annotation）：在“属性模式”下用户可以专注于更改标明框属性和标签属性，提升了对标明属性检测和更改的效率。此模式专门用于对同一个物体设置一个或多个属性的场景，如人脸标明中须要标明年纪，性别等。标签标明模式（Tag Annotation）：在“标签模式”下用户可以迅速实现增删标签和对标签属性的选择和更改。同时为图片分类型标明订制的模式，还可为每位标签设置快捷键。极大提高了图片分类的标明效率。
　　4.1.3.2 针对CVAT我们体验出来总结了以下几点优势：
　　1）灵活的标签和属性定义
　　同一图片可以标明多个标签，且一个标签可以设置多个属性且平台将属性定义分为：多选（Select）、单选（Radio）、是否（Checkbox）、文本（Text）、数字（Number）五种。CVAT标签自定义的自由度基本满足了绝大部分的标明需求。
　　

　　图6：CVAT中的5种标签属性
　　2）丰富的标明方式
　　为了支持各类类型的标明，CVAT提供了6种的标明方式，包括：标签、点、矩形、折线、多边形、长方体等。同时支持AI六边形标明：只需指定起码四个点就可以在系统的帮助下框选出一个目标的轮廓，这点同Supervisely相同，我们者体验出来在AI辨识速率上还是期盼进一步提高。
　　3）标注方法快捷键的统一
　　选择一个标明方法则快捷键”N“就代表这些标明形式。重新选择标明方法则”N”代表的形式急剧对应改变。快捷键的统一进一步增加了用户的操作成本。
　　4）任务剖析
　　通过任务剖析仪表板中的剖析，您可以查看每位用户在每位任务上耗费了多少时间，以及她们在任何时间范围内完成了多少工作，任务剖析拓展了CVAT的团队标明能力。
　　

　　图7：CVAT中的Analytics仪表板（图片来源CVAT用户指南）
　　5）追踪模式（Track mode）
　　用于对视频文件进行标明。视频会根据分辨率被分割成若干画面（Frame）。用户仅需在关键画面（Key frame，和Flash中的关键帧太类似）上进行标明，关键画面之间的画面也会手动带上标明。CVAT目前仅支持包围框和点使用配准模式。Propagate功能很实用，场景：如果想将当前图片中的标明传递（Propagate）给前面的n张图片。同时CVAT的追踪模式结合合并（Merge）功能、分割（Split）功能共同支撑起CVAT颇具优势的视频或动图标明能力。
　　4.1.3.3 可能正由于其支持的功能过分丰富，导致使用上去有一定的学习成本，用户体验会有些差强人意。例如：
　　标注时图片未能预览难以得知图片的总体标明情况，当上次在步入作业时不能快速定位到未标明的图片，这点虽然对与效率不会有很大影响但会影响用户的操作体验。另外假如是做用户图片分类的标明，则须要使用属性模式，这一点用户无法感知。（我们一开始还以为只能通过画一个完全覆盖图片的框能够实现） 4.2 ModelArts
　　Modelarts在2019年10月17日版本更新后（特别是团队标明功能），业务流程覆盖趋向完整。整体用户流程如下：
　　

　　图8：ModelArts的标明流程（图片来自ModelArts官网）
　　由于本文以数据标明功能的讨论为主，数据标明以后的功能（包括训练、推理、数据校准等）不在本文的讨论范围内。
　　4.2.1 创建数据集
　　在创建图片数据集时，ModelArts将图象标明类型设定在了数据集层面，即创建数据集时就须要分辨标明类型.
　　这一点与Supervisely和CVAT区别较大，具体剖析见Supervisely的人工标明章节。目前支持图片分类及目标测量两种任务。
　　

　　图9：ModelArts中倒入创建数据集
　　4.2.2 数据处理
　　华为的数据处理功能坐落对象存储服务中，其提供了便利且功能全面的图片处理能力。
　　华为对象存储服务中提供了“图形界面模式”和“代码编辑模式”两种图片处理操作方法，适用了普通用户和开发者用户的使用。
　　同时最终的处理结果储存于内容分发网络（Content Delivery Network，CDN）加速，后续恳求可以通过URL直接从CDN下载，可以将结果用于任意可以通过URL导出数据的标明平台，极大的拓展了平台的功能拓展性。
　　华为图片处理提供的能力主要包括：设置图片疗效（亮度、对比度、锐化、模糊）、设置缩略、旋转图片、剪切图片、设置水印、转化格式、压缩图片。
　　

　　图10：华为对象存储中的图片处理模块
　　4.2.3 智能标明
　　ModelArts智能标明收录：主动学习（半自动标明）和预标明（全手动标明），目前只有“图像分类”和“物体检查”类型的数据集支持智能标明功能。下面简单剖析一下智能标明模块：
　　系统只对未标明图片进行标明，这样可以降低重复标明，减少对于运算资源的浪费。使用疗效不理想，系统实际体验出来标明的准确性大约只能维持在60%。系统筛选难例的准确性也较低。全手动标明支持选择自行训练的模型或ModelArts自带模型，在模型选择上灵活性较高，在上次进行作业时可以承继每次标明的结果进一步提高模型的准确率。智能标明结果展示页面可以进行条件筛选，可选的条件包括：难例级，标签，样本创建时间，文件名，标注人，样本属性，置信度。精准的筛选可以满足大部分场景的需求。
　　4.2.4 人工标明
　　华为ModelArts人工标明的特征主要有以下三点：
　　4.2.4.1 目标测量标明支持多达6种方式的标明
　　包括圆形、多边形、正圆、点、单线、虚线（见图11），丰富的标明形式覆盖了更广泛的标明场景，同时可以提升标明的精度。
　　4.2.4.2 高效的标签选择方法
　　在数据标明的交互上，华为ModelArts在画完选框后会手动弹出标签下拉框早已展开的添加标签弹窗（见图11），省去了用户框选完成后自行点击标签下拉框的步骤。且弹出的标签选项卡就在选框门口（见图11），这样缩短了滑动键盘选择标签的键盘联通行程。
　　

　　图11：ModelArts图象测量的数据标明界面
　　4.2.4.3 图片分组
　　在标明预览页面华为ModelArts提供了图片分组功能（见图12），此功能会使用聚类算法或按照清晰度、亮度、图像色调对图片进行分组。自动分组可以理解为数据标明的预处理，用户可依照分组结果，进行分组打标、图片清洗等操作。此功能可以提升图片标明效率，尤其是在图片分类标明的情况下再配合批量标明功能可以在标明速率上有质的提高。但我们在实际体验后觉得此功能分组的成功率较低。
　　

　　图12：ModelArts中的图片手动分组
　　4.2.5 团队标明
　　华为ModelArts的团队标明功能设置挺齐全，有很多亮点，这里从创建，标注，审核三个方面阐述：
　　4.2.5.1 创建
　　华为启用团队标明后可以直接指定标明团队，也可以选择指定管理员之后由管理员分配标明人力并做初审工作。选则完类型后团队成员会收到系统电邮，按电邮提示可以太轻松的完成标明和初审。
　　可以选择是否将新增文件手动同步至标明团队。同时可以选择标明团队的文件是否加载智能标明结果。这些操作降低了管理员对任务分配和手动标明之间关系的调节自由度。
　　

　　图13：ModelArts团队标明创建页面
　　4.2.5.2 标注
　　标注一张图片并保存后，图片手动步入“待初审”状态。我们觉得这样的状态切换超出用户预期，特别是用户假如还想再检测标明是否有误的话还需切换到“待初审”页面去检测，这样会给用户带来不便。
　　“待初审”的图片依然可以更改，在管理员发起初验前，修改有效。但在初验时，如果图片被抽样到则更改不会保存在数据集中，如果图片未被抽样到则更改会被保存在数据集中。这样的初审逻辑限定可以降低在初审中形成不必要的混乱，防止初审结果形成偏差。
　　4.2.5.3 审核
　　ModelArts将初审称为“验收”，验收分了2个层级：单张图片的初验和一批次图片的初验。流程是用户对一批图片做初验。审核层级过多，逻辑复杂，导致操作结果可能不符合用户预期。
　　标注状态混乱：例如管理员分配图片A给到标明人a，a标明完，管理员使用智能标明同时标明图片A，如果2个结果都被管理员确认，无论先确认哪种标明，最后只有智能标明的结果有效，而标明人a的标明则无效。
　　ModelArts提供了初审的仪表盘，仪表盘便捷了初审的统计环节，用可视化的方法展示了任务进度。仪表盘的衡量指标包括：验收进展统计、难例集数目、标签数与含标签的样本数、标注人进展统计等5个，见图14：
　　

　　图14：ModelArts中的标明初审仪表盘
　　4.3 Supervisely
　　

　　图15：Supervisely的标明流程
　　从图中可以见到团队标明一块的逻辑相比其他产品愈加复杂，分析背后的缘由：
　　表面上看好多步骤是为了满足团队标明这一需求（特别是外部标明团队），包括创建团队、邀请成员、创建标明作业、标注初审等等，但本质上则是安全把控和质量把控需求：
　　安全把控彰显在管理员可以分配给团队成员不同的角色以控制成员的权限，例如标注者（Annotator）只能查看自己任务中的图片；质量把控彰显在标明完后都会有管理员初审标明情况以保证标明质量。
　　因此，这样复杂的链路是一个企业级标明产品应有的设计，尽管这样不可防止会导致用户认知成本的下降，以及用户体验的减少。
　　4.3.1 创建数据集
　　在Supervisely中，用户可以在一个数据集中完成4种标明（视频标明除外），即分类、检测、分割、姿态恐怕。
　　与ModelArts不同，Supervisely对数据集的定位更象是图片集。一批图片只须要导出一次，无论做哪种类型的标明都可以在同一个数据集上完成。且后续做训练时，可以直接得到一张图片上的所有标明。
　　综上，Supervisely统一的数据集模块，提升了图片导出，图片标明以及图片后处理的效率。但这些方法也有缺点：所有标明类型的操作模式固定，无法针对特定类型（例如Modelarts的图片分类可同时选择多张图片一起标明）做深入优化。
　　4.3.2 数据处理
　　Supervisely的数据处理模块称作DTL, Data Transformation Language，是一种基于JSON的脚本语言，通过配置DTL脚本可以完成合并数据集、标签映射、图片提高、格式转换、图片去噪、图片翻转等46种操作，满足各种数据处理需求。
　　图16：Supervisely中为图片加入高斯模糊
　　虽然功能相比ModelArts来说愈发强悍，但是因为仅提供代码方式操作，仅适宜工程师，然而大部分工程师已把握通过python处理图片的形式，再额外学习一种语言无疑会降低学习成本。
　　另一方面这些特殊的语言对效率的提高也存在未知数，例如用户想进行某种图片操作，但督查了半天发觉该语言不支持，最后还是要通过python来完成，到头来增加了效率。
　　4.3.3 自动标明
　　Supervisely目前提供了14款预训练的模型，训练用数据大部分来自COCO（微软发布的小型图象数据集），少部份来自PASCAL VOC2012, Cityscapes, ADE20K等其他公开数据集。
　　在手动标明部份，Supervisely的优势在于支持语义分割型的手动标明，加上产品在语义分割型的人工标明上拥有出众的体验，使这类型任务的标明效率得以急剧提高。
　　Supervisely的手动标明模块产品化程度较低，主要彰显在以下两点：
　　由于本身不提供模型训练及推理服务，需要用户自行打算手动标明所需的硬件环境，且限制较多（仅支持Nvidia GPU，需要Linux和Cuda驱动）。通过JSON格式的配置文件来配置模型推理参数（见图17）。相比华为简单的配置界面，这种方式的灵活性其实更高，但用户真的须要这么配置还是指想系统直接给出一个手动标明的结果就好呢？
　　

　　图17：Supervisely（左）与华为ModelArts（右）的全手动标明配置对比
　　4.3.4 人工标明
　　Supervisely的标明功能非常强悍，主要有以下2个特征：
　　丰富的标明方式：为了支持各类类型的标明，Supervisely提供了多达9种的标明方式，包括：标签、点、矩形、折线、多边形、长方体、像素图、智能工具 (Smart Tool)、关键点等。复杂的标签系统：抽象出了对象（Object），类（Class），标签（Tag）三个实体，在复杂场景中增强了实体之间的复用性。
　　4.3.4.1 丰富的标明方式
　　在所有9种标明方式中，智能工具令人印象深刻：
　　智能工具用于分割类型的标明，用户只须要2次点击框选一个物体，通过算法对目标进行遮罩即可完成一个初步的分割，再通过标明积极点和悲观点完成精确标明，大大增加了分割类任务的标明成本。
　　

　　图18：Supervisely中经过11次点击后完成了一个语义分割
　　4.3.4.2 复杂的标签系统
　　为了满足一个数据集囊括多种标明类型的需求，Supervisely有一套复杂的标签系统。我们通过对3款产品的ER图来具体剖析一下这套标签系统的好坏。
　　在图19的行人辨识场景中，我们会画一个个行人包围框。那么我们就须要定义一个标签叫：行人。
　　

　　图19：Supervisely中的行人标明场景
　　但是每位行人的属性又有不同，例如行人A戴帽，行人B不戴帽.如果我们须要分辨戴帽的行人和不戴帽的行人，一种做法是创建两个标签：戴帽的行人、不戴帽的行人。
　　但这样的两个标签会失去关联性——如果模型只要检查行人，还须要对这两个标签进行转换，效率较低。
　　比较合理的做法是在行人标签下创建一个属性——是否戴帽；并具象出一个概念：对象。
　　用户每画一个包围框，系统还会创建一个对象（例如：行人A），每个对象会对应一个标签（例如：行人），然后每位对象可以设置该标签所具有的属性值（例如：是否戴帽=是）。
　　CVAT和ModelArts都是这样的做法，区别是CVAT可以直接为图片加上标签，用于图片分类。而ModelArts因为界定了图片分类和目标测量数据集，因此标签仅能在图片分类型数据中被应用在图片上。
　　

　　图20：CVAT（左）和ModelArts（右）的图片-对象-标签ER图对比
　　而Supervisely则是把标签和属性分拆成了两个实体（如下图）：
　　这种做法可以提升属性的复用，例如在Supervisely中，用户只须要定义一遍颜色属性，之后无论是标明行人还是汽车的颜色都可以应用同一个“颜色”下面的属性，提高了复杂标明集的打算效率。
　　但同时这些做法对用户体验设计提出了较大挑战，从上手难度来看，Supervisely无疑是三款产品中最难上手的。
　　

　　图21：Supervisely的图片-对象-标签-对象ER图
　　5. 总结与展望 5.1 总结对比
　　下表为三款标明产品的功能总结：
　　

　　表3：三款产品的功能总结对比
　　CVAT: 人工标明功能最为强悍，但手动标明功较为薄弱。独有的追踪模式免去了对视频的预处理，对标明效率的提高也非常巨大。CVAT的任务剖析功能因为环境诱因无法完全体验，从介绍来看应当会在这块加码。 ModelArts: 作为华为云的一个功能模块，ModelArts的产品战略也愈发偏向通用性，平台性。通过与华为OBS系统的结合给其带来了强悍的数据处理能力也加强了其平台的可拓展性和兼容性。同时手动标明和半自动标明作为ModelArts的优势是CVAT和Supervisely所不具备的，也从侧面彰显了ModelArts借助华为云所带来的强悍运算力和算法优势。总体来说ModelArts是一个均衡的选手，具有优秀的业务拓展能力。 Supervisely：整体功能最为建立，适合企业级应用。对语义分割类任务支持较好，但部份功能（如数据处理，自动标明）需要通过代码形式完成，效率提高有限。
　　当然我们也发觉有一些功能在3款产品中都没有看见，例如水印功能，会适用于保密要求的场景，如看守所，银行等。
　　5.2 标注工具的未来趋势
　　5.2.1 人工标明这个环节不会消失
　　这似乎是个悖论：假设我需要训练一个CV模型，训练模型须要打算标明好的图片，如果图片标明只须要手动标明而无需人工干预，那意味着模型早已才能确切预测出结果.
　　如果能做到确切预测，说明早已这个模型早已被训练完全，不再须要训练，这就和假定偏颇了。
　　5.2.2 自动标明的价值主要彰显在单个标明须要耗费较长时间的标明类型中，如分割和姿态恐怕
　　既然人工标明一定会存在，那么手动标明存在意义就是提升人工标明效率，而非替代人工标明。在分类和测量任务这类单次标明历时较短的场景中，自动标明的价值较小。
　　假设从0开始完成一个标明耗费5秒钟，而早已进行了手动标明的情况下，修改一个标明须要花2秒，标注效率提高60%（假设跑手动标明模型是在上班以后，不影响人工标明时间）。
　　但我们听到可能有些图片上模型的标明结果误差很大，这样用户还须要话一秒来删除手动标明的结果，反而此次标明的效率增加了20% （IE,1/5），如此高的负利润致使整体效率算出来没有提升好多。
　　5.2.3 人工标明的主要内容将从创建标明转变为更改标明
　　虽然人工标明环节不会消失，但其实手动标明将会在标明环节起到越来越重要的作用，今后常见的标明流程将会从创建一个新标明，转变为更改一个由模型创建的标明。
　　因此，优化更改标明时的用户体验将会是一个提升标明效率的突破点。
　　作者：薛康杰，AIoT产品总监，AIops, CV和IoT等平台类产品；江海龙，AI产品实习生，主攻CV产品设计。

验证码登录-设置执行前等待方式

采集交流 • 优采云发表了文章 • 0 个评论 • 153 次浏览 • 2020-08-10 08:12 • 来自相关话题

　　本文给你们演示登录界面有验证码或则其他验证（如滑块验证）的网站通过设置执行前等待进行数据采集的形式。
　　所讲示例采集数据网址为登陆时设置执行前等待，然后单机采集时自动输入验证码或则滑块验证，之后再进行采集。
　　小贴士：这种方式只能在单机采集上，云采集是不能手动辨识的。
　　步骤1 登陆优采云7.0采集器→点击新建任务→自定义采集，进入到任务配置页面：然后输入网址→保存网址，系统会步入到流程设计页面并手动打开上面输入的网址。
　　
　　接下来步骤是输入用户名密码了，优采云模拟的是人的操作行为，所以这一步过程也很简单
　　步骤2 在浏览器中键盘点击用户名输入框→在左侧弹出的提示上面选择“输入文字”→输入自己的用户名→选择“确定”
　　同样的方法输入密码这样输入用户名密码的步骤就完成了
　　
　　接下来模拟人工自动在浏览器上面输入验证码，因为在本地采集的时侯验证码都是不一样的，所以这儿如今只能自动输入，然后单机采集的时侯自动输入验证码进行采集。
　　步骤3 在浏览器中自动输入验证码→然后选择浏览器中的“登陆”按钮→在弹出的提示框中选择点击该按键→页面将会跳转到登入界面。
　　
　　这里我们须要对点击登录元素做一个执行前等待，做这个的目的是单机采集的时侯，运行到这一步会等待设置的时间，利用这个时间我们在本地采集的时侯可以自动输入验证码。然后规则根据后续流程采集数据。
　　步骤4 点开页面上的“流程”按钮，流程显示下来以后，选择点击元素→右边中级选项→执行前等待时间（这里我设置的10秒，这个时间自己计算，可随便设置）
　　
　　这里设置好以后，接下来提取数据。
　　步骤5 这里我随便提取一个数据仅供演示登录功能，具体的操作可以参考菜鸟入门的教程。
　　
　　这样一个简单的流程就做好了
　　步骤6 接下来选择保存并启动按键，系统将会在本地启动一个采集流程，当执行到输入验证码操作时，我们在这里会等待10秒钟，利用这个时间自动输入一下这个验证码，然后系统会根据后续流程手动执行操作
　　
　　小贴士：注意上述这些方式因为须要采集时自动输入验证码或则滑块之类的操作，所以只能用在本地采集上，是不能用于云采集的。查看全部

　　本文给你们演示登录界面有验证码或则其他验证（如滑块验证）的网站通过设置执行前等待进行数据采集的形式。
　　所讲示例采集数据网址为登陆时设置执行前等待，然后单机采集时自动输入验证码或则滑块验证，之后再进行采集。
　　小贴士：这种方式只能在单机采集上，云采集是不能手动辨识的。
　　步骤1 登陆优采云7.0采集器→点击新建任务→自定义采集，进入到任务配置页面：然后输入网址→保存网址，系统会步入到流程设计页面并手动打开上面输入的网址。
　　

　　接下来步骤是输入用户名密码了，优采云模拟的是人的操作行为，所以这一步过程也很简单
　　步骤2 在浏览器中键盘点击用户名输入框→在左侧弹出的提示上面选择“输入文字”→输入自己的用户名→选择“确定”
　　同样的方法输入密码这样输入用户名密码的步骤就完成了
　　

　　接下来模拟人工自动在浏览器上面输入验证码，因为在本地采集的时侯验证码都是不一样的，所以这儿如今只能自动输入，然后单机采集的时侯自动输入验证码进行采集。
　　步骤3 在浏览器中自动输入验证码→然后选择浏览器中的“登陆”按钮→在弹出的提示框中选择点击该按键→页面将会跳转到登入界面。
　　

　　这里我们须要对点击登录元素做一个执行前等待，做这个的目的是单机采集的时侯，运行到这一步会等待设置的时间，利用这个时间我们在本地采集的时侯可以自动输入验证码。然后规则根据后续流程采集数据。
　　步骤4 点开页面上的“流程”按钮，流程显示下来以后，选择点击元素→右边中级选项→执行前等待时间（这里我设置的10秒，这个时间自己计算，可随便设置）
　　

　　这里设置好以后，接下来提取数据。
　　步骤5 这里我随便提取一个数据仅供演示登录功能，具体的操作可以参考菜鸟入门的教程。
　　

　　这样一个简单的流程就做好了
　　步骤6 接下来选择保存并启动按键，系统将会在本地启动一个采集流程，当执行到输入验证码操作时，我们在这里会等待10秒钟，利用这个时间自动输入一下这个验证码，然后系统会根据后续流程手动执行操作
　　

　　小贴士：注意上述这些方式因为须要采集时自动输入验证码或则滑块之类的操作，所以只能用在本地采集上，是不能用于云采集的。

一套存活了12年的舆情软件

采集交流 • 优采云发表了文章 • 0 个评论 • 260 次浏览 • 2020-08-10 07:12 • 来自相关话题

　　随着互联网的快速发展，网络媒体作为一种新的信息传播方式，已深入人们的日常生活。网友言论活跃已达到前所未有的程度，不论是国外还是国际重大风波，都能马上产生网上舆论，通过这些网路来抒发观点、传播思想，进而形成巨大的舆论压力，达到任何部门、机构都难以忽略的地步。可以说，互联网已成为思想文化信息的集散地和社会舆论的放大器。
　　
　　在谷尼大数据创立12年华诞将至之际，据国家版权局颁授的著作权证书上我们看见谷尼的第一套舆情系统形成的时间为2007年10月22日，名称叫“Gooniespider互联网舆情与情报信息监控系统V2.0[简称：Gooniespider互联网舆情监控系统]”，截止到2018年8月1日早已超过十年，目前的应用的顾客超了500个。
　　
　　Gooniespider互联网舆情监控系统依托自主研制的搜索引擎技术和文本挖掘技术，通过网页内容的手动采集处理、敏感词过滤、智能降维分类、主题检查、专题聚焦、统计剖析，实现各单位对自己相关网路舆情监督管理的须要，最终产生舆情简报、舆情专报、分析报告、移动快报，为决策层全面把握舆情动态，做出正确舆论引导，提供剖析根据。
　　系统结构
　　
　　功能特性
　　l 元数据手动辨识、无需模板配置
　　互联网舆情监控系统可手动辨识抽取文章标题、发布时间、作者、摘要、正文关键元数据，无需单独配置模板标签。
　　l 支持两微一端信息检测
　　互联网舆情监测系统支持新闻APP、微信、微博以及境外Twitter检测采集。
　　l 自定义URL来源及采集频率
　　舆情检测系统用户可以设定采集的栏目、URL、更新时间、扫描间隔等，系统的扫描间隔最小可以设置成1分钟，即每隔一分钟，系统将手动扫描目标信息源，以便及时发觉目标信息源的最新变化，并以最快的速度采集到本地。
　　l 支持多种网页格式
　　互联网舆情监测系统可以采集常见的静态网页（HTML/HTM/SHTML）和动态网页（ASP/PHP/JSP），还可以采集网页中收录的图片信息。
　　l 支持多种字符集编码
　　网络舆情系统采集子系统才能手动辨识多种字符集编码，包括英文、英文、中文繁体、中文简体等，并可以统一转换为GBK编码格式。
　　l 支持全网关键词采集
　　舆情软件元搜索模式是以国外著名互联网搜索引擎的结果为基础并借助Goonie采集器直接面向互联网订制内容进行直接采集，用户只须要输入搜索关键词就可以了。
　　l 支持内容抽取辨识
　　网络舆情监测系统可对网页进行内容剖析和过滤，自动清除广告、版权、栏目等无用信息，精确获取目标内容主体。
　　l 基于内容相似性去重
　　网络舆情监控系统通过内容相关辨识技术手动判断分类中文章的关系，如果发觉描述相同风波的文章自动清除重复部份。
　　l 支持手机WAP浏览
　　舆情软件系统支持手机wap浏览访问，不限手机系统平台无需安装手机客户端，通过手机浏览器即可实时把握最新舆情动态。
　　l 支持邮件、邮件等舆情预警
　　舆情监控系统7×24小时检测敏感信息，通过手机邮件、邮件等方法实时预警。
　　功能描述
　　l 热点话题、敏感话题辨识
　　系统可以按照新闻出处权威度、发言时间密集程度等参数，识别出给定时间段内的热门话题。利用内容主题单词和回帖数进行综合语义剖析，识别敏感话题。
　　l 舆情主题跟踪
　　系统剖析新发表文章、贴子的话题是否与已有主题相同。
　　l 自动摘要
　　舆情监控系统对各种主题，各类倾向才能产生手动摘要。
　　l 舆情趋势剖析
　　网络舆情系统分析某个主题在不同的时间段内，人们所关注的程度。
　　l 突发事件剖析
　　网络舆情系统对突发事件进行跨时间、跨空间综合剖析，获知风波发生的概貌并预测风波发展的趋势。
　　l 舆情报案系统
　　网络舆情系统对突发事件、涉及内容安全的敏感话题及时发觉并报案。
　　l 舆情统计报告
　　网络舆情系统软件按照舆情剖析引擎处理后生成报告，用户可通过浏览器浏览，提供信息检索功能，根据指定条件对热点话题、倾向性进行查询，并浏览信息的具体内容，提供决策支持。查看全部

　　随着互联网的快速发展，网络媒体作为一种新的信息传播方式，已深入人们的日常生活。网友言论活跃已达到前所未有的程度，不论是国外还是国际重大风波，都能马上产生网上舆论，通过这些网路来抒发观点、传播思想，进而形成巨大的舆论压力，达到任何部门、机构都难以忽略的地步。可以说，互联网已成为思想文化信息的集散地和社会舆论的放大器。
　　

　　在谷尼大数据创立12年华诞将至之际，据国家版权局颁授的著作权证书上我们看见谷尼的第一套舆情系统形成的时间为2007年10月22日，名称叫“Gooniespider互联网舆情与情报信息监控系统V2.0[简称：Gooniespider互联网舆情监控系统]”，截止到2018年8月1日早已超过十年，目前的应用的顾客超了500个。
　　

　　Gooniespider互联网舆情监控系统依托自主研制的搜索引擎技术和文本挖掘技术，通过网页内容的手动采集处理、敏感词过滤、智能降维分类、主题检查、专题聚焦、统计剖析，实现各单位对自己相关网路舆情监督管理的须要，最终产生舆情简报、舆情专报、分析报告、移动快报，为决策层全面把握舆情动态，做出正确舆论引导，提供剖析根据。
　　系统结构
　　

　　功能特性
　　l 元数据手动辨识、无需模板配置
　　互联网舆情监控系统可手动辨识抽取文章标题、发布时间、作者、摘要、正文关键元数据，无需单独配置模板标签。
　　l 支持两微一端信息检测
　　互联网舆情监测系统支持新闻APP、微信、微博以及境外Twitter检测采集。
　　l 自定义URL来源及采集频率
　　舆情检测系统用户可以设定采集的栏目、URL、更新时间、扫描间隔等，系统的扫描间隔最小可以设置成1分钟，即每隔一分钟，系统将手动扫描目标信息源，以便及时发觉目标信息源的最新变化，并以最快的速度采集到本地。
　　l 支持多种网页格式
　　互联网舆情监测系统可以采集常见的静态网页（HTML/HTM/SHTML）和动态网页（ASP/PHP/JSP），还可以采集网页中收录的图片信息。
　　l 支持多种字符集编码
　　网络舆情系统采集子系统才能手动辨识多种字符集编码，包括英文、英文、中文繁体、中文简体等，并可以统一转换为GBK编码格式。
　　l 支持全网关键词采集
　　舆情软件元搜索模式是以国外著名互联网搜索引擎的结果为基础并借助Goonie采集器直接面向互联网订制内容进行直接采集，用户只须要输入搜索关键词就可以了。
　　l 支持内容抽取辨识
　　网络舆情监测系统可对网页进行内容剖析和过滤，自动清除广告、版权、栏目等无用信息，精确获取目标内容主体。
　　l 基于内容相似性去重
　　网络舆情监控系统通过内容相关辨识技术手动判断分类中文章的关系，如果发觉描述相同风波的文章自动清除重复部份。
　　l 支持手机WAP浏览
　　舆情软件系统支持手机wap浏览访问，不限手机系统平台无需安装手机客户端，通过手机浏览器即可实时把握最新舆情动态。
　　l 支持邮件、邮件等舆情预警
　　舆情监控系统7×24小时检测敏感信息，通过手机邮件、邮件等方法实时预警。
　　功能描述
　　l 热点话题、敏感话题辨识
　　系统可以按照新闻出处权威度、发言时间密集程度等参数，识别出给定时间段内的热门话题。利用内容主题单词和回帖数进行综合语义剖析，识别敏感话题。
　　l 舆情主题跟踪
　　系统剖析新发表文章、贴子的话题是否与已有主题相同。
　　l 自动摘要
　　舆情监控系统对各种主题，各类倾向才能产生手动摘要。
　　l 舆情趋势剖析
　　网络舆情系统分析某个主题在不同的时间段内，人们所关注的程度。
　　l 突发事件剖析
　　网络舆情系统对突发事件进行跨时间、跨空间综合剖析，获知风波发生的概貌并预测风波发展的趋势。
　　l 舆情报案系统
　　网络舆情系统对突发事件、涉及内容安全的敏感话题及时发觉并报案。
　　l 舆情统计报告
　　网络舆情系统软件按照舆情剖析引擎处理后生成报告，用户可通过浏览器浏览，提供信息检索功能，根据指定条件对热点话题、倾向性进行查询，并浏览信息的具体内容，提供决策支持。

立即下载| 8.1 Beta智能版在线，这是自动采集体验的新升级

采集交流 • 优采云发表了文章 • 0 个评论 • 344 次浏览 • 2020-08-08 19:58 • 来自相关话题

　　2020年，我们度过了一个难忘而艰难的春节. 尽管外界仍然处于危险之中，但只要我们团结起来并克服困难，我们相信“春天”就在不远处.
　　在疫情流行的情况下，我们迅速调整以满足特殊时期的办公要求，开展了远程协作，坚守前线，并进行了多次内部测试和调试. 终于，今天，优采云 8.1 Beta智能版发布并发布.
　　这次，在功能方面，我们对“自定义配置任务”进行了重大改进，从而大大提高了用户数据获取的效率. 在界面布局上，我们优化了各个模块的布局，使优采云的用户体验能够更好地满足用户操作的便利性.
　　优采云 8.1 Beta版本升级要点
　　优采云 8.1Beta智能采集版不断涌现_腾讯视频
　　
　　1. “自动网页识别”在线，新手用户可以在几秒钟内上手
　　用户只需输入网页地址，优采云就可以智能分析网页，自动识别网页上的文字，图片和其他信息，并智能推荐设置诸如采集字段，翻页和滚动等设置以加载更多数据
　　
　　如果存在下一页，则用户只需单击即可进行检查，Ucai Cloud会自动设置为采集下一页以轻松获取更多数据，并且用户无需手动单击页面创建过程步骤.
　　
　　该网页显示多个识别结果，并且始终有一组数据可以满足您的需求. 即使您是第一次使用优采云，也可以轻松处理并立即采集数据.
　　
　　2，新的智能“新手指南”，教您逐步采集
　　为了让新用户能够快速学习数据采集，优采云内置了智能的“新手指南”，可让新用户按照清晰的步骤进行学习，以提高用户的采集效率并降低用户的学习成本.
　　
　　3. 操作体验更轻松，数据显示更清晰
　　流程图的新版本的设计风格更加新鲜和简单. 字段支持灵活的拖放操作，所选字段的突出显示更加明显，单击步骤即可快速添加流程，数据呈现更加清晰.
　　
　　4快速找到“最近编辑”任务，周到的布局节省了时间
　　采集任务太多，需要花费时间才能找到？左侧导航栏中新添加的“最近编辑”模块使您可以快速找到最近已编辑的采集任务，即使导航栏收缩也是如此. 节省时间，让您更私密地使用它.
　　
　　5采集任务“多条件组合筛选”以提高管理效率
　　为了让您更轻松地管理采集任务并提高效率，优采云增加了“多条件组合过滤”高级搜索功能，可根据“云采集状态，本地采集状态，任务”进行支持类型，定时任务，用户，云筛选是通过七个条件执行的: 采集的数据量和云采集的结束时间.
　　
　　在第一级条件下，还提供了多个第二级条件以进行更详细的筛选. 通过多种条件的组合，您可以快速找到所需的采集任务，而不必一个个查看任务状态，数据和其他信息.
　　
　　用户还可以在任务列表中添加与任务组相关的操作.
　　
　　如何体验优采云 8.1 Beta版？
　　新的优采云 8.1 Beta版本现已在线，还有更多新功能等待您解锁！
　　下载链接:
　　免费下载-优采云采集器
　　
　　欢迎体验8.1 Beta版本. 如果您有任何意见或建议，请“扫描代码”加入小组并提交给我们. 非常感谢你！该软件仍有很多改进的空间，我们必须全力以赴！
　　
　　扫描代码即可加入“优采云8.1 Beta版本体验反馈组” 查看全部

　　2020年，我们度过了一个难忘而艰难的春节. 尽管外界仍然处于危险之中，但只要我们团结起来并克服困难，我们相信“春天”就在不远处.
　　在疫情流行的情况下，我们迅速调整以满足特殊时期的办公要求，开展了远程协作，坚守前线，并进行了多次内部测试和调试. 终于，今天，优采云 8.1 Beta智能版发布并发布.
　　这次，在功能方面，我们对“自定义配置任务”进行了重大改进，从而大大提高了用户数据获取的效率. 在界面布局上，我们优化了各个模块的布局，使优采云的用户体验能够更好地满足用户操作的便利性.
　　优采云 8.1 Beta版本升级要点
　　优采云 8.1Beta智能采集版不断涌现_腾讯视频
　　

　　1. “自动网页识别”在线，新手用户可以在几秒钟内上手
　　用户只需输入网页地址，优采云就可以智能分析网页，自动识别网页上的文字，图片和其他信息，并智能推荐设置诸如采集字段，翻页和滚动等设置以加载更多数据
　　

　　如果存在下一页，则用户只需单击即可进行检查，Ucai Cloud会自动设置为采集下一页以轻松获取更多数据，并且用户无需手动单击页面创建过程步骤.
　　

　　该网页显示多个识别结果，并且始终有一组数据可以满足您的需求. 即使您是第一次使用优采云，也可以轻松处理并立即采集数据.
　　

　　2，新的智能“新手指南”，教您逐步采集
　　为了让新用户能够快速学习数据采集，优采云内置了智能的“新手指南”，可让新用户按照清晰的步骤进行学习，以提高用户的采集效率并降低用户的学习成本.
　　

　　3. 操作体验更轻松，数据显示更清晰
　　流程图的新版本的设计风格更加新鲜和简单. 字段支持灵活的拖放操作，所选字段的突出显示更加明显，单击步骤即可快速添加流程，数据呈现更加清晰.
　　

　　4快速找到“最近编辑”任务，周到的布局节省了时间
　　采集任务太多，需要花费时间才能找到？左侧导航栏中新添加的“最近编辑”模块使您可以快速找到最近已编辑的采集任务，即使导航栏收缩也是如此. 节省时间，让您更私密地使用它.
　　

　　5采集任务“多条件组合筛选”以提高管理效率
　　为了让您更轻松地管理采集任务并提高效率，优采云增加了“多条件组合过滤”高级搜索功能，可根据“云采集状态，本地采集状态，任务”进行支持类型，定时任务，用户，云筛选是通过七个条件执行的: 采集的数据量和云采集的结束时间.
　　

　　在第一级条件下，还提供了多个第二级条件以进行更详细的筛选. 通过多种条件的组合，您可以快速找到所需的采集任务，而不必一个个查看任务状态，数据和其他信息.
　　

　　用户还可以在任务列表中添加与任务组相关的操作.
　　

　　如何体验优采云 8.1 Beta版？
　　新的优采云 8.1 Beta版本现已在线，还有更多新功能等待您解锁！
　　下载链接:
　　免费下载-优采云采集器
　　

　　欢迎体验8.1 Beta版本. 如果您有任何意见或建议，请“扫描代码”加入小组并提交给我们. 非常感谢你！该软件仍有很多改进的空间，我们必须全力以赴！
　　

　　扫描代码即可加入“优采云8.1 Beta版本体验反馈组”

自动识别采集内容

话题描述

相关话题

最佳回复者

1 人关注该话题