解决方案:dataset: 提供通过敏感词球系统采集的小型行人重识别数据集

优采云发布时间: 2022-11-21 06:22

　　解决方案:dataset: 提供通过*敏*感*词*球系统

　　Gunball 行人重识别数据集 1. 背景描述

　　数据采集地点位于龙岗智能视听研究院周边。用于数据采集的*敏*感*词*弹系统（如下图）由部署在三个不同节点上的*敏*感*词*炮*敏*感*词*和球形*敏*感*词*组成，共有6个*敏*感*词*。由于*敏*感*词*相机的方位和焦距是固定的，球形相机的焦距和视线方向是可变的。通过调整焦距和视线方向，球形摄像机往往可以获得更清晰的行人图像。

　　该*敏*感*词*弹系统采集

的小人物重识别数据集为低分辨率人物重识别研究提供了更真实的基准。

　　2. 数据集介绍

" />

　　2.1 示例图像

　　*敏*感*词*球系统采集到的两个行人的图像已保存在“sample.zip”中，供您研究。

　　2.2 数据集优势

　　下面是我们的行人重识别数据集和现有主流行人数据集的统计对比。该数据集的优势在于它提供了高分辨率和低分辨率图像。

　　2.3 相关实验

　　现有方法已经在这个数据集上完成了实验。单击此处了解该方法。

　　3.申请完整数据权限Dataset数据集详情数据使用权限申请

　　Gunball 人重识别数据集

　　完整数据集收录

182 名行人的图像，存储在文件夹 8001-8184 中

" />

　　如果您想使用 gunball 人重识别数据集，请发送电子邮件反馈至

　　4.全数据分析

　　获得全量数据权限后，即可进行全量数据分析。全数据分析流程参考STEP3-全数据分析流程。

　　在完成全量数据分析后，如果数据分析师想带走分析结果，可以申请结果导出。详见STEP4-申请导出结果。

　　5.引文

　　如果论文中使用了此数据集，请引用该论文：

　　Dongting Sun、Lulu Yang、Long Lan、Zhigang Luo：走向真正的低分辨率行人再识别：一个新的数据集和基线。ICME2022:1-6

　　如果大家对这个数据集的使用有什么问题或者好的建议，欢迎点击【任务】页面，通过创建任务的方式反馈~

　　也可以扫描二维码进入微信交流群，交流更及时~

　　解决方案:数据

" target="_blank">采集技术简介

　　前言

　　本系列技术文章不涉及实现细节，仅讨论实现思路。由于数据仓库不仅仅是一个理论概念，它的数据质量等原则收录

了大量的技术实现细节，所以从开始的数据采集，到数据处理，再到最后的数据展示，都需要进行理论和实践分析思路，以保证最终数据仓库理论的完整实现。另外需要强调的是，本系列文章非原创。是笔者多年从业经验的一种思考整理。对于日常理解数据仓库的实现很有帮助。因此，大量引用了其他文章，并且介绍了很多介绍。来自行业的有用工具和良好实践。

　　一、技术路线图

　　2、Web端日志采集业务概述

　　Web端数据采集主要通过服务器日志、URL解析、JS返回三种方式实现，具体如下：

　　浏览器的日志采集

类型可以分为两类：

　　此外，还有一些针对特定场合的统计日志，如页面曝光时间日志、用户在线操作监控等，但原理都是基于以上两类日志，只是统计的内容不同。

　　Web端的重要指标主要包括三个部分：

　　3、Web端日志采集流程

　　目前典型的网页访问过程主要是基于浏览器请求，服务器响应并返回请求内容，主要传输HTML文档。浏览器与服务器的通信一般遵循HTTP协议，并逐渐过渡到最新的HTTP2.0版本。一个典型的访问流程包括以下几个部分：

　　在实际处理过程中，前三步无法采集

用户的浏览日志，采集

主要在第四步，即浏览器解析文档时进行。因此，很自然地会想到在HTML文档中适当的位置添加一个日志采集节点。浏览器在解析这个节点时，会向日志采集服务器发送一个特定的HTTP请求。当日志采集

服务器收到请求后，它可以确保浏览器已成功收到并打开页面。目前业界常见的日志采集方案只是实现细节不同，原理是相同的。

　　但是仅仅统计页面游走是不能满足业务需求的。很多时候，还需要采集

用户的具体行为特征，因为往往在特定的位置加一个JS空间。当用户在页面上执行某种行为时，会触发一个异步请求，将点击、等待、报错等交互行为按照约定的格式发送给日志服务器。

　　4. web日志的清洗和预处理

" />

　　大多数情况下，直接接收到的日志无法提供给下游使用，只能保存为ODS基础日志。由于大数据平台的半结构化特征需求，部分修正需要转化为DWD基础日志才能使用。，具体原因如下：

　　5. 漏斗模型介绍

　　Web端分析中经常使用的模型是：漏斗模型。这里介绍漏斗模型，有助于理解一些常用的统计方法，比如淘宝SPM系统。当你熟悉并了解它时，你会发现它真的很好用。

　　漏斗模型全称“搜索营销效果转化漏斗”，对应企业搜索营销的各个环节，反映从展示、点击、访问、咨询到订单生成过程中的客户数量和流失情况。从最大的展示量到最小的订单量，这个层层缩小的过程，意味着客户不断因为各种原因离开，对公司失去兴趣或者放弃购买。可以说互联网商业价值的体现与漏斗模型直接相关，因此也是一系列技术实现和数据分析的重点。

　　漏斗模型是一个线性过程。从头到尾，每一个环节都会有用户流失，就像漏斗一样。以电商为例，最常见的漏斗模型是：浏览/搜索-追加购买-下单-支付-回购。因此，对于统计数据，找出用户购买产品的搜索过程，以反映用户行为。似乎很有必要。数据人的工作就是梳理路径中各个环节的数据，考虑用户流失的因素，进行相应的优化，或者通过缩短用户路径来优化产品体验。事实上，无论是电商平台、招聘平台、广告平台等常见的互联网商业模式，漏斗模型始终是数据分析的重点。

　　但说实话，很多公司在数据统计方面可能并没有那么强烈的搭建一个完整平台的需求，很多公司都想看看自己的数据是否已经从不同的地方准备好了。这时候大家就会选择Google GA来做统计或者对比数据。公司的统计往往是两条线，一条是自己线的统计，一条是发给Google GA对比分析。因此，在统计平台的功能设置上，往往需要对标Google GA，所以数据仓库不仅是一个构建的过程，还有很多内在的业务逻辑在里面。

　　6.淘宝SPM代码

　　漏斗模型的一个优秀应用案例就是淘宝SPM代码。如果你看淘宝网页的源代码，你会经常看到spm=2014.123456789.1.2这样的例子。这是淘宝提供的SPM。是淘宝社区电商（xTao）为外部合作伙伴（外站）提供的一套跟踪引导交易效果。数据解决方案。简单来说，SPM代码就是用来跟踪页面模块位置的代码。标准SPM代码由4段组成，格式为abcd（建议全部使用数字），其中：

　　完整的SPM四位数代码可以识别某个网站某个频道的特定页面。例如xTao小伙伴（a=2014）中某分站的a*敏*感*词*ey为123456789（b=123456789），频道ID为1（c=1），页面ID为2（d=2），则spm= 2014.123456789.1.2，对于唯一标识外站123456789的频道1的第2页，所有从该页点击的链接都需要携带spm=2014.123456789.1.2的参数串。这样，通过这段代码，我们就可以唯一定位到某个URL被点击生成的外部站点中的具体页面。

　　因为spm编码本身是分层的，我们可以：

　　基于SPM可以得到的效果统计指标：

　　7.客户端日志采集

　　与Web日志对应的是基于移动应用的客户端日志。由于早期手机网络通讯能力差，SDK往往采用延迟发送日志的方式，即在本地统计日志，然后在Wi-Fi环境下上传。，所以统计数据往往会有延迟。现在的网络环境好了很多，4G、5G流量都充足，尤其是视频类的APP基本上都是一直在上网的，所以可以实时统计很多数据。

　　客户端的日志统计主要通过SDK完成，根据不同的用户行为分为不同的事件。“事件”是客户端日志行为的最小单位。根据类型不同，可以分为页面事件（类比页面浏览）和控件点击。事件（类似于页面交互）。

　　页面事件统计主要统计以下三类信息：

　　与web日志采集类似，交互日志的采集也无法指定统一的采集内容。除了记录设备基本信息和用户信息外，很多统计方式都可以由业务方自定义，即根据业务需要，不同的是产品在配置平台自定义一个统计项，统计项可以是下次SDK更新时加入，可独立查看统计内容，方便自动化管理和运维。但在每个事件上，都会提供一些额外的统计信息，例如事件名称、事件持续时间、事件属性、事件页面等。

　　8.客户端日志聚合

　　由于事件统计涉及的参数比较多，基本上一个action就可以产生一个log，不仅客户端会产生大量的记录数据，而且通常会产生很大的流量负载供服务端接收。因此，统计SDK往往具有聚合和压缩功能。对于一些展示场景，可以适当合并日志，减少数据量。例如，在淘宝等应用中，浏览一个商品页面会产生数百条日志。从下游分析的角度，只需要知道暴露了哪些内容即可。因此，完全可以将暴露的ID记录在日志中。你不需要计算每一个。

　　还有一种场景，因为APP有回滚，所以在分析访问路径的时候，往往会产生干扰统计，所以在统计的时候需要加上一些特殊的标志，来识别这个行为是否是回滚行为。

　　9.统计SDK

　　市面上最常见的第三方统计服务商，如友盟、TalkingData、百度统计、腾讯云分析、GA等，也在某些分析方面产生了很多更专注、更深入的统计服务商，如如诸葛io、growingio、Sensors等，根据自己的需要配置。

　　10.唯一设备标识符

　　在客户端的相关统计中，如何识别一个用户是非常困难的，因为网页有统一的cookie用于识别，而客户端没有。历史上，苹果禁止之前的IMEI、IMSI、MAC地址、UDID都可以使用，但由于用户自我保护意识的提高和系统升级，很多基本的设备信息很难获取，Android也搭载了out 设备信息获取。限制。对于单一App的企业来说，识别唯一用户并不难，但对于多App的企业来说，这一点尤为重要，也是业界的难题。

　　十一、H5与Native的统一

　　APP分为两种，一种是纯原生APP，一种是既原生又嵌入H5页面的APP。目前，大多数应用都是两者兼而有之。Native页面的数据统计主要通过SDK进行，H5页面的数据统计还是以浏览器的页面日志为准。由于采集方式不同，很多情况下，两个页面相互跳转时，无法还原用户访问路径。严重影响数据的统计分析。有两种解决方法。一种是将Native日志归类为H5日志，一种是将H5日志归类为Native日志。不过综合考虑，还是把Native日志分组比较合理，因为SDK可以采集

到更全面的天信息。在具体实施方面，H5页面可以嵌入JS代码，调用WebView框架中的JSBridge接口传入参数，统计SDK可以封装日志。当然，方法不是万能的，还有其他好的方法可以尝试。

　　12.大促销保证

　　大促保是指在双十一等类似场景下短时间内保证流量的情况，需要对系统进行一定的改造。在高并发场景下，从数据埋点采集，到日志服务器采集，到数据传输，再到数据分析统计，任何一个环节出现问题，大促保障将失效。由于日志处理的环节很长，可以通过限制流量、弱化消息队列峰值、异步处理、内存缓冲、扩展服务等方式来进行。在日志采集

过程中，可以通过延迟进行优先排序上传非核心日志核心日志保证统计效果。在天猫双十一，经常可以看到一些服务暂停的通知，

0

2022-11-21

智能采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

解决方案:dataset: 提供通过敏感词球系统采集的小型行人重识别数据集

0 个评论

发起人

AI时代内容工厂

解决方案:dataset: 提供通过*敏*感*词*球系统采集的小型行人重识别数据集

0 个评论

发起人

相关问题

解决方案:dataset: 提供通过敏感词球系统采集的小型行人重识别数据集