抓取网页数据违法吗(首席研究员AnuragSen社交媒体分析网站的不安全的ElasticSearch服务器)
优采云 发布时间: 2021-10-25 17:07抓取网页数据违法吗(首席研究员AnuragSen社交媒体分析网站的不安全的ElasticSearch服务器)
目录导航
介绍
由首席研究员 Anurag Sen 领导的安全侦探网络安全团队发现了一个不安全的 ElasticSearch 服务器,属于社交媒体分析 网站。该服务器收录从 Instagram 和 TikTok 获得的数百万社交媒体资料中抓取的数据。
IGBlade 采集社交媒体用户的数据,并为其客户提供“对任何 Instagram 或 TikTok 帐户的深入洞察”。
IGBlade 的服务器泄露了超过 260 万条社交用户账户记录,相当于3.6+GB 的数据。
这些记录包括截图和社交*敏*感*词*图片链接以及其他形式的个人数据抓取——考虑到大多数社交媒体网站都禁止数据抓取,这是一个令人费解的发现。
我们不知道IGBlade 为何要抓取个人数据,但必须强调的是,数据库中的所有数据都是公开可用的。
服务器的内容还指向了关于数据抓取方法有争议的使用的更广泛的争论。
什么是IGBlade?
IGBlade 的 Instagram 和 TikTok 分析工具从数百万社交媒体帐户中采集了 30 多个数据指标的数据。IGBlade 然后将这些信息集成到一个可导航的社交帐户搜索引擎中,该引擎显示诸如粉丝增长、参与率和帐户历史记录等信息。
用户必须创建 IGBlade 帐户才能接收详细的数据洞察,例如数据可视化、人口统计数据和帐户报告。
用户在服务器上抓取的数据和每个用户对应的页面上的数据是一样的,数据库往往会提供一个返回IGBlade的链接。
这就是我们如何知道数据库所属的。您可以在下面的屏幕截图中看到指向 IGBlade 的链接的证据。
Kim Kardashian 的 Instagram 信息和收录“IGBlade”的链接透露了什么?
IGBlade 的 ElasticSearch 服务器在没有任何密码保护或加密的情况下公开暴露。结果,IGBlade 的数据库泄露了超过 260 万条记录,相当于3.6+GB 的数据。这些文件提供了在 Instagram 和 TikTok 上捕获公共数据的证据。
具体来说,IGBlade 的服务器收录社交帐户用户的不同类型的个人数据:
还可以在服务器上看到各种其他形式的用户数据,包括:
IGBlade 的服务器在发现时处于活动状态并且正在更新。IGBlade 漏洞的规模表明,超过 200 万社交媒体用户可能会立即受到服务器泄露内容的影响。
我们还在服务器上发现了几个知名账户的例子。著名的影响者,如美食博主、名人和社交媒体影响者都出现了。
Alicia Keys、Ariana Grande、Kim Kardashian、Kylie Jenner 和 Loren Gray 等经过验证的大型名人账户的公开数据都被捕获并存储在 IGBlade 的开放式 ElasticSearch 服务器上。
您可以在下图中看到缓存的*敏*感*词*图片截图、截图链接(指向*敏*感*词*图片)以及来自各种知名 Instagram 和 TikTok 帐户的其他个人数据集的证据。电话号码有时也很重要,尤其是在被抓取的用户的*敏*感*词*中提到的时候。
数据库中*敏*感*词*图片的屏幕截图。
从 Instagram 上获取的 Loren Gray 的公司编号和照片链接。
指向 Arianna Grande 的 TikTok *敏*感*词*图片的链接。
服务器的海量日志收录来自数百万社交媒体帐户的数据。您可以在下面的屏幕截图中看到服务器大小和文档计数的证据。
2.6+ 万条记录/3.6+GB 服务器上的数据特征。
IGBlade 的 ElasticSearch 没有适当的身份验证安全功能,任何发现服务器的人都可以访问该信息。
您可以在下表中找到 IGBlade 数据泄露的规模、规模和位置的完整细分。
泄露记录数
2.6+ 百万
受影响的用户数量
2.6+ 百万
违规量表
3.6+GB 数据
服务器位置
加拿大
公司位置
罗马尼亚
Safety Detectives 网络安全团队于 2021 年 6 月 20 日发现了 IGBlade 开放的 ElasticSearch 服务器,但该服务器的内容显然自 2021 年 5 月 31 日以来已在互联网上公开。
我们于 2021 年 7 月 5 日联系了 IGBlade。IGBlade 在披露过程后迅速做出回应,并在同一天保护了 IGBlade 的数据库。
人们为什么使用社交爬虫?
主要是营销人员和公司将 IGBlade 等社交分析工具用于广告目的。
更一般地说,数据抓取允许公司和个人扩大他们的成功,因为用户可以采集足够的数据洞察来规划有效的营销策略。
鉴于每个职业都依赖于社交媒体趋势,网红营销人员和社交媒体经理从 IGBlade 等社交媒体分析工具中获益最多。
该公司还采集关注者人口统计数据、增长数据和参与度数据,以监控(和改进)他们自己公司帐户/网站 的社交媒体表现。
黑客滥用数据捕获方法进行*敏*感*词*网络攻击。
尽管 IGBlade 上的所有信息都是公开可用的,但将捕获的个人数据放在单个界面上是危险的。黑客可以立即访问用户照片、联系信息和位置数据,为*敏*感*词*社会工程攻击、欺诈计划和虚假账户打开大门。
数据抓取直接违反了 Instagram 和 TikTok 的现场政策,并可能不必要地使社交媒体用户面临网络攻击的风险。
数据抓取影响
IGBlade 的 ElasticSearch 服务器的内容可能会对公司及其跟踪的社交媒体用户产生重大影响。
对 IGBlade 的影响
在线抓取公共信息数据并不违法,数据抓取者不会因其行为面临法律制裁或惩罚。
但是,TikTok 或 Instagram 不允许数据抓取。
Instagram 的服务条款规定:“您不得抓取、抓取或以其他方式缓存来自 Instagram 的任何内容,包括但不限于用户*敏*感*词*和照片。”
TikTok 的服务条款也禁止“屏幕抓取”过程。
TikTok 声明:“[用户不得] 使用任何自动化系统或软件,无论是由第三方操作还是通过其他方式,从服务中提取任何数据用于商业目的(“屏幕抓取”)。”
最终,这些违规行为可能会让 IGBlade 在 Instagram 和 TikTok 上陷入*敏*感*词*烦。网站 都可以禁止 IGBlade 使用其服务。
IGBlade 的商业模式依赖于访问这些社交媒体网站。因此,禁令可能会扰乱 IGBlade 的业务运营。如果IGBlade不能为客户提供价值,利润就会减少,用户就会流失。
对最终用户的影响
那些出现在暴露数据库中的人以及其他社交媒体用户可能会面临 IGBlade 服务器泄漏的毁灭性影响。
IGBlade 将各种形式的公共个人数据放在一台服务器上,使其面临来自黑客和网络*敏*感*词*分子的潜在威胁。
IGBlade 的服务器收录联系信息、位置数据、*敏*感*词*图片和其他形式的公开可用个人信息,这些信息可能有助于黑客参与*敏*感*词*的网络*敏*感*词*。