文章自动采集和发布到-eyes-1.html内容

优采云发布时间: 2021-04-19 00:04

　　文章自动采集和发布到-eyes-1.html（eyes1.0的文档）内容。将采集的内容保存为eot格式文件。下面我们进入正题，看我们采集了哪些内容。先查看数据来源：如图：我们可以发现，这些数据来自facebook（facebook是什么我们先不做过多阐述）。先说，基本上我们可以初步推断，数据来源还是来自于社交网络，这和我们以往认知是不同的。

　　再说，在搜索过程中，他们会用到我们未曾标识过的地址，或者未标识过的标识符。所以我们可以猜测来自facebook。查看我们来自哪个国家：如图：显示用户来自美国，英国，欧洲，亚洲。在查看我们国家的数据时，我们发现我们国家没有相关数据，显示无。在查看我们某地区的数据时，我们可以看到我们某地区有相关数据，可以查看这个地区是哪。

　　然后通过地图的颜色识别我们想要的数据。在浏览某地区时，颜色越亮，说明该地区用户数量越多。在浏览我们认为比较有代表性的社交网络的数据时，他们使用的地址格式是用逗号隔开的。他们是地址1，地址2，最后才是地址3。我们也可以用颜色识别（蓝色表示好友，*敏*感*词*表示公共数据。白色是facebook的数据）。再说我们的浏览器本身，我们看到浏览器会自动使用这些格式（我们默认的浏览器是ie浏览器，有可能兼容性较差）。

　　但是这些格式对于现在的爬虫来说并不完善，对于未来想做到跨平台识别的浏览器也是一个很好的实践。最后，我们的浏览器会把这些格式转换成eot格式的文件，文件中会有数据提取的数据，数据类型如下：有下面这些标识符，如图：可以看到，各标识符的含义可以参考ms网站数据提取所用的地址。以上只是我对这个数据提取过程做的总结，希望我们能把这项技术真正的推广应用。

0

2021-04-19

文章自动采集和发布

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章自动采集和发布到-eyes-1.html内容

0 个评论

发起人

AI时代内容工厂

文章自动采集和发布到-eyes-1.html内容

0 个评论

发起人

相关问题