网页新闻抓取(谷歌对媒体披露APP页面内容不再是信息孤岛(图))

优采云 发布时间: 2022-03-28 12:09

  网页新闻抓取(谷歌对媒体披露APP页面内容不再是信息孤岛(图))

  谷歌工程师 Rajan Patel 向媒体透露,APP 页面的内容不再是信息孤岛。从两年前开始,谷歌就一直在抓取外部应用的内部链接和内容,累计抓取超过300次。十亿。

  在传统网页中,谷歌可以通过软件“蜘蛛”自动访问和爬取,无需获得网站管理员的许可。

  在App内容的抓取中,谷歌需要与应用软件开发商建立合作关系。谷歌提供了相应的软件开发接口(API),开发者可以通过这些接口向谷歌搜索开放数据,从而实现对搜索引擎的内容爬取。

  据悉,与谷歌合作的移动端软件众多,包括微博Twitter、短租工具Airbnb、消费者点评工具Yelp、手机订餐工具OpenTable、照片采集社交网络Pinterest、房产搜索工具特鲁利亚等。

  当然,还有大量的移动媒体应用,也被谷歌用于新闻报道。

  与谷歌抓取的网页数据库相比,超过 300 亿个链接的内容微不足道。此前的报道称,谷歌蜘蛛抓取了数百亿个网页。

  然而,在智能手机时代,人们使用搜索更有目的性,拥有更多的场景信息。因此,主流的APP和超过300亿的链接足以为用户提供他们所需要的信息。

  据介绍,在之前的手机搜索中,谷歌客户端会观察用户的智能手机上安装了哪些应用,而谷歌只会返回已安装应用的搜索结果。

  日前,谷歌团队也宣布对搜索结果中收录的应用进行了修改。即使用户没有安装应用程序,只要其内容相关,它的内容也会出现在搜索结果中。

  例如,如果用户的手机上没有安装 OpenTable,这是一种订餐工具,但在搜索餐厅时,Google 可能仍会呈现来自 OpenTable 的消费者评论。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线