学术资讯 | 方师师:搜索引擎中的新闻呈现:从新闻等级到千人千搜
优采云 发布时间: 2022-06-17 21:48学术资讯 | 方师师:搜索引擎中的新闻呈现:从新闻等级到千人千搜
导读
本文为CCSGR研究员、上海社会科学院新闻研究所助理研究员方师师的《搜索引擎中的新闻呈现:从新闻等级到千人千搜》摘要,获取全文请参阅刊发杂志。
本文以谷歌搜索引擎中的新闻呈现为例,讨论影响用户搜索引擎使用的技术要素与社会机制。谷歌通过新闻等级体系建立起了网页间的静态秩序,新闻媒体主动采用搜索引擎优化技术配合技术呈现,而基于用户使用惯习和社交关系的搜索算法则带来了千人千搜。搜索引擎的社会意义在于,其在海量的信息环境下重新定义了真相,通过主动反馈用户搜索结果进行“有文化依据的组织形式重构”,促进了一种新的“混合价值”的生成,既结合了传统的社会与文化目标又提供了新的机制。但搜索引擎建立起来的知识 - 社会秩序并没有带来更高的知识水平,而是具有一种“膨胀的知识感”。
搜索引擎(Search Engine)是一些最常被访问的在线网站,搜索引擎处于互联网经济的核心,每天引导着数十亿的互联网用户访问位于搜索结果页面顶部的网站。作为互联网的入口和导流口,搜索引擎持续不断且影响深远地塑造着人们接触信息的方式和效果。搜索引擎如此重要地决定着用户的上网信息接触,但其本身的运作机制却较少被关注。知识社会学认为,秩序与知识是一体两面的,改变知识就是改变秩序。“社会学知识回旋进出于社会生活领域,并作为该过程的一个部分,重构其自身及该领域的社会生活”。那么人们通过搜索引擎获取的知识,是否也构成了一种新的知识 - 社会秩序?
文以谷歌搜索引擎中对新闻的呈现为例,从批判算法研究(critical algorithm study, CAS)中对于搜索引擎的研究视角入手,采用混合研究的方法,综合谷歌算法专利、搜索引擎排名因素调查等内容,尝试讨论三个问题 :
第一,搜索引擎中的新闻呈现,受到哪些要素的影响?其核心的技术机制是什么?
第二,搜索引擎的产品设计价值是什么?存在着怎样的技术 - 社会互动?
第三,搜索引擎如何重新定义真相?对于知识 - 社会秩序具有怎样的影响?又建构了怎样的社会意义?
一、网页排名算法中的新闻等级体系
采用搜索引擎进行信息检索的过程主要通过三方进行:网页作者、搜索引擎以及搜索用户。网页作者将他们的网页与其他网页进行适当链接,这种链接结构被流行的搜索引擎算法捕捉并对相关的网页进行排名。用户根据他们对搜索引擎的任务和功能的理解,输入各种关键字和布尔命令,然后评估由搜索引擎返回的结果,以决定是否选择返回的结果或重新构造查询。搜索引擎充当了信息中介,把控信息在搜索过程中的流动。
在谷歌的排名算法中,与新闻排名关系最为密切的是一个叫做“用于改进新闻文章分级的系统和方法”(systems and methods for improving the ranking of news articles)的算法专利,该专利详细说明了谷歌对新闻文章的排名指标以及相关算法。虽然谷歌在问询电子邮件中回复“专利申请不代表产品实际操作”,但普遍意义上认为,专利可以表征谷歌的在线内容排名遵循的是何种逻辑,哪些指标决定了什么样的新闻可以被放在谷歌产品的显著位置。
首先,谷歌认为对于新闻文章的分级是必要的。这一观念的出发点看似简单,实际上简明扼要地说明了排名的重要性与必要性。用户在使用搜索引擎的时候,将一个或多个感兴趣的关键词输入搜索框中,就是试图在这一系统中定位已发布的与该主题相关的文章的新闻源价值位置。搜索引擎定位了与期望主题相关的新闻文章的各个站点,从而产生成百上千或者更多的点击分级列表,每个点击都可能与涉及这个或多个搜索项的网页页面相对应。尽管分级列表中的每个点击可能涉及相关主题,但与这些点击相关联的新闻源可能都具有不同的质量。因此,需要系统和方法来衡量新闻文章的质量和新闻源的质量。
其次,谷歌通过多种指标衡量新闻文章质量。在这项专利中,谷歌提到运用 13 项度量指标来对其他网站的新闻文章内容进行排名。依据谷歌自身对于衡量指标的逻辑,内容要素和新闻源的相关要素等度量指标可以分为两大类,即内容质量和新闻源质量。
第三,谷歌采用多种算法评估新闻源等级。谷歌的 Page Rank 排名算法还部分基于确定的一种或多种度量值来计算新闻源的质量值,即新闻源等级。对于新闻内容的排名,不仅需要衡量信息本身,还需要衡量信息源的数量和质量,Page Rank 排名算法就是试图将这种判断加以量化和可操作化。网页上的度量值瞬息变化,但其新闻来源则相对固定,通过对新闻源等级的评定,排名算法可以更快地计算出高质量内容的来源,已经确定的新闻源等级可以存储在服务器上,以备需要时调用。
2018 年 3 月,当时处于假新闻、后真相漩涡中的脸书正面临严重的信任危机,脸书为此更新了算法,*敏*感*词*减少了来自第三方机构推送给用户的内容和流量,而第三方机构很多都是媒体,由此引发了媒体机构对于脸书的强烈不满。与之相反,谷歌却在此时推出了“谷歌新闻倡议”(The Google News Initiative)项目,称要为“新闻业构建一个更加强劲的未来”。这个未来包括 :鼓励优质新闻,稳定媒体收入,保持数字新闻生态系统开放,采用新技术提供新机会,合作共赢。谷歌声称会在三年内投资 3 亿美元支持在线优质内容生产,扶持高等级的新闻源成长,为记者提供更好的数据工具和工作机会。谷歌通过对于这些标准和惯例的借鉴与采纳,在一定程度上既顺应了已有的信息传播格局,同时又将其组合进了自身对于互联网塑形的传播实践中,而这对于谷歌逐渐建立起自身的信息内容秩序并且树立文化权威具有重要意义。
二、利用算法规则进行的“搜索引擎优化”
谷歌对于新闻文章和新闻源等级的排名算法设定了媒体网站相对静态的链接排序,但这一序列并非恒定,更不是不可改变的。除了谷歌本身对于算法的实时调整,新闻机构同样可以利用这套算法规则,主动提供符合算法口味的网页链接和内容。通过对搜索排名算法仔细研究和进行逆向工程,将机构网站的链接提升到特定搜索条件的顶部,这将大大有助于为自家网站导流。这一技术称为搜索引擎优化(Search Engine Optimization, SEO),现在已经发展成为一个价值数十亿美元的产业,根据新美国智库 2018 年的报告,目前网站在优化原生搜索结果上的投入是其购买搜索广告开销的 3 倍。
SEO 构成了搜索引擎营销(Search Engine Marketing, SEM)的一部分,它定义了如何通过构建链接和编写内容来增加网站搜索相关性的各个步骤。在 Search Engine Land 等网站上,用户和机构可以轻松找到各种指导培训手册,也可以下载和编写相关程序。而作为在线营销领域最前沿也是最具影响力的活动之一,基于 SEO 的内容营销正在成为新闻业界公开的运营策略。
对于 SEO 产业来说,该行业中的大多数工具和策略都是正当且公开的,主要的搜索引擎大都提供信息或者指南以协助站点进行优化。但也有被称为“黑帽搜索引擎优化”(Black-hat SEO)的技术,旨在欺骗搜索引擎算法,干扰正常网站排名。此外,还有一种方式是通过*敏*感*词*的用户搜索行为操纵新闻周期中几个小时的搜索结果,以此来“伪造”新闻事件,直到网页被纠正过来。
媒体对于搜索引擎优化的使用、依赖甚至在某种程度上的滥用,可以看作是媒体网站和搜索引擎在流量驱动模式下对于触达、卷入、黏住、诱导用户媒介使用的一种“共谋”。搜索引擎优化可以显著提高媒体网站的可见度、浏览量、转发量等指标,而搜索引擎也可以间接接触和留住更多用户。随着社交媒体平台的兴起,信息资讯、社交需求、流量变现、商业植入等都可以通过搜索引擎优化进一步组合起来。虽然搜索引擎一直在打击黑帽搜索引擎优化,但这依然是一场“猫鼠游戏”,搜索引擎并不想完全封禁网站的搜索引擎优化操作,只要不太过分,这是一笔双赢的生意。
三、基于用户使用和社交关系的“千人千搜”
一般情况下多数人认为,在输入同一个搜索词后,大家在谷歌上看到的搜索结果都是一样的。但是在 2009 年 12 月 4 日,谷歌的官方博客发出了一则很少有人注意的简短文章,按照研究搜索引擎的博主丹尼•苏利文(Danny Sullivan)的说法,谷歌这篇博文简直是天大的消息,是“搜索引擎史上最大的变革”。因为从这一天起,“人人都有了个性化的搜索”。这一变革后的谷歌搜索引擎,采用了 57 种信号(signals),比如用户登录的地理位置、使用的浏览器、以前用过的搜索词等来判断用户的身份,揣摩用户喜欢的网站。即使用户注销掉账户,谷歌仍能预测用户的需求并调整搜索结果,以显示用户最有可能点击的网页。
可以说,通过谷歌搜索引擎进行的每一次关键词搜索,得到的结果都是谷歌算法针对你个人建议的最佳网页,而别人输入同样的搜索词,得到的结果可能截然不同。在谷歌被引用最多的个性化搜索专利“基于个人信息降级的个性化搜索 :系统与方法”(System and Method for Demoting Personalized Search Results Based on Personal Information)中,列出了个性化搜索再评估、用户画像生成、定义流行度矩阵、用户多重行为画像、共现(co-occurrence)关系表、候选搜索结果确认等多个流程,用户的个人信息、使用惯习、搜索历史与搜索请求、搜索结果、搜索评估、搜索确认等环节相关联,最终生成了基于用户自身使用习惯的搜索结果。
“千人千搜”对用户使用惯习和社交关系进行分析,给出的个性化的搜索结果具有很强的针对性,也更具封闭性。用户通过谷歌最新的个性化搜索算法得到的搜索结果,也许只是一个人的版本,但如果用户对此一无所知,他会认为所有人的搜索结果和他都是一样的,不假思索的信任会形成搜索引擎依赖,还会在一定范围固守某一观念拒绝相信其他不同观点,进而形成信息茧房和观念极化。搜索引擎在这个过程中既过滤了信息,又封装了信息,更为重要的是,这种模式具有很强的隐蔽性,常常难以被发觉。
四、设计中的价值 :搜索引擎的技术 - 社会互动
用户通过搜索引擎进行关键词搜索,搜索引擎向用户呈现结果和内容,但什么样的内容可以进入到搜索列表中,以何种方式显示,幕后的决策过程是什么 ,考虑到搜索引擎强大的社会影响力,这些构成了对搜索引擎问题的核心关切。2008 年,尼古拉斯•卡尔(Nicholas Carr)在其著名的专栏文章《浅薄》中指出,以谷歌为代表的科技公司,实际上是将社会泰勒主义(Social Taylorism)成功地移植到了互联网上,人类的认知被碎片化和原子化后去适应效率和自动化的需要。在这个过程中,我们失去了长时间深度思考的能力,也许未来“碎片化”就是人类的信息方式,但其后果可能是,我们自身退化成了“人工智能”。就搜索引擎的社会意义而言,主要表现为以下几个方面 :
首先,搜索引擎在海量的信息环境下重新定义了“真相”。搜索引擎依靠可检索性(retrievability)与可见性(visibility)两个指标,重构了网络结构,将信息内容和用户需求方便快捷地匹配起来。但是这个匹配方案本身也形塑了用户的信息接收秩序,新闻内容的重要程度被呈现的“位置”所取代,“真相”被重新定义:“今日的‘真相’,已经是由谷歌搜索排名最靠前的结果来定义的了。”
其次,搜索引擎不是被动地反映用户的关键词搜索结果,而是进行了“有文化依据的组织形式重构”,进而建构其文化权威。搜索引擎可以方便地呈现搜索结果是有条件的,除了对于既有文化资源的征用之外,还高度依赖政治环境、经济利益、技术因素和用户使用,但是用户其实并不熟悉搜索引擎是如何“找到”他们正在寻找的东西的。
第三,在新传播环境中,互联网公司促进了一种新的“混合价值”模式,它结合了传统的社会与文化目标,但提供了新的机制。谷歌一方面从传统媒体的生产模式中汲取养料,同时在新传播环境下又将自身的利益和价值观内嵌进去,它试图建构的就是一种混合的价值观:它借用传统媒体对于内容和信源的衡量标准,同时加入以技术和算法为特征的“去人为操作”和去政治化的要素,强调用户的使用是为了满足其自身内在需求,从而顺理成章地完成了市场化的经济利益诉求。在这个过程中,传统媒体的客观性和专业主义作为一种“背书底色”,成为互联网公司业务开展的基础和正当性来源;技术和算法高度依赖处理器算力和*敏*感*词*数据,天生趋向于资源和权力的集中;用户兴趣被即刻满足,不断投入更多的时间、金钱和数据,由此完成了推荐内容、用户兴趣和传播环境的匹配闭环。
第四,搜索引擎重塑了知识 - 社会秩序,但是带来了“膨胀的知识感”。2015 年,Fisher 等人的研究发现,与阅读书籍、和专家交谈相比,通过搜索引擎获得的知识让人更有一种“膨胀的知识感”(inflated sense of knowledge)——“通过互联网搜索,你知道的和你认为你知道的之间的界限变得越来越模糊”,而即使这一过程中并没有找到完整的答案,大脑磁共振的图像表明,人们依旧会认为他们知道了更多。与此同时,新的“阅读”形式正在逐渐出现:用户会在浏览和搜索上花费更多的时间,倾向于使用关键词定位、一次性阅读、非线性阅读和选择性阅读,但对于事物的持续关注度在降低,更加不容易进行深度阅读和集中阅读,与控制组相比也没有呈现出更高的知识水平。
五、结语
搜索引擎可以看作是通过算法和自动化的方式,让机器代替人给出决策方案。当前,这种形式的应用正变得越来越普及和广泛,比如个性化的内容推荐、精准定向的广告、大数据辅助医疗、电子商务导购、自动驾驶等等。但在这个过程中,“算法是有很多问题,但还是比人强”的思路,使得越来越多本来需要依靠人类自身的讨论、辩论、思考、反思给出决策判断的任务,被转交给算法来执行。我们敢于承认“人是靠不住的”,但对算法却抱有不切实际的期待,希望它真能够实现绝对的客观中立、正确无误和去价值观。
算法是一种技术,但归根结底依然是一种“人造物”,它不同于物理意义上“物质”,而是一种社会机制,更类似于法律法规或政治制度这样的“社会造物”,因此从根本上无法排除人的影响,而就目前情况来看,其能够将伦理、道德、价值观“逻辑化”的能力依然还非常有限。
(图片来自网络)
作者方师师
复旦发展研究院传播与国家治理研究中心 研究员
上海社会科学院新闻研究所 助理研究员