探究搜索引擎结果页信息检索模式：基于过程数据

优采云发布时间: 2022-05-05 17:19

　　导读

　　近日，一项基于过程数据探究搜索引擎结果页信息检索模式的文章发表于Computers in Human Behavior (SSCI JCR Q1, 2020 IF 6.829)。论文作者为阿尔伯塔大学博士生高一珠（第一作者兼通讯作者）、教授崔迎、副教授Okan Bulut，以及乔治亚大学助理教授翟小铭和澳门大学助理教授陈孚，具体信息如下：

　　Gao, Y., Cui, Y., Bulut, O., Zhai, X., & Chen, F. (2022). Examining adults’ web navigation patterns in multi-layered hypertext environments. Computers in Human Behavior, 129, 1–17.

　　背景介绍

　　当前，搜索引擎已成为最常用的信息问题解决的工具，而网络信息搜索也成为信息技术时代的必要技能之一。当用户在搜索引擎输入关键词，搜索引擎完成搜索后，在搜索引擎结果页 (search engine result page, SERP)上往往会呈现出庞大的、差异化的信息源 (information source)。此时，用户常常需要通过检索信息源内的信息来获得目标信息。每个信息源可视为一个信息块 (information patch)，而对于嵌套于信息块内信息的检索以及不同信息块的检索则直接影响着信息问题解决。

　　研究者们聚焦于单层超文本 (single-layered hypertexts) 构成的信息环境，提出了一些信息检索理论，并完成了许多信息检索模式的研究。例如，Pirolli和Card (1999) 提出著名的信息检索理论 (information foraging theory, IFT) ，该理论认为用户对搜索引擎结果页上信息块的检索类似于人类祖先的觅食行为，并表示当访问某个信息块时，用户会持续权衡其信息收益和认知消耗，当信息收益低于认知消耗时，该用户便退出当前信息块，返回到搜索引擎结果页检索其它信息块或者结束当前信息检索任务。基于该理论，Reader 和 Payne (2007) 总结了两种信息检索模式：Sampling 和 Satisficing 。Sampling的模式是指用户浏览尽可能多信息块，而Satisficing的模式则是指用户会依次浏览搜索引擎结果页上的信息块，当检索到能够解决其信息问题的信息块时便不再浏览其它信息块。

　　然而，现实场景中，信息普遍以多层超文本 (multi-layered hypertexts) 的形式嵌套于信息空间中，单层超文本的研究显然无法很好解答信息检索模式的问题。因此，少量研究者开始关注多层超文本信息环境下的信息检索模式。Jenkins et al. (2003) 采用出声思维方法挖掘出 Breadth-first 和 Depth-first 两种模式（表1）。Juvina 和 van Oostendorp (2006) 对过程数据中提取的single-unit measures （如路径长度）进行主成分分析辨别出 Flimsy, Content-focus, Laborious, 和 Divergent四种模式（表1）。但是这些研究存在一些局限：首先，这些研究的样本量太小 (Jenkins et al. [2003]: N = 18 和 Juvina & van Oostendorp [2006]: N = 30), 导致结果具有比较低的外部效度；其次，single-unit measures 并不利用过程数据中事件序列信息，因此一些检索模式 (i.e., Laborious) 对信息问题解决的影响仍然是不清楚的；最后，不同类型的信息问题会影响到用户信息检索模式，但是以往研究并未考虑信息问题的类型。

　　Table 1 Explanations of web navigation patterns in multi-layered hypertext environments

　　本研究通过对用户在解决信息定位问题 (explicit information-locating task) 以及信息评价问题 (amorphous information-evaluating task) 产生的过程数据进行分析，来探究多层超文本信息环境下用户在搜索引擎结果页的信息检索模式。因此，本研究的目的主要包括：1）挖掘信息定位问题和信息评价问题的信息检索模式；2）比较不同检索模式在解决信息定位问题和信息评价问题的有效性。

　　研究方法

　　本研究采用2012年PIAAC中PSTRE (problem-solving in technology-rich environments) 测验的两道题目：购买图书和可靠性网页，它们分别属于信息定位问题和信息评价问题，具体而言，购买图书题目要求用户找到满足条件的图书，并且题干中清晰地界定了目标图书条件（价格、邮寄日期等），可靠性网页题目要求用户找到提供最可靠的治疗关节扭伤方法的网页，但题干中并未对信息可靠性进行定义，用户需要依据自身经验评价网页信息可靠性。对于购买图书题目，搜索引擎结果页显示六个信息块，其中五个包括嵌套页，对于可靠性网页题目，搜索引擎结果页展现五个信息块，其中三个包括嵌套页（表2），嵌套页信息对正确解决这两道题目都是必要的。本研究分别对美国和英国两个国家的数据进行潜在类别分析 (Latent Class Analysis, LCA) 和全路径序列分析 (full-path sequence analysis) ，LCA分析基于被试对每个网页（即主页和嵌套页）的浏览次数，依据相对拟合和绝对拟合指标，归类概率以及LMR等将被试分类，全路径序列分析旨在刻画各组代表性的信息检索模式。

　　Table 2 The links structure and the corresponding web pages for the two tasks

　　Note. H indicates the homepage. N denotes the nested web page.

　　研究结果与讨论

　　由于英国的分析结果与美国的结果类似，在此仅呈现美国的分析结果。对于信息定位问题而言， LCA分析显示五类别模型与数据拟合最好，同时，通过分组进行全路径序列分析，可以辨别出 Breadth-first, Sampling, Laborious, Flimsy, Satisficing 的信息检索模式（图1），例如，尽管嵌套页内的信息对于解决该任务是必要的，但组1（图1）并不关注嵌套页内信息，而是仅仅浏览主页信息。

　　Figure 1 Representative sequences selected for the five classes of the explicit information-locating task

　　Note. H indicates the homepage and N denotes the nested web page. Link1_H represents the homepage of Link 1, Link1_N represents the nested web page of Link 1, and so forth.

　　对于信息评价问题而言，综合LCA各模型指标，四类别模型与数据拟合最好。针对分类参与者进行全路径序列分析，可辨别出Sampling, Breadth-first, Laborious, Flimsy 信息检索模式（图2）。

　　Figure 2 Representative sequences selected for the four classes of the amorphous information-evaluating task

　　Note. H indicates the homepage and N denotes the nested web page. Link1_H represents the homepage of Link 1, Link1_N represents the nested web page of Link 1, and so forth.

　　对比两类信息问题发现，Flimsy, Breadth-first, Laborious, 和Sampling 模式普遍存在于信息定位问题和信息评价问题中，但Satisficing 模式只出现在信息定位问题中。进一步Pearson’s 检验表明，Sampling模式组在信息评价任务中表现最好，Satisficing 模式组则在信息定位任务中表现最好。

　　本研究的结果增进了我们对信息检索过程的认识。具体来说，Sampling 和 Satisficing 同样适用于多层超文本构成的信息环境，Satisficing模式在信息定位问题中的特异性表明，当目标信息被清晰界定后， Satisficing 模式便足够获取全局最优信息块，而当目标信息模糊不定时，用户则需要通过尽可能多地浏览不同信息块 (Sampling) 来获取最优信息块。因此，当用户检索引擎结果页信息时，信息可接受标准和信息收益/认知消耗间的权衡共同影响用户的信息检索模式。

　　征稿启事

　　为增进学会内部的学术交流，也为提升公众对教育统计测量领域的认知，学会将定期通过本公众号发布各类专题文章，特邀请学会同仁们参与投稿。

　　稿件内容：

　　与教育统计测量相关的理论，方法，技术、应用和创新

　　稿件形式：

　　1.论文速递：将您最新发表的论文，写成通俗易懂的科普短文。

　　2.研究前沿：将您认为有价值的本领域*敏*感*词*研究，整理成介绍短文。

　　稿件字数：

　　2000字左右，图表不限

　　收稿邮箱：

　　注意事项：

　　1.稿件使用word文件，注明作者和所在单位，以及原文出处。

　　2.我们将根据投稿的选题和质量安排稿件发布的时间。如需修改，我们会进一步与您沟通。

0

2022-05-05

内部信息源与外部信息源搜索引擎优化方法的异同

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

探究搜索引擎结果页信息检索模式：基于过程数据

0 个评论

发起人