搜索引擎进行信息检索的优化策略方法(本发明可应用于元搜索引擎优化领域中有关满足用户个性化检索需求的一种方法)
优采云 发布时间: 2022-04-15 18:22搜索引擎进行信息检索的优化策略方法(本发明可应用于元搜索引擎优化领域中有关满足用户个性化检索需求的一种方法)
基于代理的元搜索引擎个性化方法技术领域
[0001] 本发明属于信息处理技术领域,还涉及一种互联网信息检索领域和个性化服务领域中基于Agent的元搜索引擎个性化方法。本发明可以应用于元搜索引擎优化领域中满足用户个性化检索需求的方法。
背景技术
[0002]目前,面对互联网信息资源的不断扩充和用户需求的不断增加,为解决传统搜索引擎信息覆盖率低、检索结果重叠率低的问题不同搜索引擎,单一搜索引擎难以满足用户信息查询需求为了提升用户体验,提出了一种可以整合多个搜索引擎搜索结果并提供统一访问机制的元搜索引擎。针对元搜索引擎在主动学习、信息推送能力等个性化服务方面的不足,提出了元搜索引擎个性化相关技术:通过分析用户个性化检索意图,提供针对性的检索服务;主动学习群组用户兴趣,推送用户感兴趣的信息。
[0003]西安电子科技大学申请的专利《基于用户兴趣的个性化元搜索引擎及搜索结果处理方法》(专利申请号:2.4,公开号CN101477554A)公开了一种个性化元搜索引擎用户兴趣的搜索引擎和处理搜索结果的方法。该方法由用户主动选择网站提供的兴趣类别并设置权重值,或对用户的搜索行为进行兴趣分析,建立用户兴趣数据模型作为后续搜索个性化排序的依据结果。这种方法的缺点是:用户需要手动设置或执行多次检索行为,搜索引擎才能记录、分析和获取用户的兴趣,缺乏在使用搜索引擎前挖掘用户的浏览记录;没有根据用户的兴趣划分用户组。 ,不能更好地为有共同兴趣的用户提供合适的推荐信息。
[0004]申请的“一种个性化元搜索方法及其应用终端”(专利申请号:2.5,公开号CN101853308A)公开了一种个性化元搜索方法。该方法预先建立兴趣库,根据确定的搜索到的关键词从兴趣库中提取使用日志,对搜索引擎返回的搜索结果进行预处理,并使用使用日志将处理后的搜索结果与搜索结果。用兴趣库中搜索到的关键词对应的资源定位器的兴趣度进行计算,根据计算结果排序展示。这种方法的缺点是通过资源定位器表达兴趣,但由于网络的不确定性,资源定位器可能无效,因此不适合表达用户兴趣;用户群不按用户兴趣划分,多为有共同兴趣的用户提供相关推荐信息。
发明内容
[0005] 本发明的目的在于克服上述现有技术的不足,提出一种基于Agent的元搜索引擎个性化方法,通过对用户进行分组,在检索结果中,用户提供同一兴趣组中的用户推荐链接和兴趣词,为用户提供个性化检索服务。
[0006]本发明的具体思路是:通过移动Agent提取用户的有效浏览记录,挖掘有效浏览记录初始化用户兴趣模型,通过用户的划分实现用户分组。兴趣相同的公益黑板,统计分组用户搜索时,在检索结果中向用户展示推荐的兴趣词和推荐链接,为用户实现个性化的检索服务。
[0007] 为实现上述目的,本发明的具体步骤包括:
[0008](1)判断用户是否第一次使用元搜索引擎,如果是,转步骤(2),否则转步骤(6).
[0009](2)挖掘用户浏览记录:
[0010] 2a) 通过路由策略将移动代理移动到用户客户端;
[0011] 2b) 使用移动代理过滤用户浏览记录,获取有效浏览记录,并将记录发送回服务器。
[0012] (3)初始化用户兴趣模型:
[0013]3a)服务端个性化代理接收移动代理发送的用户浏览记录;
[0014] 3b) Personalized Agent挖掘有效的浏览记录,使用分词工具对用户浏览的文本进行分词,获取文本中出现的词条和出现频率。词条作为用户的兴趣词,使用朴素贝叶斯公式计算文本类别;
[0015] 3c)将步骤3b)得到的兴趣词对应频率的归一化值作为兴趣词的权重,将兴趣词所属的文本类别作为待分类词的类别兴趣词,并得到多个由兴趣词、权重和类别组成的三元组,每个三元组作为用户兴趣向量加入到用户兴趣模型中;
[0016] 3d)判断用户兴趣模型中收录的用户兴趣向量的个数是否超过阈值,如果是,比较用户兴趣模型中所有用户兴趣向量的权重,删除对应的用户兴趣向量到最低权重,否则转到步骤 3c)。
[0017](4)用户组划分:
[0018] 4a) Personalized Agent将用户兴趣模型中已有的用户兴趣向量发布到公共兴趣黑板;
[0019] 4b)公益黑板根据用户兴趣向量中兴趣词的类别,将兴趣词相似的用户划分为同一组。
[0020] (5)获取群组兴趣:
[0021] 5a) 提取各组用户在公益黑板上发布的用户兴趣向量中的兴趣词;
[0022] 5b)统计每组发布相同兴趣词的用户数,按照发布用户数降序排列兴趣词,抽取前5个兴趣词作为推荐兴趣词对应的组;
[0023] 5c)统计除本次首次使用元搜索引擎的当前用户外,其他用户在公益黑板中搜索后对搜索结果链接的点击次数,以及搜索结果对于相同的搜索词将被计算在内。点击次数最多的三个链接作为相应组中搜索词的推荐链接。
[0024](6)对于第一次没有使用元搜索引擎的用户,判断是否需要检索信息,如果需要,转步骤(7),否则转到步骤 (10).
[0025](7)推荐信息:
[0026] 公益黑板根据检索用户的用户兴趣向量中兴趣词的类别将兴趣词相同的用户划分为同一组,个性化agent推荐该用户的兴趣词对应的组和对应的用户搜索词推荐的链接在搜索结果中显示给用户。
[0027](8)记录用户点击链接:
[0028]元搜索引擎在检索结果中为用户推荐特定信息后,个性化Agent记录用户点击的检索结果链接。
[0029](9)更新用户兴趣:
[0030] 9a)个性化代理挖掘记录的用户点击的搜索结果链接,获取搜索结果链接页面中的文本内容,使用分词工具对文本进行分词,得到词条和频率文本。度,取文本中出现次数大于等于5次的词作为用户的兴趣词,使用朴素贝叶斯公式计算文本类别;
[0031] 9b)以步骤9a)得到的兴趣词对应频率的归一化值作为兴趣词的权重,取兴趣词所属的文本类别作为兴趣词,依次得到多个由兴趣词、权重、类别组成的三元组,将得到的三元组作为用户新的兴趣向量;
[0032] 9c)判断每个用户的新兴趣向量中的兴趣词及其类别是否与用户兴趣模型中现有用户的旧兴趣向量中的兴趣词及其类别一致。兴趣词的权重更新为两个兴趣词在新兴趣向量和旧兴趣向量中的权重之和;否则,删除用户兴趣模型中权重最低的旧兴趣向量,将新兴趣向量加入用户兴趣模型。 ;
[0033] 9d)个性化代理将更新后的用户兴趣向量发布到公益黑板,公益黑板根据用户兴趣向量中兴趣词的类别将兴趣词相似的用户划分为同一组.
[0034] (10)结束。
[0035] 与现有技术相比,本发明具有以下优点:
[0036]首先,本发明利用移动端Agent在客户端过滤用户搜索记录,得到有效浏览记录,服务器端个性化Agent接收并挖掘移动端发回的有效浏览记录代理,初始化用户兴趣,克服现有问题。现有技术中,用户需要手动设置或执行多次检索行为,搜索引擎才能记录、分析和获取用户兴趣,因此本发明的方法可以快速初始化用户兴趣模型,然后进行后续操作。根据用户兴趣向上处理。它可以为用户提供个性化的推荐。
[0037] 二、本发明通过阈值限制用户兴趣模型中用户兴趣向量的个数,实现用户兴趣收敛,克服现有技术中用户兴趣发散,用户兴趣模型不能准确表达用户兴趣的缺点使得本发明更准确地表达了用户当前的兴趣,并且可以准确的划分用户群体。
[0038] 三、本发明通过对公益黑板中具有相同兴趣的用户进行划分实现用户分组,统计分组中推荐的兴趣词和推荐链接,当用户搜索时,推荐的对相应分组的兴趣词进行分组。在搜索结果中向用户展示与用户搜索词对应的推荐链接。克服了现有技术不能对用户进行分组来获取组内成员的推荐信息的缺点,使得本发明能够提供一组共同兴趣的用户的推荐信息,满足用户的个性化检索需求。图纸说明
[0039] 图1为本发明的流程图;
[0040] 图。图2为公益黑板工作模式*敏*感*词*。
具体实现方法
[0041] 下面结合附图1,对本发明的步骤作进一步详细说明。
[0042]步骤1,判断用户是否是第一次使用元搜索引擎,如果是,则进行步骤2,否则,进行步骤6;所有使用过元搜索引擎的用户都会被赋予一个用户ID,未注册的用户被分配一个cookie值,注册的用户会有一个用户名,所以第一次使用元搜索的用户没有任何用户ID,因此可以判断用户是否是第一次使用元搜索引擎。
[0043]步骤二,挖掘用户浏览记录。
[0044] 移动代理通过路由策略移动到用户客户端。路由策略是移动代理在获得服务器端个性化代理发送的客户端地址后,根据当前网络开销移动到客户端的策略。
[0045]利用移动Agent过滤用户的浏览记录,得到有效的浏览记录,并将该记录发回服务器,过滤是通过浏览时间过滤用户的浏览记录,得到有效的浏览记录的过程,用户的浏览记录浏览时间小于10秒钟的页面记录视为无效浏览记录。
[0046]步骤3,初始化用户兴趣模型。
[0047]服务端个性化代理接收移动代理发送的用户浏览记录。
[0048] 个性化代理挖掘有效的浏览记录。 ICTCLAS 是中国科学院开发的用于中文文本分词的工具。本发明利用ICTCLAS分词工具对用户浏览的文本进行分词,根据ICTCLAS分词工具对词性的分析去除标点、副词、介词、连词、感叹词、情态助词、代词等无用词. 在文本中,并统计文本中剩余的词,得到有用的词条和频率,出现频率大于等于5次的词条作为用户的兴趣词,计算文本类别由朴素贝叶斯公式;朴素贝叶斯公式计算不同类别的文本中条目的概率,取最大概率对应的类别作为文本的类别,朴素贝叶斯公式如下:
[0049]
[0050] 其中,CNB表示文本的类别,P(cj)表示类别j的先验概率,P(xi|cj)表示c类别cj中条目xi的类条件概率,c代表不同类别的个数,∏1P(xi|cj)代表计算出的词xi在所有类别中的类别条件概率。
[0051] 以上述步骤得到的兴趣词对应频率的归一化值作为兴趣词的权重,将兴趣词所属的文本类别作为兴趣词的类别,并通过兴趣词、权重和类别依次得到多个,每个三元组作为用户兴趣向量加入到用户兴趣模型中。
[0052] 判断用户兴趣模型中收录的用户兴趣向量的个数是否超过阈值,本发明中的阈值为40,如果是,则比较用户兴趣模型中所有用户兴趣向量的权重,并比较最低权重对应的用户兴趣。向量被删除,否则,用户兴趣向量继续被添加到用户兴趣模型中。
[0053]第四步,划分用户组。
[0054]个性化Agent将用户兴趣模型中已有的用户兴趣向量发布到公益黑板;公益黑板根据用户兴趣向量中兴趣词的类别,将兴趣词相似的用户划分为同一组。
[0055]步骤5,获取群体兴趣。
[0056]提取各组用户在公益黑板上发布的用户兴趣向量中的兴趣词;统计每组中发布相同兴趣词的用户数,将兴趣词按照发布用户数从小到大排序,抽取前5个兴趣词作为对应组的推荐兴趣词;在公益黑板的各组中,除当前用户第一次使用元搜索引擎外,其他用户在检索后都链接了搜索结果。对于点击次数,将同一搜索词的搜索结果中点击次数最高的三个链接作为相应组中搜索词对应的推荐链接。
[0057] 参见图2,本发明中用户群体的划分和群体利益的获取是通过公益黑板实现的;
[0058]个性化Agent挖掘用户浏览记录,初始化用户兴趣模型,将用户兴趣模型中的用户兴趣向量发布到黑板;分成几组。如图,Agent1、Agent2、Agent3对车组感兴趣,Agent4、Agent5对*敏*感*词*械组感兴趣。
[0059]公益黑板完成用户群组划分后,获取群组兴趣。在图中的汽车兴趣组中,获得了“林肯”、“法拉利”等多个推荐的兴趣词。该词对应的权重为发表兴趣的人数;*敏*感*词*支兴趣小组获得多个推荐链接,用于查询“步*敏*感*词*”、“AK47”等。
[0060]步骤6,对于第一次没有使用元搜索引擎的用户,判断是否需要检索信息,如果需要,转步骤(7),否则转步骤(10).
[0061]步骤7,推荐相关信息。
[0062] 公益黑板根据检索用户的用户兴趣向量中兴趣词的类别将兴趣词相同的用户划分为同一组,个性化Agent推荐该用户的兴趣词对应的组和对应的用户搜索词推荐的链接在搜索结果中显示给用户。
[0063]如果用户存在于多个群组中,首先判断该用户所属的多个群组中所有推荐链接对应的搜索词是否与当前用户的搜索词一致,如果一致,推荐群里的推荐。链接和推荐的兴趣词;否则,如果没有推荐链接,则从用户所属的多个组中选出权重最高的5个推荐兴趣词,在检索结果中推荐给用户。
[0064]步骤8,记录用户点击链接。
[0065]元搜索引擎在检索结果中为用户推荐特定信息后,个性化Agent记录用户点击的检索结果链接。
[0066]步骤9,更新用户兴趣。
[0067]个性化Agent对记录的用户点击的搜索结果链接进行挖掘,获取搜索结果链接页面中的文本内容,使用分词工具对文本进行分词,得到在搜索结果中出现的词条和频率文本,将文本中出现次数大于等于5次的词作为用户的兴趣词,使用朴素贝叶斯公式计算文本类别。
[0068] 将上述感兴趣词对应频率的归一化值作为感兴趣词的权重,将该感兴趣词所属的文本类别作为该词的类别兴趣,并获取多个兴趣词、权重、类别组成的三元组,将得到的三元组作为用户新的兴趣向量。
[0069]判断每个用户新兴趣向量中的兴趣词及其类别是否与用户兴趣模型中现有用户旧兴趣向量中的兴趣词及其类别一致。词权更新为新兴趣向量和旧兴趣向量中两个兴趣词的权重之和;否则,删除用户兴趣模型中权重最低的旧兴趣向量,将新兴趣向量添加到用户兴趣模型中。
[0070]个性化代理将更新后的用户兴趣向量发布到公益黑板,公益黑板根据用户兴趣中的兴趣词类别将具有相同兴趣词的用户划分为同一组向量。
[0071] 步骤 10,结束。
[0072] 本发明需要移动Agent、个性化Agent和公益黑板协同工作,实现为用户推荐个性化信息。移动代理根据系统分配给它的任务,在用户客户端进行路由,过滤用户客户端的历史浏览记录,得到有效的浏览记录;个性化代理挖掘用户的有效浏览记录,为每个用户构建用户兴趣模型,个性化代理记录用户在搜索结果页面上的点击和浏览信息,分析并更新用户兴趣模型。公益黑板根据个性化代理发布的用户兴趣划分用户组,统计组内用户的兴趣词和搜索结果。点击链接获取群内推荐兴趣词和推荐链接;当用户搜索时,向用户推荐相应的推荐信息,实现为用户提供个性化服务。