搜索引擎主题模型优化(个性化模型的建筑设计,本节的用户兴趣是最重要的情境事实)
优采云 发布时间: 2021-11-06 07:15搜索引擎主题模型优化(个性化模型的建筑设计,本节的用户兴趣是最重要的情境事实)
随着互联网技术的飞速发展,搜索引擎在许多领域得到了广泛的应用。它被视为人们可以在万维网上找到所需信息的工具。为了向用户提供个性化搜索服务,个性化搜索引擎应运而生。分析当前搜索引擎的不足和用户对个性化搜索的需求,设计了一种基于用户兴趣挖掘的个性化搜索引擎模型。许多实验已经验证了所提出的模型是有效的。
但是搜索引擎的大部分结果都是短的【真实生活、真实用户和真实需求:对网络上用户查询的研究和分析】和模糊的【词法歧义和信息检索】【量化查询歧义】。不同的用户在同一个查询下可能有不同的信息需求和目标【现实生活、真实用户和真实需求:网络用户查询的研究和分析】、【个性化搜索的隐式用户建模】、【自动识别用户兴趣个性化搜索。] [超越公地:调查个性化网络搜索的价值]。已经为这些问题提供了几种解决方案[确定要在互联网上搜索的文本数据库][估计搜索引擎的有用性]。除了提供传统搜索引擎的基本功能外,它还增加了一些新功能,如用户兴趣识别、语义理解和智能信息过滤。总的来说,它为用户提供了真正个性化、智能化的网络信息搜索工具。
获取用户兴趣是个性化模型的关键。许多研究者在这一点上做出了巨大的贡献:在[Toward a theory of user-based related: A call for a new范式的探究]中,用户兴趣是最重要的情境事实;在[个性化文档排名:利用证据]从多个用户兴趣进行分析和检索],[在基于网络的信息检索中使用概念层次结构增强用户查询。],用户兴趣由术语向量集群表示,只有用户反馈技术被用作主要的证据来源。最近的研究使用外部领域本体作为用户反馈的额外证据来推断用户配置文件。
A.个性化模型的建筑设计。本节提出的个性化模型包括以下四个模块:(1)页面预处理:该模块首先对页面进行过滤,删除一些无用的文档,如图片、脚本等,然后程序从页面中提取文本信息,调用切分模块获取特征词,使用后面介绍的方法计算特征词的权重和页面的特征向量。(2)页面分类:我们计算页面和用户兴趣类别对页面的相似度进行分类,文档或页面所反映的兴趣可能是相同的,一旦页面形成一个集合,用户的兴趣就可以有更多的确定性。(3)兴趣产生:在页面分类模块和词库的帮助下,我们可以在处理完所有页面后积累页面和特征词的信息。同时,我们可以计算所有特征词的权重,创建用户兴趣树。(4)兴趣更新:主要的兴趣更新功能包括选择性遗忘特征词和用户兴趣信息,及时更新用户兴趣,定期将短期兴趣转变为长期兴趣。
B:个性化模型的具体设计:个性化模型的具体设计包括以下三个模块(1)用户兴趣挖掘:页面特征向量的表示:很多页面表示技术已经被广泛使用,包括布尔逻辑模型、向量空间模型、概率模型等向量空间模型相当有效,我们用这种方法来表示页面特征。表示为 {(k1, w1), (k2, w2),..., (kn, wn)} 其中 ki 是页面 D 的关键字,wi 是 ki (i = 1, 2,..., n). 页面中的标签对于反映其内容也很重要,因此特征词的权重按以下步骤计算: a:根据单词ti在页面上的位置和时间fi,可以计算出频率为:fi'=fi*Si(i=1,2,...,n) (1), 其中Si是根据单词ti的权重系数,用TAB表示:
1
0.8
0.7
0.5
b:由于页面长度不同,step(1)计算的频率可以归一化如下:
(I=1,2,...,n)
因此,我们可以将页面 p 表示为以下向量: p = {(k1, tf1), (k2, tf2),..., (kn, tfn)},其中 ki 是页面的Keyword,权重是tfi。
页面分类:页面分类是对页面中的文本信息进行分类。文本分类通常包括两种方法:一种是基于词库,一种是基于学习。本节使用基于词典的文本分类。页面分类的基本内容是基于向量空间模型通过计算consin来比较相似度。
其中sim(p,uc)表示页面p与用户兴趣类别uc的相似度。p(i)表示页面中第i个特征词的权重,uc(i)表示用户兴趣类别中第i个特征词的权重。
用户兴趣类别的表示:用户兴趣类别的表示基于TF-IDF(Term Frequency-Inverse Document Frequency)方法。步骤如下。a:用户兴趣类别中所有页面的累计总数N;b:计算所有页面的并集K={k1, k2, ... km}作为用户兴趣类别向量的候选特征词;c:累积特征词Ki在页面上出现的时间ni;d:使用TF-IDF计算所有特征词的权重。
其中Tfij(i = 1,2,..., m; j = 1,2,..., n)表示关键字ki在文档pj中出现的时间
(2)用户兴趣存储:用户兴趣的存储主要基于ODP(Open Directory Proiect)模型,模型中虚线框代表没有实际意义的虚拟节点,粗线框代表用户节点,底部节点代表特征字节点,用户节点和特征词节点之间是用户兴趣节点,为了适应用户兴趣的转换,可以将用户兴趣分为多头兴趣和空头兴趣。相应地,我们可以得到多头兴趣树和空头兴趣树。
(3)个性化模型的创建和更新:创建个性化模型:
本节使用了一个非常重要的公式
其中vi(i=1,2,...,n)表示特征词节点的权重或用户兴趣节点的权重,k表示属于父节点的子节点总数。
用户在第一次登录该系统时提供其最初的兴趣。我们将初始多头兴趣的权重设置为 10。创建多头兴趣树的算法如下: a:在用户登录系统时使用其账户创建用户节点;b:根据用户的初始兴趣创建用户兴趣节点,并设置这些节点的权重为10;c:创建参考ODP模型的多头兴趣树;d:使用公式(5)计算长期兴趣树中所有节点的权重,并将长期兴趣存储在categories_long表中。
随着时间的流逝,用户的兴趣可能会发生很大变化。因此,有必要创建短期兴趣树,及时反映用户兴趣变化。空头兴趣树是根据特征词及其权重创建的。因此,页面分类后,计算每个类别中特征词的权重,将特征词加入表cate_term_short,然后创建空头兴趣树作为多头兴趣树。
更新个性化模型:引入遗忘机制,调整用户兴趣转化。遗忘之初,遗忘速度快;随着时间的流逝,速度逐渐变慢。遗忘函数如下:
其中cur代表当前日期,est代表特征词或用户兴趣类别的首次出现日期,hl为半衰期,即hl天后用户兴趣的一半被遗忘。更新空头兴趣包括添加新的空头兴趣和忘记旧的空头兴趣。随着时间的推移,一些经常访问的特征词或类的权重越来越大,一旦达到边界值,就加入到长期兴趣中。如果长期利益的权重小于遗忘后的边界值,这些利益就应该从长期利益中剔除。
实验结果: A:创建特定的个性化模型:我们采集了用户在 15 天内访问的 422 个页面。我们选择了 192 页作为实验材料。在这个实验中,它们可以分为4批。使用传统的切分算法——反向最大匹配法,我们可以得到1843个词,其中534个词是重复的,所以我们得到了1309个不同的词,包括网球、操作系统、数码产品、程序、心理学和礼物。通过反复实验,我们可以得到经验值:短息遗忘因子hls=2;长息遗忘因子 hll=7;用户长期兴趣边界值thc=10;特征词边界值 tht= 0. 01. 本实验跟踪用户从 2010 年 3 月 1 日到 2010 年 3 月 15 日访问的网页。我们每 5 天测试一批网页。
班级号
班级名称
利益权重
100
网球
53.4
103
操作系统
70.7
105
礼物
54.0
第一批结果(空头利息)
班级号
班级名称
利益权重
100
网球
30.9
101
程序
82
102
数码产品
69.3
103
操作系统
34.2
105
礼物
9.6
第二批结果(空头利息)
班级号
班级名称
利益权重
100
网球
30.9
101
程序
82
102
数码产品
69.3
103
操作系统
34.2
表四
这似乎与遗忘机制不符,但实际上没有。1)和2)中提到的方法也可以用来计算第三批的短期利息和长期利息(2010年3月10日)和第四批(2010年3月15日)权益。因此,在对用户访问过的网页进行15天的跟踪后,我们得到用户的长期兴趣和短期兴趣。我们使用两个直方图来直观地展示长期兴趣和短期兴趣。s 长期利益和短期利益。我们使用两个直方图来直观地展示长期兴趣和短期兴趣。s 长期利益和短期利益。我们使用两个直方图来直观地展示长期兴趣和短期兴趣。
总结:本文提出了一种基于兴趣挖掘的个性化搜索引擎,以满足用户的个性化搜索需求。这个个性化搜索引擎的关键模型是个性化模型。我们从访问的网页中获取用户兴趣。参考ODP模型,我们创建了一个兴趣树来存储用户兴趣。为了体现用户兴趣的转化,引入了遗忘机制。用户兴趣可以分为短期兴趣和长期兴趣,因此创建和更新用户兴趣仅意味着创建和更新长期兴趣树和短期兴趣。许多实验证明了所提出的模型是有效的。