教程:2023最新SSM计算机毕业设计选题大全（附源码+LW）之java考研信息志愿采

　　涉及知识点：技术语言：java 操作系统：Win10 开发工具：Intellij IDEA、maven 后端技术：spring、springMVC、mybatis、shiro 前端技术：html、css、js、ajax 数据库：mysql 主要设计内容：卖家模块：卖家分类、卖家属性管理、卖家*敏*感*词*、增删改查商品模块：商品分类、商品属性管理、商品上线、商品下线、商品查询用户模块：登录、注册、会员优惠、评价权限管理：根据自身的权限操作功能，超级管理员拥有最高权限订单模块：生成订单、查看订单、完成订单、购物车模块广告模块：用户可以在网站上发布一些重要信息后台审核后的首页，例如：查找产品公告、美食亮点等

　　专业知识:观察者模式之四：基于知识库的信息推荐系统（本科毕业论文，学术道德问题

　　总结 2

　　文摘3

　　第 1 章简介 5

　　第二章用户行为挖掘 6

　　2.1 网页的特征表示 6

　　2.2 文本表示 6

　　2.3 自动分词技术 7

　　2.4 专有名词的分词 8

　　2.5 关键词和关键词的识别 8

　　2.5.1 噪声词消除算法 9

　　2.5.2 固定关键词词典算法9

　　2.6 分词分类10

　　第 3 章用户兴趣模型 11

　　3.1 特征权重 11

　　3.2 特征权重的时间校正：快启动，慢降算法 12

　　3.3 页面聚类 13

　　3.4 用户兴趣概念知识库 13

　　3.5 生成推荐信息 14

　　3.5.1 获取推荐信息 14

　　3.5.2 搜索结果预处理 15

　　3.5.3 搜索结果的评分和排序算法 15

　　3.5.4 搜索结果去重算法 18

　　3.5 勒夏特列用户兴趣变化原理 19

　　3.6 分布式处理 19

　　第4章信息推荐系统的文本剖析分析与设计22

　　4.1 系统架构与数据设计 22

　　4.1.1 分词与分类 22

　　4.1.2 分词权重计算 23

　　4.1.3 公共热点推荐24

　　4.1.4 个性化推荐 25

　　第五章实验结果分析与比较27

　　5.1 收敛测试 27

　　5.1.1 系统收敛精度测试 27

　　5.1.2 分词词典无意词测试 30

　　5.2 专有名词分词算法 31

　　5.3 兴趣识别算法测试 33

　　5.3.1 噪声词消除算法 33

　　5.3.2 固定关键词词典算法34

　　结论 36

　　参考文献 37

　　谢谢 37

　　第一章简介

　　自1991年CREN诞生以来，互联网以其丰富多彩的内容吸引了众多用户，信息呈指数级增长。现在它已经成为人们获取信息的重要途径。由于网络信息中收录

大量重复的、过时的、分散的、混乱的数据和信息，人们不得不花费大量时间搜索和浏览自己可能感兴趣的信息。搜索引擎是最常用的信息检索工具。传统的信息检索技术满足了人们的一般需求，但对于不同用户关注的特定领域的信息却无能为力。

　　人们不再满足于使用传统的搜索引擎和其他门户来查找自己感兴趣的信息，而是希望能够自动获取所需的信息。也就是说，它已经从“人找信息”的模式转变为“信息找人”的信息提供模式。系统可以分析用户的行为，然后将用户需要的信息发送给他，持续提供信息。当用户离线时，系统在网络上抓取他想知道的任何信息，并在用户在线时推送给他。根据用户独特的信息需求，从互联网上搜索并整合相关信息，有针对性地满足各类用户的信息需求。

　　本项目采用人工智能中常用的专家系统的思想，对用户兴趣进行分析识别。首先，分析用户的浏览记录。本项目只分析用户浏览记录的标题，因为用户是根据标题找到自己感兴趣的内容。本项目将用户浏览记录标题的分词结果与用户兴趣概念知识库进行匹配，找出可能是用户兴趣概念的分词。然后访问搜索引擎，从搜索引擎获取用户感兴趣的概念的推荐信息。

　　全文分为三个部分。第一部分是用户行为的挖掘，涉及两部分，自动分词和分词分类。第二部分构建用户兴趣概念知识库。系统将用户浏览记录的分词结果与兴趣概念知识库进行比对，识别出用户的兴趣词。本章提出了一种VSM权重的时间修正算法，可以更好地适应用户兴趣随时间的变化。第三部分为测试与结论部分。本项目的测试主要集中在用户兴趣的识别和收敛以及推荐信息的准确性上。同时，

　　第二章用户行为挖掘

　　互联网数据挖掘分为三种挖掘方式；一是数据内容挖掘，二是数据结构挖掘，三是用户行为挖掘。第三用户行为挖掘的本质也与数据内容挖掘密切相关。但它不仅仅关注数据的内容，因此成为独立的第三类数据挖掘。网页的本质是网页中的文字内容，只是以html标签为载体呈现给用户。本项目对网页的文字内容进行分析，通过对内容中文字的分类分析，记录用户的喜好。例如，如果用户浏览了一个标题为“Apple 的新任 CEO Cook”的网页，本项目对标题进行分析可以得出用户对 IT 行业的 Apple 有一定权重的兴趣。当然，如果他一直阅读与“苹果”相关的这个项目，“一些”这个词可以换成“非常”——即用户对IT行业的苹果很感兴趣。本项目可以概括为：文本章节分析过程是根据已建立的领域知识库中的知识结构，分析文本章节与某一领域主题之间的关系。然后根据本项目分类的信息从互联网上检索信息，对检索到的信息进行打分处理，最后将得分高的信息推荐给用户。IT行业的用户对苹果很感兴趣。本项目可以概括为：文本章节分析过程是根据已建立的领域知识库中的知识结构，分析文本章节与某一领域主题之间的关系。然后根据本项目分类的信息从互联网上检索信息，对检索到的信息进行打分处理，最后将得分高的信息推荐给用户。IT行业的用户对苹果很感兴趣。本项目可以概括为：文本章节分析过程是根据已建立的领域知识库中的知识结构，分析文本章节与某一领域主题之间的关系。然后根据本项目分类的信息从互联网上检索信息，对检索到的信息进行打分处理，最后将得分高的信息推荐给用户。

　　2.1 网页的特征表示

　　网页的文字信息、文字格式、文档结构、页面布局、链接结构等都是网页的表征特征。普通用户阅读报纸时，大多会先阅读新闻标题，然后再选择是否阅读新闻的具体内容。同样，用户在使用互联网时，总是先看标题，再决定是否需要阅读具体内容。因此，本项目只需要关心网页的文本信息，这是web的特征表示，其他方面忽略不计。为了加快对用户行为分类的处理速度，本项目只需要分析网页的标题，无需考虑网页的全部内容。

　　2.2 文本表示

　　文本的内容和形式非常复杂。本项目需要选择一个语言特征，并以此为基础分析子文本[2]。

　　文本的内容特征

　　用什么作为特征来描述文本内容是文本表示的核心问题。英语常用词、词串（指文本中出现的多个固定长度的词）、短语

　　作为表示文本的特征。相关研究的实验结果表明，基于英语单词的特征表示最适合文本分类。由于汉语的特殊性，本项目中经常说的词组与英语中的单词相似。

　　关键词相互关系评估

　　该项目需要评估关键词之间的相互关系。VectorSpaceModel（VSM）模型是描述词段之间关系的常用模型。在VSM模型中，一篇文档被看做是一个由特征对组成的特征向量（featurevector），其表达式如式（2.1）[5]。

　　(2.1)

　　其中，是特征的二元组，是文档中的权重；s 是特征集的大小。在VSM中，这个项目没有考虑特征在文本中的位置和语法信息的作用等。

　　一个特征向量对应高维特征空间中的一个点，可以将式（2.1）简化为式（2.2）。此时，特征向量对应于权重向量。

　　(2.2)

　　在VSM中，文档被描述为向量，借助向量操作可以对文档进行各种操作，如文档的合并、删除、比较等操作。文档与文档之间的相似度可以用向量之间的相似度来衡量。

　　2.3 自动分词技术

　　用户在浏览一条新闻时，经常会看到新闻的标题中收录

一个或几个他感兴趣的分词。为了准确表达用户的兴趣，本项目需要对文本进行切分，将句子切割成几个准确的词。然后对分词进行分类。为此，本项目引入自动分词技术。

　　自动分词技术是指将输入计算机的句子自动切割成单词序列的过程。在某些情况下，分词结果还收录

一些词组和语素。一般来说，建立一个好的自动分词算法的关键是选择一个好的分词算法，构建一个好的分词词典（分词词库）。

　　分词算法常用的方法如下[13]：

　　1、词典匹配法：最大匹配法、逐词遍历法、反向匹配法。

　　2、联想词组法：如联想回溯AB法、关联树分析法、无词库法。

　　3、知识与规则方法：如分词规则方法、分词与语义校正方法、规则描述分词方法。

　　4.人工智能方法：如专家系统、神经网络。

" />

　　中文分词的难点在于：

　　1.语法复杂。汉字词组的组合非常灵活，很难确定词在词组中的位置。例如：“被子”不宜拆分为“被子”和“子”两个词；而“kitchen knife”适合拆分成“dish”和“knife”两个词。[4]

　　2.切分的模糊性。例如：“好好学习”这句话可以分为“好”、“学习”（四声）、“学习”三种理解方式。

　　这里，本项目采用最大匹配分词算法，也称为贪心算法。分词过程需要去除无意义的词和噪声词。例如：对于“姚明陪着瑞士公主参观了瑞士残疾人学校”这句话，使用最大匹配算法的结果是：“姚明”，“参观”，“瑞士”，“残疾”，“学校” 》、《瑞士》、《公主》、《陪伴》。

　　2.4 专有名词分词

　　专有名词的分词应该是2.3节的内容，但是2.3节介绍的前向最大分词算法最大的问题是专有名词分词容易出错。4.3.3节的测试部分有多余的例子。测试中常见将“F-22”的分词称为“F”、“-22”。出现这种分词的结果是因为这种词结构不符合常用的语言习惯，而且大多数专有名词出现在科学技术领域，都有特定的编号习惯。“F”是一个英文字母。在自然语言中，英文字母后面经常跟着英文字母。“-22”没有太多意义，所以根据人类的语言习惯，上述分词结果是合理的。但F-22其实是一个专有名词，它的分词是常规分词算法无法识别的。本项目必须提供一个专有名词词库来解决专有名词的分词问题[7]。

　　专有名词修正分词算法的伪代码如算法2-1所示。

　　算法 2-1

　　字符串字符串；

　　对于（inti=0；我

　　{

　　If(str收录

专有名词)

　　{

　　将专有名词部分作为一个整体添加到分词结果中；

　　继续正则分词；

　　}

　　这个算法可以解决专有名词的分词问题，但是这个算法不是很完善，没有完美的结合语言环境进行分词。因此，本项目必须结合常规的分词算法来避免这个问题。

　　2.5 关键词和关键词的识别

　　前面2.4节提到的分词算法可以将一个句子拆分成多个词段，对于本项目来说是不够的；用户在阅读一篇新闻关键词时可能只关注其中的一个或几个，本项目需要从分词结果中找出用户可能关注的重点。因此，本项目引入了关键词和关键词的识别问题。例如：

　　对于“姚明陪同瑞士公主参观瑞士残疾人学校”这句话，使用正向最大匹配算法的结果是：“姚明”，“参观”，“瑞士”，“残疾”，“学校”，《瑞士》、《公主》、《陪伴》。对于一个NBA球迷来说，他只在意这句话中的“姚明”二字。这句话的关键词应该是“姚明”。瑞士公主陪伴在残疾人学校》是体育迷们不会有兴趣阅读的新闻。为了能够识别文章中的关键词，本文提出了两种算法来识别文本中的关键词，并在4.3节的测试部分对两种算法进行了测试和比较。

　　2.5.1 噪声词消除算法

　　该算法是一种发散算法。系统只剔除那些明显没有语义区分的分词，其余的都认为是有意义的词。然而，系统的噪音词词库不可能是完美的。所以总会有一些噪音词被系统误认为是关键词，这时候系统的推荐信息就会出现错误。所以这是一个发散算法。该算法的伪代码实现如算法2-2。

　　算法 2-2

　　StringGetKeyWord(stringinstring)

　　{

　　if (noise word thesaurus contains in string)

　　{

　　返回字符串；

　　}

　　别的

　　{

　　返回空；

　　}

　　当然，与第二种算法相比，该算法也有其优势。该算法不会错误地缩小用户的实际兴趣，并且可以自动收录

新的关键词。

　　2.5.2 固定关键词词典算法

　　固定的关键词词库算法并不意味着关键词词库是固定的。固定的关键词词库算法是指：只有关键词词库中存在的分词，才能存储为关键词。该算法的伪代码如算法 2-3 所示。

　　算法 2-3

　　StringGetKeyWord(stringinstring)

　　{

　　If(关键词同义词库中收录

一个字符串)

　　{

　　返回字符串；

　　}

　　别的

　　{

　　返回空；

　　}

　　与算法2-3相比，算法2-2具有更好的收敛效果，但算法2-3可能会遗漏部分用户感兴趣的关键词，关键词词典需要手动维护。此关键词同义词库的关键词数量在数量级上。

　　2.6 分词分类

　　本项目采用三级分类法对分词进行分类。图 2-1 是一个分类的例子。

　　图2-1 三级分类*敏*感*词*

　　在顶级类别体育下方是三个子类别“NBA”、“CBA”和“世界杯”。为保证系统的准确性，本项目采用人工顶层和二级分类，人工添加初始化的子节点分类训练样本，三级分类为具体文本分词。这部分内容在聂荣进的论文中有详细的描述。

　　第三章用户兴趣模型

　　个性化信息推荐研究的关键是建立准确的用户兴趣模型。根据VSM模型，用户的兴趣是一个向量空间，可以用表达式（2.1）来描述。从线性代数的向量空间理论可以抽象地理解用户兴趣模型。本项目认为用户兴趣之和是由单个不相交的用户兴趣向量作为基向量组成的向量空间。本章介绍本项目的个性化信息推荐研究，关键是建立准确的用户兴趣模型。传统用户兴趣模型的构建过程如图3-1所示。

　　图3-1 传统用户兴趣模型构建过程

　　图3-1所示的用户兴趣模型的构建过程不能反映用户兴趣的变化。本文基于计算机网络的拥塞控制算法和路由选择算法，提出了一种“用户-兴趣-时间”模型来反映用户兴趣曲线随时间的变化。并讨论了模型曲线尽可能收敛于用户实际兴趣曲线的几种算法。

　　计算用户兴趣强度值通常有以下三种方式：

　　1.用户填写

　　2、根据用户行为分析用户兴趣

　　3、根据用户对推荐信息的反馈，进一步更新兴趣强度

　　第一种方法在系统中的直接表现是用户自行设置兴趣领域。这种方法会增加用户的负担，不是一种用户友好的方法，因此不是本项目的主要研究方向。第二和第三是本文主要关注的方向。其中，第三种方法会起到增强作用：同时会增强兴趣曲线的收敛速度，同时会放大收敛曲线的误差。本文的其余部分将讨论第三种方法的增强效果。

　　3.1 特征权重

　　特征确定后，需要计算该特征在向量中的权重，以描述该特征在文档中的重要程度。常用的权重计算方法有布尔权重、权重和熵权。

　　由于布尔权重不能准确描述向量之间的权重关系，本项目使用权重来描述特征在向量中的权重。

　　基于两种观点：一个特征在文档中出现的次数越多，它就越重要；文本中出现的特征越多，它的重要性就越低。(G.Salton, etal., 1975)。一般有两种权重，一种反映第一种观点，另一种反映第二种观点。

　　权重的计算方法如式(3.1)：

　　(3.1)

　　其中，是该特征在文档中出现的频率，是该特征出现的文档数。

　　3.2 特征权重的时间修正：快启动、慢缩减算法

" />

　　计算机网络是动态变化的网络。网络每个部分的状态都在动态变化。及时发现网络拥塞状态的变化对于提高网络利用率非常重要。TCP 协议尽可能维护网络。利用率高，并具有低网络延迟，TCP协议采用“加性增加，乘性减少”算法的拥塞控制策略。[JamesF.Kurose, KeithW.Ross.177] 同样，人们的兴趣爱好也会随着时间而改变。为了更快地收敛到用户的兴趣，反映用户兴趣随时间的变化，我用“快开始，慢下降”的算法来表示人的兴趣与时间的关系。“快速启动，

　　该项目引入了以下一些概念的描述：

　　时间轴：图3-2中，横坐标为本项目所表示的时间，其含义为：“用户登录两次相邻使用系统，与实际时间不同，第一次登录在这个月，到下一次登录，间隔为1"。

　　权重增量：对应分词A在用户浏览一次收录

某个分词A时的权重增量。此项定义为0.125，分词的最大权重为1。也就是说，如果用户浏览了同一个词八次，该词的权重会增加到最大值1，如果继续浏览，权重仍会保持在1。之所以定义权重增量为0.125，也就是可以浏览8次后增加到最大权重，是因为如果设置为布尔权重，即0或1，本项目无法准确衡量一个人的兴趣爱好。如果权重增量太小，一个分词达到最大权重所需的次数过多，并且用户很难快速收敛到他的短期爱好之一，即收敛太慢。比如一个对IT不感兴趣的女A，看到乔布斯去世的消息，突然对乔布斯的生平很感兴趣，然后想了解下一周乔布斯的情况。小，她需要浏览乔布斯相关的网页一百遍，系统才会意识到她对乔布斯很感兴趣，然后主动向用户推送乔布斯相关的内容。这时候，用户可能已经回到了平静的生活中。. 她需要浏览乔布斯相关的网页一百次，系统才会意识到她对乔布斯很感兴趣，然后主动向用户推送乔布斯相关的内容。这时候，用户可能已经回到了平静的生活中。. 她需要浏览乔布斯相关的网页一百次，系统才会意识到她对乔布斯很感兴趣，然后主动向用户推送乔布斯相关的内容。这时候，用户可能已经回到了平静的生活中。.

　　缓慢下降：这个世界上什么是不变的？不，只有变化是不可变的。人们的兴趣爱好也在不断变化。很少关心乔布斯。乔布斯去世几天后，她突然对这位传奇人物产生了兴趣，随后浏览了很多乔布斯的介绍。此时，系统已经将用户A的分词权重设置为“职位”作为最大权重。半个月后，她不再关心乔布斯，相应地，她对“乔布斯”的权重等级也应该逐渐降低。因此，本项目提出“慢减”，即用户对每个分词的权重应该随着时间轴递减。本项目定义“缓慢减少”的权重为0.05，

　　该算法需要较少的编程工作，该项目只需要在数据库服务器上创建一个计划作业。作业的伪代码描述如算法 3-1 所示。

　　算法 3-1

　　当时间为 0:0:0

　　update_PersonalWordsetkdegree=kdegree-1wherekdegree>1;

　　最后

　　3.3 页面聚类

　　本项目试图记录、描述和分析用户行为，而用户行为最终是通过页面的内容来描述的——即基于内容的页面聚类。页面聚类技术基于以下假设：同一类型的文档相似性较大，不同类别的文档相似性较小。网页聚类根据网页之间的某种联系或相关性来组织网页。

　　3.4 用户兴趣概念知识库

　　人工智能专家系统通常通过手动采集

特定领域的知识库和规则库来提供自动化解决方案。为了提高用户兴趣分词的识别准确率，本项目采用构建用户兴趣概念知识库的方法识别用户兴趣。用户兴趣概念知识库的本质是一个数据字典。它收录

尽可能完整的用户兴趣概念的分词。

　　用户兴趣概念知识库的逻辑结构也满足图2-1描述的三层分词结构。所有知识库的知识都存储在图2-1中的叶子节点上。本项目并没有使用这种三层林存储结构，而是使用数据库中存储的二维关系表来存储知识库。为了使用二维关系数据库存储图2-1中的三层逻辑结构，用户兴趣概念知识库的内容应包括表3-1所示的内容。

　　表3-1 知识库存储内容

　　知识

　　父节点

　　层

　　3.5 生成推荐信息

　　用户使用搜索引擎通过关键词检索手动检索自己想知道的内容，基于知识库的信息推荐系统利用构建的用户兴趣模型访问搜索引擎生成推荐信息。用户兴趣是以用户兴趣知识库的知识为基向量组成的向量空间。本项目使用用户兴趣向量空间的基向量作为生成推荐信息的依据，如式（2.1）所示。此时，项目方还不能确定项目方生成的推荐信息对不同用户的重要性。本项目使用VSM模型向量的第二个分量表示的阈值来衡量推荐信息对用户的重要性。

　　3.5.1 获取推荐信息

　　本项目选取用户最感兴趣的关键词，通过访问搜索引擎检索关键词的信息，获取推荐信息。这种方法类似于元搜索引擎。该项目不需要像 Google 那样维护 Internet 页面的数据库备份。其次，单一搜索引擎的搜索结果召回率并不理想。即使是谷歌这样的搜索引擎巨头，其数据库中的网页备份也只占整个互联网网页总数的很小一部分。本项目可以访问多个权威搜索引擎，可以获取某个用户感兴趣的关键词的更多信息。之所以称为元搜索引擎，是因为本项目不是即时搜索。

　　图3-3 服务器搜索引擎交互

　　元搜索引擎的架构：

　　界面代理（InterfaceAgent）

　　本节管理与各种搜索引擎的交互。某个搜索引擎对应的接口代理需要将用户的query转换成搜索引擎可以识别的格式（以Google News Search为例：）并发送出去，并负责解析接收到的搜索结果引擎，并将解析后的搜索结果传递给调度中心。

　　结果重新排序（Re-rankingMechanism）

　　这部分将各个搜索引擎的搜索结果进行组合，对每个搜索结果进行打分，并根据打分重新排序，形成统一的搜索结果列表。

　　结果存储（ResultStorage）

　　该部分将重新排序的搜索结果保存到数据库中，并在用户在线登录时向用户推送推荐结果。

　　3.5.2 搜索结果预处理

　　通过采集采集

到的海量原创

网页，也必须经过预处理，形成良好的数据结构，才能成为为用户提供查询服务的核心和关键。搜索结果的预处理主要包括以下几个方面：

　　(1)关键词的提取在带有大量HTML标签的网页文件中，按照一定的规则，提取出能够代表网页内容的关键词。即提取后的关键词集合可以用公式(3.2)表示。

　　(3.2)

　　使用这个词集来表示网页内容。

　　(2)链接分析人们可以通过分析HTML文档中收录

的指向其他文档的链接信息来判断网页与网页内容之间的关系。

　　(3)网页重要性的计算是指在预处理中对网页重要性的判断，不同于后面提到的用户查询得到的网页重要性。也就是说，它与用户的查询无关。例如Google的核心技术PageRank就可以体现这种重要性。

　　3.5.3 搜索结果的评分排序算法

　　传统的元搜索引擎评分排序不涉及其他用户数据，而是孤立地对搜索结果进行排序。通常有两种重新排序的方法：

　　(1)使用标准评分机制重新评分后，对搜索结果进行排序。

　　此方法将为元搜索引擎调用的每个爬虫搜索引擎设置评论。

　　分数转换量表，然后根据评分标准重新排序。然而，这种方法所依赖的各种评分标准并不一定非常可靠。

　　(2) 每个搜索结果用自己的排序算法合并后，完全重新排序。

　　这里的排序算法与传统搜索引擎中的排序算法相同。这种方法一般可以

　　获得更准确的排序结果。但该方法需要下载所有网页进行分析，影响

　　响应速度会变慢。

　　推荐结果的分数计算：

　　为了表述方便，本项目假设有一个用户“张三”，本项目的搜索关键词为“职位”，二级分类为IT。本项目需要评估某页对张三的评价 pageA 的评分。本项目使用传统的概率统计方法来计算页面的得分。本项目首先根据本项目检索到的关键词“Jobs”的二级分类“IT”获取该类别的所有分词，同时记录分词的权重，然后进行计算每个分词在网页上出现的次数，因此该网页的得分可以通过公式（3.3）来计算。

　　(3.3)

　　并非所有推荐结果都符合推荐要求。为了过滤掉那些用户不感兴趣的搜索结果，本项目引入了搜索结果去噪算法。

　　本项目对搜索引擎返回的结果进行评分后，需要对结果进行过滤，去除噪声数据。本项目设置了一个比较合理的门槛。当评分结果大于定义的阈值时，为正常数据，否则为噪声数据，需要剔除。

　　搜索结果去噪算法的伪代码如算法3-2所示。

　　算法 3-2 搜索结果去噪

　　#defineVALUE5

　　如果（分数>5）

　　{

　　结果存储在数据库中；

　　}

　　别的

　　{

　　这时候是噪声数据，应该剔除掉；

　　}

　　需要仔细定义阈值。当阈值定义过大时，会严重影响系统收敛的速度。尤其是对于用户短期利益的收敛。

　　当阈值设置过大时，虽然系统可以发现用户新的兴趣倾向，但是在用户兴趣的初始阶段，这种兴趣会被认为是噪声而被过滤掉，所以系统不会推荐这种兴趣相关的信息给用户。浏览；这使得很难提高与此兴趣相关的关键词的权重。因此会出现推荐信息的权重会迅速增加，而新的兴趣爱好的权重却很难增加的现象。基于这些考虑，在评估系统的准确性时，需要仔细修改本项目中定义的阈值。

　　本项目以必应搜索“科比”为例，描述元搜索引擎的算法。

　　(1) 获取关键词。关键词是系统对页面自动分词聚类得到的分词。

　　(2)调用搜索引擎搜索关键字相关信息。本项目以必应搜索为例

　　图 3-4 必应搜索关键词“Kobe”

　　但是，返回的搜索结果是普通的 HTML 代码，如下所示。该项目需要提取HTML中每个搜索结果的超链接。

　　.htm"target="_blank"onmοusedοwn="returnsi_T('&ID=news,5034.2')">科比公开质疑工会此举，保罗接替老余出任下一任主席？

AI时代内容工厂

教程:2023最新SSM计算机毕业设计选题大全（附源码+LW）之java考研信息志愿采

0 个评论

发起人

AI时代内容工厂

教程:2023最新SSM计算机毕业设计选题大全（附源码+LW）之java考研信息志愿采

0 个评论

发起人

相关问题