搜索引擎主题模型优化(基于主题的网络爬虫在主题搜索中的应用(图))
优采云 发布时间: 2022-02-14 21:08搜索引擎主题模型优化(基于主题的网络爬虫在主题搜索中的应用(图))
页面成员创建数据库。比如雅虎搜索。就是这种类型的搜索引擎。优点是网页准确率高。缺点是索引数据库的更新需要人工干预,所以速度慢,覆盖范围小,成本高。基于机器人的搜索引擎。它的特点是网页信息采集不需要人工干预。它主要使用一个名为Robot的软件程序自动爬取网络信息采集,处理提供查询的服务,并能自动更新索引库。这类搜索引擎的典型代表是谷歌,它使用网络中普遍存在的超链接结构自动抓取网页。它的优点是成本较低,缺点是分类不准确和错误,漏检率高。智能搜索引擎。第三代搜索引擎的特点是加入了人工智能结果,利用Web数据挖掘技术,利用分词词典、词库和同音词词典提高检索效果,还可以辅助知识水平或概念层面。对同级词典和相关词典进行检索处理,形成知识体系或概念网络,给用户智能的知识提示,最终帮助用户获得最佳的检索效果。出现专题和区域搜索服务。搜索平台正逐步向桌面、移动等方向扩展,向智能化、个性化发展。主题搜索引擎。又称“专业搜索引擎”、“专题搜索引擎”,本文称为专题搜索引擎。主要为用户提供对某一主题或某一领域的网页资源的检索服务。
因此,它比前三代搜索爬升更有效、更准确,具有话题覆盖率高、话题爬虫在智能搜索引擎中的研究和实现程度高、检索对象多样化、服务个性化、专业化等特点。 . 事实上,主题搜索引擎涵盖了机器人搜索、人工智能等技术,在使用上更加实用。基于主题的网络爬虫在主题搜索中的作用是根据启发式搜索策略从网络中获取相关资源,极大地缓解了用户使用搜索引擎获取大量不相关页面的问题。因此,结合当今的实际需求,对话题爬虫进行研究是非常有用的。搜索引擎上的用户。随着用户从多样化的互联网服务中获取信息方式的改变和服务提供商的技术创新,搜索模式的变化也是不同搜索服务提供商之间竞争的核心。用户对搜索引擎的认知度和使用率持续快速提升,对搜索引擎的要求也越来越高,这必然会加剧搜索服务商之间的竞争。正朝着更加人性化、实用化的方向发展。为了跟上网络发展的速度,构建一个能够适应网络的话题搜索引擎将面临诸多挑战。采集网络文档所需的快速爬取技术,存储索引和网络文档所需的大存储空间,
但随着时代的发展,计算机技术对硬件的更新效率也在迅速提高,这在一定程度上缓解了软件方面的困难。在此基础上,我们希望基于主题的搜索引擎中的爬虫技术能够保证下载待存储和索引页面的成本尽可能小,查询速度尽可能快,搜索引擎尽可能方便用户。国外搜索引擎技术的发展已有十多年的历史。雅虎是第一个提供类别指南的搜索引擎。根据用户输入的搜索类型,yahoo会返回相关的yahoo分类、Web网站、网页和新闻。目前 AlatVisat 是 Internet 上最大的搜索引擎之一。它提供一般搜索,高级搜索和主题搜索,包括图像、视频和音频。AlatVista 拥有的庞大数据库极大地增加了用户查找所需信息的可能性。Google 拥有 40 亿个可搜索网页,每天处理 2 亿个搜索请求。操作界面提供30多种语言选择,包括英语、欧洲主要语言、日语、简繁体中文、韩语等。目前,*敏*感*词*对搜索引擎的研究始于上世纪末本世纪初。虽然在中国起步较晚,但也出现了一些优秀的产品。目前,中国技术水平最高的搜索引擎是百度。新闻搜索、网站搜索、MP3搜索、图片搜索等功能齐全。
在搜索结果中,百度还设置了相关搜索功能,可以为用户提供与查询关键词相关的信息,从而进一步提高查询的准确性。随着搜索市场价值的不断提升,越来越多的公司开发了自己的搜索页面引擎,如中国搜索、搜狐的搜狗、网易有道、阿里巴巴的商机搜索等。自然搜索引擎技术也变成了技术员。关注热点。随着近年来WWW技术的广泛应用,上面介绍的一些传统通用搜索引擎面临着巨大的挑战。首先是Web信息资源呈指数增长,传统搜索引擎无法覆盖网络中的所有页面,其次是Web信息资源的动态变化。搜索引擎不能保证及时更新所有信息。最后,传统搜索引擎提供的信息检索服务无法满足人们日益增长的个性化服务需求。面对这些挑战,各种满足不同人群需求的“话题搜索引擎”应运而生。主题特定搜索引擎应运而生并引起了研究人员的关注。已成为当今社会的研究热点。新一代搜索引擎的研究成为热点。让我们看一个有代表性的系统。Scirus 是一个科技文献的主题搜索引擎。其信息来源主要包括网页和期刊两部分。
伯克利的 Focused Project 系统通过两个程序引导爬虫,一个是计算下载文档与预定主题的相关性的分类器,另一个是识别指向许多相关资源的页面的净化器。基于概念搜索的 sjeevs 搜索引擎将用户问题转换为系统已知的问题。在分析问题的结构和内容后,直接给出问题的答案或引导用户从几个可选问题中进行选择。用户只需输入等号等简单问题即可直接得到结果。4 基于电路课程的学科搜索引擎设计及本文的组织结构 为研究搜索引擎做准备。本文的研究思路是从主题搜索引擎的网络爬取技术在现有原创算法的基础上提出改进算法,并通过相应的测试与主题搜索引擎进行对比应用。它在搜索引擎的设计中充分考虑到人性化的特点,选择了AJAX自动显示技术域名过滤等优化方式,提高了相应的访问效率。本文的内容分为五章。第一章全面介绍了搜索引擎的起源、发展现状和趋势。针对一般搜索引擎存在的问题,提出了本论文的研究方向。主题搜索引擎介绍背景,主题搜索引擎的实用价值和理论意义。目前的研究情况。
第二章介绍主题搜索引擎的关键技术,主要介绍专业爬虫技术、中文分词技术、网页提取技术。爬虫技术与专业爬虫技术对比 网页提取技术为网络爬虫技术奠定了基础。以上三项技术是为第三、四章的详细设计和实现做准备。第三章主要设计了本课题搜索引擎系统的总体框架。首先介绍了主题搜索引擎和通用搜索引擎的框架结构,以及网络蜘蛛算法的比较和选择,这是本章的主要工作。还详细介绍了网络爬虫模块中参数设置主题词的选择、权重网页和聚合网页的选择。第四章主要详细介绍了基于电路课程的主题搜索引擎的应用结果演示,真正实现有效、人性化搜索结果的优化主题爬虫的设计和应用效果,选择优化算法有效爬取网页以页面为主题 为搜索引擎的应用做必要的准备。第五章对搜索引擎运行的测试结果及其不足进行了总结,期待进一步探讨。
其特点是专、精、深、具行业色彩。它是一种与一般搜索引擎截然不同的引擎。专题搜索引擎专注于特定且深入的垂直服务,致力于特定领域信息的全面性和该领域外杂项信息的深度内容。在搜索领域有一句名言,用户无法描述他正在寻找的东西,除非他看到他正在寻找的东西。微软研究院的一位技术专家表示,“75%的内容是一般搜索引擎无法搜索到的”。话题搜索引擎的诞生是为了更大程度地提高搜索的“召回率”和“准确率”。主题搜索引擎提供更多,通过对行业信息模型和用户模型的结构化采集或重组,提供更加专业化、个性化的行业相关服务。1 主题搜索引擎功能模块主题搜索引擎的主要结构和结构模块如图1所示。网页抓取模块Web Spider是主题搜索引擎的第一步。比如设计电路理论学习的学科搜索引擎,可以根据学科词爬取到教育网站或者相关网站。该模块还包括对网页进行预处理,去除一些不符合主题规范的网页,然后对网页进行净化,使其符合提取规范。第二步是信息提取和索引模块。该模块的主要目的是生成倒排索引并存储。在数据库中,便于查询模块提高查全率和查准率。该模块是主题搜索引擎中最重要的链接。最关键的一步是从第一步获得的大量结构化网页中提取信息。并从非结构化数据中提取信息。
然后对提取的信息进行中文分词,建立倒排索引,生成索引文件,存入数据库。第三步,设计查询页面和查询算法,使用户可以根据第二步得到的索引文件进行查询。这一步的关键是如何设计一个优秀的查询算法来评估一个网页的“重要性”。搜索引擎针对上述三个模块选择相应的关键技术,进行相应搜索引擎的研发。这里选择三个关键技术进行详细介绍。网络爬虫技术、中文分词技术、信息抽取技术。2 中文分词技术 10 英文和其他西方语言使用空格分隔单个单词,形成分句。不同字符组合的词具有不同的含义,这给分词和汉语词汇识别带来了很大的困难。常用词有30,000多个。词可分为一字词、二字词、……七字词等。据统计,二音节词最多占单音节词73个左右,三音节词约占17、四音节以上的词约占5个。现有的分词算法可以分为三类:基于字符串匹配的分词方法、基于统计的分词方法和理解分词。机械分词方法需要分词词典的支持。它具有效率高、算法简单的特点,但难以消除机械分割带来的歧义。准确率很差。统计分词方法是根据词出现的频率来判断一个词出现的概率。时空消耗大、效率有限、对分词方法的理解,让计算机可以模拟人类对句子的理解来识别单词。由于语言知识和语言规则的复杂性,该方法仍处于研究阶段。但很难消除机械分割带来的歧义。准确率很差。统计分词方法是根据词出现的频率来判断一个词出现的概率。时空消耗大、效率有限、对分词方法的理解,让计算机可以模拟人类对句子的理解来识别单词。由于语言知识和语言规则的复杂性,该方法仍处于研究阶段。但很难消除机械分割带来的歧义。准确率很差。统计分词方法是根据词出现的频率来判断一个词出现的概率。时空消耗大、效率有限、对分词方法的理解,让计算机可以模拟人类对句子的理解来识别单词。由于语言知识和语言规则的复杂性,该方法仍处于研究阶段。和理解分词方法可以让计算机模拟人类对句子的理解来识别单词。由于语言知识和语言规则的复杂性,该方法仍处于研究阶段。和理解分词方法可以让计算机模拟人类对句子的理解来识别单词。由于语言知识和语言规则的复杂性,该方法仍处于研究阶段。
基于字符串匹配的分词方法 这种方法也称为机械分词方法。它按照一定的策略将待分词字符串与分词词典中的词条进行匹配。如果在字典中找到某个字符串,则匹配成功意味着一个单词被识别。根据扫描方向的字符串匹配不同,分词方法可分为正向匹配和反向匹配。根据长度优先匹配的不同,可以分为最大最长匹配和最小最短匹配。根据是否与词性标注过程相结合,可分为简单分词法和分词与标注相结合的综合法。几种常用的机械分词方法如下:正向最大匹配法,方向从左到右,反向最大匹配法,方向从右到左,最小切分以尽量减少每个句子中切出的单词数。上述方法也可以相互结合,因为汉语构词的特点一般很少用到前向最小匹配和反向最小匹配。一般来说,反向匹配的分割精度略高于前向匹配,遇到的歧义较少。另一种方法是改进扫描方法,称为特征扫描或标志分割。首先,对待分析字符串中一些特征明显的词进行识别和分割。使用这些词作为断点,原创字符串可以分为几个部分。然后对较短的子串进行机械分段以降低匹配错误率。另一种方法是将分词和词性标注结合起来,利用丰富的词性信息帮助分词决策,进而在标注过程中检查和调整分词结果,从而大大提高准确率的分割。
对于机械分词方法,可以以ASM的形式建立一个通用的模型,即AutomaticSegmentation Model。其中,匹配方向1表示正向,1表示反向。每次匹配失败后,增加和减少字符串长度中的字符数。最大和最小匹配标志为 1 表示最大匹配,1 表示最小匹配。例如,ASM是正向减法最大匹配法,即MM法,ASM是反向减法最大匹配法,即RMM法,等等。对于现代汉语来说,只有 m 1 是一种实用的方法。使用该模型,可以比较各种方法的复杂性。假设字典的匹配过程使用顺序搜索和首词索引相同的搜索方式,没有第一个词索引的最小搜索次数是 log 汉字总数 12 14 和 字典读入内存时间的情况下,对于典型的词频分布,词匹配,基于统计的ASM,分词方法. 形式上,词是词的稳定组合,因此相邻词在上下文中出现的次数越多,就越有可能形成一个词。因此,单词相邻共现的频率或概率可以更好地反映为单词的可信度。可以统计语料库中相邻共现词组合的频率,计算出它们的相互出现信息。定义两个汉字的相互出现信息,计算两个汉字AB的相邻共现概率。互信息反映了汉字之间组合关系的紧密程度。当接近度高于某个接近值时,可以认为这个词组可能构成一个词。
这种方法只需要统计词组在语料库中出现的频率,不需要对字典进行划分,因此也称为免字典分词法或统计分词法。但是,这种方法也有一定的局限性。往往会提取一些共现频率高但不是词的常用词组,如“this”、“one”、“some”、“my”、“many”等,常用词的识别准确率较差,时间和空间开销很大。统计分词系统的实际应用必须使用一个基本的分词词典,常用的词典进行字符串匹配分词,同时使用统计方法识别一些新词。将字符串频率统计和字符串匹配结合起来,不仅会发挥快速高效的匹配分词功能,还利用了免词典分词结合生词上下文识别和自动消歧的优势。哪种分词算法更准确,目前尚无定论。一个成熟的分词系统一般需要集成不同的算法。例如,有人提出了一种使用改进的马尔科夫 N-gram 语言模型来处理分词中的歧义问题以提高准确率的统计处理方法。基于理解的分词方法这种分词方法通过让计算机模拟人类对句子的理解来达到识别单词的效果。其基本思想是通过在分词的同时进行句法和语义分析,利用句法和语义信息来处理歧义。它通常包括三个部分:分词子系统、句法语义子系统和通用控制部分。在总控部分的协调下,分词子系统可以获取单词、句子等的句法和语义信息来判断分词的歧义,即模拟人类理解句子的过程。
这种分词方法需要使用大量的语言知识和信息。由于汉语知识的普遍性和复杂性,很难将各种语言信息组织成机器可以直接阅读的形式,因此基于理解的分词系统还处于试验阶段。本课题选用基于级联隐马模型10的汉语词法分析系统ICTCLAS Institute ComputingTechnology Chinese Lexical Analysis System。系统功能包括汉语分词、词性标注、未注册词识别。分词正确率高达97 58。根据近期973专家组评估结果,基于角色标注的未注册词识别可以达到90以上的召回率。其中,中文姓名识别的召回率接近98,分词和词性标注的处理速度为543 5KB 秒。我们使用其完整的动态链接库ICTCLAS dll COM组件和对应的概率字典直接调用ICTCLAS。专业爬虫技术我们把专业搜索引擎中使用的网络蜘蛛称为Topic Web Spiders。主题网络蜘蛛只搜索特定领域的信息,用于专业的搜索引擎系统,以满足特定人群的需求。随着人们对特定信息查询准确性要求的不断提高,专业化的搜索引擎越来越受到研究者的重视。对于专业的搜索引擎系统,对主题网络蜘蛛的要求更高,其搜索策略也更复杂。往往需要引入机器学习算法,使搜索具有一定的适应性、学习性和进化性。主题之间有高度的相关性。
1 专业搜索引擎中的网络蜘蛛模型主题网络蜘蛛的任务是获取与当前主题相关的网页,并决定访问链接的顺序。它通常从用户查询、*敏*感*词*链接或*敏*感*词*页面等主题*敏*感*词*“*敏*感*词*集”开始,通过迭代的方式循环访问互联网,在搜索过程中,网络蜘蛛根据重要性决定下一个要访问的链接队列中的链接。整个流程如图2所示。 2 专业网络爬虫模型 图SpecificSearch Engine 从图2可以看出,专业搜索引擎网络蜘蛛模型的核心是链接值的计算和优先级控制器。访问顺序。主题网络蜘蛛至少应收录以下三个方面。开始“*敏*感*词*” 链接,因为主题网络蜘蛛必须尽可能多地抓取与主题相关的页面。这需要一组非常好的“*敏*感*词*”作为网络蜘蛛爬行的起始页面。这些好的“*敏*感*词*”页面,要求与主题相关的相关性应该很高,而通过这些“*敏*感*词*”页面,你可以找到尽可能多的与主题相关的其他页面。10 11 主题关键词,因为主题网络蜘蛛只抓取与主题相关的页面,过滤掉与主题无关的页面。要求网络蜘蛛必须在搜索过程中携带一组具有很强主题区分性的关键字。这组关键词必须充分反映主题内容,并能够区分其他主题内容。也就是说,主题关键词都是 这需要一组非常好的“*敏*感*词*”作为网络蜘蛛爬行的起始页面。这些好的“*敏*感*词*”页面,要求与主题相关的相关性应该很高,而通过这些“*敏*感*词*”页面,你可以找到尽可能多的与主题相关的其他页面。10 11 主题关键词,因为主题网络蜘蛛只抓取与主题相关的页面,过滤掉与主题无关的页面。要求网络蜘蛛必须在搜索过程中携带一组具有很强主题区分性的关键字。这组关键词必须充分反映主题内容,并能够区分其他主题内容。也就是说,主题关键词都是 这需要一组非常好的“*敏*感*词*”作为网络蜘蛛爬行的起始页面。这些好的“*敏*感*词*”页面,要求与主题相关的相关性应该很高,而通过这些“*敏*感*词*”页面,你可以找到尽可能多的与主题相关的其他页面。10 11 主题关键词,因为主题网络蜘蛛只抓取与主题相关的页面,过滤掉与主题无关的页面。要求网络蜘蛛必须在搜索过程中携带一组具有很强主题区分性的关键字。这组关键词必须充分反映主题内容,并能够区分其他主题内容。也就是说,主题关键词都是 页面需要与主题相关,相关性应该很高,通过这些“*敏*感*词*”页面,你可以找到尽可能多的与主题相关的其他页面。10 11 主题关键词,因为主题网络蜘蛛只抓取与主题相关的页面,过滤掉与主题无关的页面。要求网络蜘蛛必须在搜索过程中携带一组具有很强主题区分性的关键字。这组关键词必须充分反映主题内容,并能够区分其他主题内容。也就是说,主题关键词都是 页面需要与主题相关,相关性应该很高,通过这些“*敏*感*词*”页面,你可以找到尽可能多的与主题相关的其他页面。10 11 主题关键词,因为主题网络蜘蛛只抓取与主题相关的页面,过滤掉与主题无关的页面。要求网络蜘蛛必须在搜索过程中携带一组具有很强主题区分性的关键字。这组关键词必须充分反映主题内容,并能够区分其他主题内容。也就是说,主题关键词都是 10 11 主题关键词,因为主题网络蜘蛛只抓取与主题相关的页面,过滤掉与主题无关的页面。要求网络蜘蛛必须在搜索过程中携带一组具有很强主题区分性的关键字。这组关键词必须充分反映主题内容,并能够区分其他主题内容。也就是说,主题关键词都是 10 11 主题关键词,因为主题网络蜘蛛只抓取与主题相关的页面,过滤掉与主题无关的页面。要求网络蜘蛛必须在搜索过程中携带一组具有很强主题区分性的关键字。这组关键词必须充分反映主题内容,并能够区分其他主题内容。也就是说,主题关键词都是