基于主题的网络爬虫在主题搜索中的作用是什么

优采云发布时间: 2021-06-02 06:18

　　寻呼机来建立数据库。比如雅虎搜索。这种类型的搜索引擎的优点是页面的准确率非常高。缺点是索引库的更新需要人工干预，速度慢，覆盖面小，成本高。基于机器人的搜索引擎。其特点是网页信息采集不需要人工干预。它主要利用一个叫Robot的软件程序在网络上自动爬取信息采集，处理并提供查询服务，并能自动更新索引数据库。这类搜索引擎的典型代表是谷歌，它利用互联网中无处不在的超链接结构来自动抓取网页。其优点是成本低，缺点是分类不准确，误检和漏检率高。智能检索的搜索引擎。第三代搜索引擎的特点是增加了人工智能结果。利用Web数据挖掘技术，利用分词词典和同音词词典来提高搜索结果。此外，它还可以辅助知识层面或概念层面的查询。通过学科词典，上下位词典和相关词典的搜索处理形成一个知识体系或概念网络，给用户智能的知识提示，最终帮助用户获得最佳的搜索结果。出现主题和地理搜索服务。搜索平台逐渐向桌面、移动等方向扩展，向智能化、个性化方向发展。主题搜索引擎。在本文中也称为“专业搜索引擎”和“主题搜索引擎”，简称主题搜索引擎。主要是为用户提供某一主题或某一领域的网页资源的检索服务。它提供的资源与某个主题相关。服务更专业，具有一定的个性化。

　　因此，它比前三代搜索引文更有效、更准确。具有话题覆盖率高、话题爬虫在智能搜索引擎中的研究和实现程度高、搜索对象多样化、服务个性化、专业化等特点。事实上，话题搜索引擎涵盖了机器人搜索、人工智能等技术，在使用上更具有现实意义。基于主题的网络爬虫在主题搜索中的作用是根据启发式搜索策略从网络中获取相关资源，这在很大程度上缓解了用户使用搜索引擎获取大量不相关页面的问题。因此，针对当今用户对搜索引擎的实际需求，对主题爬虫进行研究是非常有用的。随着互联网服务的多元化，用户获取信息方式的变化以及服务商的技术创新，推动了搜索模式的变化，这也是不同搜索服务商之间竞争的核心。用户对搜索引擎的认知度和使用率持续快速提升，对搜索引擎的要求也越来越高。这将不可避免地加剧搜索服务提供商之间的竞争。但是，只有进步才会有竞争。搜索引擎肯定会向前发展。向更人性化、更实用的方向发展。为了跟上网络发展的速度，构建一个能够适应网络的基于主题的搜索引擎将面临许多挑战。网络文档采集所需的快速爬取技术存储索引和网络文档所需的大存储空间必须有效处理数据索引系统、快速查询检索系统等，随着网络的扩大，成为搜索的难点技术。

　　但是，随着时代的发展，硬件的效率也随着计算机技术的更新而迅速提高，这在一定程度上缓解了软件的难度。在此基础上，我们希望主题搜索引擎中的爬虫技术能够保证下载页面存储和索引的成本尽可能小，查询处理速度尽可能快。搜索引擎尽可能对用户友好。国外搜索引擎技术的发展已有十多年的历史。雅虎是第一个提供目录指南的搜索引擎。根据用户输入的搜索公式，雅虎会返回相关的雅虎分类、Web网站、网页和新闻。目前，AlatVisat 是互联网上最大的搜索引擎之一。它提供常规搜索、高级搜索和主题搜索，包括图像、视频和音频。 AlatVista 拥有的庞大数据库大大增加了用户查找所需信息的可能性。 Google 拥有 40 亿个可搜索网页，每天处理 2 亿个搜索请求。操作界面提供30多种语言选择，包括英语、欧洲主要语言、日语、中文简繁体、韩语等。目前*敏*感*词*对搜索引擎的研究始于上世纪末和本世纪初。虽然国内起步较晚，但也出现了一些优秀的产品。目前，中国技术最先进的搜索引擎是百度。功能齐全，包括新闻搜索、网站搜索、MP3搜索、图片搜索等。在中文搜索支持方面，在某些地方甚至超过了谷歌的更新速度。

　　在搜索结果中，百度也设置了相关搜索功能，可以为用户提供与查询相关的信息关键词，从而进一步提高查询的准确率。随着搜索市场价值的不断提升，越来越多的公司开发了自己的搜索页面引擎，如中国搜索、搜狐的搜狗、网易有道、阿里巴巴的商机搜索等，也纷纷出现。自然搜索引擎技术成为了技术员。关注的焦点。近年来，随着WWW技术的广泛应用，上面介绍的一些传统的通用搜索引擎面临着巨大的挑战。一是网络信息资源呈指数级增长。传统搜索引擎无法覆盖网络中的所有页面。然后，Web信息资源的动态变化。搜索引擎无法保证所有信息的及时更新。最后，传统搜索引擎提供的信息检索服务是做不到的。满足人们对个性化服务日益增长的需求。面对这些挑战，为了满足不同人群的需求，各种“话题搜索引擎”应运而生。主题特定搜索引擎引起了研究人员的注意。已成为当今社会的研究热点。新一代搜索引擎的研究正成为热点。这里是一个代表性的系统。 Scirus 是科学文献的主题搜索引擎。其信息来源主要包括网页和期刊两部分。它首先过滤网络中找到的结果，然后只列出收录科学信息的组件，方便科研人员。

　　伯克利的 Focused Project 系统使用两个程序来引导爬虫。一个是分类器，用于计算下载的文档与预定主题的相关性，另一个是净化器，用于识别指向许多相关资源的页面。基于概念搜索的sjeevs搜索引擎将用户的问题转化为系统已知的问题。在分析问题的结构和内容后，它要么直接给出问题的答案，要么引导用户从几个可选择的问题中进行选择。用户只需要输入一个简单的问句，比如等价句，就可以直接得到结果。 4 基于电路课程的主题搜索引擎的设计和本文的组织结构本文的研究目标是提出适合主题搜索引擎的网络爬虫技术和优化索引技术，构建主题搜索引擎系统基于电路课程，为今后某一领域的搜索引擎研究做准备工作。本文的研究思路是从话题搜索引擎网页爬取技术入手，在现有原有算法的基础上提出改进算法，并通过相应的测试对比应用到搜索引擎中的话题搜索引擎设计。考虑到人性化的特点，选择了AJAX自动显示技术域名过滤等优化方式，提高相应的访问效率。本文的内容共分为五章。第一章全面介绍了搜索引擎的起源、发展现状和趋势。针对通用搜索引擎存在的问题，提出了本论文的研究方向。主题搜索引擎。介绍了主题搜索引擎的背景和实用价值及理论意义。研究现状。

　　第二章介绍了主题搜索引擎的关键技术。主要介绍专业爬虫技术、中文分词技术、网页提取技术。本文主要选用ICTCLAS中文分词系统对网页自动分类聚类的一般步骤和方法进行总结比较。介绍了常用爬虫技术与专业爬虫技术的比较。网页提取技术为网络爬虫技术提供了铺垫。以上三项技术为第3章和第4章的详细设计和实现做准备。第三章主要是对主题搜索引擎系统的整体框架进行设计。首先介绍了专题搜索引擎和通用搜索引擎的框架结构以及本章主要重点工作的比较与选择。还详细介绍了网页抓取模块中的参数设置、主题词的选择、加权网页和聚合网页的选择。在此基础上，对主题搜索引擎系统的整体结构设计及相应的详细设计进行了分析和建议。第四章主要详细介绍了基于电路课程的主题搜索引擎的应用效果展示。真正实现有效、人性化的搜索结果，选择优化算法有效抓取网页的主题爬虫的设计和应用效果对比，为搜索引擎的应用做好必要的准备。第五章总结与展望对该搜索引擎运行的测试结果和存在的不足进行进一步讨论。第二章主题搜索引擎关键技术主题搜索引擎是为特定领域、特定人群或特定需求提供有价值的信息和相关服务。

　　它的特点是专业、成熟、深入和行业特定。它是一种与一般搜索引擎截然不同的引擎。主题搜索引擎专注于特定深度的垂直服务，致力于信息的全面性和特定领域的深度内容。此字段之外没有其他信息收录。搜索领域有句名言。用户不能描述他正在寻找什么，除非他被显示他正在寻找什么。来自微软研究院的一位技术专家表示，“一般搜索引擎无法搜索到 75 项内容”。话题搜索引擎的诞生是为了更大程度上提高搜索的“召回率”和“准确率”。主题搜索引擎通过对行业信息模型和用户模型的结构化采集或重组，提供更多、更专业、更个性化的行业相关服务。 1 主题搜索引擎功能模块主题搜索引擎的主要主要结构和结构模块如图1所示。网络爬取模块Web Spider是主题搜索引擎的第一步。本模块从互联网海量信息中抓取，与搜索引擎的主题相关。比如你设计了一个电路理论学习的话题搜索引擎，你可以根据话题词抓取到教育网站或相关网站。该模块还包括对网页进行预处理，去除一些不符合主题规范的网页，然后进行网页净化，使其符合提取规范。第二步是信息提取和索引模块。该模块的主要目的是生成倒排索引并存储。在数据库中，方便在查询模块中提高查全率和查准率。该模块是主题搜索引擎中最重要的部分。最关键的一步是从第一步得到的大量网页中提取信息。从大量结构化和非结构化数据中提取信息。

　　然后对提取的信息进行中文分词，建立倒排索引，生成索引文件，存入数据库。第三步是设计查询页面和查询算法，让用户可以根据第二步得到的索引文件进行查询。这一步的关键是如何设计一个优秀的查询算法来评估网页的“重要性”。搜索引擎针对以上三个模块选择相应的关键技术进行相应搜索引擎的研发。这里选取三项关键技术进行详细介绍。分别是网络爬虫技术、中文分词技术、信息抽取技术。 2 中文分词技术 10 英语和其他西方语言使用空格将单个单词分隔成句子。分词比较简单，但中文以汉字为单位。句子中的词与词之间没有空格，汉字使用“一字多义”，不同字符组合中词的含义多种多样，给分词造成很大困难，对汉语词汇识别也造成很大困难。常用词约30,000个。词可分为单字词、二字词、……七字词等。据统计，双音节词约占73个。单音节词约占9个。三音节词占约17个四个音节以上的词占约5个现有的分词算法可分为三类：基于字符串匹配的分词方法、基于统计的分词方法和给予理解的分词方法。机械分词方法需要分词词典的支持。它具有效率高、算法简单的特点，但难以消除机械分割带来的歧义。准确率很差。统计分词法根据词的出现频率来判断该词出现的概率。这种方法可以有效地识别新词。分词方法耗费大量时间和空间，效率有限，可以让计算机模拟人类对句子的理解来识别单词。由于语言知识和语言规则的复杂性，该方法仍处于研究阶段。

　　基于字符串匹配的分词方法。这种方法也称为机械分词方法。它按照一定的策略将要分词的汉字字符串与分词词典中的词条进行匹配。如果你在字典中找到了一些如果字符串匹配成功，则识别出一个单词。根据扫描方向的串匹配方式不同，可分为正向匹配和反向匹配。根据不同长度的优先匹配，可以分为最大最长匹配和最小最短匹配。根据是否结合词性标注过程，可分为简单分词。方法和分词与标注相结合的集成方法。几种常用的机械分词方法如下：正向最大匹配法的方向是从左到右，反向最大匹配法的方向是从右到左。最小分割是从右到左，以尽量减少每个句子中切出的单词数。上述方法也可以相互组合。中文单字构词的特点，正向最小匹配和反向最小匹配，一般很少用到。一般来说，反向匹配的分割精度略高于正向匹配，二义性较少。另一种方法是改进称为特征扫描或标记分割的扫描方法。优先识别和切分待分析字符串中一些特征明显的词。这些词可以作为断点，将原创字符串分割成几个较短的子字符串，然后机械分割，以降低匹配的错误率。另一种方法是将分词和词性标注相结合，利用丰富的词性信息帮助分词决策，并在标注过程中依次检查和调整分词结果，从而大大提高提高分割的准确性。

　　对于机械分词方法，可以建立一个通用的模型，正式表示为ASM或Automatic Segmentation Model。其中，匹配方向1表示正向，1表示反向。每次匹配失败后增加和减少字符串的长度。最大和最小匹配标志为 1 为最大匹配，1 为最小匹配。比如ASM就是前向减法最大匹配法，即MM法。 ASM就是逆减最大匹配法，即RMM法，等等。对于现代汉语，只有m 1 是一种实用的方法。该模型可用于比较各种方法的复杂性。假设字典的匹配过程采用顺序搜索和相同的初始词索引搜索方法，没有初始词索引的最小搜索次数为log。汉字总字数为12 14 并且将词典读入内存时，对于典型的词频分布减去词匹配ASM，基于统计的分词方法从形式上看是词的稳定组合，所以在上下文中同时出现的相邻词越多，就越有可能形成一个词。因此，字符与字符之间共现的频率或概率可以更好地反映为单词的可信度。可以统计语料中相邻共现字符的组合频率，计算出它们的相互出现信息。定义两个字符的相互出现信息。计算两个汉字A B 的相邻共现概率。互信息反映汉字之间组合关系的紧密程度。当接近度高于某个闭合值时，可以认为该词组可以构成一个词。

　　这种方法只需要统计语料中词组出现的频率，不需要对词典进行切分，所以也称为非词典切分法或统计分词法。但是，这种方法也有一定的局限性。它经常提取一些共现频率高但不是“this”、“one”、“you”、“my”、“many”等常用词组。常用词识别准确率差，时间和空间成本大。实际应用的统计分词系统必须使用一个基本的分词词典，用于字符串匹配和分词的常用词词典。同时，利用统计方法对一些新词进行识别，即串频统计和串匹配相结合，达到快速匹配分词的速度和效率。 Gao的特点是利用无词典分词结合上下文的优势，识别新词，自动消除歧义。哪种分词算法更准确，目前还没有定论。一个成熟的分词系统一般需要集成不同的算法。例如，有人提出了一种使用改进的马尔可夫N-gram语言模型的统计处理方法来处理分词中的歧义问题，以提高准确率。基于理解的分词方法这种分词方法通过让计算机模拟人类对句子的理解来达到识别单词的效果。基本思想是在切词的同时进行句法语义分析，利用句法语义信息处理歧义。它通常包括三个部分：分词子系统、句法语义子系统和通用控制部分。分词子系统在总控部分的协调下，可以获取单词、句子等的句法语义信息来判断分词的歧义，即模拟人们对句子的理解过程。

　　这种分词方法需要大量的语言知识和信息。由于汉语知识的普遍性和复杂性，很难将各种语言信息组织成机器可以直接读取的形式。因此，目前基于理解的分词系统还处于实验阶段。本课题选用ICTCLAS Institute Computing Technology Chinese Lexical Analysis System，一个基于Cascading Hidden Horse Model 10的中文词法分析系统。该系统的功能包括中文分词、词性标注、未注册词识别。分词准确率高达97 58。近期973专家组评价结果，基于角色标注的未注册词识别召回率达到90以上。中文姓名识别召回率接近98，分词和词性标注处理速度为543 5KB s。我们使用其完整的动态链接库ICTCLAS dll COM组件和对应的概率字典直接调用ICTCLAS。专业的爬虫技术我们把专业搜索引擎中使用的网络蜘蛛称为Topic Web Spider。主题网络蜘蛛只搜索特定领域的信息。它们用于专业搜索引擎系统，以满足特定人群的需求。随着人们对特定信息查询准确性要求的不断提高，专业搜索引擎越来越受到研究人员的关注。对于专业的搜索引擎系统，对主题网络蜘蛛的要求更高，搜索策略也更复杂。往往需要引入机器学习算法，使搜索具有适应性、学习性和进化性，使搜索到的网页尽可能接近。主题之间存在高度相关性。

　　1 专业搜索引擎中的网络蜘蛛模型。网络蜘蛛的任务是获取与当前主题相关的网页，并确定链接访问的顺序。它通常从用户查询、*敏*感*词*链接或*敏*感*词*页面等主题*敏*感*词*“*敏*感*词*集”开始，以循环迭代的方式访问互联网。在搜索过程中，网络蜘蛛根据链接在队列中的重要性决定下一个要访问的链接。整个过程如图2所示。 2专业网络爬虫模型图SpecificSearch Engine 从图2可以看出，专业搜索引擎网络蜘蛛模型的核心是链接值的计算和优先级控制器。它的作用是计算链接与话题的相关性，计算链接值来确定链接。访问顺序。话题网蜘蛛必须至少包括以下三个方面。启动“*敏*感*词*”链接，因为主题网络蜘蛛必须抓取尽可能多的与主题相关的网页。这就需要一组非常好的“*敏*感*词*”作为网络蜘蛛爬行的起始页面。这些好的“*敏*感*词*”页面和主题是必需的。的相关性非常高，通过这些“*敏*感*词*”页面，您可以找到尽可能多的其他主题相关页面。 10 11 话题关键词，因为话题网蜘蛛只抓取话题相关的页面，过滤掉与话题无关的页面。它需要网络蜘蛛以一组主题区分性很强的关键词进入搜索过程。这组关键词必须充分体现主题内容，并且能够区分其他主题，也就是说主题关键词都是

0

2021-06-02

搜索引擎主题模型优化

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

基于主题的网络爬虫在主题搜索中的作用是什么

0 个评论

发起人