搜索引擎主题模型优化 Vol29NoNo3第29卷第3期(组图)
优采云 发布时间: 2021-05-01 02:21搜索引擎主题模型优化
Vol29NoNo3第29卷第3期(组图)
主题爬虫改进算法的个性化搜索引擎应用研究Vol29No3,第29卷,第3期,海南大学学报自然科学版,2011年9月,2011年9月103022105 文章否。山东济南香联250013山东黄河信息中心摘要研究了常用搜索引擎的技术特点和实现过程,进行了系统的分析和比较研究。基于主题改进的爬虫程序算法设计,实现了可以更好地满足用户不同搜索需求的主题搜索引擎。搜索引擎科学,高效,实用且易于操作。使用此搜索引擎可以查询和搜索多个大网站。实验数据比较结果表明,该引擎的数据可搜索性和其他优势均高于普通搜索。该引擎具有很高的推广和利用价值关键词主题爬虫改进算法搜索引擎TP391A中文图书馆分类号文档标记代码随着网络信息技术的迅猛发展,搜索引擎的主要重点是如何查找更多信息并进行转移。如何找到准确和有用的信息准确性已成为搜索引擎的主要目标,而这些正是综合搜索引擎所面临的问题。因此,专门设计用于查询特定主题或主题信息的主题搜索引擎应运而生,并成为搜索引擎的发展。主要趋势之一。这种类型的搜索引擎专注于自身的专业知识和核心技术,以确保该领域的完整信息收录和及时更新。它在提供专业信息方*敏*感*词*有无与伦比的优势,并已成为搜索引擎的发展。新趋势1搜索引擎类型23根据搜索引擎的技术原理主要分为几类。 1目录搜索引擎手动或*敏*感*词*搜索信息。编辑者查看信息后,将手动形成信息摘要,并将信息放置在预定的分类框中。在2RobotRobotFull中,基于搜索引擎的搜索引擎提供全文搜索。它也被称为全文搜索引擎。 TextRobot使用程序从Internet搜索信息,并建立索引数据库以检索与用户查询条件匹配的相关记录,然后按特定顺序返回结果。为用户提供三元素搜索引擎。这种类型的搜索引擎没有自己的数据库。同时向多个搜索引擎提交用户查询请求。以面向Web服务的方式实现文档的全文检索,然后在处理结果之前对返回的结果进行排序。返回用户2面向主题的改进爬虫程序算法设计21 HTML Web爬虫程序的工作原理Web爬虫是一个强大的程序,可以自动提取网页以通过文档访问W
网站遍历空间不断地从一个网站转移到另一个网站,并自动建立索引并添加到网页数据库中。 Web HTMLURL Web爬网程序使用语言标记结构来搜索信息,并在输入超文本时获取指向其他超文本的指向URL 312主题爬网程序还需要解决一个主要问题。搜寻目标的描述或定义。网页或数据分析以及3URL过滤的搜索策略。 URL爬网目标的描述和定义是确定Web分析算法和搜索策略的方式的依据。制定公式的基础以及Web页面分析算法和候选URL排序算法是确定搜索提供的服务形式的关键引擎和爬网程序抓取网页的行为。同时,算法的这两个部分20110407接收日期1979作者简介张安妮女山东东营山东黄河信息中心工程师硕士与224主题爬虫算法密切相关爬虫算法爬虫程序的爬虫过程分别使用一个队列,等待队列爬行队列错误队列完成队列URL解析的URL等待队列采集器程序首先保存以等待等待队列根据特定的排序规则在等待队列中排序。在对URL爬网队列进行爬网时,将等待爬网程序的爬网URL放在爬网队列中。目的是防止同时抓取URL多次。错误的队列正在爬网过程中。错误将保存到错误队列URL URL完成队列中。在由采集器程序完全搜寻之后,它将被放置在完成队列中。 31图中显示了主题采集器程序搜索框架图。爬网算法如下:1 URLURLQURL步骤将初始页面集合放入等待队列,并为每个A相关消息值分配一个值,并将每个相等的相关值分配给稍后将要计算的较大值。初始页面将根据主题进行人为过滤,因此与主题2紧密相关,在给定较高的相关性值的情况下人为地设置了较高的主题。优点之一是减少了采集器程序的计算量。一些*敏*感*词*站点不需要通过相关性计算。另一个是可以将它们放置在等待队列中的较高位置。在将来的更新过程中,可以首先更新2URLQ步骤。根据值的大小对队列中的队列进行排序,然后根据相关性的大小对队列进行排序。根据这些步骤,URL步骤分为32个步骤。等待队列将被整理并放入爬网队列。采集器程序开始搜寻4个URL步骤,以将网页下载到本地磁盘并进行构建。然后,索引将地址放入完成队列中。步骤5使用解析器解析网页中的链接和相应的链接文本。计算链接地址的相关性值。步骤64f将在步骤中获得的相关值与相关性阈值进行比较。 3结果有两种情况:1q第一种情况是相关值大于相关阈值,且父网页的相关消息值等于初始值,则直接传递父网页的值q子网页2qq的第二种情况是相关性值
如果相关性值大于相关性阈值,并且父网页的相关性消息值小于初始值,则恢复的值为初始q值,并将该值传递给子网页3qm0。在第二种情况下,相关性值小于相关性阈值,则父页面的值。子页面的mq1q子页面的相关性消息值乘以遗传基因比率为7URLq2步骤将值相关性将值放入等待队列中,重复步骤8,算法结束3张安妮等面向主题爬虫的个性化搜索引擎应用程序的改进算法研究编号223473改进的搜索引擎模型设计5将搜索引擎模型设计分为几部分来确定网页爬取,网页预处理,网页分类和网页选择系统2*敏*感*词*如图2所示。主题确定主要由主题词集建立。主题中的每个主题词指定不同的权重。权重设置采用各种特征提取方法和手动设置网页爬网方法。主题采集器程序从给定的链接集开始,并按照链接的权重顺序进行搜索。检索到的网页已交付。对于预处理模块,由于存在重定向链接和镜像站点,因此必须检查链接和文档以防止爬网重复的网页。 PorterStemming网页预处理浅文本预处理技术用于规范化文本。在当前的实现中,使用了众所周知的算法。 CTCLASI方法该体系结构的模块化方法还允许用户使用更成熟的语言处理技术,例如用于处理中文GATESMES,用于处理英语,用于处理德语以及其他网页分类。网页分类器的作用是确保采集器程序能够爬行。网页可以与主题尽可能接近,以过滤网页并删除与主题相关性较低的网页。向量空间模型算法用于计算网页的主题相关性。在向量空间模型中,每个商品nni文件将一个等长维向量ωωω表示为一个单词。表ω的大小是词汇表中第一个关键词的权重。 12ni网页选择器主要计算网页的重要性,以确定网页的访问顺序,并首先对高价值网页进行排名。 URLPageRank判断在实际应用中的重要性。算法有很多文章使用改进的超链接分析算法4实验数据分析41 PrecisionRe-2主题网络爬虫搜索算法的评估指标主要包括爬网率和爬网率测试指标8 callPrecision 1定义了爬网率的目标页面数采集已检索页面的总数调用检索率采集目标页面的数量目标页面的总数2400鉴于评估需求,已设置了采集器程序测试条件,最大搜索深度为。线程。与主题相关的0120度的阈值设置为“手动”。所选网页主题*敏*感*词*的数量为CPU。在整个测试过程中,作者将主题采集器的搜寻率与普通采集器算法4的搜寻率利用率进行了比较。
2BM12GWndows7SqServerIil测试数据处理实验环境计算机站Core Duo处理器存储系统2008100Mbps400数据库网络带宽进行爬网的线程数被设置为主题,新闻,经济,技术和教育81体育,军事,汽车和娱乐的初始*敏*感*词*选择和表1表初始*敏*感*词*列表初始*敏*感*词*常规类别初始*敏*感*词*主题类别wwwsohucomwwwnewssohucom新闻类别wwwfnancepeopecomcnil经济类别wwwpeoplecomcnwwwtechqqcom技术类别wwwqqcomwwweduyouucomk教育类别wwwyoukucomwwwnewscnsports体育类别wwwxinhuanetcomwwwnewsifengcommil军事类别Environmentonmentmentmenten有效的链接数和从搜索引擎抓取223次后获得的搜索引擎的分析页总数该表和表中显示了五种*敏*感*词*。通过实验数据的比较,基于主题的爬虫优化算法的搜索引擎要优于普通搜索引擎。该系统的设计目标是确保在不影响其他程序执行的情况下实时捕获23个常规搜索引擎测试数据表。主题搜索引擎测试数据表是面向主题的搜索引擎测试数据表。主题常规搜索引擎主题是面向主题的搜索引擎。 416571新闻新闻经济331467技术技术502642教育教育602759体育体育340492军事554635汽车456511娱乐和娱乐870934有效页平均平均值40715011页数分析页号CPUCPU相关度53606002利用率检查利用率校验9691,准确,准确,完整面向主题的爬虫算法(646572),速率(773),改进的搜索引擎,在爬网速度和准确性方面明显优于常规搜索引擎测试结果,而面向主题的爬虫在CPU利用率方面也很高。肖宗和志旺基于通用的采集器算法5,通过网络采集器算法分析了网站搜索引擎中的应用过程,并从中国许多知名的网站中采集了数据。 3张安妮等面向主题的爬虫提高了算法个性在化学搜索引擎应用研究中的第225引擎基本达到了预期的效果。
在随后的研究过程中,我们必须继续扩大测试数据容量,增加分类词汇量,改进优化搜索算法,修改结果,设计更准确和高效的搜索引擎,并更好地推广高级应用程序。搜索引擎技术对各种电子政务网络的支持Office系统中的参考1J2010112525徐海燕刘勇搜索引擎的工作原理和发展趋势科学与技术创新指南2J2刘金宏陆玉良主题Web爬虫研究摘要计算机应用研究3J20083034656 Web爬虫搜索策略研究主题搜索引擎计算机工程与科学李勇韩亮4J2868汤波Web爬虫网络通信与安全的设计与实现5J22智能Web爬虫的研究与分析西华大学学报自然科学版杜亚军6J2刘洁清吴静辉的设计与实现主语ented个人实时搜索引擎现代图书馆和信息技术7WebJ21徐远超设计和实施的网络爬虫基于微机的控制信息集成ApplicationofPesonalizedSeachEngineFacingSubectrrjReptileImprovedAlgorithmZHANGAn-niJIANGHuaHAOXiang-lianShandongYellowRiverInformationCenterjinan250013ChinaAbstactInourreportthegeneracharacterstcsofsearchengnetechnoogyandthempementatonprocessrliiililiwerestudiedandthesubjectimprovedreptilealgorithmweresystematicanalyzedandcomparedabettersearchenginetomeettherequirementsofdifferentusersweredesignedandwhichhasthescientificnaturehighlyef-fectvetheusabtyeasyoperatonaandsoonmertsThssearchengnewasusedtoqueryonanumberofiil
接触页ApplicationofDistanceSum-basedOutliersDetectionAlgorithmintheConcentationAnalysisofGasr12GUHong-boZHANGXing1SchoolofComputerInformationTechnologyNortheastPetroleumUniversityDaqing163318China2DaqingOilfieldMaterialsCorporationDaqing163453ChinaAbstractTInourreportseveraloutliersdetectionalgorithmwereintroducedandtheircharacteristicsweresummarizedBasedontheshortagesofalgorithmandtheactualityofthewarningsystemadistancesum-basedoutersdetectonagorthmswasusedtoanayzethegasconcentratonandtheabnormtydatawerefoundTheliililiitestresultsindicatedthatthemodelcaneliminatetheerroralarmphenomenoneffectivelyKeywordsoutliersdetectiondistancesum-basedgasconcentration
关于所有通用搜索引擎的总结和结论表明,该数据所产生的原因和对lililiilliiofit的重视高于具有较高推广价值的通用搜索引擎,而该关键词被爬行动物改进了算法研究引擎220