搜索引擎智能化技术中若干关键问题的研究与实现
优采云 发布时间: 2021-03-31 01:07搜索引擎智能化技术中若干关键问题的研究与实现
搜索引擎智能技术中若干关键问题的研究与实现【摘要】随着互联网技术的飞速发展和网络信息资源的爆炸性增长,互联网用户数量也以惊人的速度增长。越来越多的网民已经习惯于通过搜索引擎检索上的信息。现在,搜索引擎已成为人们必备的网络应用工具。随着搜索引擎应用程序的广泛普及,人们不再满足于传统搜索引擎提供的服务。人们希望搜索引擎可以更智能,更人性化。检索结果可以更准确,这些新要求对搜索引擎技术提出了更高的要求。本文对智能搜索引擎技术领域中的几个关键问题进行了一些探索性研究,这是目前研究的热点。内容主要包括:1)基于网站优先级调整算法提出并实现了网页信息动态采集技术,该技术通过检测采样的平均新鲜度的变化来动态调整网站的优先级。网页,从而实现动态调整相应的网站个网页信息采集的频率。 2)研究了网页源代码中中文文本密度与网页文本之间的关系,提出并实现了一种基于文本密度的网页文本提取算法,并摆脱了现有的网页HTML(Text Mark)网页文本提取算法。 -up,超级文本标记语言)标签依赖性,并辅以某些规则,以实现高效,快速地提取网页文本。 3)研究了自动文本分类领域中的几个关键问题,提出并实现了基于哈希表的动态向量维数缩减。越来越多了。而且随着范围的扩大,没有随之而来的,他们希望越来越多。新的功能... 关键词智能搜索引擎技术网页信息动态采集系统网页文本提取网页分类算法网页摘要矢量动态降维[关键]网页网页文本网页网页[订购硕士论文全文] Q联系人Q现收现付目录摘要4-5 5-6第1章简介11-21 1. 1主题选择的背景和意义11-12 1. 2*敏*感*词*相关工作概述12-19 1. 2. 1网页信息动态采集技术12-13 1. 2. 2中文网页文本提取技术13-15 1. 2. 3自动文档摘要技术15-17 1. 2. 4自动文本分类技术17-18 1. 2. 5网页重复数据删除技术18-19 1. 3论文工作和组织结构19-21 1. 3. 1论文主要研究工作19-20 1. 3. 2论文内容安排20-21第2章基于网站优先级调整的网页信息动态采集算法21-27 2. 1算法流程图21-23 2. 2网页新鲜度算法23 2. 3 网站基于网页的新鲜度23-25 2. 4基于网站优先级的多线程Web信息采集技术25-26 2. 5根据网页类别26 2. 6确定优先级概述26-27第3章基于文本密度的网页正文提取算法的研究27-33 3. 1算法流程图27 3. 2文本特征的识别和处理27-28 3. 3网页的预处理源代码28-29 3. 4 net页面文本源行的中文密度计算29 3. 5网页源文本块29 3. 6伪网络的去除源文本块29-31 3. 7辅助网页源代码文本识别方法31 3. 8原创网页文本格式保留问题31 3. 9章摘要31-33第4章基于主题词索引的网页分类算法研究33-52 4. 1概述33-34 4. 2开放测试和封闭测试34 -35 4. 3算法性能评估指标35-36 4. 4与网页分类算法相关的基础研究36-42 4. 4. 1文本表示36-37 4. 4. 2基于矢量模板37 4. 4. 3构造向量空间模型基于哈希表的向量空间模型37-39 4. 4. 4基于概念分析的主题词提取算法39-40 4. 4. 5改进的向量余弦相似度算法40-42 4. 5 A基于主题词索引的类别中心向量分类算法42-46 4. 5. 1生成分类器模型43 4. 5. 2分类算法43 4. 5. 3向量的归一化43 4. 5. 4采取类别数对分类准确性的影响43-44 4. 5. 5文档类别分布对于分类是正确的速率44 4. 5. 6中心向量校正算法的影响44-46 4. 5. 7分类算法的自适应性46 4. 6 KNN(K最近邻)分类算法46-48 4. 7 CKNN(聚类K最近邻)分类算法48-50 4. 8本章摘要50-52第5章基于相似度的文本摘要研究52-64 5. 1基于相似度的文本摘要52 5. 2文档结构模型52 5. 3分段和从句52-54 5. 4主题词提取54-55 5. 4. 1主题词字符串向量化54 5. 4. 2构造文档结构向量空间模型54- 55 5. 5计算文档结构各部分的权重55-57 5. 6正负规则57 5. 7用户首选项词汇表57 5. 8基于句子基于相似度的句子冗余算法57- 58 5. 9确定摘要和原文的比例58 5. 10选择摘要句和摘要生成n 58 5. 11抽象技术在提取中文网页摘要中的应用58-63 5. 1 1. 1扣缴提取网页正文对提高摘要59-62 5.的准确性的影响1 1. 2改善抽象算法实时性能的措施62-63 5. 12本章摘要63-64第6章实验设计和数据分析64-88 6. 1网页信息动态的实验和分析基于网站优先级调整的采集技术65-70 6. 1. 1实验设计65-66 6. 1. 2数据分析66-69 6. 1. 3存在的缺点和下一个改进工作69-70 6. 2基于中文密度算法70-71 6. 2. 1实验设计70 6. 2. 2数据分析70 6.的中文网页文本提取技术的实验与分析2. 3存在的不足和进一步的改进70-71 6. 3两种文档向量表示方法在t中的对比实验和分析主题71- 74 6. 3. 1实验设计71 6. 3. 2数据分析71-74 6. 4改进的余弦矢量相似度算法实验和分析74-76 6. 4. 1实验设计74 6. 4. 2数据分析74-76 6. 5基于主题词索引的类别中心向量分类算法的实验和分析76-79 6. 5. 1实验设计76 6. 5. 2数据分析76-78 6. 5. 3存在的问题和下一步78-79 6. 6 CKNN分类算法的实验和分析79-80 6. 6. 1实验设计79 6. 6. 2数据分析79-80 6. 6. 3存在的问题和下一步80 6. 7 KNN分类算法的实验设计和数据分析80-82 6. 7. 1实验设计80-81 6. 7. 2数据分析81-82 6. 8类别中心向量分类算法,CKNN分类算法和KNN分类算法的性能比较82-83 6. 8. 1实验设计8 2 6. 8. 2数据分析82-83 6. 9基于相似度的文档摘要的实验和数据分析83-85 6. 9. 1实验设计83-84 6. 9. 2数据分析84-85 6. 9. 3存在的问题和下一步85 6. 10 Web信息搜索采集系统实验和数据分析85-87 6. 1 0. 1实验设计85-86 6. 1 0. 2数据分析86 6. 1 0. 3存在的问题和下一步86-87 6. 11本章摘要87-88第7章Web信息动力学采集系统设计和实现88-95 7. 1系统组成88-89 7. 2系统集成89- 93 7. 3网页分类模块的适应性93 7. 4系统运行状态监控程序93 7. 5基于主题词的网页重复数据删除方法索引93-94 7. 6本章摘要94-95摘要95-97参考文献