网页新闻抓取(文档介绍:UDC国孥*敏*感*词*学位论文基于Web搜索和网页结构分析的IT相关主题新闻抓取研究)
优采云 发布时间: 2022-01-30 13:12网页新闻抓取(文档介绍:UDC国孥*敏*感*词*学位论文基于Web搜索和网页结构分析的IT相关主题新闻抓取研究)
文件介绍:UDC*敏*感*词*论文基于Web搜索和IT相关话题的网页结构分析 新闻抓取 研究 *敏*感*词*姓名 赵玉勇 *敏*感*词*姓名 丝谷玉 - 导师姓名 玉伟 数量 4.学位级驱虫剂申请数量 雅在驱魔。论文答辩日期截止到Q]Q同学!!并且学位授予日期直到Q!Q学生]]和中国海洋大学,U Y1927076 我在此为中国海洋大学教师讨论文学。?? 赵玉勇基于Web搜索和网页结构分析的IT相关课题论文研究。完成日期: 指导员签名: 辩护委员会成员签名:#肥西L基金会土!本人声明,本人提交的论文是在导师指导下获得的研究工作和研究成果。据我所知,除文中特别标注和感谢的地方外,论文中不收录他人已发表或撰写的研究成果,也不收录未获得的内容。明确:用于科威特 2 或其他教育机构的学位或证书的材料。与我一起工作的同志对这项研究的任何贡献都在论文中得到了明确的陈述和承认。论文作者署名:桂署名日期:刁日,当年7月7日及盘,允许论文查阅和借阅。除文中特别标注和感谢的地方外,论文不收录他人已发表或撰写的研究成果,也不收录未获得的研究成果。明确:用于科威特 2 或其他教育机构的学位或证书的材料。与我一起工作的同志对这项研究的任何贡献都在论文中得到了明确的陈述和承认。论文作者署名:桂署名日期:刁日,当年7月7日及盘,允许论文查阅和借阅。除文中特别标注和感谢的地方外,论文不收录他人已发表或撰写的研究成果,也不收录未获得的研究成果。明确:用于科威特 2 或其他教育机构的学位或证书的材料。与我一起工作的同志对这项研究的任何贡献都在论文中得到了明确的陈述和承认。论文作者署名:桂署名日期:刁日,当年7月7日及盘,允许论文查阅和借阅。与我一起工作的同志对这项研究的任何贡献都在论文中得到了明确的陈述和承认。论文作者署名:桂署名日期:刁日,当年7月7日及盘,允许论文查阅和借阅。与我一起工作的同志对这项研究的任何贡献都在论文中得到了明确的陈述和承认。论文作者署名:桂署名日期:刁日,当年7月7日及盘,允许论文查阅和借阅。
本人授权学校将学位论文的全部或部分内容编入相关数据库进行检索,并以影印、缩微打印或扫描等复印方式保存和编纂学位论文。(本授权书适用于解密后的机密论文) 论文作者签名:郑雨燕导师 胜'7飞!I!Iii=III:Si p年"月2]日II!ii=IIII:force/o年, 》27日~毕业后论文作者下落:工作单位:通讯地址:电话:邮编 l 基于网页搜索和网页结构分析的IT相关课题组。研究摘要新闻与人们日常工作和娱乐生活相关的高度相关的信息,对于有影响力的新闻事件,深度和跨度较大的专题新闻信息量更大,更有趣。突出“主题”和专题,着力“深”。近年来,互联网已成为新闻信息发布的最佳平台和最大来源,各种新闻以各种形式在网上迅速传播。另一方面,互联网上信息的爆炸式增长 互联网的快速发展使得人工获取越来越全面的新闻内容变得越来越困难。作为信息获取解决方案之一,搜索引擎技术取得了长足的进步。以谷歌为代表的搜索引擎已经将触角伸向了互联网上的信息。如何挖掘深入、全面的新闻信息,对许多新闻相关工作具有重要意义,
IT新闻抓取的过程本质上就是Web数据挖掘的过程。在挖掘过程中,首先对2009年的热点新闻样本进行分类分析。在对样本进行分类的基础上,找出每个样本的特征,提出行业角色模型(Trade.roleModel)。该模型的提出是在与基于用户兴趣的搜索模型进行对比分析的基础上完成的,最后形成行业角色评分公式对样本进行评价。基于该模型,本文分两步实现主题新闻抓取。第一步是转换关键词搜索并提取搜索引擎搜索结果URL。这一步是本文研究工作的基础,而提取的好坏直接决定了后续工作的成败。通过对Google在搜索引擎中的搜索特性的研究,我们在几种方案中选择使用原生程序来实现其搜索结果的利用,通过基于行业角色的模型比较URL链接,并通过分数。通过过滤,这一步去除了大部分垃圾或无用的链接,保留与新闻主题相关的链接,并选择得分最高的链接供以后使用。第二步,提取URL对应的新闻文本。这一步是本文的最终研究成果。通过分析上一步搜索到的URL链接对应的页面,提取该页面对应的文本文件,
从新闻样本捕获的最终结果来看,平均准确率达到90.2%,平均召回率达到72.8%。最终捕获的新闻文本也形成了主题新闻的文本文本。由于人工提取互联网新闻需要大量人力,利用搜索引擎结果和节目提取相关新闻内容,将节省大量人力资源,使新闻事件快速、全面地呈现给网络受众。这也是本研究的价值所在。关键词:话题新闻;搜索引擎:行业榜样;文本挖掘 k