网页新闻抓取(如何深入全面的挖掘新闻信息,对于许多新闻相关工作意义重大)
优采云 发布时间: 2022-01-21 16:11网页新闻抓取(如何深入全面的挖掘新闻信息,对于许多新闻相关工作意义重大)
【摘要】 新闻是与人们日常工作、娱乐和生活密切相关的信息。对于有影响力的新闻事件,具有更大深度和跨度的专题新闻信息量更大,更有趣。所谓话题新闻,是因为它的时效性。更多还原 突出新闻的“新”,突出“主题”和时间跨度大的话题,强调“深”。近年来,互联网已成为新闻信息发布的最佳平台和最大来源,各种新闻以各种形式在互联网上迅速传播。另一方面,互联网上信息的爆炸式增长使得人工获取越来越全面的新闻内容变得越来越困难。作为信息获取解决方案之一,搜索引擎技术取得了长足的进步。以谷歌为代表的搜索引擎 该引擎将触角伸入互联网信息的各个角落。如何深入、全面地挖掘新闻信息,对许多新闻相关工作具有重要意义。通过搜索引擎挖掘深入、全面的新闻信息是本文的重点,即通过进一步挖掘与某一主题相关的新闻内容,形成主题新闻。IT新闻抓取的过程本质上就是Web数据挖掘的过程。在挖掘过程中,首先对2009年的热点新闻样本进行分类分析。在对样本进行分类的基础上,找出每个样本的特征,提出贸易角色模型。该模型的提出是在与基于用户兴趣的搜索模型进行对比分析的基础上完成的,最后形成行业角色评分公式对样本进行评价。基于该模型,本文分两步实现主题新闻抓取。
第一步是转换关键词搜索并提取搜索引擎搜索结果URL。这一步是本文研究工作的基础,提取的好坏直接决定后续工作的成败。通过对Google在搜索引擎中的搜索特性的研究,我们选择使用原生程序实现其搜索结果在几种方案中的利用,通过基于行业角色的模型比较URL链接,并通过分数。通过过滤,这一步去除了大部分垃圾或无用的链接,保留与新闻主题相关的链接,并选择得分最高的链接供以后使用。第二步,提取URL对应的新闻文本。这一步是本文的最终研究成果。通过分析上一步搜索到的URL链接对应的页面,提取该页面对应的文本文件,通过行业角色模型进行文本挖掘,基于段落使用TRM模型进行评估,最后动态平衡每个段落的分数用于比较上述分数和新闻网页的特征,以提取相应的新闻文本内容。从新闻样本捕获的最终结果来看,平均准确率达到90.2%,平均召回率达到72.8%。最终捕获的新闻文本也形成了主题新闻的文本文本。由于在网上手动提取新闻需要大量人力,利用搜索引擎结果和节目提取相关新闻内容,将节省大量人力资源,使新闻事件快速、全面地呈现给网络受众。这也是本研究的价值所在。