网站内容采集系统 ' + newData[i].title.cutStrByByte(18, "

优采云 发布时间: 2020-08-27 04:17

  网站内容采集系统 ' + newData[i].title.cutStrByByte(18, "

  随着互联网的日渐繁荣,互联网上的信息资源也越来越多,虽然便捷了人们的知识获取,但是也带来了信息量过大,噪音信息较多的问题,反而影响了用户对于有效信息的寻觅。互联网新闻作为一种主流的互联网信息来源,相对于其他信息来源具有更大的研究价值,对互联网新闻确切高效地采集并分类是非常必要的,在信息检索和数据挖掘领域都有着重要的意义。基于网页内容对新闻进行分类可以充分考虑新闻内容的语义,避免了网站对新闻误分类或未分类带来的采集结果错误,有着更好的分类疗效。论文对网页正文采集技术进行了深入的研究,结合新闻类网站的特性,制定了较为有效的采集策略和更新策略,保证了新闻采集的高效性。由于新闻网站来源较多,网站改版较为频繁,基于模板的正文提取技术己经不能保证提取的准确率,论文通过对网页正文提取技术进行剖析比较,得到了一种基于文本分布的通用正文提取算法,并通过实验确定了算法中的最优值,减少了人工编撰规则带来的时间成本。对于文本的分类,论文研究并剖析了文本分类的整体流程,选用Labeled LDA进行文本的特点表示,相对于传统的向量空间模型增加了特点维度,避免了语义信息的遗失,将LDA模型扩充为有监督的分类模型。通过对文本分类方式的比较,选用支持向量机作为文本特点的分类器。论文选定搜狗英文实验室的新闻语料,采用JGibbLabeledLDA和Scikit-learn对LLDA-SVM算法进行了实现,通过与其他方式分类结果的对比,验证了分类方式的有效性,使用训练好的模型为新文本的分类做打算。论文基于B/S架构对网页的采集和分类系统进行了实现,给出了各系统模块的具体设计和实现,在采集性能和分类准确性两个方面对系统进行了评估,验证了系统的可行性。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线