新闻采集器
优采云 发布时间: 2020-08-07 19:26新闻采集器是一种从多个新闻源网页中提取非结构化新闻文章并将其保存在结构化数据库中的软件.
主要功能
根据用户定义的任务配置,在目标网络媒体列中批量并准确地提取新闻或文章,并将它们转换为结构化记录(标题,作者,内容,采集时间,来源,分类,相关图片等). )存储在本地数据库中,供内部使用或外部网络发布,以快速获取外部信息.
主要技术
新闻采集器的核心技术是模式定义和模式匹配. 模式属于人工智能一词,是对人们在对象之前积累的经验的抽象和升华. 简而言之,它是从重复发生的事件中发现和提取的规律,是解决问题的经验的总结. 只要它重复出现,就可能有一定的规律.
因此,要使新闻采集器正常工作,目标网站必须具有重复出现的特征. 当前,大多数网站是动态生成的,因此具有相同模板的页面将收录相同的内容. 新闻采集器使用这些相同的内容来查找和采集数据.
程序不会自动发现新闻采集器中的大多数模式. 当前,几乎所有新闻采集器产品都需要手动定义. 但是,模型本身是非常复杂和抽象的内容,因此开发人员的全部精力都花在了如何使模型定义更简单,更准确的角度上. 这也是衡量新闻采集器竞争力的一种方法.
但是我们如何描述模式?目前,技术的主要使用方式有两种: 正则表达式定义和文档结构定义.
正则表达式定义
正则表达式定义是当前的主流应用技术,主要代表是优采云采集器. 此技术简单且高度灵活. 但是用户操作很复杂. 由于此模式作用于网页的源代码,因此匹配结果受代码布局格式的影响很大,并且不够直观,并且对于更复杂的页面结构几乎无能为力. 已经有几种产品使用辅助工具来降低用户的操作难度.
文档结构定义
应该说,文档结构定义是当前最先进的技术,并且具有一定的模型学习能力. 此模式应用于文档级别,这与应用于页面源代码的正则表达式不同. 所谓文档层,是指运行源代码后生成的实际对象,即用户在浏览器中看到的内容. 因此,操作可视化是这项技术的固有能力.
由于它与文档结构匹配,因此不受页面源代码的影响. 用户定义更加直观,程序可以根据文档对象获取更多的逻辑特征信息,使匹配更加准确,通用. 坚强.
该技术已在学术研究论文中介绍过,并且此类产品也在多个实验室中开发. 但是真正的商业应用却很少.
目前,DM Lab推出的唯一可以面向公众的视频采集采集器[1]. 该产品不仅具有相对较高的技术起点,而且在用户级别具有独特的实时用户操作. 向导功能也很棒. 该技术将专业级别的操作转变为傻瓜式操作. 真正的科学使一切皆有可能!
代表
视频新闻采集器;莱斯新闻采集器;环球新闻采集器;新浪新闻采集器