什么是新闻采集?

优采云 发布时间: 2020-08-27 16:27

  什么是新闻采集

  新闻采集系统是将非结构化的新闻文章从多个新闻来源网页中抽取下来保存到结构化的数据库中的软件。主要功能依据用户自定义的任务配置,批量而精确地抽取目标网路媒体栏目中的新闻或文章,转化为为结构化的记录(标题,作者,内容,采集时间,来源,分类,相关图片等),保存在本地数据库中,用于内部使用或内网发布,快速实现外部信息的获取。主要技术新闻采集系统核心技术是模式定义和模式匹配。模式属于人工智能的术语,意思为前人积累的经验的具象和升华。简单地说,就是从不断重复出现的风波中发觉和具象出的规律,是解决问题的经验的总结。只要是一再重复出现的事物,就可能存在某种模式。所以要使新闻采集系统才能运行,目标网站必须具备重复出现的特点。目前大多网站都是动态生成的,这样才会使同一模板的页面收录相同的内容,新闻采集系统正是借助这种相同的内容来定位采集数据的。新闻采集系统中的模式大多不是程序手动发觉的,目前几乎所有的新闻采集系统产品都须要通过人工来定义。但模式本身是个很复杂,很具象的内容,所以所有的开发者精力都花在如何使模式定义更简单,更准确,这也是新闻采集系统竞争力的评判标准。现在国外在新闻采集行业,比较领先的是北京的乐思。他们的采集系统可以智能的抓取新闻,也就是说不需要配置。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线