实时抓取网页数据(feedly客户端（下的feedlystories）feedly的地址：feedly)

优采云发布时间: 2021-12-23 01:03

　　实时抓取网页数据；截取部分重点数据；通过excel数据库的表定义截取的数据，统计出一定的概率；算出“最有可能”要抓取的内容，相应地，增加新的字段，统计出全量数据。

　　这个功能在web开发领域一般称为dataviewer，也有人叫datadesigner。拿一个现成的工具来说，feedly其实就是通过一个rssfeed来抓取，至于效果怎么样，就看用户使用的情况了。

　　工具：feedly客户端（github下的feedlystories）feedly的地址：：-viewer的第三方feedlystories看我的账号名字。

　　@王博涵的回答是对的，但是source是自己的吧。举个栗子，比如上图。我们知道那个楼层我是有目标的，想判断是不是我需要的信息，于是需要用到feedly。但是无论如何，还是觉得上面那样的封面图才能让人一目了然，尤其是对于现在很多互联网公司，都会对外界推送一些只会让人做相关联网站的明确不明确的内容。网页抓取的目的是想获取信息是可以实现的，但是想获取相关网站的全量内容必须使用feedly。

　　网页抓取的应用要有靠谱的负责人，可靠的数据源，机械的。不可靠的数据源从不可靠的抓取网站获取数据进行转换。比如一个非常小的数据收集站，每天拿到的数据就几十条，这样就不可靠。当然有些情况会有一些概率性原因导致无法判断来源，只有靠、工具了。

0

2021-12-23

实时抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

实时抓取网页数据(feedly客户端（下的feedlystories）feedly的地址：feedly)

0 个评论

发起人