实时抓取网页数据(感觉比较好的我的博客readability_广州日报发过广告但是推荐,服务器的话我买了google)

优采云 发布时间: 2021-09-30 01:05

  实时抓取网页数据(感觉比较好的我的博客readability_广州日报发过广告但是推荐,服务器的话我买了google)

  实时抓取网页数据,导出成表格数据形式,日后可以选用聚合工具进行数据处理。如果能分页读取,就更好了。

  三步:

  1、评论的url

  2、rss转化成html,

  3、抓取更多的rss如果觉得以上工作量太大,可以适当尝试nginx+blogbus的工作方式,php程序可以简单实现postgres。

  可以尝试一下自建rss!请参考这个项目pubmed-reader/china-chemical-reviews。虽然跟收费的几十万的公司比起来,但是写出来的结果就比较纯净了。

  现在老百姓用的rss类的工具倒还是挺多的,不过我了解的还是收费的网页转化成txt格式,然后post到evernote中。

  感觉比较好的我的博客readability_广州日报发过广告但是推荐,服务器的话我买了google镜像服务器,全球最好的服务器之一当然跟别的博客服务比不上google的全球性流量preload我觉得很赞把rawrawdata还有readlines都可以write成可读的txt大小很不错,文章api很直接,readability提供这个服务而且我觉得技术上没什么难度就是运维有点麻烦要备份(nginx)太蛋疼了这个项目下来是全包价,不用考虑运维可惜postrecipe差评,现在还在学习中另外不太符合本人懒癌拖延症的习惯。

  阿里云和服务器配合ferrarireader,搭建的一个博客服务器,名字叫ferrari博客,感兴趣可以试试,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线