完整的采集神器建议用ffmpeg而不是awkjava已经封装得很好

优采云发布时间: 2021-08-15 21:04

　　完整的采集神器建议用ffmpeg而不是awkjava已经封装得很好，charles用户点一下header封装好的一大堆，自己再写写，

　　比较想知道你是怎么获取scrapy的header，

　　同问一样遇到这个问题也想知道怎么采集

　　目前github上在传一个用python来抓包分析的一个工具，可以直接配置抓包参数，也可以自己人肉搜索scrapy的header，同样是python实现，有兴趣的话可以看看。免费开源，完全免费。

　　用一个叫forwardlibtable的东西，由mit许可证，

　　header分为http长headers和cookie，后者更适合抓dom的，建议你写一个采集系统，ip，域名，等等。然后自动推送到sina，

　　我也想请教一下你是怎么成功采集v2ex的

　　v2ex的hosts把抓取的header写上去就好

　　同问同问啊～

　　sinapages每天都有post的新的内容。爬虫很多时候可以抓取到返回的post链接。

　　mywebdirect、inception、portalmonitor我觉得这三个很好用

　　mywebdirect可以爬点内容，效果还不错。（需要权限，有点小贵。）inception的效果感觉有点差，但是如果能实现每天定时爬的话效果也不错。portalmonitor的话，如果爬了内容还有爬vid就行。这个还是得权限多。（那个boss什么的权限较多是不可以下的吧？）如果爬了什么新闻和图片，对数据库有要求，最好还是用googleanalytics吧，我最近用的是mongodb和googlesolr。

0

2021-08-15

完整的采集神器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

完整的采集神器建议用ffmpeg而不是awkjava已经封装得很好

0 个评论

发起人

AI时代内容工厂

完整的采集神器建议用ffmpeg而不是awkjava已经封装得很好

0 个评论

发起人

相关问题