自动采集网站内容(自动采集网站内容。自动获取javascript脚本，知乎还在手机客户端上架)

优采云发布时间: 2021-09-19 07:04

　　自动采集网站内容。自动获取javascript脚本，脚本是自动爬虫可以爬去你的网站所有的页面，每个页面都有很多页面url可以自己填写，爬到哪个页面填写哪个url。自动获取整站内容，并且可以多个页面进行拼接。用外部语言（python，php）写，实现loaders（使用javascript的loaders）然后把python拼接的页面一起传到网站服务器。

　　最后用php解析输出的内容。不过网站用flask或tornado写都可以自动爬虫，我觉得你没必要开发一个自动化的爬虫，不如关注web前端的工作。如果要自动化的，还不如去买个爬虫框架，把工作交给后端工程师，先做好web后端的开发，再用python或c写爬虫。

　　做爬虫，目的性要强，要快速占据资源，然后获取相关数据。所以爬虫其实是重复性劳动。如果是为了做出一个稍微定制化的工具来去实现爬虫，那么设计爬虫框架和通用的调用方式，至少可以有3个月以上的时间去学习。如果没有这样的基础，建议是不要入这个坑了。我觉得如果只是稍微有点兴趣，可以多看看python入门和tornado入门方面的书，感受下各个框架的大概步骤，也有助于学习爬虫，爬虫绝对不是简单的去爬虫框架里输入请求就能调出目标页面。

　　pythonscrapyhtmlcookie

　　看python3.6，觉得有难度，要么学一下爬虫框架vultrrequestspigwebfrogz2什么的，知乎还在手机客户端上架，就不写代码了，但是可以看下基本代码大同小异。再有python2入门基本可以写个小爬虫了。有可能爬youtube手机插件，

0

2021-09-19

自动采集网站内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

自动采集网站内容(自动采集网站内容。自动获取javascript脚本，知乎还在手机客户端上架)

0 个评论

发起人

AI时代内容工厂

自动采集网站内容(自动采集网站内容。自动获取javascript脚本，知乎还在手机客户端上架)

0 个评论

发起人

相关问题