人工采集,二是智能采集。可以参考disquest进行相关尝试

优采云发布时间: 2021-08-09 03:05

　　一是人工采集,二是智能采集。可以参考disquest进行相关尝试,如:?label=tip[一直之后][可以采集一整组喜欢包含一整个标签名的数据]&label=#!/content/content/html%20url%3dkiggle/download-baidu%20toopa。jpg&content=default%20q:怎么知道哪些词条和哪些词条一样，比如baidu"。

　　推荐一个web采集器，叫千行editor（新秀版），这是一个开源项目，自主研发，支持php和mysql数据库。如果要从知乎爬取数据，我个人觉得没有专门的语言，第一开发的人不可能这么顺手，第二蜘蛛肯定要去爬取的网站。所以如果题主想爬取知乎的数据，我建议选择通用的语言，c#或者java都可以，不用去考虑爬取哪些网站数据。

　　xml即可，你说的应该是动态xml的爬取方式：如果网站采用直接下载xml文件传给爬虫去爬取；如果网站直接放在服务器上，手动传给爬虫去爬取。我不赞同are、asd等技术，并非它不好，只是没有与时俱进的发展出新技术，are和asd是成型比较早的解决方案，但现在的趋势应该是将爬虫和app的结合，因为这更利于爬虫的运维。

　　采集知乎，需要用到的模块：爬虫中最基本的一些模块，有：一切scrapy或者说构建于scrapy框架下的xpath，googlexpath（一般就叫做xpath）或者google语言，或者cpanel或者changecode/veer爬虫自动化中最基本的一些模块，有：htmlhtmlparser这个可以用来处理任何抓取来的请求，去除无用信息html4j这个可以用来处理任何爬取来的html，分析html语法，找到所需的类，甚至可以利用前缀/后缀解析字符串.httper这个可以用来模拟浏览器，生成python对应的代码，对于无浏览器抓取简直是天助beautifulsoup对应的爬虫自动化。

　　模块数不胜数，个人推荐headlessscrapy或者verify.py来实现爬虫中的模块化，避免爬虫依赖依赖。怎么处理：直接用requests方法处理抓取来的页面，这个方法也是最原始，见效快。之后再补一些selector什么的。

0

2021-08-09

一是人工采集,二是智能采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

人工采集,二是智能采集。可以参考disquest进行相关尝试

0 个评论

发起人

AI时代内容工厂

人工采集,二是智能采集。可以参考disquest进行相关尝试

0 个评论

发起人

相关问题