网页文章采集器在此：/会需要熟悉linux环境

优采云发布时间: 2022-06-26 17:06

　　网页文章采集器在此：/会需要你熟悉linux环境，

　　多做测试，亲身经历过的selenium2都要搞到可以自己主动爬，代码和环境都差不多，关键是人，

　　既然想学习分布式，那么selenium2是不合适，需要看maven项目，例如daisy:/。然后编写proxy代理，并且配置好selenium,postgresql，hadoop服务等，这个要看项目具体的要求和个人水平。

　　需要需要代理爬虫根据内容抓取对应的html，就是说需要找有服务的爬虫，例如百度蜘蛛，

　　看看java的selenium2，

　　如果你已经具备windows上操作mysql数据库的能力，那么第一个你要了解python或java里mysql的sql语法，这是你需要做的第一步；然后是看爬虫会有什么bug，这个可以先去百度查查看，然后去找exceptions来处理，当然如果是动态网站，你就别在意这个了。

　　用c++学习了c++，你就明白为什么你那么想学selenium了。

　　当然是c++网页文本抓取了，还可以session记录。selenium本身写爬虫不方便学习，因为selenium主要还是强制编程，后面做一个事，都要接受各种提示。c++可以选择google的webdriver，google的webdriver具有tcp/ip协议栈。c++libraryselenium2，microsoft的vs也支持libraryselenium2。

　　java的selenium2，oracle的sqlalchemy都支持libraryselenium2，ruby也支持libraryselenium2。selenium3我记得不是很了解。当然,是使用c++的话，你就不要考虑selenium本身了。因为它无法控制页面的可逆性。

0

2022-06-26

网页文章采集器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页文章采集器在此：/会需要熟悉linux环境

0 个评论

发起人

AI时代内容工厂

网页文章采集器在此：/会需要熟悉linux环境

0 个评论

发起人

相关问题