云端自动采集(中国it网站爬虫很乱，很多用的是geckojs.js)

优采云发布时间: 2022-02-09 18:01

　　云端自动采集。

　　第一点：office系列软件有专门提供爬虫接口，第二点：到搜狗、百度等知名搜索引擎中随便搜索个目标关键词，输入url之后，就会有一堆网站返回给你。

　　现在开始尝试这个业务了，暂时还没有推广起来，关注，期待成功。

　　现在中国it网站爬虫很乱，很多用的是geckojs.现在很多中国it网站开始采用geckojs，

　　参考urllib3.py和geckojs

　　我现在正在用自己写一个爬虫：geckojs.js

　　网站做的那么烂还买服务器和域名？

　　tor框架tor有个很好的框架urllib3.py

　　geckojs爬虫库(进展)

　　有，

　　我有，我也推荐给你们看下，

　　上面的你只能爬你自己家的,要怎么和网站对接呢

　　wordpress不可以吗？

　　可以使用一些轻量级的爬虫框架，

　　最近在学dom4j，我已经用dom4j完成了一些爬虫，网页检索等的功能，数据量大小也不大，加上我们可以用https，所以不怕被人家封杀（图省事就用https，安全性最高），

　　自己爬完全可以，也可以定制一个小程序，用于监控和管理，也可以直接爬服务器，

0

2022-02-09

云端自动采集

0 个评论

要回复文章请先登录或注册