*敏*感*词*教你怎么获取全网可访问的所有网站网址和网站信息

优采云 发布时间: 2020-08-03 13:03

  如何获取全网可访问的所有网站网址和网站信息呢

  今天因为有一个小程序项目,是专门给织梦dedecms网站、WordPress网站做小程序制做免费小程序的。但是手上织梦网站和WordPress网站用户数目都不是好多,很好的项目却没有触碰到用户,没有能给网站带来益处,于是就想,能不能搜集现今网上所有的织梦网站和WordPress网站,并且获取她们的邮箱、QQ、微信、电话等有用信息呢?

  带着疑惑百度了一番,没有发觉现成的可用数据,可是小程序项目还得向前推呢,等着用户来使用呢?既然网上没有现成的,要不就自己写一个吧。于是就有了这个cobweb全网网址采集器

  全网网址采集器是哪些?

  这是一个由golang编撰的全网网址采集器,可用手动爬取可触碰的所有网站信息。该网址采集器会手动采集并剖析网站的标题、站点描述、微信、QQ、联系电话、网站所用的运行环境、ip信息等,甚至是网站所用的框架。

  为什么会有这个全网网址采集器全网网址采集器能采集哪些内容

  本采集器可以采集到的的内容有:文章标题、文章关键词、文章描述、文章详情内容、文章作者、文章发布时间、文章浏览量。

  全网网址采集器可用在那里运行

  本采集器可用运行在 Windows系统、Mac 系统、Linux系统(Centos、Ubuntu等),可用下载编译好的程序直接执行,也可以下载源码自己编译。

  如何安装使用

  最后执行下面命令

```shell script

go mod tidy

go mod vendor

go build

  编译结束后,配置config。重命名config.dist.json为config.json,打开config.json,修改mysql部份的配置,填写为你的mysql地址、用户名、密码、数据库信息,新建cobweb数据库,导入mysql.sql到填写的数据库中,然后双击运行可执行文件即可开始采集之旅。

  config.json配置说明

  {

"mysql": { //数据库配置

"Database": "spider",

"User": "root",

"Password": "root",

"Charset": "utf8mb4",

"Host": "127.0.0.1",

"TablePrefix": "",

"Port": 3306,

"MaxIdleConnections": 1000,

"MaxOpenConnections": 100000

}

}

  全网网址采集器运行原理剖析多线程(多协程)同时执行

  全网网址采集器借助了golang得天独厚的并行任务优势,同时开启多个解释器,可以做到比常规轻易得手的php采集代码快10倍~100倍全网文章采集,甚至更快。当然更快的采集速度还须要借助你本地的网速,你家开的是500M带宽的话,开1000个解释器都是可以的。

  相关代码部份

<p>var MaxChan = 100

var waitGroup sync.WaitGroup

var ch = make(chan string, MaxChan)

func SingleSpider(){

var websites []Website

var counter int

DB.Model(&Website{}).Where("`status` = 0").Limit(MaxChan*10).Count(&counter).Find(&websites)

if counter > 0 {

for _, v := range websites {

ch

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线