文章采集api(优采云采集器官网-网页抓取工具优采云采集器免费网站采集软件 )

优采云发布时间: 2022-01-25 08:13

　　文章采集api(优采云采集器官网-网页抓取工具优采云采集器免费网站采集软件

)

　　免责声明：本教程没有任何盈利目的，仅供学习使用，不会对网站的操作造成负担。请不要将其用于任何商业目的。

　　优采云简介

　　优采云采集器官网-网页抓取工具优采云采集器免费网站采集软件

　　优采云采集器，专业的互联网数据采集、处理、分析、挖掘软件，可以灵活快速的抓取网页上零散的数据信息，并通过一系列的分析处理，精准挖掘出来所需的数据。优采云采集器历经十二年的升级更新，积累了大量的用户和良好的口碑，是目前最受欢迎的网络数据采集软件。

　　简单来说，就是用软件来简化我们的爬取过程。整个过程无需编写代码即可实现爬虫逻辑。

　　示例爬取任务

　　需要爬取分页中的所有页面，并进一步爬取页面上所有有趣条目的二级URL

　　新任务添加任务

　　URL采集规则 - URL 获取

　　URL采集规则-分页设置

　　分页规则主要设置在这里，也就是说不仅要抓取当前页面，还需要抓取所有页面。

　　内容采集规则

　　这里设置了将URL中的内容提取到前面的采集的规则，即每个商品详情页的内容

　　内容发布规则

　　用于指定如何处理采集发送的内容，这里设置为发送到一个api

　　单击 + 号以添加规则

　　新发布模块

　　这里指定要发送给api的参数，其中name为[Content 采集Rule]部分获取的信息，参数为规则名称。

　　您可以保存其他设置而不更改它们。

　　然后填写请求的主机

　　其他设置

　　以下是一些常用设置，可选。

　　查看爬取的数据

　　计划任务设置

　　这里可以指定任务重复运行的规则

　　发送通知

　　可以使用ios软件bark来接受通知，其内容就是爬取的规则。在这里，使用 Golang 简单地创建了一个新的 api。当软件爬取完成后，将信息发送到api【在内容发布规则中设置】，然后将消息发送到api。推送到ios

　　1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

　　package main

import (

"github.com/gogf/gf/frame/g"

"github.com/gogf/gf/net/ghttp"

"github.com/gogf/gf/os/glog"

"github.com/gogf/gf/util/gconv"

"github.com/gogf/gf/util/grand"

)

type Info struct {

Url string `json:"url"`

Name string `json:"name"`

TaskType string `json:"task_type"`

}

func main() {

s := g.Server()

s.SetPort(8080)

_ = glog.SetConfigWithMap(g.Map{

"path": "log",

"level": "all",

"file": "{Y-m-d}.log",

"flags": glog.F_TIME_DATE | glog.F_TIME_MILLI | glog.F_FILE_LONG,

})

s.BindHandler("/send_info", func(r *ghttp.Request){

requestId := grand.Letters(16)

var info Info

if err := r.ParseForm(&info); err != nil {

glog.Error(requestId, err)

_ = r.Response.WriteJsonExit(nil)

}

glog.Info(requestId, info)

bark := "https://api.day.app/{xxxxxxxxxxxx}"

body := gconv.String(g.Map{

"device_key": "xxxxxxxxxxxxx",

"body": gconv.String(info),

"title": "商品信息",

"ext_params": g.Map{"url": info.Url},

})

glog.Info(requestId, body)

if _, err := g.Client().Post(bark, body); err != nil{

glog.Error(err)

}

})

s.Run()

}

0

2022-01-25

文章采集api

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章采集api(优采云采集器官网-网页抓取工具优采云采集器免费网站采集软件 )

0 个评论

发起人

AI时代内容工厂

文章采集api(优采云采集器官网-网页抓取工具优采云采集器免费网站采集软件 )

0 个评论

发起人

相关问题