文章采集api(优采云采集器官网-网页抓取工具优采云采集器免费网站采集软件 )

优采云 发布时间: 2022-01-25 08:13

  文章采集api(优采云采集器官网-网页抓取工具优采云采集器免费网站采集软件

)

  免责声明:本教程没有任何盈利目的,仅供学习使用,不会对网站的操作造成负担。请不要将其用于任何商业目的。

  优采云简介

  优采云采集器官网-网页抓取工具优采云采集器免费网站采集软件

  优采云采集器,专业的互联网数据采集、处理、分析、挖掘软件,可以灵活快速的抓取网页上零散的数据信息,并通过一系列的分析处理,精准挖掘出来所需的数据。优采云采集器历经十二年的升级更新,积累了大量的用户和良好的口碑,是目前最受欢迎的网络数据采集软件。

  简单来说,就是用软件来简化我们的爬取过程。整个过程无需编写代码即可实现爬虫逻辑。

  示例爬取任务

  需要爬取分页中的所有页面,并进一步爬取页面上所有有趣条目的二级URL

  新任务 添加任务

  

  URL采集规则 - URL 获取

  

  URL采集规则-分页设置

  

  分页规则主要设置在这里,也就是说不仅要抓取当前页面,还需要抓取所有页面。

  内容采集规则

  

  这里设置了将URL中的内容提取到前面的采集的规则,即每个商品详情页的内容

  内容发布规则

  用于指定如何处理采集发送的内容,这里设置为发送到一个api

  

  单击 + 号以添加规则

  

  新发布模块

  

  这里指定要发送给api的参数,其中name为[Content 采集Rule]部分获取的信息,参数为规则名称。

  您可以保存其他设置而不更改它们。

  

  然后填写请求的主机

  其他设置

  

  以下是一些常用设置,可选。

  查看爬取的数据

  

  计划任务设置

  

  这里可以指定任务重复运行的规则

  发送通知

  可以使用ios软件bark来接受通知,其内容就是爬取的规则。在这里,使用 Golang 简单地创建了一个新的 api。当软件爬取完成后,将信息发送到api【在内容发布规则中设置】,然后将消息发送到api。推送到ios

  1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

  package main

import (

"github.com/gogf/gf/frame/g"

"github.com/gogf/gf/net/ghttp"

"github.com/gogf/gf/os/glog"

"github.com/gogf/gf/util/gconv"

"github.com/gogf/gf/util/grand"

)

type Info struct {

Url string `json:"url"`

Name string `json:"name"`

TaskType string `json:"task_type"`

}

func main() {

s := g.Server()

s.SetPort(8080)

_ = glog.SetConfigWithMap(g.Map{

"path": "log",

"level": "all",

"file": "{Y-m-d}.log",

"flags": glog.F_TIME_DATE | glog.F_TIME_MILLI | glog.F_FILE_LONG,

})

s.BindHandler("/send_info", func(r *ghttp.Request){

requestId := grand.Letters(16)

var info Info

if err := r.ParseForm(&info); err != nil {

glog.Error(requestId, err)

_ = r.Response.WriteJsonExit(nil)

}

glog.Info(requestId, info)

bark := "https://api.day.app/{xxxxxxxxxxxx}"

body := gconv.String(g.Map{

"device_key": "xxxxxxxxxxxxx",

"body": gconv.String(info),

"title": "商品信息",

"ext_params": g.Map{"url": info.Url},

})

glog.Info(requestId, body)

if _, err := g.Client().Post(bark, body); err != nil{

glog.Error(err)

}

})

s.Run()

}

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线