能够自动发布文章的自动采集器(一个采集站(使用wordpress)了采集器文章)

优采云 发布时间: 2021-10-04 09:09

  能够自动发布文章的自动采集器(一个采集站(使用wordpress)了采集器文章)

  我最近建立了一个采集站(使用wordpress),并使用了优采云采集器。本产品文章主要简单介绍一下工具采集的使用和发布文章的过程,希望给阅读本文的朋友带来一些帮助文章

  QAQ 刚开始用的时候有点迷糊。233

  

  好了,废话不多说了。开始:

  1.到优采云下载软件。有免费版和商业版。对我来说,免费版的功能完全够用了。我对此也感到非常高兴。

  2.安装打开

  3. 这里以“百度百家号”为例

  稍微分析一下网页结构,可以看出这个网页不是分页加载的,而是ajax异步加载的

  

  所以我们不能使用内置规则来抓取下一页的文章链接,我们该怎么办?

  别着急,Chrome的开发者工具(俗称F12大法)

  

  依次点击,点击“加载更多”后,您会在开发者工具中找到如图所示的列:

  

  右击,点击“复制”,点击“复制链接地址”复制显示的网址

  我们可以看到这个链接,带有时间戳和参数

  https://baijia.baidu.com/listarticle?ajax=json&_limit=15&_skip=15&quality=1&_desc=top_st%2Cupdated_at

(提取的链接例子)

  直接这样看,看不清门道是什么。我需要类似的链接进行比较,因此我选择单击顶部的其他列并选择“娱乐”部分。我还是按照上面的步骤提取“加载更多”链接

  

  https://baijia.baidu.com/listarticle?ajax=json&cat=2&_limit=15&_skip=15

(娱乐版块的链接例子)

  可以看出有区别,再试一下技术部门:

  https://baijia.baidu.com/listarticle?ajax=json&cat=1&_limit=15&_skip=15

(科技板块链接例子)

  现在规则一目了然!

  这些段从左到右对应的参数是cat=1cat=2cat=3.................cat=5

  现在让我们尝试调整参数“_limit=”和“_skip=”

  发现这两个参数至少在10到400之间,有返回数据。

  https://baijia.baidu.com/listarticle?ajax=json&cat=#(1~5)&_limit=#(10~400)&_skip=#(10~400)

大概就是这个范围内的都有返回数据

  开始添加 URL 采集 规则

  找到链接模式后,我们可以使用采集器,如图打开,填写链接

  这里我只抓取了“娱乐版块”,所以这个链接只有两个变量,加两个网址

  

  https://baijia.baidu.com/listarticle?ajax=json&cat=2&_limit=[地址参数]&_skip=15

https://baijia.baidu.com/listarticle?ajax=json&cat=2&_limit=15&_skip=[地址参数]

  确认后,软件会把这个链接变成一个表情,

  好的,但是这里有朋友会问,这里的链接打开都是乱码,别着急,现在用

  https://baijia.baidu.com/listarticle?ajax=json&cat=1&_limit=15&_skip=15

  例如,在浏览器中打开此链接

  

  如图所示,其实我们可以很容易的找到里面收录的链接

  

  如图,直接手动添加提取链接url规则

  "url":"http:\/\/baijiahao.baidu.com\/s?id=[参数]","title"

#这一句的意思是提取“"url":"http:\/\/baijiahao.baidu.com\/s?id=”文本和“","title"”之间的文本,也就是提取这个文章id

http://baijiahao.baidu.com/s?id=[参数1]

#这一句就是把上一句获取的id拼接上去,形成了一个完整的文章链接

  现在我们可以点击右下角的网站采集测试

  

  可以看到完整的采集已经发布了每个文章的url链接

  现在我们开始第二部分,文章Content采集

  上一步我们已经获得了文章的地址,现在我们要做的就是采集发布文章的标题和内容

  随便找个文章地址,在这里

  https://baijia.baidu.com/s?id=1580961207545769510

为例

  

  查看源代码

  我们可以发现可以很方便的批量获取文章的title和content

  

  每个文章的标题和内容都在这几个字符之间

  因此,我们可以设置如下规则:

  

  

  好了,规则设置好了,我们可以测试一下

  

  可以看到采集已经到了标题和文章

  第三部分,自动发布内容到worddpress

  这个软件其实提供了很多发布文章的规则,但是很多都是无效的。我找到了一个 wordpress 规则文件

  点此下载密码:99bj

  使用前请将post.php放在wordpress网站根目录下的压缩包中

  

  

  点击启动浏览器获取登录信息,然后输入上面填写的自己的wordpress URL,进入登录界面,登录成功后自动获取登录参数,直接关闭浏览器窗口即可

  由于本教程是针对百度百家的娱乐版块,所以我也先在wordpress上创建了一个“娱乐”类目录。

  

  选择文章需要发布到哪个类别,然后我们就可以点击下面的测试了

  

  测试成功发布

  记得检查使用这个规则!!!!!!!!

  

  保存并退出

  好了,现在正式开始采集

  

  勾选三个选项,然后启动任务,自动抓取,抓取后自动发布。这时候你打开你的wordpress文章列表,里面有很多新的文章

  但是这时候你会发现这些文章都处于“Pending Release”状态

  这时候我们需要操作数据库

  

  点击数据表上方的SQL按钮进入数据表代码编辑器,输入如下数据表执行命令:

  UPDATE wp_posts

SET post_status =

REPLACE( post_status, 'pending', 'publish' )

  !!!!!!!就是这样!!!你的网站此时将有数百个文章!!!!

  》一个我随手捡到的垃圾站

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线