能够自动发布文章的自动采集器(一个采集站(使用wordpress)了采集器文章)
优采云 发布时间: 2021-10-04 09:09能够自动发布文章的自动采集器(一个采集站(使用wordpress)了采集器文章)
我最近建立了一个采集站(使用wordpress),并使用了优采云采集器。本产品文章主要简单介绍一下工具采集的使用和发布文章的过程,希望给阅读本文的朋友带来一些帮助文章
QAQ 刚开始用的时候有点迷糊。233
好了,废话不多说了。开始:
1.到优采云下载软件。有免费版和商业版。对我来说,免费版的功能完全够用了。我对此也感到非常高兴。
2.安装打开
3. 这里以“百度百家号”为例
稍微分析一下网页结构,可以看出这个网页不是分页加载的,而是ajax异步加载的
所以我们不能使用内置规则来抓取下一页的文章链接,我们该怎么办?
别着急,Chrome的开发者工具(俗称F12大法)
依次点击,点击“加载更多”后,您会在开发者工具中找到如图所示的列:
右击,点击“复制”,点击“复制链接地址”复制显示的网址
我们可以看到这个链接,带有时间戳和参数
https://baijia.baidu.com/listarticle?ajax=json&_limit=15&_skip=15&quality=1&_desc=top_st%2Cupdated_at
(提取的链接例子)
直接这样看,看不清门道是什么。我需要类似的链接进行比较,因此我选择单击顶部的其他列并选择“娱乐”部分。我还是按照上面的步骤提取“加载更多”链接
https://baijia.baidu.com/listarticle?ajax=json&cat=2&_limit=15&_skip=15
(娱乐版块的链接例子)
可以看出有区别,再试一下技术部门:
https://baijia.baidu.com/listarticle?ajax=json&cat=1&_limit=15&_skip=15
(科技板块链接例子)
现在规则一目了然!
这些段从左到右对应的参数是cat=1cat=2cat=3.................cat=5
现在让我们尝试调整参数“_limit=”和“_skip=”
发现这两个参数至少在10到400之间,有返回数据。
https://baijia.baidu.com/listarticle?ajax=json&cat=#(1~5)&_limit=#(10~400)&_skip=#(10~400)
大概就是这个范围内的都有返回数据
开始添加 URL 采集 规则
找到链接模式后,我们可以使用采集器,如图打开,填写链接
这里我只抓取了“娱乐版块”,所以这个链接只有两个变量,加两个网址
https://baijia.baidu.com/listarticle?ajax=json&cat=2&_limit=[地址参数]&_skip=15
https://baijia.baidu.com/listarticle?ajax=json&cat=2&_limit=15&_skip=[地址参数]
确认后,软件会把这个链接变成一个表情,
好的,但是这里有朋友会问,这里的链接打开都是乱码,别着急,现在用
https://baijia.baidu.com/listarticle?ajax=json&cat=1&_limit=15&_skip=15
例如,在浏览器中打开此链接
如图所示,其实我们可以很容易的找到里面收录的链接
如图,直接手动添加提取链接url规则
"url":"http:\/\/baijiahao.baidu.com\/s?id=[参数]","title"
#这一句的意思是提取“"url":"http:\/\/baijiahao.baidu.com\/s?id=”文本和“","title"”之间的文本,也就是提取这个文章id
http://baijiahao.baidu.com/s?id=[参数1]
#这一句就是把上一句获取的id拼接上去,形成了一个完整的文章链接
现在我们可以点击右下角的网站采集测试
可以看到完整的采集已经发布了每个文章的url链接
现在我们开始第二部分,文章Content采集
上一步我们已经获得了文章的地址,现在我们要做的就是采集发布文章的标题和内容
随便找个文章地址,在这里
https://baijia.baidu.com/s?id=1580961207545769510
为例
查看源代码
我们可以发现可以很方便的批量获取文章的title和content
每个文章的标题和内容都在这几个字符之间
因此,我们可以设置如下规则:
好了,规则设置好了,我们可以测试一下
可以看到采集已经到了标题和文章
第三部分,自动发布内容到worddpress
这个软件其实提供了很多发布文章的规则,但是很多都是无效的。我找到了一个 wordpress 规则文件
点此下载密码:99bj
使用前请将post.php放在wordpress网站根目录下的压缩包中
点击启动浏览器获取登录信息,然后输入上面填写的自己的wordpress URL,进入登录界面,登录成功后自动获取登录参数,直接关闭浏览器窗口即可
由于本教程是针对百度百家的娱乐版块,所以我也先在wordpress上创建了一个“娱乐”类目录。
选择文章需要发布到哪个类别,然后我们就可以点击下面的测试了
测试成功发布
记得检查使用这个规则!!!!!!!!
保存并退出
好了,现在正式开始采集
勾选三个选项,然后启动任务,自动抓取,抓取后自动发布。这时候你打开你的wordpress文章列表,里面有很多新的文章
但是这时候你会发现这些文章都处于“Pending Release”状态
这时候我们需要操作数据库
点击数据表上方的SQL按钮进入数据表代码编辑器,输入如下数据表执行命令:
UPDATE wp_posts
SET post_status =
REPLACE( post_status, 'pending', 'publish' )
!!!!!!!就是这样!!!你的网站此时将有数百个文章!!!!
》一个我随手捡到的垃圾站