优采云采集规则都收费,这篇文章就是你!
优采云 发布时间: 2021-06-30 07:21优采云采集规则都收费,这篇文章就是你!
优采云采集规则是收费的,这个优采云WordPress发布规则编写教程适合所有人。由于wordpress有登录认证,为了采集的方便,有人使用PHP接口+优采云进行采集的解决方案。我个人认为这个方案非常有用,推荐给大家。
学习本文后,您将能够独立编写WordPress发布规则。结合上面的优采云采集rule教程,下一个采集大王就是你!
文件:/file/251272
发布规则的原则
这里的发布规则以优采云采集器为例。发布是向服务器提交数据的过程,服务器的程序可以正确地将数据写入数据库。这里的服务端程序可以是网站程序,也可以是自己编写的接口,只要数据能正确写入数据库即可。提交数据,需要有post基础。下面简单说一下post数据传输的过程。通过HTTP传输数据主要有两种方式,一种是get,一种是post。 get一般用于获取数据,可以携带少量参数数据,post在此基础上可以携带大量数据,比如我们的文章文章,1000字长。
我们可以通过浏览器的F12network标签看到每个网页请求的请求类型和详细信息。 采集的发布规则是模拟向网站程序提交post请求,让网站程序认为是我们手工操作。
如前所述,WordPress 具有身份验证机制。如果您没有权限,WordPress 不会让您发布文章。所以我们只能对WordPress的登录算法进行解密,拿到用户的登录凭证后就可以正常发布@k13了。 @,这太麻烦了。为简单起见,我们可以为wordpress添加一个不需要认证的接口,直接在这个接口中操作数据库。
优采云release 模块
找出原理,我们就可以开始写接口了,代码太多了,我就不贴代码了,完整的代码会在文章最后给出,大家自行下载。我们先来看看优采云的release模块的结构,了解之后就可以写接口程序了。
自动登录可以直接忽略,我们不需要用自己的界面登录。发布文章时,我们需要知道发布到哪个类别。因此,需要提供的第一个接口是所有类别和 ID。如上图,我定义了一个get接口,接口文件名为post.php,提交了一个get参数action,值为list。对应的界面程序如下:
优采云发布规则中,我们需要的分类ID和分类名称用变量代替。应该看过各种采集器爬虫程序实现原理科普文章。
这个接口代码和优采云中优采云发布配置的效果如下:
同理,也有提交的post数据,即文章content,优采云publishing模块规则如下:
接口代码我就不贴了。文末接口文件自行下载。