建站系统采集器(0FA0463417A72D84375C4B5D2FC49465上传插件的优点及操作技巧!(组图) )

优采云 发布时间: 2021-11-07 22:12

  建站系统采集器(0FA0463417A72D84375C4B5D2FC49465上传插件的优点及操作技巧!(组图)

)

  MD5 值:0FA0463417A72D84375C4B5D2FC49465

  上传插件方法一

  直接通过后台的【本地后台上传插件】上传和解压下载的ZIP包。

  优点:操作简单!

  缺点:部分主机解压失败

  方法二

  下载插件后,在本地解压,通过FTP上传文件夹到plugins目录。

  优点:安装比较顺利。

  缺点:可能需要你有一定的网络建设知识和一点编程基础

  安装插件

  上传成功后,插件会出现在【插件未安装】列表中,请点击安装

  

  安装完成后,会显示【已安装列表】。目前,该插件不可用。请点击状态,会变成【绿色】,表示插件安装成功。

  

  参数调整

  安装过程中,由于某些原因,没有配置参数,这里可以配置

  

  快捷栏管理

  系统支持自定义插件的部分配置信息为:左侧菜单/全局区域/内容区域,这是一个大区域,方便维护人员快速进入

  

  

  介绍

  在建网站的过程中,我们会遇到无数次这样的问题:如何将旧的网站的数据迁移到新的网站。数据迁移一直是产品迭代更新中最难的部分。官方从实际出发,编写相应的数据采集插件,只需做一个简单的页面识别,即可快速将数据迁移到新平台!也方便开发者填写数据(不要大量填写:test test, Demo, Demo)

  新版本

  字段规则参考

  规则数据导入导出

  特别说明

  这个插件的定位从一开始就很明确。用于平台网站迁移,功能简单,性能一般。如果你的网站数据量很大,需要采集,建议你使用优采云采集器

  请合理使用,请勿非法使用!

  采集教程

  采集原理

  程序通过curl远程获取网页数据(HTML),然后通过常规方法获取并过滤其需要的内容信息(如一些文字信息、图片信息、文件信息等)。为简化操作,本系统使用通配符:(*) 表示任意值,其他正则表达式未深入测试。

  这里再次强调一下,这个职业的功能很脆弱,只适合网站搬家。不支持当前流行的异步数据获取,不支持JSON解析!

  本节目全部列表+内容采集原则:

  通过[采集范围]的左侧删除此代码块之前的所有数据(也称为起始标识符,或起始字符串)!通过[采集范围]的右侧删除此代码块之后的所有数据(也称为结束标识符,或结束字符串),只保留两个代码块之间的数据!

  列表中:对于剩余的代码,通过常规规则获取URL信息(列表中只有采集 URL,没有采集其他)

  采集 内容的原理和列表的原理是一样的,因为内容是由多个字段组成的,每个字段的规则基本都是这样的!

  删除代码块之前+之后的代码

  删除一些多余的代码

  替换一些代码(简单的文本替换)

  将获取的内容格式化:1)文本、2) HTML、3)文本转时间戳、4)整数格式、5)浮点格式、6)摘要取前80个字,7)取图,基本就是这样

  

  项目维护

  在右上角,点击各个项目的【添加采集项目】或【编辑】,进入采集项目维护界面。

  标题:(易于管理)

  URL:其作用是补全相对地址,所以需要填写:域名/目录/或域名/目录/,或直接填写:域名/或域名/方便地址补全(此操作需要用户自行测试,主要用于图像文件获取)

  发布目标:发布信息要保存在哪个项目中(系统会根据指定的项目创建一个字段到采集),注意分类的选择!

  列表网址:通常是我们所说的列表页面,有分页的页面,像新闻一般是:标题+摘要+图片+链接(例如URL:这是一个列表页面),每行一个列表。如果列表过多,请选择旁边的【网址*敏*感*词*】快速生成常规页面

  采集 Scope:在网页中设置一块采集

  

  项目副本

  我们一直强调,这个插件主要是针对搬家服务的,自然有自己的一些特点,比如当前项目复制功能,可以实现对同一项目类型不同分类的快速定位!

  

  现场管理

  项目创建完成后,系统会自动将所有需要采集的内容字段写入到字段管理中。这些管理相当于优采云的[Content采集 Rules]中的标签列表。我们处理字段的规则为 采集!处理原理和上面提到的采集原理完全一样!

  下面是优采云采集器Content Rules采集的图和对比图(当然我们的程序功能比较弱)

  

  A、B、C、D的功能基本上与优采云一一对应!

  采集测试

  写好规则后,我们需要对数据进行测试验证,确保采集的数据是我们想要的

  请点击【测试】,在打开的标签页中输入要测试的网址!注意,请点击[采集列表]进行列表采集测试,点击[采集内容]进行内容采集测试

  

  

  采集 并发布

  以上准备工作完成后,我们就可以开始采集数据了!

  采集 的顺序是:

  1、【采集网址】,首先通过列表采集得到我们想要的内容页网址采集

  2、【采集内容】,网站采集完成后,请点击采集内容,进入采集内容,直接采集结束

  3、【发布内容】,发布前随机抽查,请点击内容,随机抽查采集的内容是否符合要求。确保数据一致,点击发布

  

  网站迁移条件

  1、关闭反采集功能

  2、可以手动修改老版本网站模板信息(或内容)(用于修改我们需要的URL和内容信息)

  3、仅供开发者使用

  网站迁移

  在旧站页面的采集列表中添加唯一标签,这样采集时不会有太多垃圾数据和丢失数据。主要说明如下

  

  看到上面的源码图片,我们通常在后台设置这样的标签:

  

  但是在实际过程中,一个页面的重复标签比较多,所以我们修改了源码页(网上大部分程序源码对应的页面都是模板),我们添加了开始标识和结束标识到模板代码符号

  这样我们就可以在[采集范围]设置如下

  

  所以我们对采集的定位是准确的!

  同样的原则也适用于 采集 内容字段。这种方法甚至可以用于采集完整的时间(因为页面一般只呈现年月日,而我们的数据盘点是年月日时分秒,甚至时间戳格式,我们可以自己重新定义标签和内容,然后执行采集!

  请注意,此方法需要开发人员!普通用户慎用

  特别提醒

  1、列表或详细页面采集Ajax是异步加载的,当前系统弱采集(比如点击次数),这意味着最现代的炫酷特效网站,基本可以排除,拿不到数据

  2、 请使用右键查看源代码或按CTRL+U获取源代码格式,不要通过F12或检查方式获取代码(如下图)

  

  所以,这里再说一遍,这个工具只用于网站移动!因为刚才遇到的问题,如果有代际修改权限,这些都不是问题!

  效果截图

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线