网站程序自带的采集器采集文章(EvaluationWarning:ThedocumentwascreatedwithSpire..如何使用优采云采集器优采云7.6免费版功能)
优采云 发布时间: 2021-10-10 18:28网站程序自带的采集器采集文章(EvaluationWarning:ThedocumentwascreatedwithSpire..如何使用优采云采集器优采云7.6免费版功能)
评估警告:ThedocumentwascreatedwithSpire..如何使用优采云采集器优采云采集器7.6 免费版,功能有很多限制,但我已经用它实现了采集 并发布(附图片和排版)。图片通过采集程序下载到本地,放在约定名字的文件夹中,最后手动上传到服务器上DZ程序运行目录下的pic目录。下载优采云采集器7.6版本_V7.6_Build20120912.Free.zip,解决后即可运行。环境。程序为Discuz!X2.5GBK版本。核心工作有两部分:1、采集、2、发布。本文重点介绍如何发布(配图,排版),并简要说明如何采集。一、由于采集中文章的内容是HTML格式,所以新建了一个UBB格式的web在线发布模块,如:
文本
此类文本带有 HTML 标签。DZ论坛使用UUB格式,如:[p]text[/p],所以发布时需要自动转换。下面是设置这个自动转换功能。如果你的文章发布了DZ门户,则不需要转换为UBB。1、 打开发布模块配置: 2、 以软件自带的Discuz!X2.0 论坛修改为模板。我试过正常生活 Discuz!X2.5release文章。3、设置为:UBB转换为[label:content],如下图: 最后另存为一个新的“发布模块”,给它一个新的名字,以后使用。4、 在“内容发布参数”选项卡中修改:[label: content]的值可以替换为{0}。如下图:将*敏*感*词*框中的[label: content]替换为{0},完成下图中的第一部分工作。二、使用Web在线发布模块之前我新建了一个Web在线发布模块,下面是使用它。第 1 步:创建一个新的“发布”。操作如下图: 注:请到论坛后台修改设置。登录时,无需输入验证码即可登录成功,测试成功。以后记得改回来。保存时给一个新名称。三、准备采集这里,我用优采云自带的采集 demo来说明。右键“腾讯新闻”-“编辑任务”,打开如下窗口。如下图所示,使用上一步创建的“发布模块”将采集的内容发布到论坛的某个栏目。设置如下: 还有下图:对于采集的工作,有一些重要的设置,非常重要。如果你没有使用优采云自带的demo任务,而是自己新建一个采集任务,下面的内容很重要。以下设置针对采集 的文章 的正文。“开始字符串”和“结束字符串”是所有设置中最重要的内容。用于分析页面的HTML源代码,找出文章文本的起止点。下图使用优采云 为腾讯准备默认值,不需要修改。如果你不是采集腾讯而是使用其他的网站,你必须查看HTML源代码并手动分析它。采集,可以有选择的过滤掉一些HTML标签,比如