汇总:采集文章并发布到DedeCMS

优采云 发布时间: 2020-09-01 20:08

  采集 文章并发布到Dede cms

  采集 文章并发布到Dede cms

  让我们以腾讯广州新闻为例来讨论采集和文章的发行,包括下载和上传图片. URL,让我们逐步讨论它.

  1. 新网站

  

  2. 在网站上创建新任务

  3. URL规则,检查源代码并发现这些URL代码在一个区域中,我们可以编写这样的规则

  

  测试一下,它是正确的,是时候阅读下面的内容了.

  

  4. 内容规则的产生. 让我们随机找到一个页面,例如,先对其进行测试

  

  看着它,我们里面需要一些东西,这表明优采云可以捡起它. 让我们在下面做具体的内容采集规则.

  如何获得标题?只需使用默认的过滤器“ _Social Vientiane_News_Tencent.com”. 这是当您不了解代码时使用的方法,内容也可以这样做. 通常,对于简单的采集,没有大问题. 但是对于某些相对复杂的网页采集,仍然有必要仔细分析源代码并分析网页结构. 下面我们做一个具体的分析. 分析工具IE可以使用ie开发人员工具栏,而firefox可以使用插件firebug(有关详细信息,请检查并安装在“附件-组件浏览-其他组件”工具中),而google可以使用右键“审核元素”. 我以萤火虫为例:

  

  经过分析,我们可以知道内容位于id为cntMain且标题id为ArticleTit的区域,

  该店员被怀疑死于手机爆炸. 继续: 现场发现9枚*敏*感*词*

  ,所以我们可以这样写标题. 请注意,所拦截的代码应基于源代码中的格式.

  

  内容为ArticleCnt,我们以ArtPLink结尾. 采集的内容是这样的.

  

  让我们对其进行测试,我们可以采集所有内容,但是其中收录广告和其他凌乱的代码,我们必须将其过滤掉. 我在顶部看到分析代码,即广告代码,建议阅读. id正在读取,因此我们像这样进行过滤.

  

  . 不用再看了,但是要注意的一件事是有关此的以前的报告. 请查看图片,其中大多数是不同的,例如,一些是相关的报告,还有一些是事件重播. 有些只是链接.

  

  此过滤有点复杂. 它只能单独过滤. 我将在此处过滤链接. 您可以自己与其他人打交道. 然后,让我们来看看. 文章末尾还有一个文章链接. 这是我们不需要的. 过滤掉. 将其过滤掉,然后再查找几页进行测试并查找问题. 最终结果如图所示.

  

  5. 发布设置. 我们使用WEB进行在线发布,然后将数据发送到“> dede cms 5.1. 我们选择“发布”,然后单击“定义在线发布以网站全局设置”. 将弹出Web在线配置管理器.

  

  这时,我们选择添加,然后出现Web发布配置. 让我们先看看使用说明. 应该仔细阅读. 有关详细信息,请参阅WEB在线发布模块文章的修改. 阅读后,开始配置:

  我们发布到本地的网站 dede cms 5.3,因此模块选择了相应的版本,并且网站管理目录也是如此,因此请按照说明进行填写,然后选择代码, 网站 gbk,所以选择gbk. 然后登录网站,使用优采云内置浏览器登录. 如图所示

  

  然后您就可以在成功登录后关闭优采云浏览器. 下面我们刷新列表,该列表用于指定将文章发布到哪个列,如图所示

  

  您可以看到已成功获取该列,然后我们测试配置

  

  我们可以看到它已成功发布. 网站在后台检查它也成功. 现在,您可以保存配置名称,并在发布时使用它. 该示例另存为dedegbk53.

  现在,我们右键单击任务发布设置,

  

  通过这种方式,Web发布配置已准备就绪,让我们现在讨论如何下载图片,如图所示

  

  上图是运行时线程设置. 如果您的网络不好,请将其更改为更大的大小. 在文件下载设置部分,可以在任何目录中选择本地文件保存文件夹,程序将在该目录中生成图片. flash,其他文件的保存地址. 文件链接地址前缀是网站上显示的路径,如上图所示,我本地保存的图片文件的最终地址将是a + 1 + /文件名,并且在网站上对应的地址]为b + 1 + /文件名,如果通过ftp上传,则b和c的路径应对应.

  在标签中指定下载的特定设置,还可以指定下载文件的命名方法.

  

  现在我们所有的配置都已经完成,我们可以直接启动采集并将其发布. 保存任务后,选择任务,然后单击“开始”.

  应注意,没有必要一次选择该选项. 可以采集网站,可以采集内容,并且可以分阶段发送内容. 我们的演示一次完成. 点击开始,我们可以看到操作进度.

  

  

  

  让我们去后台网站看看效果,

  

  只要找到一个文章,这是正常的,图片也正常,如果您不直接保存到网站目录,请使用ftp工具将其上传. 完整的采集发布过程已经结束.

  总共2页:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线