文章采集发布( 1.新建站点2.网址规则查看源代码内容规则制作)

优采云 发布时间: 2021-11-14 02:17

  文章采集发布(

1.新建站点2.网址规则查看源代码内容规则制作)

  采集文章 并发布到 Dedecms

  我们以腾讯广州新闻为例,说说采集的发布和文章的发布,包括图片的下载和上传。URL,我们一步一步说。

  1.新站点

  

  2.在本站新建一个任务

  3. URL规则,查看源码,发现这些URL代码都在一个区域,我们可以这样写规则

  

  测试一下,没错,下面的内容是时候捡起来了。

  

  4.内容规则制作。我们随机找一个页面,比如先测试一下

  

  看了一下,里面有我们需要的东西,说明优采云是可以捡到的。下面我们来做具体的内容采集规则。

  如何获得称号?只需使用默认过滤器“_Social ”。这是你不理解代码时使用的方法,你可以对内容做同样的事情。对于普通的简单采集,没有大问题。但是对于一些比较复杂的网页采集,还是需要仔细分析源码,分析网页的结构。下面我们做一个具体的分析。分析工具IE可以使用ie开发者工具栏,firefox可以使用插件firebug(具体请在工具“附件-组件浏览-附加组件”中查看安装),google可以使用右键“查看”元素”。我以萤火虫为例:

  

  经过分析,我们可以知道内容在id为cntMain,标题id为ArticleTit的区域。

  店员疑似手机爆炸死亡续:现场发现9颗*敏*感*词*

  ,所以我们可以这样写标题。需要注意的是,截取的代码应该是根据源代码中的格式进行的。

  

  内容是ArticleCnt,我们以ArtPLink结束。采集的内容是这样的。

  

  我们来测试一下,我们可以得到所有的内容,但是里面有广告和其他乱码,我们必须过滤掉。我看最上面的分析代码,广告代码,推荐阅读,id是阅读,所以我们这样过滤。

  

  . 看一看,没有更多,但需要注意的是,之前有一份关于此的报告。请看图,大部分都是不同的,比如有的是相关报道,有的是事件回放。有些只是链接。

  

  这个过滤有点复杂。它只能单独过滤。我将在这里过滤链接。你可以自己处理其他人。那我们来看看吧。文章 的末尾还有一个 文章 链接。这是我们不需要的,过滤掉它。过滤掉,再找几个页面测试一下,发现问题,最后结果如图

  

  5.发布设置。我们使用WEB在线发布,将数据发送到">dedecms 5.1.我们选择Publish,然后点击Define Online Post到网站全局设置。弹出web在线配置管理设备。

  

  这时候我们选择添加,出现web发布配置。我们先来看看说明。这应该仔细阅读。详见WEB在线发布模块文章的修改。看完之后,开始配置:

  我们发布到本地网站dedecms5.3,所以模块选择对应的版本,网站管理目录是,所以按照说明填写,然后选择code,我们是网站gbk,所以选择gbk。然后登录网站,使用内置浏览器优采云登录。 如图

  

  然后登录成功就可以关闭优采云浏览器了。下面我们刷新列表,这个用来指定文章将发布到哪个列,如图

  

  可以看到列成功获取了,接下来我们测试一下配置

  

  我们可以看到它已经成功发布了。网站 后台查了一下,也成功了。现在您可以保存配置名称并在发布时使用它。示例保存为 dedegbk53.

  现在我们右键单击任务发布设置,

  

  这样web发布配置就做好了,现在来说说如何下载图片,如图

  

  上图是运行时线程设置。如果您的网络不好,请将其更改为更大的大小。在文件下载设置部分,可以在任意目录选择本地文件保存文件夹,然后程序会在该目录下生成图片、flash等。文件的保存地址。文件链接地址前缀是网站上显示的路径。如上图,我本地保存的图片文件最终地址会是a+1+/文件名,而网站上对应的地址是b+1+/文件名。如果是ftp上传,b和c的路径必须对应。

  标签中指定了下载的具体设置,也可以指定下载文件的命名方式。

  

  现在我们所有的配置都完成了,我们可以直接启动采集并发布它。保存任务后,选择任务并单击开始。

  需要注意的是,没有必要一次选择这个。可以分阶段发送网址、内容和内容。我们的演示一次完成。单击开始,我们可以看到操作的进度。

  

  

  

  我们去网站后台看看效果,

  

  随便找个文章,很正常,图片也正常。如果不直接保存到网站目录,请用ftp工具上传。一个完整的采集 发布过程就结束了。

  共2页:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线