1.新建站点2.网址规则查看一下源代码内容规则制作
优采云 发布时间: 2021-08-21 04:391.新建站点2.网址规则查看一下源代码内容规则制作
我们以腾讯广州新闻为例,说说文章的采集和发布,包括下载和上传图片。 URL /guangzhou/guangzhounews.htm,我们一步步讲。
1.新站点
2.在本站创建一个新任务
3.URL 规则,查看源码,发现这些 URL 代码都在一个区域,我们可以这样写规则
测试一下,是正确的,是时候收下下面的内容了。
4.Content 规则生成。随便找一个页面,比如/000175.htm,先测试一下
看了一下,里面有我们需要的东西,说明优采云可以捡到。下面我们来做具体的内容采集rules。
如何获得标题?只需使用默认过滤器“_Social ”。这是你不理解代码时使用的方法,你可以对内容做同样的事情。对于一般的简单采集,没有大问题。但是对于一些比较复杂的网页采集,还是需要仔细分析源码和网页结构。下面我们做一个具体的分析。分析工具IE可以使用ie开发者工具栏,firefox可以使用插件firebug(具体请在工具“附件-组件浏览-附加组件”中查看安装),google可以使用右键“查看”元素”。我以萤火虫为例:
经过分析,我们可以知道内容在id为cntMain,标题id为ArticleTit的区域,
店员疑似死于手机爆炸。续:现场发现9颗*敏*感*词*
,所以我们可以这样写标题。注意截取的代码要以源码中的格式为准。
内容为ArticleCnt,以ArtPLink结束。这是内容的采集。
我们来测试一下,我们可以采集所有的内容,但是里面有广告和其他乱码,我们必须过滤掉。我看最上面的分析代码,广告代码,推荐阅读,id是阅读,所以我们这样过滤。
。看一看,没有更多,但需要注意的是,之前有一份关于此的报告。请看图片。他们中的大多数是不同的。例如,有些是相关报告,有些是事件回放。有些只是链接。
这个过滤有点复杂。它只能单独过滤。我将在这里过滤链接。你可以自己处理其他人。那我们来看看吧。 文章 末尾还有一个文章 链接。这是我们不需要的。过滤掉它。多过滤一些,再找几个页面测试一下,发现问题。最终结果如图所示。
5.发布设置。我们使用WEB在线发布,将数据发送到dedecms5.1。我们选择发布,然后点击定义在线帖子到网站全局设置。弹出 Web 在线配置管理器。
这时候我们选择添加,出现web发布配置。我们先来看看使用说明。这应该仔细阅读。具体可参考WEB在线发布模块文章的修改,阅读后开始配置。 :
我们发布到本地网站dedecms5.3,所以模块选择对应的版本,网站管理目录是/dede,所以按照说明填写,然后选择代码,we网站gbk,所以选择gbk。然后登录网站,使用优采云内置浏览器登录。如图所示
然后登录成功就可以关闭优采云浏览器了。下面我们刷新列表,这个用来指定文章发布到哪一列,如图
可以看到列成功获取,接下来我们测试配置
我们可以看到已经成功发布了。检查网站background,它也成功了。现在您可以保存配置名称并在发布时使用它。示例保存为 dedegbk53.
现在我们右键单击任务发布设置,
,选择我们刚才的dedegbk53,然后点击选择类别指定这个任务中的文章会发布到网站对应的列,我们可以添加多个配置,当然一个配置也可以在多个任务已添加。