采集与发布带图片的文章
优采云 发布时间: 2020-04-19 11:021怎样使用火车头采集器火车头采集器 7.6 免费版,功能有很多限制,但我已使用它实现了采集与发布(带图片、排版)。图片是通过采 集程序下载到本地, 放在一个约定好名子的文件夹中, 最后人工上传到服务器 DZ 程序运行目录下的 pic 目录下。 下 载火车头采集器 7.6 版本 LocoySpider_V7.6_Build20120912.Free.zip,解决后可运行。需要.NET 环境。 程序是 Discuz!X 2.5 GBK 版本。 核心工作有两部份:1、采集,2、 发布。 本文重点说怎么发布(带图片、排版), 简单说怎么采集。一、新建一个使用 UBB 格式的 Web 在线发布模块由于采集下来的文章内容是 HTML 格式,如:<p>正文</p>这样带有 HTML 标签的文本。 而 DZ 论坛使用的是 UUB 格式,如:[p]正文[/p],所以在发布时要做一个手动转换。下面就是设置这个手动转 换功能。 如果你的文章发布的 DZ 门户,就不需要转换为 UBB. 1、 打开发布模块配置:2、 以软件里自带的 Discuz!X 2.0 论坛 为模板进行更改。我试过了可以正常住 Discuz!X 2.5 发布文章。
3、 设置为:对 [标签: 内容]做 UBB 转换,如下图中的样子: 最后,另存为一个新的“发布模块” ,起一个新名子,后面要使用。24、在“内容发布参数”选项卡中更改: [标签: 内容] 的值可以用使用{0} 来代替。如下图:*敏*感*词*框内的[标签:内容]替换成{0},如下图3第一部分工作就完成了。二、使用 Web 在线发布模块上面我新建了一个新的 Web 在线发布模块,下面就是使用它。 第一步:新一个“发布” ,操作如下图:4注意:请到峰会的后台更改设置,要求登陆时不需要输入验证码,才能登入成功,才能测试成功,记得之后要改回 来啊。 最后保存时要起个新名子。三、准备采集这里以列车自带的采集演示来说明 。鼠标右击“腾讯新闻”—“编辑任务” ,打开如下窗口。 如下图设置,使用前一步 建立 的“发布模块” ,可以把采集到的内容发布到峰会的某个栏目中。 设置如下图:5下边还有图:67对于采集工作,还有一些重要的设置,很重要。 如果你不是使用火车头自带的演示任务,而是自己新建采集任务,下面的内容就很重要。 下面的设置,是对采集的文章正文进行的设置。8“开始字符串”“结束字符串”是所有设置中最重要的内容,它拿来剖析页面的 HTML 源码,找出文章正文的开始 , 点与结束点。
下图中使用的是火车头为腾讯打算默认值,不需要更改。 如果你不采集腾讯而采其它网站,这个就 要你自己看 HTML 源码来人工剖析了。 采集时,可选择性的过滤掉一些 HTML 标签,如<script><iframe>, 如果你不知道要除去什么,就哪些也不用改,使用默认值吧。9下载的图片存目录设置 图片下载后被保存在: 火车头软件安装目录\Data\LocoySpider\80\ 文件夹中。 为什么叫 80,其实叫哪些都可以,但为了便捷管理火车头文章采集,这个腾讯采集任务编号是 80,所以放到 80 文件夹中。以后是 腾讯采集任务,采集下来图片都置于这儿,方便管理。 腾讯采集任务编号,请再前面一张图片中查看。10顾客通过浏览器访问我峰会的文章里的图片时, 统一访问服务器上 DZ 程序的根目录下的./pic/目录, 使用相对路径, pic 目录下边我们再新建一个 80 目录, 所以, 把火车头安装目录下的\Data\LocoySpider\中的 80 文件夹, COPY 到服务器 DZ 程序的根目录下的 pic 目录中, 这样,图片就储存在了:服务器 DZ 程序的根目录\pic\80\ 目录 同时 文章中的图片的地址是指向 ./pic/80/xxx.jpg 。
文章就可以显示图片了。补充:后来经过实践,目录定为:/data/attachment/pic 章的“封面” ,这个路径是合适的。,好处是:为了通过程序取文章中的第一张图片做为文四、什么样的数据容易采集请看这个新闻列表: 有文章列表的、URL 地址有规律的文章火车头文章采集,容易采集。 采集时优先找 以上条件的文章进行采集。一般著名大网站都可以。 知名大网站页面的 HTML 源码太简约,方便人工剖析,找出文章正文起点与终点的 HTML 标记。.