火车头

火车头

SEO黑科技:5118伪原创+火车头采集教程(1)

采集交流优采云 发表了文章 • 0 个评论 • 538 次浏览 • 2020-04-24 11:01 • 来自相关话题

  最近在研究火车头采集器,通过火车头采集软件可以轻而易举的获得海量的网站内容(采集确实不妥)可以解放站长右手,机器时代工具自然比手工效率高多了。
  经过一段时间研究,目前早已把握了火车头采集技术能力,火车头采集对接开源CMS程序手动更新能力,可以结合ai伪原创插口 实现批量采集并直接发布到WP、DEDECMS网站。说实在的,不是常常被人问采集相关的问题,我根本不乐意研究这种采集技术。
  
  接下来谈谈火车头采集器集成5118智能原创功能吧,这也是5118明天刚推送的一篇公众号文章。
  在列车采集器中,利用5118智能原创插件,不再须要经过人工处理,即能批量生产出内容指纹完全不同的文章,大幅提升了内容SEO采编的工作效率,让文章更容易被收录。
  5118智能原创-火车采集器插件下载链接: 提取码: umjx
  第一步,使用解压软件,提取插件安装包中的文件,解压到一个文件夹中。
  
  第二步,打开解压后的文件夹,将上面的【5118 智能原创.dll】文件,放入在【火车采集器】安装目录下的Plugins文件夹里。
  
  第三步,将文件夹中的【5118智能原创配置工具.exe】和
  【Newtonsoft.Json.dll】文件,放入在【火车采集器】安装目录中。
  
  第四步,在【火车采集器】的根目录里,打开【5118 智能原创配置工具.exe】,点击“获取API-Key”,将会在浏览器中打开5118获取API的页面。
  
  页面中找到“一键智能原创API”,点击复制按键,返回【5118 智能原创配置工具.exe】界面,粘贴API-Key到输入框中。
  一键智能原创API支持免费试用
  
  当然5118伪原创是要订购付费的,可申请100次免费使用,可选购一键智能原创API套餐。5118会员折扣码 D569F5
  第一步,打开火车头采集器,点击开始栏的【插件管理】,在插件管理框右侧列表里,选中【5118智能原创】,在两侧框中输入需采集的网址,点击测试按键,查看插件是否正常。
  第二步,测试没有问题后,开始使用插件设置内容采集规则。
  
  第三步,选择已有采集任务,在【其他设置】的一侧栏目中选择插件,在采集结果处理插件下拉框中火车头采集教程,选择【5118智能原创.dll】,点击保存即可。
  
  此处需注意,【内容采集规则】左侧列表里的“内容”标签,是插件将手动智能原创的内容,固定标签名称为“内容”。
  
  导出任务数据时,在任务列表里,选中对应任务项目,右侧“发布”项必须勾选,否则数据难以导入。
  
  第四步,查看5118智能原创插件疗效。运行完成后,即可在之前所保存的地址中查看导入疗效。所导入的内容,已经是使用智能原创插件替换后的数据。(以上内容转载自5118公众号)
  需要把握以下技能:
  1,火车头采集工具使用 ,推荐学习 SEOWHY火车头采集基础教程 和 SEOWHY火车头采集器(高级教程)
  2,5118伪原创工具使用,会员折扣码D569F5 5118官网
  3,常用CMS网站程序功能使用,课程中讲过
  4,采集网页须要用到规则火车头采集教程,要熟悉div+css
  5,WP博客系统插口,织梦CMS发文插口
  如果你对这个SEO黑科技有兴趣,站长同学不妨研究一下。需要工具软件和折扣消息可以联系我,常用CMS发布插口都不是问题。 查看全部

  最近在研究火车头采集器,通过火车头采集软件可以轻而易举的获得海量的网站内容(采集确实不妥)可以解放站长右手,机器时代工具自然比手工效率高多了。
  经过一段时间研究,目前早已把握了火车头采集技术能力,火车头采集对接开源CMS程序手动更新能力,可以结合ai伪原创插口 实现批量采集并直接发布到WP、DEDECMS网站。说实在的,不是常常被人问采集相关的问题,我根本不乐意研究这种采集技术。
  
  接下来谈谈火车头采集器集成5118智能原创功能吧,这也是5118明天刚推送的一篇公众号文章。
  在列车采集器中,利用5118智能原创插件,不再须要经过人工处理,即能批量生产出内容指纹完全不同的文章,大幅提升了内容SEO采编的工作效率,让文章更容易被收录。
  5118智能原创-火车采集器插件下载链接: 提取码: umjx
  第一步,使用解压软件,提取插件安装包中的文件,解压到一个文件夹中。
  
  第二步,打开解压后的文件夹,将上面的【5118 智能原创.dll】文件,放入在【火车采集器】安装目录下的Plugins文件夹里。
  
  第三步,将文件夹中的【5118智能原创配置工具.exe】和
  【Newtonsoft.Json.dll】文件,放入在【火车采集器】安装目录中。
  
  第四步,在【火车采集器】的根目录里,打开【5118 智能原创配置工具.exe】,点击“获取API-Key”,将会在浏览器中打开5118获取API的页面。
  
  页面中找到“一键智能原创API”,点击复制按键,返回【5118 智能原创配置工具.exe】界面,粘贴API-Key到输入框中。
  一键智能原创API支持免费试用
  
  当然5118伪原创是要订购付费的,可申请100次免费使用,可选购一键智能原创API套餐。5118会员折扣码 D569F5
  第一步,打开火车头采集器,点击开始栏的【插件管理】,在插件管理框右侧列表里,选中【5118智能原创】,在两侧框中输入需采集的网址,点击测试按键,查看插件是否正常。
  第二步,测试没有问题后,开始使用插件设置内容采集规则。
  
  第三步,选择已有采集任务,在【其他设置】的一侧栏目中选择插件,在采集结果处理插件下拉框中火车头采集教程,选择【5118智能原创.dll】,点击保存即可。
  
  此处需注意,【内容采集规则】左侧列表里的“内容”标签,是插件将手动智能原创的内容,固定标签名称为“内容”。
  
  导出任务数据时,在任务列表里,选中对应任务项目,右侧“发布”项必须勾选,否则数据难以导入。
  
  第四步,查看5118智能原创插件疗效。运行完成后,即可在之前所保存的地址中查看导入疗效。所导入的内容,已经是使用智能原创插件替换后的数据。(以上内容转载自5118公众号)
  需要把握以下技能:
  1,火车头采集工具使用 ,推荐学习 SEOWHY火车头采集基础教程 和 SEOWHY火车头采集器(高级教程)
  2,5118伪原创工具使用,会员折扣码D569F5 5118官网
  3,常用CMS网站程序功能使用,课程中讲过
  4,采集网页须要用到规则火车头采集教程,要熟悉div+css
  5,WP博客系统插口,织梦CMS发文插口
  如果你对这个SEO黑科技有兴趣,站长同学不妨研究一下。需要工具软件和折扣消息可以联系我,常用CMS发布插口都不是问题。

Discuz X3.2 采集教程 – 火车头采集器 v7

采集交流优采云 发表了文章 • 0 个评论 • 558 次浏览 • 2020-04-24 11:00 • 来自相关话题

  
  一般做站的人基本上都晓得采集,尤其是做站群或则做峰会的人。但是现今网上的采集工具基本上都是收费的。而且不光软件收费,采集规则还收费。真是羊绒一把把的薅啊。像火车头这个软件,现在早已到 v9 了,但是精典款还是 v7.6 ,至于为何,你们自己心中应当有数。一般采集内容你们就会,直接定义起始点和结束点就可以了。而火车头带的这个 Web发布配置管理就有点麻烦了。今天 Forece 教你们怎么用设置火车头采集器 v7.6 的Web发布配置管理。针对的是 Discuz X3.2 / X3.3 / X3.4
  打开火车头采集器 v7.6 - 工具 - Web发布配置管理
  
  
  弹出一个新窗口,我们一个一个配置,先来这个登入配置,点击手动抓取登录数据包
  
  在以后弹出的窗口中输入 Discuz 论坛的地址(Forece 用的本地测试),然后登录你注册过的用户。在 Post 数据框那儿应当可以看见数据,然后点击确定。当然若果有的网站无法使用手动登入获取 POST 数据的话,你可以用 Fiddler 来获取 Post 数据。然后在上一个窗口中,选择粘贴 Post 数据。
  
  Post 数据通常是长这个样的:
  fastloginfield=username&username=forece&password=xxxxxxxxxxxxxx&quickforward=yes&handlekey=ls
  点击确定后,你可以听到大部分表格都早已填写完毕了
  
  我们还须要再做一下更改,需要将 username 和 password 的表单值改为 [用户名] 和 [密码],另外还须要加一个登录失败标志码码和登录成功标志码。
  登陆失败标志码
  登录失败
  登陆成功标志码
  <script type="text/javascript" reload="1">
  最后截图如下:
  
  然后我们步入下一个 Tab ,网页随机值获取。获取这个数值的诱因是因为 Discuz 有一个称作 formhash 的东西。这玩意还不是固定的火车头采集教程,每次都变。
  
  然后依次填入以下数据:
  获取页面:
  /forum.php?mod=post&amp;action=newthread&amp;fid=2
  来源页面
  /forum.php?mod=post&amp;action=newthread&amp;fid=2
  随机值前字符串
  name="formhash" value="
  随机值后字符串
  然后将 每次恳求都使用第一次获取的网页随机值 的选项关闭。
  PS: 获取页面和来源页面是你发布贴子的页面。大家听到我旁边的 fid=2 是我的版块名称,请依照自己 Discuz 论坛的情况配置。
  最后设置截图如下:
  
  内容发布参数的设置和登录的有点类似火车头采集教程,也是须要获取 Post 数据
  
  登陆进峰会 - 选择发贴 - 填写标题 - 内容 - 按发贴 - 获取 Post 数据 - 按确定
  
  Post 数据应当是这样的:
  formhash=9c552f8e&amp;posttime=1507576154&amp;wysiwyg=1&amp;subject=%E7%81%AB%E8%BD%A6%E5%A4%B4%E8%8E%B7%E5%8F%96+Post+%E6%95%B0%E6%8D%AE%E6%B5%8B%E8%AF%95%E5%B8%96&amp;message=by+Forece&amp;replycredit_extcredits=0&amp;replycredit_times=1&amp;replycredit_membertimes=1&amp;replycredit_random=100&amp;readperm=&amp;price=&amp;tags=&amp;rushreplyfrom=&amp;rushreplyto=&amp;rewardfloor=&amp;replylimit=&amp;stopfloor=&amp;creditlimit=&amp;allownoticeauthor=1&amp;usesig=1&amp;save=
  按完确定后,表单数据获取完毕,我们还是须要更改一些表单。
  
  
  formhash: [网页随机值1]posttime: [系统时间戳]subject: [标签:标题]message: [标签:内容]
  发表错误标志码
  抱歉,您的恳求来路不正确或表单验证串不符,无法递交
  抱歉,您仍未输入标题或内容
  成功标志码
  帖子地址复制成功
  最后截图如下:
  
  其实到现今这个Web发布规则早已配置完毕,但是由于 Discuz 用的是 UBB 标签而不是 HTML 标签,所以我们再稍为让这个发布规则更完美一些。进入中级功能,选择操作类型,标签填写 [标签:内容] ,CMS 选择 Discuz , 按确定。
  
  然后回到内容发布规则里,将表单message里面的值替换成{0}
  
  
  按照自己的情况来配置,是 UTF-8 就填写 UTF-8,是 GBK 就填写 GBK 别搞混了。
  
  PS: 不知道为何保存完规则后网页随机值消失不见了,我测试的时侯仍然未能发布内容,重新把网页随机值加进去就好了。 查看全部
  
  一般做站的人基本上都晓得采集,尤其是做站群或则做峰会的人。但是现今网上的采集工具基本上都是收费的。而且不光软件收费,采集规则还收费。真是羊绒一把把的薅啊。像火车头这个软件,现在早已到 v9 了,但是精典款还是 v7.6 ,至于为何,你们自己心中应当有数。一般采集内容你们就会,直接定义起始点和结束点就可以了。而火车头带的这个 Web发布配置管理就有点麻烦了。今天 Forece 教你们怎么用设置火车头采集器 v7.6 的Web发布配置管理。针对的是 Discuz X3.2 / X3.3 / X3.4
  打开火车头采集器 v7.6 - 工具 - Web发布配置管理
  
  
  弹出一个新窗口,我们一个一个配置,先来这个登入配置,点击手动抓取登录数据包
  
  在以后弹出的窗口中输入 Discuz 论坛的地址(Forece 用的本地测试),然后登录你注册过的用户。在 Post 数据框那儿应当可以看见数据,然后点击确定。当然若果有的网站无法使用手动登入获取 POST 数据的话,你可以用 Fiddler 来获取 Post 数据。然后在上一个窗口中,选择粘贴 Post 数据。
  
  Post 数据通常是长这个样的:
  fastloginfield=username&amp;username=forece&amp;password=xxxxxxxxxxxxxx&amp;quickforward=yes&amp;handlekey=ls
  点击确定后,你可以听到大部分表格都早已填写完毕了
  
  我们还须要再做一下更改,需要将 username 和 password 的表单值改为 [用户名] 和 [密码],另外还须要加一个登录失败标志码码和登录成功标志码。
  登陆失败标志码
  登录失败
  登陆成功标志码
  <script type="text/javascript" reload="1">
  最后截图如下:
  
  然后我们步入下一个 Tab ,网页随机值获取。获取这个数值的诱因是因为 Discuz 有一个称作 formhash 的东西。这玩意还不是固定的火车头采集教程,每次都变。
  
  然后依次填入以下数据:
  获取页面:
  /forum.php?mod=post&amp;action=newthread&amp;fid=2
  来源页面
  /forum.php?mod=post&amp;action=newthread&amp;fid=2
  随机值前字符串
  name="formhash" value="
  随机值后字符串
  然后将 每次恳求都使用第一次获取的网页随机值 的选项关闭。
  PS: 获取页面和来源页面是你发布贴子的页面。大家听到我旁边的 fid=2 是我的版块名称,请依照自己 Discuz 论坛的情况配置。
  最后设置截图如下:
  
  内容发布参数的设置和登录的有点类似火车头采集教程,也是须要获取 Post 数据
  
  登陆进峰会 - 选择发贴 - 填写标题 - 内容 - 按发贴 - 获取 Post 数据 - 按确定
  
  Post 数据应当是这样的:
  formhash=9c552f8e&amp;posttime=1507576154&amp;wysiwyg=1&amp;subject=%E7%81%AB%E8%BD%A6%E5%A4%B4%E8%8E%B7%E5%8F%96+Post+%E6%95%B0%E6%8D%AE%E6%B5%8B%E8%AF%95%E5%B8%96&amp;message=by+Forece&amp;replycredit_extcredits=0&amp;replycredit_times=1&amp;replycredit_membertimes=1&amp;replycredit_random=100&amp;readperm=&amp;price=&amp;tags=&amp;rushreplyfrom=&amp;rushreplyto=&amp;rewardfloor=&amp;replylimit=&amp;stopfloor=&amp;creditlimit=&amp;allownoticeauthor=1&amp;usesig=1&amp;save=
  按完确定后,表单数据获取完毕,我们还是须要更改一些表单。
  
  
  formhash: [网页随机值1]posttime: [系统时间戳]subject: [标签:标题]message: [标签:内容]
  发表错误标志码
  抱歉,您的恳求来路不正确或表单验证串不符,无法递交
  抱歉,您仍未输入标题或内容
  成功标志码
  帖子地址复制成功
  最后截图如下:
  
  其实到现今这个Web发布规则早已配置完毕,但是由于 Discuz 用的是 UBB 标签而不是 HTML 标签,所以我们再稍为让这个发布规则更完美一些。进入中级功能,选择操作类型,标签填写 [标签:内容] ,CMS 选择 Discuz , 按确定。
  
  然后回到内容发布规则里,将表单message里面的值替换成{0}
  
  
  按照自己的情况来配置,是 UTF-8 就填写 UTF-8,是 GBK 就填写 GBK 别搞混了。
  
  PS: 不知道为何保存完规则后网页随机值消失不见了,我测试的时侯仍然未能发布内容,重新把网页随机值加进去就好了。

[精品]火车头采集入库教程

采集交流优采云 发表了文章 • 0 个评论 • 409 次浏览 • 2020-04-23 11:04 • 来自相关话题

  今天给你们开堂讲火车头数据库导库模块的使用方式 教程打算: 1. 火车头采集器 2. 导库演示用我及其研究的 sNews CMS 程序 3. 数据库管理权限 phpMyAdmin 开堂啦. . . . 使用列车导出第一项做的事是构建数据库发布模块, ps: 当然构建数据库发布模块须要商业版才有的功能, 或自直接订购数据库发布模块的编辑器。 另外火车头也提供了比较常用的程序数据库发布模块, 大家可以直接下载使用就可以了。 ^^ 编辑好数据库发布模块后下一步就是数据库发布模块配置。 在接着就是新建采集任务, 把发布模式选择为数据库发布模式。好吧, 先来做数据库发布模块- 打开你的 sNews CMS 发布一条测试内容 填写好发布的各项内容 如 标题: title 内容: 发布内容 描述 : Description 关键词: Keywords 发布成功! 之后转回你数据库管理工具 phpMyAdmin, 选择 cms 的数据库, 然后进行导入数据库表。 演示的 sNews 数据库须要导库的表是 articles。当然不同的 cms 需要研究须要操作的表是不同的,一般你发表几篇文章后再观察就可以找到。
   还有的就是联动操作, 这个将在之后再给你们讲座, 呵呵简单的学起 导入表后, 打开数据库发布模块编辑工具, 同时打开导入的数据文件, 可以用文本工具打开数据库就可以看见 INSERT 的句子, 把这个句子直接复制到数据库发布模块编辑工具里面, 然后按相应的标签更改。 模块名称: sNews 数据库类型我们演示的选择是 mysql 添加数据表前缀, 演示的 sNews 虽然没使用数据库表前缀^^ 开始更改, 一般 ID 字段是自增 ID, 确定不需要的可以删掉掉。 其它的一一对好数组更改好。 接着按手动获取操作数据库表。 最后写上说明,编辑好后保存模块火车头采集教程, 这样我的入库模块就完成了。 . . . 开始配置数据库发布, 1. 选择数据库类型 mysql 2. 选择刚刚构建的发布模块 sNews 3. 设置登陆数据库资料 4. 测试联接, OK 后保存 这儿我们通常建议直接填写数据库名称, 因为远程导库通常是刷不到数据库名称的!! 还有要填数据库前缀, 但我们演示的是没有的, 如果有一定要填上 新建任务, 我演示用列车外置好的吧! 一般的采集任务设置我们略过. . . 直接到采集标签那, 主要演示给你们晓得要做好对应发布模块的标签设置。
   下一步到发布内容设置, 启用形式三导入自定义数据库。 最后设置成功发表项设置。 好了, 大家复工吧开始采集,就可以享受数据库导库给你带来的快感啦. . . . . 明天到此为止火车头采集教程, 因为我的时间比较忙, 教程做的比较简短, 暂时到这。 有其它问题的可以到列车峰会或我的 blog 交流^^ 我的 blog: http: //ajun. org 欢迎你们长来踩踩哦! 查看全部

  今天给你们开堂讲火车头数据库导库模块的使用方式 教程打算: 1. 火车头采集器 2. 导库演示用我及其研究的 sNews CMS 程序 3. 数据库管理权限 phpMyAdmin 开堂啦. . . . 使用列车导出第一项做的事是构建数据库发布模块, ps: 当然构建数据库发布模块须要商业版才有的功能, 或自直接订购数据库发布模块的编辑器。 另外火车头也提供了比较常用的程序数据库发布模块, 大家可以直接下载使用就可以了。 ^^ 编辑好数据库发布模块后下一步就是数据库发布模块配置。 在接着就是新建采集任务, 把发布模式选择为数据库发布模式。好吧, 先来做数据库发布模块- 打开你的 sNews CMS 发布一条测试内容 填写好发布的各项内容 如 标题: title 内容: 发布内容 描述 : Description 关键词: Keywords 发布成功! 之后转回你数据库管理工具 phpMyAdmin, 选择 cms 的数据库, 然后进行导入数据库表。 演示的 sNews 数据库须要导库的表是 articles。当然不同的 cms 需要研究须要操作的表是不同的,一般你发表几篇文章后再观察就可以找到。
   还有的就是联动操作, 这个将在之后再给你们讲座, 呵呵简单的学起 导入表后, 打开数据库发布模块编辑工具, 同时打开导入的数据文件, 可以用文本工具打开数据库就可以看见 INSERT 的句子, 把这个句子直接复制到数据库发布模块编辑工具里面, 然后按相应的标签更改。 模块名称: sNews 数据库类型我们演示的选择是 mysql 添加数据表前缀, 演示的 sNews 虽然没使用数据库表前缀^^ 开始更改, 一般 ID 字段是自增 ID, 确定不需要的可以删掉掉。 其它的一一对好数组更改好。 接着按手动获取操作数据库表。 最后写上说明,编辑好后保存模块火车头采集教程, 这样我的入库模块就完成了。 . . . 开始配置数据库发布, 1. 选择数据库类型 mysql 2. 选择刚刚构建的发布模块 sNews 3. 设置登陆数据库资料 4. 测试联接, OK 后保存 这儿我们通常建议直接填写数据库名称, 因为远程导库通常是刷不到数据库名称的!! 还有要填数据库前缀, 但我们演示的是没有的, 如果有一定要填上 新建任务, 我演示用列车外置好的吧! 一般的采集任务设置我们略过. . . 直接到采集标签那, 主要演示给你们晓得要做好对应发布模块的标签设置。
   下一步到发布内容设置, 启用形式三导入自定义数据库。 最后设置成功发表项设置。 好了, 大家复工吧开始采集,就可以享受数据库导库给你带来的快感啦. . . . . 明天到此为止火车头采集教程, 因为我的时间比较忙, 教程做的比较简短, 暂时到这。 有其它问题的可以到列车峰会或我的 blog 交流^^ 我的 blog: http: //ajun. org 欢迎你们长来踩踩哦!

火车头采集器v9.4下载 免费版 【附教程】

采集交流优采云 发表了文章 • 0 个评论 • 442 次浏览 • 2020-04-23 11:04 • 来自相关话题

  火车头采集器v9破解版是一款老牌的内容采集工具了,不少原先的站长都喜欢使用火车头采集器进行指定内容的采集操作,火车头采集器为用户提供了分布式高速采集技术,可以同时运行多个任务进行采集操作,拥有手动编码辨识、中文动词辨识和正文辨识等功能,免去了自动配置规则的麻烦,同时还拥有强悍的反义词替换功能,可以使你的内容愈加丰富、专业,不过小编须要提醒你们的是就是火车头采集器v9是最新版本,目前暂无破解版本,小编为你们提供的是官方版本,大家可以先试用一下,同时还包含了基本的操作教程供你们参考。
  分布式高速采集
  任务分配至多个客户端,同时运行采集,效率倍增。
  多辨识系统
  配备正文辨识、中文动词辨识、任意编码辨识等多种辨识系统,智能辨识操作更轻松。
  可选验证方法
  可选择是否使用加密狗,随时保障数据安全。
  全自动运行
  无需人工值守操作,任务完成后自动关机。
  替换功能
  同义,近义词替换、参数替换,伪原创必备技能。
  任意文件格式下载
  图片、压缩文件、视频等任意格式的文件都能轻松下载。
  采集监控系统
  实时监控采集,确保数据的准确性。
  支持多数据库
  支持Access/MySQL/MsSQL/Sqlite/Oracle多种类型的数据库保存及发布。
  无限级多页采集
  支持包含ajax恳求数据在内的多个页面信息的无限级采集。
  支持扩充
  支持插口和插件扩充,满足各类采发需求。
  
  1.新建分组
  新建一个任务分组,选择所属分组,确定分组名称和备注。
  2.新建任务
  确定所属分组,新建一个任务,填写任务名称并保存。
  3.Web发布配置
  Web发布配置定义了怎样登录一个网站以及向该网站提交数据。
  主要涉及到登陆信息的获取,网站编码设定,栏目列表的获取,以及使用数据测试发布疗效。
  详细教程后续分解。
  
  4.Web发布模块
  可以定义网站登录,获取栏目列表,获取网页随机值,内容发布参数,以及上传文件,构造发布数据等中级功能。
  详细教程后续分解。
  
  5.数据库发布配置
  数据库发布配置定义了数据库链接信息的设置以及数据库模块的选择。
  详细教程后续分解。
  6.数据库发布模块
  用于编辑数据库的发布模块,方便我们将数据发布到配置好的数据库中。
  火车采集器可选mysql、sqlserver、oracle、access四种数据库类型,在文本输入框中填写sql句子
  (需有数据库相关知识),并可使用标签替换相应数据。也可在采集器模块文件夹中加载某一模块进行编辑。
  详细教程后续分解。
  
  7.计划任务
  设置列表中采集任务的启动计划,可每间隔、每天、每周、仅一次、或自定义Cron表达式火车头采集教程,
  (Cron表达式的写法可参考相关术语中的介绍)。保存设置后,任务即可根据设置执行。
  详细教程后续分解。
  
  8.插件管理
  插件是可以拿来扩充列车采集器功能的程序
  火车采集器V9支持PHP源码、C#源码、C#泛型三种类型的插件,
  可用于扩充http请求、内容处理和文件下载的功能,并可以分别进行测试。
  详细教程后续分解。
  9.http二级代理
  网络中的代理服务器,可以代理网路用户去取得所须要的网路信息。
  代理的功能有可以突破自身ip的访问限制访问美国站点,访问一些单位或团体内部资源,
  突破联通的ip封锁和隐藏真实的ip等。
  火车采集器V9支持http代理、socket4和socket5代理。
  详细教程后续分解。
  
  10.http模拟恳求
  可以设置怎么发起一个http请求,包括设置恳求信息,返回头信息。并具有手动递交的功能。
  
  1.任务批量编辑
  批量更改任务规则细节参数
  
  2.任务批量处理
  按照以下选项批量清除或导出数据。
  
  3.远程管理
  该功能可以通过http协议来对服务器上的采集器进行远程管理。
  换言之,我们可以通过浏览器访问到我们的采集器来进行管理。
  点击启动后如图:
  
  访问地址后进行常用操作管理:
  
  4.用户管理
  该功能容许用户将自己写好的采集规则共享给一个或多个客户端用户。
  可以通过服务器用户管理设置用户账号,用来限定用户下载规则的权限和容许用户访问的分组。
  客户端用户可以下载远程的采集规则火车头采集教程,并可以有选择地更新任务,还可以一键更新所有远程的采集规则。
  该功能对于一些非技术顾客而言市去了写规则的麻烦,也帮助开办规则服务器的用户省去了远程指导的环节。
  5.运行统计
  用于统计用户运行的任务,可以以天、周、月或选择的时间段来查询,
  包括采集到的网址、重复网址、采集成功、采集失败、发布成功、发布失败等数据。
  6、同义词替换
  此功能可以将采集内容中的词句进行替换,自定义替换规则。
  但需注意:两个同义词之间要用英语全角顿号联接,比如将快乐替换成高兴,即如下图:
  “快乐,高兴” “美丽,漂亮”,然后保存,即可在数据处理中选择对应词库使用替换功能。
  
  7.中文动词
  用来测试英文动词以及关键词提取的疗效。
  可通过编辑用户词库,设置时态,词频,允许词,禁用词,来影响最终疗效
  8.数据转换
  数据采集下来后可选择保存到sqlite、mysql、sqlserver三种类型的数据库中。
  默认保存为sqlite数据库,可转换为其他类型,其中sqlite是可以保存在本地数据库的。
  mysql、sqlserver既可以保存在本地数据库,也可以保存到远程数据库。
  9.选项
  可对全局选项、采集设置、配置备份和使用偏好等进行设置。
  10.运行完自动关机
  如勾选该项,则在任务运行完毕后自动关机。
  1,批量网址更新,日期可以支持小于明天的数据。标签可以采用多参数同步变化
  2,标签组合,增加对于循环组合的支持。
  3,优化网址库排重逻辑,大大推动大网址库下的任务加载速率,优化网址库排重显存占用。
  4,数据库发布模块,增加“insert ignore”模式的支持
  5, 新增任务的云端备份、同步功能
  6,http远程服务器,增加对于单条数据更改的API支持。
  7,水印降低指定大小的压缩功能
  8,修复FTP,SFTP链接无法正确断掉的问题
  9,修复Word2007未能保存图片的问题
  10,修复标签超长时侯的显示错误问题。
  11,修复标签数据替换中的替换错误问题。
  12,修复了数据逆序发布的问题。
  13,优化了几个会导致采集器长时间运行后显存未能释放的问题。 查看全部

  火车头采集器v9破解版是一款老牌的内容采集工具了,不少原先的站长都喜欢使用火车头采集器进行指定内容的采集操作,火车头采集器为用户提供了分布式高速采集技术,可以同时运行多个任务进行采集操作,拥有手动编码辨识、中文动词辨识和正文辨识等功能,免去了自动配置规则的麻烦,同时还拥有强悍的反义词替换功能,可以使你的内容愈加丰富、专业,不过小编须要提醒你们的是就是火车头采集器v9是最新版本,目前暂无破解版本,小编为你们提供的是官方版本,大家可以先试用一下,同时还包含了基本的操作教程供你们参考。
  分布式高速采集
  任务分配至多个客户端,同时运行采集,效率倍增。
  多辨识系统
  配备正文辨识、中文动词辨识、任意编码辨识等多种辨识系统,智能辨识操作更轻松。
  可选验证方法
  可选择是否使用加密狗,随时保障数据安全。
  全自动运行
  无需人工值守操作,任务完成后自动关机。
  替换功能
  同义,近义词替换、参数替换,伪原创必备技能。
  任意文件格式下载
  图片、压缩文件、视频等任意格式的文件都能轻松下载。
  采集监控系统
  实时监控采集,确保数据的准确性。
  支持多数据库
  支持Access/MySQL/MsSQL/Sqlite/Oracle多种类型的数据库保存及发布。
  无限级多页采集
  支持包含ajax恳求数据在内的多个页面信息的无限级采集。
  支持扩充
  支持插口和插件扩充,满足各类采发需求。
  
  1.新建分组
  新建一个任务分组,选择所属分组,确定分组名称和备注。
  2.新建任务
  确定所属分组,新建一个任务,填写任务名称并保存。
  3.Web发布配置
  Web发布配置定义了怎样登录一个网站以及向该网站提交数据。
  主要涉及到登陆信息的获取,网站编码设定,栏目列表的获取,以及使用数据测试发布疗效。
  详细教程后续分解。
  
  4.Web发布模块
  可以定义网站登录,获取栏目列表,获取网页随机值,内容发布参数,以及上传文件,构造发布数据等中级功能。
  详细教程后续分解。
  
  5.数据库发布配置
  数据库发布配置定义了数据库链接信息的设置以及数据库模块的选择。
  详细教程后续分解。
  6.数据库发布模块
  用于编辑数据库的发布模块,方便我们将数据发布到配置好的数据库中。
  火车采集器可选mysql、sqlserver、oracle、access四种数据库类型,在文本输入框中填写sql句子
  (需有数据库相关知识),并可使用标签替换相应数据。也可在采集器模块文件夹中加载某一模块进行编辑。
  详细教程后续分解。
  
  7.计划任务
  设置列表中采集任务的启动计划,可每间隔、每天、每周、仅一次、或自定义Cron表达式火车头采集教程,
  (Cron表达式的写法可参考相关术语中的介绍)。保存设置后,任务即可根据设置执行。
  详细教程后续分解。
  
  8.插件管理
  插件是可以拿来扩充列车采集器功能的程序
  火车采集器V9支持PHP源码、C#源码、C#泛型三种类型的插件,
  可用于扩充http请求、内容处理和文件下载的功能,并可以分别进行测试。
  详细教程后续分解。
  9.http二级代理
  网络中的代理服务器,可以代理网路用户去取得所须要的网路信息。
  代理的功能有可以突破自身ip的访问限制访问美国站点,访问一些单位或团体内部资源,
  突破联通的ip封锁和隐藏真实的ip等。
  火车采集器V9支持http代理、socket4和socket5代理。
  详细教程后续分解。
  
  10.http模拟恳求
  可以设置怎么发起一个http请求,包括设置恳求信息,返回头信息。并具有手动递交的功能。
  
  1.任务批量编辑
  批量更改任务规则细节参数
  
  2.任务批量处理
  按照以下选项批量清除或导出数据。
  
  3.远程管理
  该功能可以通过http协议来对服务器上的采集器进行远程管理。
  换言之,我们可以通过浏览器访问到我们的采集器来进行管理。
  点击启动后如图:
  
  访问地址后进行常用操作管理:
  
  4.用户管理
  该功能容许用户将自己写好的采集规则共享给一个或多个客户端用户。
  可以通过服务器用户管理设置用户账号,用来限定用户下载规则的权限和容许用户访问的分组。
  客户端用户可以下载远程的采集规则火车头采集教程,并可以有选择地更新任务,还可以一键更新所有远程的采集规则。
  该功能对于一些非技术顾客而言市去了写规则的麻烦,也帮助开办规则服务器的用户省去了远程指导的环节。
  5.运行统计
  用于统计用户运行的任务,可以以天、周、月或选择的时间段来查询,
  包括采集到的网址、重复网址、采集成功、采集失败、发布成功、发布失败等数据。
  6、同义词替换
  此功能可以将采集内容中的词句进行替换,自定义替换规则。
  但需注意:两个同义词之间要用英语全角顿号联接,比如将快乐替换成高兴,即如下图:
  “快乐,高兴” “美丽,漂亮”,然后保存,即可在数据处理中选择对应词库使用替换功能。
  
  7.中文动词
  用来测试英文动词以及关键词提取的疗效。
  可通过编辑用户词库,设置时态,词频,允许词,禁用词,来影响最终疗效
  8.数据转换
  数据采集下来后可选择保存到sqlite、mysql、sqlserver三种类型的数据库中。
  默认保存为sqlite数据库,可转换为其他类型,其中sqlite是可以保存在本地数据库的。
  mysql、sqlserver既可以保存在本地数据库,也可以保存到远程数据库。
  9.选项
  可对全局选项、采集设置、配置备份和使用偏好等进行设置。
  10.运行完自动关机
  如勾选该项,则在任务运行完毕后自动关机。
  1,批量网址更新,日期可以支持小于明天的数据。标签可以采用多参数同步变化
  2,标签组合,增加对于循环组合的支持。
  3,优化网址库排重逻辑,大大推动大网址库下的任务加载速率,优化网址库排重显存占用。
  4,数据库发布模块,增加“insert ignore”模式的支持
  5, 新增任务的云端备份、同步功能
  6,http远程服务器,增加对于单条数据更改的API支持。
  7,水印降低指定大小的压缩功能
  8,修复FTP,SFTP链接无法正确断掉的问题
  9,修复Word2007未能保存图片的问题
  10,修复标签超长时侯的显示错误问题。
  11,修复标签数据替换中的替换错误问题。
  12,修复了数据逆序发布的问题。
  13,优化了几个会导致采集器长时间运行后显存未能释放的问题。

火车头采集器采集文章使用教程实例

采集交流优采云 发表了文章 • 0 个评论 • 606 次浏览 • 2020-04-23 11:03 • 来自相关话题

  
  选择范围在 ul 里面的 li 里面的链接,注意排除重复地址,可以点击下边测试网址采集获取。
  
  可以见到有采集到的文章链接了。
  
  3、采集内容规则
  我那边须要采集下面图上展示数据(catid是栏目id,可以将采集到的数据装入对应栏目,设置固定值就好)
  
  着重说下内容和图片的采集,标题和描述同理内容采集
  
  内容采集:
  打开一个采集的文章页面,查看源代码(禁了右键的f11 或者在网址后面加上 view-source:一样可以查看):
  选中文章开头一个位置,截取一段在ctrl+f 搜下是否惟一一段,若是就可以放到位置右图1处,结尾同开头一样。
  我截取内容不想上面还带有链接图片可以数据处理,添加--html标签排除--选好确定--确定
  
  还有须要下载页面图片火车头文章采集,勾选和填写下边选项
  
  图片采集:
  (1)选中范围和内容一样(文章内图片)
  (2)数据处理选 提取第一张图片 内容是:
  (3)只要aa.jpg,正则过滤
  
  ,获取内容:aa.jpg
  (4)数据库储存有前缀,添加上, upload/xxxxx/
  
  找一个页面测试一下,可以看见对应项目都获取到了。
  
  4、发布内容设置火车头文章采集,这里以形式三发布到数据库为反例,编辑后回到那边勾选刚定义的模块就好:
  
  
  5、我需要保存图片到本地,要设置下保存文件的路径(ftp后续会试着使用)。
  
  6、保存,查看刚新建的任务,右键 开始任务运行,这边就可以看见文字和图片都下载出来了,数据库上面也可以见到了。 查看全部

  
  选择范围在 ul 里面的 li 里面的链接,注意排除重复地址,可以点击下边测试网址采集获取。
  
  可以见到有采集到的文章链接了。
  
  3、采集内容规则
  我那边须要采集下面图上展示数据(catid是栏目id,可以将采集到的数据装入对应栏目,设置固定值就好)
  
  着重说下内容和图片的采集,标题和描述同理内容采集
  
  内容采集:
  打开一个采集的文章页面,查看源代码(禁了右键的f11 或者在网址后面加上 view-source:一样可以查看):
  选中文章开头一个位置,截取一段在ctrl+f 搜下是否惟一一段,若是就可以放到位置右图1处,结尾同开头一样。
  我截取内容不想上面还带有链接图片可以数据处理,添加--html标签排除--选好确定--确定
  
  还有须要下载页面图片火车头文章采集,勾选和填写下边选项
  
  图片采集:
  (1)选中范围和内容一样(文章内图片)
  (2)数据处理选 提取第一张图片 内容是:
  (3)只要aa.jpg,正则过滤
  
  ,获取内容:aa.jpg
  (4)数据库储存有前缀,添加上, upload/xxxxx/
  
  找一个页面测试一下,可以看见对应项目都获取到了。
  
  4、发布内容设置火车头文章采集,这里以形式三发布到数据库为反例,编辑后回到那边勾选刚定义的模块就好:
  
  
  5、我需要保存图片到本地,要设置下保存文件的路径(ftp后续会试着使用)。
  
  6、保存,查看刚新建的任务,右键 开始任务运行,这边就可以看见文字和图片都下载出来了,数据库上面也可以见到了。

火车头使用教程,如何使用火车头采集视频课程

采集交流优采云 发表了文章 • 0 个评论 • 361 次浏览 • 2020-04-23 11:03 • 来自相关话题

  
  想要做一个网站,人们常常以为,从无到有搭好一个网站是最难的,其实不然,一个网站如果只是存在一个框架 ,除了个别特定的不需要宣传的企业站和工具站,对于其他网站来说,意义真的不大。
  那么想要做好一个网站该怎样办呢?让这个网站有权重、有排行、最后可以转化为流量,给自己的产品引流。常规的方式想必诸位熟悉网站的同学都晓得了,无非就是关键词、换友链、给网站内部做一些易于优化的排版和设置,以及——发布一些新鲜信息。
  众所周知,百度搜索引擎最喜欢的就是新鲜内容,如果一个站长可以每晚更新新鲜内容,对于网站来说,就是权重下降的最好技巧。
  方法尚且简单,可是想要做到却不是一件简单事 ,有多少站长可以每晚坚持自己写文章或者找寻其他平台的新鲜文章呢?
  大数据时代,你须要把握一门获取庞大内容的能力。熟练把握火车头采集器使用方法,能够轻松解决内容困局。
  火车头采集器是哪些
  火车采集器(LocoySpider)是一款功能强悍且便于上手的专业采集软件,强大的内容采集和数据导出功能能将您采集的任何网页数据发布到远程服务器。
  火车头采集器可以做哪些
  01·舆情检测解决方案
  通过采集软件可针对峰会,微博,博客等各类类型网站进行实时检测,系统可以智能运算将潜在上升趋势的热词提早预警。
  02·竞争情报解决方案
  实时准确地监控、追踪竞争对手或产品代理渠道的动态,以便应对市场改变营销策略和研究行业市场变化。
  03·信息聚合解决方案
  针对垂直领域里细分行业需求,抓取行业数据并进行归类整合, 最终产生“纯度”更高的专业领域信息。
  04·股票金融解决方案
  实时抓取股票、基金、研报、微博、股吧、财经新闻等领域信息,为市场迈向趋势提供数据基础。
  05·品牌监控解决方案
  每天定时或实时手动采集指定网站的指定内容,快速抓取不同地区与行业的新闻信息。
  06·科研学术解决方案
  实时跟踪、采集相关的国内外科技信息与新闻,整合分布在各个网站网页上的科研数据。
  哪些行业适宜用火车头
  01·电商购物
  可采集各类电商网站商品动态信息,包括价钱变动、销量、优惠、新增商品、关键词排行、评论、发货地等信息。
  02·社交媒体
  一键采集和导入全网各类新闻、论坛、博客、贴吧、 微博、微信公众号等社交媒体用户发表的文章、评论、点赞等。
  03·垂直分类网站
  针对垂直领域里细分行业需求,抓取行业数据并进行归类整合,形成“纯度”更高的专业领域信息。
  04·房产财经
  采集房源信息,价格、位置、户型、经纪人,股票、基金、黄金价钱、资讯、评论等动态信息。
  05·地图信息
  定位采集特定区域的店家数据,企业信息区域化采集设置,商家单位名录资料搜集首选。
  06·新闻资讯
  品牌检测,市场风控,实时采集各大权威新闻媒体平台、门户网站信息。
  07·招聘求职
  抓取各急聘网站,岗位信息、公司待遇、求职评价,可服务于行业用人需求剖析,人力资源市场调查等场景。
  08·学术科研
  学术研究、技术分享、互联网数据挖掘爬取国内外公开发布在互联网上的科研资料。
  09·app数据
  手机应用、资源图片、app数据信息采集。
  
  总而言之,火车头采集器是一个功能非常强悍的采集工具,也是诸位站长想要学习和使用采集技术的首选。
  但是,与强悍功能相匹配的是,火车头采集器上手并不简单,很多菜鸟站长可能一上手就蒙了。 查看全部
  
  想要做一个网站,人们常常以为,从无到有搭好一个网站是最难的,其实不然,一个网站如果只是存在一个框架 ,除了个别特定的不需要宣传的企业站和工具站,对于其他网站来说,意义真的不大。
  那么想要做好一个网站该怎样办呢?让这个网站有权重、有排行、最后可以转化为流量,给自己的产品引流。常规的方式想必诸位熟悉网站的同学都晓得了,无非就是关键词、换友链、给网站内部做一些易于优化的排版和设置,以及——发布一些新鲜信息。
  众所周知,百度搜索引擎最喜欢的就是新鲜内容,如果一个站长可以每晚更新新鲜内容,对于网站来说,就是权重下降的最好技巧。
  方法尚且简单,可是想要做到却不是一件简单事 ,有多少站长可以每晚坚持自己写文章或者找寻其他平台的新鲜文章呢?
  大数据时代,你须要把握一门获取庞大内容的能力。熟练把握火车头采集器使用方法,能够轻松解决内容困局。
  火车头采集器是哪些
  火车采集器(LocoySpider)是一款功能强悍且便于上手的专业采集软件,强大的内容采集和数据导出功能能将您采集的任何网页数据发布到远程服务器。
  火车头采集器可以做哪些
  01·舆情检测解决方案
  通过采集软件可针对峰会,微博,博客等各类类型网站进行实时检测,系统可以智能运算将潜在上升趋势的热词提早预警。
  02·竞争情报解决方案
  实时准确地监控、追踪竞争对手或产品代理渠道的动态,以便应对市场改变营销策略和研究行业市场变化。
  03·信息聚合解决方案
  针对垂直领域里细分行业需求,抓取行业数据并进行归类整合, 最终产生“纯度”更高的专业领域信息。
  04·股票金融解决方案
  实时抓取股票、基金、研报、微博、股吧、财经新闻等领域信息,为市场迈向趋势提供数据基础。
  05·品牌监控解决方案
  每天定时或实时手动采集指定网站的指定内容,快速抓取不同地区与行业的新闻信息。
  06·科研学术解决方案
  实时跟踪、采集相关的国内外科技信息与新闻,整合分布在各个网站网页上的科研数据。
  哪些行业适宜用火车头
  01·电商购物
  可采集各类电商网站商品动态信息,包括价钱变动、销量、优惠、新增商品、关键词排行、评论、发货地等信息。
  02·社交媒体
  一键采集和导入全网各类新闻、论坛、博客、贴吧、 微博、微信公众号等社交媒体用户发表的文章、评论、点赞等。
  03·垂直分类网站
  针对垂直领域里细分行业需求,抓取行业数据并进行归类整合,形成“纯度”更高的专业领域信息。
  04·房产财经
  采集房源信息,价格、位置、户型、经纪人,股票、基金、黄金价钱、资讯、评论等动态信息。
  05·地图信息
  定位采集特定区域的店家数据,企业信息区域化采集设置,商家单位名录资料搜集首选。
  06·新闻资讯
  品牌检测,市场风控,实时采集各大权威新闻媒体平台、门户网站信息。
  07·招聘求职
  抓取各急聘网站,岗位信息、公司待遇、求职评价,可服务于行业用人需求剖析,人力资源市场调查等场景。
  08·学术科研
  学术研究、技术分享、互联网数据挖掘爬取国内外公开发布在互联网上的科研资料。
  09·app数据
  手机应用、资源图片、app数据信息采集。
  
  总而言之,火车头采集器是一个功能非常强悍的采集工具,也是诸位站长想要学习和使用采集技术的首选。
  但是,与强悍功能相匹配的是,火车头采集器上手并不简单,很多菜鸟站长可能一上手就蒙了。

苹果cms怎么用火车头采集文章资讯教程

采集交流优采云 发表了文章 • 0 个评论 • 652 次浏览 • 2020-04-23 11:01 • 来自相关话题

  苹果cms v10如何添加文章资讯,手把手教你火车头采集文章资讯图文教程。只要你能沉下心来小白看完保证也能学会。我耗费几个小时用心写的教程,你都不愿花几分钟看完的,你注定哪些都学不会的。
  一直想写几篇使小白看了也能用火车头采集资讯 明星 视频 的教程,因为有太多的小白来问我这个问题了,我说大家去百度下,反馈回去的结果都是一样说没有详尽的配置教程火车头采集教程,发布老是提示失败。今天总算闲下来为小白们写一篇简单实用的采集教程。先写这个如何采集文章资讯的教程吧 。后面有时间了再更新视频 和名星的,这个教程是写如何使用早已有了采集规则的教程。采集规则和火车头软件自己在文章尾部的链接里下载,下载以后根据我写的教程操作保证使你学会火车头采集文章资讯了,好了开始我们明天的采集教程吧。
  教程分两个大部分,一个是发布模块的配置 再就是采集规则的配置,发布模块和采集规则是两个缺一不可的组成部分。有些小伙伴们说在采集的时侯老是发布失败是如何回事?最终说到底就是这两个地方没有配置好造成。往下看
  一,先来配置发布模块
  1,打开火车头软件文件夹 点击右图这个启动程序图标
  
  2,软件启动后点击这个“发布”进入到web发布模块配置界面。
  
  3,我发给大家火车头软件里早已导出了苹果v10的4个发布模块,双击“苹果cms-v10文章”模块对其编辑,编辑地方有3个 如下图
  ①火车头采集教程,编码设置改成 UTF-8
  ②,网站跟地址把 “1.cn” 替换成你的网站主域名
  ③,登陆方法改成 不需要登录http请求
  ④,都弄好后点击右下角的测试配置,我们首先要确定下这个发布模块是否可以正常使用,如果不能使用采集规则再正确也是发布不了的。点击测试配置步入到测试配置页面。如下图
  
  4,配置发布模块最关键的一步,也是很多人出错或是甚至弄不懂的地方。我用箭头所指向的地方就是我们要配置的地方。如下图
  
  ①,先来配置验证密码:验证密码就是站外入库系联接苹果cms系统后台的验证码 ,这个须要去系统后台查看后填写,找到验证码后双击一侧“验证密码”在左边的编辑框里复制粘贴到上面就可以了。系统后台的验证码看右图所示。找到后复制下来粘贴到我们的发布模块里。
  
  ②,再来配置发布模块的“名称”,这里模块的名称虽然就是文章的标题,我们可以随意起一个名子,这个地方要理解了 就是整篇文章都有一个标题,有了标题才可以发布,我们这儿是在测试发布模块,所以要自动填写一个标题,如果是采集规则的话这个地方是不用填写的,采集规则就会手动采集网站上的标题的。我们起名称以“首搽”为例吧 双击名称后在左侧填写首搽后点击更改就可以了 。
  
  ③,再来配置下“分类名称”和“分类编号”这两个也是在系统的后台来确定的,就是你要采集文章到网站哪个分类的名称和编号,看右图所示
  来到系统后台点击基础>>>分类管理 拉到下边(第2张图)我们可以看见资讯的顶尖分类和子分类 一共三个,这三个分类我们都是发布文章的分类,都可以使用,我们就随意选择一个分类“头条”这个分类吧。这里的头条就是我们的分类名称,头条上面的18就是分类编号。所以我们就由此得到了分类的名称和编号,直接填写到发布模块的配置即可。
  
  
  ④ 一起都填写完毕后就是最后的测试了,我们点击“发表文章测试“下面下来的就是发布入库成功的相关提示。我们可以到网站前台看下有没有这个文章。
  
  ⑤我们来到网站的前台点击导航栏的分类,可以看见一个标题名称为首搽的文章,这也代表了我们文章发布模块配置成功。
  
  5,由于文字篇幅宽度的限制我们在下一篇文章里介绍文章采集规则的配置,看完下半部份的配置相信你一定会用火车头来采集文章资讯到自己的网站上。 查看全部
  苹果cms v10如何添加文章资讯,手把手教你火车头采集文章资讯图文教程。只要你能沉下心来小白看完保证也能学会。我耗费几个小时用心写的教程,你都不愿花几分钟看完的,你注定哪些都学不会的。
  一直想写几篇使小白看了也能用火车头采集资讯 明星 视频 的教程,因为有太多的小白来问我这个问题了,我说大家去百度下,反馈回去的结果都是一样说没有详尽的配置教程火车头采集教程,发布老是提示失败。今天总算闲下来为小白们写一篇简单实用的采集教程。先写这个如何采集文章资讯的教程吧 。后面有时间了再更新视频 和名星的,这个教程是写如何使用早已有了采集规则的教程。采集规则和火车头软件自己在文章尾部的链接里下载,下载以后根据我写的教程操作保证使你学会火车头采集文章资讯了,好了开始我们明天的采集教程吧。
  教程分两个大部分,一个是发布模块的配置 再就是采集规则的配置,发布模块和采集规则是两个缺一不可的组成部分。有些小伙伴们说在采集的时侯老是发布失败是如何回事?最终说到底就是这两个地方没有配置好造成。往下看
  一,先来配置发布模块
  1,打开火车头软件文件夹 点击右图这个启动程序图标
  
  2,软件启动后点击这个“发布”进入到web发布模块配置界面。
  
  3,我发给大家火车头软件里早已导出了苹果v10的4个发布模块,双击“苹果cms-v10文章”模块对其编辑,编辑地方有3个 如下图
  ①火车头采集教程,编码设置改成 UTF-8
  ②,网站跟地址把 “1.cn” 替换成你的网站主域名
  ③,登陆方法改成 不需要登录http请求
  ④,都弄好后点击右下角的测试配置,我们首先要确定下这个发布模块是否可以正常使用,如果不能使用采集规则再正确也是发布不了的。点击测试配置步入到测试配置页面。如下图
  
  4,配置发布模块最关键的一步,也是很多人出错或是甚至弄不懂的地方。我用箭头所指向的地方就是我们要配置的地方。如下图
  
  ①,先来配置验证密码:验证密码就是站外入库系联接苹果cms系统后台的验证码 ,这个须要去系统后台查看后填写,找到验证码后双击一侧“验证密码”在左边的编辑框里复制粘贴到上面就可以了。系统后台的验证码看右图所示。找到后复制下来粘贴到我们的发布模块里。
  
  ②,再来配置发布模块的“名称”,这里模块的名称虽然就是文章的标题,我们可以随意起一个名子,这个地方要理解了 就是整篇文章都有一个标题,有了标题才可以发布,我们这儿是在测试发布模块,所以要自动填写一个标题,如果是采集规则的话这个地方是不用填写的,采集规则就会手动采集网站上的标题的。我们起名称以“首搽”为例吧 双击名称后在左侧填写首搽后点击更改就可以了 。
  
  ③,再来配置下“分类名称”和“分类编号”这两个也是在系统的后台来确定的,就是你要采集文章到网站哪个分类的名称和编号,看右图所示
  来到系统后台点击基础>>>分类管理 拉到下边(第2张图)我们可以看见资讯的顶尖分类和子分类 一共三个,这三个分类我们都是发布文章的分类,都可以使用,我们就随意选择一个分类“头条”这个分类吧。这里的头条就是我们的分类名称,头条上面的18就是分类编号。所以我们就由此得到了分类的名称和编号,直接填写到发布模块的配置即可。
  
  
  ④ 一起都填写完毕后就是最后的测试了,我们点击“发表文章测试“下面下来的就是发布入库成功的相关提示。我们可以到网站前台看下有没有这个文章。
  
  ⑤我们来到网站的前台点击导航栏的分类,可以看见一个标题名称为首搽的文章,这也代表了我们文章发布模块配置成功。
  
  5,由于文字篇幅宽度的限制我们在下一篇文章里介绍文章采集规则的配置,看完下半部份的配置相信你一定会用火车头来采集文章资讯到自己的网站上。

哆麦CMS火车头发布教程

采集交流优采云 发表了文章 • 0 个评论 • 236 次浏览 • 2020-04-22 11:11 • 来自相关话题

  为保证安全性,哆麦CMS0.8.7以上版本取消了直接发布数据功能,要发布数据,必须在插口里登入帐户,首先须要下载Domai发布插口0.0.4.wpm,并导出到火车头采集接口中,然后创建一个配置,选择最新的发布模块,输入网站网址,点击数据包登陆,并输入用户名和密码,点击登入即可,登录成功以后即可正确获取系统的栏目。
  
  保存好配置以后,即可借助火车头发布内容。版本更新以后,有2点须要注意,一是哆麦CMS同一个用户只能一个登陆,这意味着假如火车头使用的帐户会挤掉正常操作的帐户,所以推荐为火车头单独配置一个帐户,第二点是发布时,只有用户拥有相关权限能够发布成功。
  ===以下方面是0.8.7版本之前的设置方式===
  火车头是国外太常用的采集发布工具,哆麦CMS系统早已集成了可以和火车头采集工具的协同工作的发布插口和模块。本文默认读者熟悉火车头采集器工作,重点介绍假如配置哆麦火车头发布模块,不讲火车头的工作原理。
  哆麦CMS的“dm-admin”目录下的push.php文件是系统的发布插口,在使用火车头采集工具发布之前,打开此文件,可以看见:
  <?php
/**
* Domai CMS
* 哆麦内容管理系统
* Copyright @2018 Hito
*
* 无需登陆的数据发布接口
* 用于直接往数据库插入数据
*
* 注意:
* 预留这个接口非常危险!
* 请更改默认密码或删除这个文件
*/
//定义传输口令,请在需要时更改口令
define(&#39;PASSWD&#39;, get_rand_str(10));
  在16行,需要自动指定一个密码,如“define('PASSWD', '2020domaicms');”,这个密码会在火车头的发布插口中使用,泄漏这个密码可能会造成网站被黑客攻破。
  第二步,点击这儿下载哆麦CMS火车头发布插口,下载以后放入到火车头的发布模块中,然后编辑此模块,更改获取栏目和发布内容中的秘钥为上一步设置的密码:
  
  
  更改完成以后火车头采集教程,新建一个发布列表,网页编码选择UTF-8,网站地址填入网址域名,登录方法选择不登录,点击下方的获取列表,如果才能获取成功,则代表配置成功,否请检测上述操作是否正确。
  
  设置正确以后,输入配置名点击添加,接下来再采集到内容以后火车头采集教程,就可以选择此发布配置进行发布。 查看全部
  为保证安全性,哆麦CMS0.8.7以上版本取消了直接发布数据功能,要发布数据,必须在插口里登入帐户,首先须要下载Domai发布插口0.0.4.wpm,并导出到火车头采集接口中,然后创建一个配置,选择最新的发布模块,输入网站网址,点击数据包登陆,并输入用户名和密码,点击登入即可,登录成功以后即可正确获取系统的栏目。
  
  保存好配置以后,即可借助火车头发布内容。版本更新以后,有2点须要注意,一是哆麦CMS同一个用户只能一个登陆,这意味着假如火车头使用的帐户会挤掉正常操作的帐户,所以推荐为火车头单独配置一个帐户,第二点是发布时,只有用户拥有相关权限能够发布成功。
  ===以下方面是0.8.7版本之前的设置方式===
  火车头是国外太常用的采集发布工具,哆麦CMS系统早已集成了可以和火车头采集工具的协同工作的发布插口和模块。本文默认读者熟悉火车头采集器工作,重点介绍假如配置哆麦火车头发布模块,不讲火车头的工作原理。
  哆麦CMS的“dm-admin”目录下的push.php文件是系统的发布插口,在使用火车头采集工具发布之前,打开此文件,可以看见:
  <?php
/**
* Domai CMS
* 哆麦内容管理系统
* Copyright @2018 Hito
*
* 无需登陆的数据发布接口
* 用于直接往数据库插入数据
*
* 注意:
* 预留这个接口非常危险!
* 请更改默认密码或删除这个文件
*/
//定义传输口令,请在需要时更改口令
define(&#39;PASSWD&#39;, get_rand_str(10));
  在16行,需要自动指定一个密码,如“define('PASSWD', '2020domaicms');”,这个密码会在火车头的发布插口中使用,泄漏这个密码可能会造成网站被黑客攻破。
  第二步,点击这儿下载哆麦CMS火车头发布插口,下载以后放入到火车头的发布模块中,然后编辑此模块,更改获取栏目和发布内容中的秘钥为上一步设置的密码:
  
  
  更改完成以后火车头采集教程,新建一个发布列表,网页编码选择UTF-8,网站地址填入网址域名,登录方法选择不登录,点击下方的获取列表,如果才能获取成功,则代表配置成功,否请检测上述操作是否正确。
  
  设置正确以后,输入配置名点击添加,接下来再采集到内容以后火车头采集教程,就可以选择此发布配置进行发布。

火车头采集发布织梦dedecms为何显示1970-01-01,如何解决?

采集交流优采云 发表了文章 • 0 个评论 • 449 次浏览 • 2020-04-22 11:05 • 来自相关话题

  后台执行SQL句子SELECT * FROM dede_archives order by id DESC limit 1
  这样你可以看见你刚刚新加加的文章一所有数组值。
  观察以下的数据:
  
  其中1231846313就是时间数据了。
  然后就是替换了。
  
  首先,看到第一句话应当就可以pass他了,下面具体谈谈,他这个方式的问题在那里(注:这种执行sql句子,或者须要更改数据库的一定先备份数据库)。
  对应的是数据库的dede_archives表,请按照你的实际情况更换前缀。
  这个表里有三个表示时间的数组:
  pubdate:发布时间(前台可修改)
  senddate:入库时间
  sortrank:前台调用最新文章。实际上是用这个时间。
  这段说的是没有问题的,我再详尽的说下:
  1.pubdate:发布时间(前台可修改)
  在发布新文章或编辑文章时,可在中级参数里看见,可以修改。也是系统在内容页及列表页调用的时间。当发布时间为1970时,列表页会显示1970-01-01,而文章页获取的发布时间则为“暂无”,当然这个以dede默认模板为准,如果你更改了可能会有其他结果。如:我的待初审文章审核发布时会手动更新为当前系统时间(如果不会设置,看Dedecms未初审文档手动更新发布时间)
  2.senddate:入库时间
  根据字面意思即可理解,但是所谓的入库时间彰显在那里?就是dede后台档案列表中的“录入时间”,理论上dede后台难以更改火车头采集教程,但实际也可以执行sql句子更改,并无实际意义。如果你的文章命名规则为“{typedir}/{Y}/{M}{D}/{aid}.html”的话,也直观的提如今你文章页的url中。
  3.sortrank:前台调用最新文章。实际上是用这个时间。
  这个时间我们通常看不到,但是前台模板设置为“orderby=’public’的话,系统就是根据这个时间来调用的。说了一大堆只是在指出这种细节,也算是讲讲原理吧。
  其次,我们应当了解,即使是火车头采集,或者dede采集,pubdate、senddate、sortrank这三个时间也不可能完全一致,所以这儿也有点问题,但是无伤大雅,最终要的在于,这个方案是更改了整个系统的数据库pubdate、senddate、sortrank的三个时间段,也就是说,从你发的第一篇文章,到最后一篇,都会弄成你如今更改的这个时间,我第一次更改以后,整站的文章都成了3月19日发布的,可以说几乎所有的东西都乱了,这个你们应当能想明白,所以,我说备份很重要,转载这篇文章的人,确实太害人。这种方式我认为没有哪些可取的,完全用不上的。
  二、正确的解决1970的方案
  火车头采集发布时惟一不会错的就是系统录入时间,所以,我们以这个为标准,将public及sortrank时间改为senddate(声明下,先备份,后操作)。同时,网站采集比较多的考虑下,是不是有些文章的发布时间与入库时间相差很大?如3-19采集了好多篇,发布为待初审,通过插件控制每晚手动更新,4-19才更新完,如果你执行两条命令的话,那原先初审最晚的这些文章也会弄成3-19日发布,不过你可以选择只执行一条命令。)
  如果你不介意里面我说的火车头采集教程,确实须要解决1970的问题的话,在dede后台-系统-sql命令行工具,执行以下命令:
  
  这条命令是将前台调用时间也改成入库时间,如果你是我前面提及的那个,就不要执行了,至于1970都会不会有其他影响,自己掂量
  
  这条命令是将发布时间改为入库时间,就不解释了,上面都说了 查看全部
  后台执行SQL句子SELECT * FROM dede_archives order by id DESC limit 1
  这样你可以看见你刚刚新加加的文章一所有数组值。
  观察以下的数据:
  
  其中1231846313就是时间数据了。
  然后就是替换了。
  
  首先,看到第一句话应当就可以pass他了,下面具体谈谈,他这个方式的问题在那里(注:这种执行sql句子,或者须要更改数据库的一定先备份数据库)。
  对应的是数据库的dede_archives表,请按照你的实际情况更换前缀。
  这个表里有三个表示时间的数组:
  pubdate:发布时间(前台可修改)
  senddate:入库时间
  sortrank:前台调用最新文章。实际上是用这个时间。
  这段说的是没有问题的,我再详尽的说下:
  1.pubdate:发布时间(前台可修改)
  在发布新文章或编辑文章时,可在中级参数里看见,可以修改。也是系统在内容页及列表页调用的时间。当发布时间为1970时,列表页会显示1970-01-01,而文章页获取的发布时间则为“暂无”,当然这个以dede默认模板为准,如果你更改了可能会有其他结果。如:我的待初审文章审核发布时会手动更新为当前系统时间(如果不会设置,看Dedecms未初审文档手动更新发布时间)
  2.senddate:入库时间
  根据字面意思即可理解,但是所谓的入库时间彰显在那里?就是dede后台档案列表中的“录入时间”,理论上dede后台难以更改火车头采集教程,但实际也可以执行sql句子更改,并无实际意义。如果你的文章命名规则为“{typedir}/{Y}/{M}{D}/{aid}.html”的话,也直观的提如今你文章页的url中。
  3.sortrank:前台调用最新文章。实际上是用这个时间。
  这个时间我们通常看不到,但是前台模板设置为“orderby=’public’的话,系统就是根据这个时间来调用的。说了一大堆只是在指出这种细节,也算是讲讲原理吧。
  其次,我们应当了解,即使是火车头采集,或者dede采集,pubdate、senddate、sortrank这三个时间也不可能完全一致,所以这儿也有点问题,但是无伤大雅,最终要的在于,这个方案是更改了整个系统的数据库pubdate、senddate、sortrank的三个时间段,也就是说,从你发的第一篇文章,到最后一篇,都会弄成你如今更改的这个时间,我第一次更改以后,整站的文章都成了3月19日发布的,可以说几乎所有的东西都乱了,这个你们应当能想明白,所以,我说备份很重要,转载这篇文章的人,确实太害人。这种方式我认为没有哪些可取的,完全用不上的。
  二、正确的解决1970的方案
  火车头采集发布时惟一不会错的就是系统录入时间,所以,我们以这个为标准,将public及sortrank时间改为senddate(声明下,先备份,后操作)。同时,网站采集比较多的考虑下,是不是有些文章的发布时间与入库时间相差很大?如3-19采集了好多篇,发布为待初审,通过插件控制每晚手动更新,4-19才更新完,如果你执行两条命令的话,那原先初审最晚的这些文章也会弄成3-19日发布,不过你可以选择只执行一条命令。)
  如果你不介意里面我说的火车头采集教程,确实须要解决1970的问题的话,在dede后台-系统-sql命令行工具,执行以下命令:
  
  这条命令是将前台调用时间也改成入库时间,如果你是我前面提及的那个,就不要执行了,至于1970都会不会有其他影响,自己掂量
  
  这条命令是将发布时间改为入库时间,就不解释了,上面都说了

火车头WordPress发布规则写法教程

采集交流优采云 发表了文章 • 0 个评论 • 202 次浏览 • 2020-04-22 11:04 • 来自相关话题

  火车头采集规则都收费,这篇火车头WordPress发布规则写法教程献给你们。由于wordpress有登陆信令,为了便捷采集,有人采用了PHP插口+火车头进行采集的方案,个人认为这些方案非常好用,推荐给你们使用。
  学会本文后,你将能自己独立写wordpress的发布规则,配合上文的火车头采集规则教程,下一个采集大王就是你!
  这里的发布规则是以火车头采集器为例。发布就是递交数据到服务器,服务器的程序能把数据正确写入数据库的过程。这里的服务器程序可以是网站程序,也可以是自己写的插口,只要能将数据正确写入数据库即可。提交数据这儿就须要你们有post基础了,简单说一下post传递数据的过程吧。HTTP传递数据主要有两种方法,一种是get一种是post。get通常拿来获取数据,可以携带少量参数数据,post在此基础上可以携带大量数据,比如我们一篇历时1000字的文章等。
  我们通过浏览器的F12network标签可以看见,每次恳求网页的恳求类型和详情。采集的发布规则就是模拟递交post恳求给网站程序,让网站程序觉得是我们人工操作的。
  前面说到wordpress有轮询机制,如果你没有权限,wordpress是不会使你发布文章的,因此,我们只能揭秘wordpress的登陆算法,拿到用户登入账簿能够正常发布文章,这样做过分麻烦。为了简单,我们可以为wordpress降低一个不需要信令的插口,在这个插口中直接操作数据库即可。
  搞清楚原理,我们就可以开始写插口了,代码过多,我就不贴代码了,完整代码在文章末尾会给,自行下载。先来瞧瞧火车头的发布模块是什么样的结构,了解后我们能够写插口程序。
  火车头WordPress发布规则写法教程
  自动登入可以直接忽视,我们使用自己的插口不需要登入。在发布文章的时侯我们须要晓得发布到那个分类中,因此,首先须要提供的插口就是所有的分类及ID。如上图所示,我定义了一个get插口,接口文件名是post.php,提交了一个get参数action火车头采集教程,值是list。对应的插口程序如下图:
  火车头WordPress发布规则写法教程
  在火车头发布规则中,我们须要的分类ID与分类名称被变量取代了,看了上面各类采集器爬虫程序实现原理科普文一文应当有所了解了。
  这段插口代码与火车头发布配置在火车头中的疗效是这样的:
  火车头WordPress发布规则写法教程
  同样的,还有递交的post数据火车头采集教程,即文章内容,火车头发布模块规则如下:
  火车头WordPress发布规则写法教程
  接口代码我就不贴了,自己下载文末的插口文件看吧。 查看全部
  火车头采集规则都收费,这篇火车头WordPress发布规则写法教程献给你们。由于wordpress有登陆信令,为了便捷采集,有人采用了PHP插口+火车头进行采集的方案,个人认为这些方案非常好用,推荐给你们使用。
  学会本文后,你将能自己独立写wordpress的发布规则,配合上文的火车头采集规则教程,下一个采集大王就是你!
  这里的发布规则是以火车头采集器为例。发布就是递交数据到服务器,服务器的程序能把数据正确写入数据库的过程。这里的服务器程序可以是网站程序,也可以是自己写的插口,只要能将数据正确写入数据库即可。提交数据这儿就须要你们有post基础了,简单说一下post传递数据的过程吧。HTTP传递数据主要有两种方法,一种是get一种是post。get通常拿来获取数据,可以携带少量参数数据,post在此基础上可以携带大量数据,比如我们一篇历时1000字的文章等。
  我们通过浏览器的F12network标签可以看见,每次恳求网页的恳求类型和详情。采集的发布规则就是模拟递交post恳求给网站程序,让网站程序觉得是我们人工操作的。
  前面说到wordpress有轮询机制,如果你没有权限,wordpress是不会使你发布文章的,因此,我们只能揭秘wordpress的登陆算法,拿到用户登入账簿能够正常发布文章,这样做过分麻烦。为了简单,我们可以为wordpress降低一个不需要信令的插口,在这个插口中直接操作数据库即可。
  搞清楚原理,我们就可以开始写插口了,代码过多,我就不贴代码了,完整代码在文章末尾会给,自行下载。先来瞧瞧火车头的发布模块是什么样的结构,了解后我们能够写插口程序。
  火车头WordPress发布规则写法教程
  自动登入可以直接忽视,我们使用自己的插口不需要登入。在发布文章的时侯我们须要晓得发布到那个分类中,因此,首先须要提供的插口就是所有的分类及ID。如上图所示,我定义了一个get插口,接口文件名是post.php,提交了一个get参数action火车头采集教程,值是list。对应的插口程序如下图:
  火车头WordPress发布规则写法教程
  在火车头发布规则中,我们须要的分类ID与分类名称被变量取代了,看了上面各类采集器爬虫程序实现原理科普文一文应当有所了解了。
  这段插口代码与火车头发布配置在火车头中的疗效是这样的:
  火车头WordPress发布规则写法教程
  同样的,还有递交的post数据火车头采集教程,即文章内容,火车头发布模块规则如下:
  火车头WordPress发布规则写法教程
  接口代码我就不贴了,自己下载文末的插口文件看吧。

火车头采集器教程之实战演练——CMS采集规则编撰

采集交流优采云 发表了文章 • 0 个评论 • 319 次浏览 • 2020-04-21 11:02 • 来自相关话题

  火车头采集器教程之实战视频——CMS采集规则编撰
  ********************************************************************
  火车头采集器教程之实战演练——CMS采集规则编撰
  ********************************************************************
  首先,我们先了解一下火车头采集器(LocoySpider)V3的基本功能,
  我们明天所用到的火车头的基本功能如下
  1、新建站点
  2、新建任务
  3、数据发布形式之“保存到软件数据库”
  当然本教程是围绕“CMS采集规则编撰”这一主题展开的,所以不可能面面俱到的陈表火车头采集器的功能,在此请见谅!
  现在我们结合实战来给你们讲解
  *********************************************************
  一、新建站点
  1、功能:对同一站点具有“相同采集内容规则”的采集任务进行聚合
  2、好处:
  a、分类明确,便于查询、调用;
  b、在站点下构建的采集任务默认承继站点采集内容规则,避免了重复编撰采集规则的麻烦;
  3、实战:
  我们以“每日经济新闻”为例进行讲解,首先我们打开其站点 ,浏览其中不同栏目的文章发现这个站点的文章模式(模板)几乎是完全一致的
  (当然,其中有一点小小的区别,就是有的文章段落是靠段落标记<
  </P>进行界定的,有的文章段落是靠<DIV></DIV>进行界定的,这时候假如你的网站布局是采用<
  table></table>布局的没哪些大不了的,但是假如你的网站是采用<DIV></DIV>布局的,
  那么残余的DIV标记太可能会破坏你原先的布局,此种情况的解决办法我们之后再继续讨论,这里我就不再赘言了)。
  好,现在我们有理由相信,我们构建一个站点的“内容规则”,就可以将这个网站的所有栏目囊括了。
  点选新建按键,选择新建站点“每日经济新闻”
  我们,先进行“标题”规则的编撰
  标题标签规则的编撰
  注意:标签起始字符串的确认,一定要注意两点,一、唯一性;二、贴身原则,即尽可能紧贴目标采集区域;
  开始字符串:<span>
  结束字符串:</span><span>
  注意:确认字符串的唯一性:复制字符串,点按快捷键“Ctrl+F”进行查找,如果字符串为惟一,会有提示信息“找不到XXX”的提示。
  为了确认标签的通用性,我们可以选择不同的文章进行测试,,这里就不做演示了/。
  Html标签排除:我们选择“全选”。
  注意:然对于“空格(占位符) ”我们可以有所保留,因为有些站点的“长标题”的分隔不是靠标点或则正宗意义上的空白,而是靠“占位符 ”进行分隔的,那么这时候我们就要保留“空格(占位符) ”选项。(课后看吧)
  此时我们可以以点代面,直接进行“典型页面”的采集测试,测试一下采集效果,满意后,我们接下来进行文章内容的规则编撰。
  文章内容标签规则的编撰
  开始字符串:<span>
  结束字符串:<br><iframe
  Html标签排除:此时我们要保留拿来界定段落的一下常用字符串“<br />”、“P”、“<DIV”,并且保留文章中常用的图象“<img”。(测试)
  注意:我们早已选择将"<table"排除了,但是常常有的文章中就富含一些"数据表格",这时候我们只能是顾全大局了,日后再查缺补漏。除非你才能确认你的目标采集区域不会有多余的“布局表格”出现,否则我们还是将表格标记排除为妙。
  作者标签规则的编撰
  要点与标题标签规则的编撰相同火车头采集教程,此处不再赘言。
  开始字符串:<div style=font-size:9pt>
  结束字符串:[200
  Html标签排除:我们选择“全选”。(测试)
  时间标签编撰规则
  要点同上。
  开始字符串:<span>
  结束字符串:<br><iframe
  Html标签排除:我们选择“全选”。(测试)
  出处标签尺寸的编撰
  此值,一般来说,我们默认为我们采集的目标网站,使用“固定格式的数据”进行设置,但是,你若果为了更好的彰显贵网站的版权意识,那么,你在对目标网站转载的文章进行采集设置的时侯,可以进行相应调整,此处不做赘言。
  好了,整个站点的“内容规则”我们设置完毕火车头采集教程,下面将进行,采集任务的设置。
  **************************************************************************
  二、新建采集任务
  在刚才构建的采集站点上点击滑鼠右键,选择“从该站点新建任务”,,在弹出的对话框里我们察看一下“内容规则”,结果正如前面所说“在站点下构建的采集任务默认承继站点采集内容规则”,好了,我们就可以直接编撰“采集网址”的规则了。 查看全部
  火车头采集器教程之实战视频——CMS采集规则编撰
  ********************************************************************
  火车头采集器教程之实战演练——CMS采集规则编撰
  ********************************************************************
  首先,我们先了解一下火车头采集器(LocoySpider)V3的基本功能,
  我们明天所用到的火车头的基本功能如下
  1、新建站点
  2、新建任务
  3、数据发布形式之“保存到软件数据库”
  当然本教程是围绕“CMS采集规则编撰”这一主题展开的,所以不可能面面俱到的陈表火车头采集器的功能,在此请见谅!
  现在我们结合实战来给你们讲解
  *********************************************************
  一、新建站点
  1、功能:对同一站点具有“相同采集内容规则”的采集任务进行聚合
  2、好处:
  a、分类明确,便于查询、调用;
  b、在站点下构建的采集任务默认承继站点采集内容规则,避免了重复编撰采集规则的麻烦;
  3、实战:
  我们以“每日经济新闻”为例进行讲解,首先我们打开其站点 ,浏览其中不同栏目的文章发现这个站点的文章模式(模板)几乎是完全一致的
  (当然,其中有一点小小的区别,就是有的文章段落是靠段落标记<
  </P>进行界定的,有的文章段落是靠<DIV></DIV>进行界定的,这时候假如你的网站布局是采用<
  table></table>布局的没哪些大不了的,但是假如你的网站是采用<DIV></DIV>布局的,
  那么残余的DIV标记太可能会破坏你原先的布局,此种情况的解决办法我们之后再继续讨论,这里我就不再赘言了)。
  好,现在我们有理由相信,我们构建一个站点的“内容规则”,就可以将这个网站的所有栏目囊括了。
  点选新建按键,选择新建站点“每日经济新闻”
  我们,先进行“标题”规则的编撰
  标题标签规则的编撰
  注意:标签起始字符串的确认,一定要注意两点,一、唯一性;二、贴身原则,即尽可能紧贴目标采集区域;
  开始字符串:<span>
  结束字符串:</span><span>
  注意:确认字符串的唯一性:复制字符串,点按快捷键“Ctrl+F”进行查找,如果字符串为惟一,会有提示信息“找不到XXX”的提示。
  为了确认标签的通用性,我们可以选择不同的文章进行测试,,这里就不做演示了/。
  Html标签排除:我们选择“全选”。
  注意:然对于“空格(占位符) ”我们可以有所保留,因为有些站点的“长标题”的分隔不是靠标点或则正宗意义上的空白,而是靠“占位符 ”进行分隔的,那么这时候我们就要保留“空格(占位符) ”选项。(课后看吧)
  此时我们可以以点代面,直接进行“典型页面”的采集测试,测试一下采集效果,满意后,我们接下来进行文章内容的规则编撰。
  文章内容标签规则的编撰
  开始字符串:<span>
  结束字符串:<br><iframe
  Html标签排除:此时我们要保留拿来界定段落的一下常用字符串“<br />”、“P”、“<DIV”,并且保留文章中常用的图象“<img”。(测试)
  注意:我们早已选择将"<table"排除了,但是常常有的文章中就富含一些"数据表格",这时候我们只能是顾全大局了,日后再查缺补漏。除非你才能确认你的目标采集区域不会有多余的“布局表格”出现,否则我们还是将表格标记排除为妙。
  作者标签规则的编撰
  要点与标题标签规则的编撰相同火车头采集教程,此处不再赘言。
  开始字符串:<div style=font-size:9pt>
  结束字符串:[200
  Html标签排除:我们选择“全选”。(测试)
  时间标签编撰规则
  要点同上。
  开始字符串:<span>
  结束字符串:<br><iframe
  Html标签排除:我们选择“全选”。(测试)
  出处标签尺寸的编撰
  此值,一般来说,我们默认为我们采集的目标网站,使用“固定格式的数据”进行设置,但是,你若果为了更好的彰显贵网站的版权意识,那么,你在对目标网站转载的文章进行采集设置的时侯,可以进行相应调整,此处不做赘言。
  好了,整个站点的“内容规则”我们设置完毕火车头采集教程,下面将进行,采集任务的设置。
  **************************************************************************
  二、新建采集任务
  在刚才构建的采集站点上点击滑鼠右键,选择“从该站点新建任务”,,在弹出的对话框里我们察看一下“内容规则”,结果正如前面所说“在站点下构建的采集任务默认承继站点采集内容规则”,好了,我们就可以直接编撰“采集网址”的规则了。

火车头采集器3.0采集图文教程

采集交流优采云 发表了文章 • 0 个评论 • 393 次浏览 • 2020-04-20 11:02 • 来自相关话题

  以采集示例解读部份功能
  今天要给你们做示例的网站是163的 娱乐频道 这个应当是个比较通用和实用的规则,下面开始。
  如果您是列车采集器的老鸟,那么您可以参考下,因为我要讲解的会有违传统的思维;如我您是菜鸟这么您最好能仔细看下,因为这将推动您的入门,同时在之后给您节约好多时间。以下是一些采集的基本步骤火车头采集教程,您可以灵活运用:
  一、建立站点
  1、请先打开列车采集器,新建站点,看右图:
  
  为了便捷管理您可以为您的站点取任何的您认为易记的名称,但是我建议用目标源的名子作为站点的名称有利于日后的管理,如右图
  
  大部分的站点,通站常常只有一套模版或则有几套类似的模版,这边所谓的类似讲的是模版中的标记太接近,那哪些是模版标记?模版标记指的是某部份内容开始和结束记号。比如好多正规的网站(通常是一些站点比较大,内容比较多的网站,比如sina、163等)会在内容开始的部份用类似于或
  等标志来表示内容的开始。他们如此作的缘由有两个,一个是因为内容多,为了各个部门之间的配合而作了对应的标记便于于工程的交接,另一个缘由就是内容控制的须要,随着xhtml的流行,用层控制越来越多,这就促使我们找寻采集标示越来越简单(这点大家之后会渐渐理解的)。上面给诸位讲这种是因为接下来要我们要讲解的是整站内容规则。
  2、标题标签讲解。对应的页面在这:
  首先从“站点基本信息”切换到“整站内容规则”,然后把要采集的内容页面的网址拷贝到“典型页面”接着点击“测试”读取源码。先从标题标签开始,我们发觉按默认标签采集回来的标题多了“_网易娱乐”,请双击标题标签或则选种标题标签在点击更改,把“_网易娱乐”添加到排除内容框里,标题标签完成。如图:
  
  3、内容标签讲解。制作采集规则(任务)的任何一个标签最重要的就在于找寻开始也结束的标志。目前大部分的采集器要求开始和结束的标志必须是整个源代码的惟一标志,也就是所有的html源码里只能找到一个开始或结束的标志。但是列车采集器并不需要如此作,你要找的只须要是从上到下第一个标志就可以了,我的意思是说,html代码中容许有n个相同的开始(结束,下同)标志,但是只要这个坐落我们要采集的内容的地方的标志是html从上到下的第一个就可以了。打开任何一个内容页面,这边以 为例,我们发觉他的内容从“进入峰会”,因此双击代码测试框,查找须要的代码,如图:
  
  我们可以用这个作为内容开始的标志,不过这样还不完美,请自己在打开几个内容页面,在网页中“右键点击”——“查看源码”,然后对比代码,并提取相同的部份,我以
  作为内容开始的标志。
  
  接下来看内容结束标志,如下两图:
  
  
  下面是按照我么设置规则采集回来的内容
  
  一般来说我们从开始标志到结束标志所采集回来的内容中还会包含有必须排除的内容或广告,或链接。这边我们须要排除的内容是“相关专题&gt;&gt;&gt; 第六届金鹰电视艺术节”。排除的方式是火车头采集教程,找到相对应的代码把代码完整的拷贝进内容排除窗口,变动的部份用“(*)”替代。由于这个是整站规则,所以必须多找几个类别,比如现今的这个163娱乐还包括了“明星 | 图片 | 电影 | 电视 | 音乐 | 论坛 | 专题 | 名人访 ”等,在那边我只抽取“明星、图片、电影”作为列子跟你们讲解。找其他的类别只是希望把规则做的通用完美,如果你只要其中的一个分类,比如“图片”那么你直接做这个的规则即可。
  这个页面正好有分页,所以就顺便讲下上下页的设置。他那边的“上一页”和“下一页”是用图片做链接的,所以只要不图片的名子(右键点击对应的图片查看属性,拷贝图片名即可)拷贝进对应的代码框即可,详细的看图片:
  
  这边提示下,任何内容的排除你只要找到对应的代码完整的拷贝进代码排除窗并把其中可变的部份替换成"(*)"即可。由于他那边没有广告,所有整站规则即使制做完毕,点击保存步入单任务制做。好了,整站规则就讲这两个标签,其他的依据须要自己按前面的步骤添加,记住,万变不距其宗。其他的问题请到列车采集器峰会: 探讨。
  二、下面讲解单任务规则制做:
  1、内容规则的制做,很多人到如今可能都还不明白列车采集器好在哪,现在讲的这个绝对是列车独有的特色(至少到目前为止是这样,以后有没有人出相同的功能就不得而知了!)
  火车采集器是不需要经过网址规则制做即可直接步入内容采集,这样你就可以按照站点的难易决定是否采集选定的目标源,而毋须等到网址采集后才发觉原先这个网站你没办法采或则根本不值得你浪费这个时间(前面的时间白搭了!)。
  火车v3.0最大的功能之一既是可以承继站点的规则,只要你上面制做的规则通用,那么在接下来的所有任务都不需要再制做内容采集规则了。由于上面我们制做的内容采集规则通用,所以那边的规则我们就不用讲解了,直接承继站点的,如图: 查看全部

  以采集示例解读部份功能
  今天要给你们做示例的网站是163的 娱乐频道 这个应当是个比较通用和实用的规则,下面开始。
  如果您是列车采集器的老鸟,那么您可以参考下,因为我要讲解的会有违传统的思维;如我您是菜鸟这么您最好能仔细看下,因为这将推动您的入门,同时在之后给您节约好多时间。以下是一些采集的基本步骤火车头采集教程,您可以灵活运用:
  一、建立站点
  1、请先打开列车采集器,新建站点,看右图:
  
  为了便捷管理您可以为您的站点取任何的您认为易记的名称,但是我建议用目标源的名子作为站点的名称有利于日后的管理,如右图
  
  大部分的站点,通站常常只有一套模版或则有几套类似的模版,这边所谓的类似讲的是模版中的标记太接近,那哪些是模版标记?模版标记指的是某部份内容开始和结束记号。比如好多正规的网站(通常是一些站点比较大,内容比较多的网站,比如sina、163等)会在内容开始的部份用类似于或
  等标志来表示内容的开始。他们如此作的缘由有两个,一个是因为内容多,为了各个部门之间的配合而作了对应的标记便于于工程的交接,另一个缘由就是内容控制的须要,随着xhtml的流行,用层控制越来越多,这就促使我们找寻采集标示越来越简单(这点大家之后会渐渐理解的)。上面给诸位讲这种是因为接下来要我们要讲解的是整站内容规则。
  2、标题标签讲解。对应的页面在这:
  首先从“站点基本信息”切换到“整站内容规则”,然后把要采集的内容页面的网址拷贝到“典型页面”接着点击“测试”读取源码。先从标题标签开始,我们发觉按默认标签采集回来的标题多了“_网易娱乐”,请双击标题标签或则选种标题标签在点击更改,把“_网易娱乐”添加到排除内容框里,标题标签完成。如图:
  
  3、内容标签讲解。制作采集规则(任务)的任何一个标签最重要的就在于找寻开始也结束的标志。目前大部分的采集器要求开始和结束的标志必须是整个源代码的惟一标志,也就是所有的html源码里只能找到一个开始或结束的标志。但是列车采集器并不需要如此作,你要找的只须要是从上到下第一个标志就可以了,我的意思是说,html代码中容许有n个相同的开始(结束,下同)标志,但是只要这个坐落我们要采集的内容的地方的标志是html从上到下的第一个就可以了。打开任何一个内容页面,这边以 为例,我们发觉他的内容从“进入峰会”,因此双击代码测试框,查找须要的代码,如图:
  
  我们可以用这个作为内容开始的标志,不过这样还不完美,请自己在打开几个内容页面,在网页中“右键点击”——“查看源码”,然后对比代码,并提取相同的部份,我以
  作为内容开始的标志。
  
  接下来看内容结束标志,如下两图:
  
  
  下面是按照我么设置规则采集回来的内容
  
  一般来说我们从开始标志到结束标志所采集回来的内容中还会包含有必须排除的内容或广告,或链接。这边我们须要排除的内容是“相关专题&gt;&gt;&gt; 第六届金鹰电视艺术节”。排除的方式是火车头采集教程,找到相对应的代码把代码完整的拷贝进内容排除窗口,变动的部份用“(*)”替代。由于这个是整站规则,所以必须多找几个类别,比如现今的这个163娱乐还包括了“明星 | 图片 | 电影 | 电视 | 音乐 | 论坛 | 专题 | 名人访 ”等,在那边我只抽取“明星、图片、电影”作为列子跟你们讲解。找其他的类别只是希望把规则做的通用完美,如果你只要其中的一个分类,比如“图片”那么你直接做这个的规则即可。
  这个页面正好有分页,所以就顺便讲下上下页的设置。他那边的“上一页”和“下一页”是用图片做链接的,所以只要不图片的名子(右键点击对应的图片查看属性,拷贝图片名即可)拷贝进对应的代码框即可,详细的看图片:
  
  这边提示下,任何内容的排除你只要找到对应的代码完整的拷贝进代码排除窗并把其中可变的部份替换成"(*)"即可。由于他那边没有广告,所有整站规则即使制做完毕,点击保存步入单任务制做。好了,整站规则就讲这两个标签,其他的依据须要自己按前面的步骤添加,记住,万变不距其宗。其他的问题请到列车采集器峰会: 探讨。
  二、下面讲解单任务规则制做:
  1、内容规则的制做,很多人到如今可能都还不明白列车采集器好在哪,现在讲的这个绝对是列车独有的特色(至少到目前为止是这样,以后有没有人出相同的功能就不得而知了!)
  火车采集器是不需要经过网址规则制做即可直接步入内容采集,这样你就可以按照站点的难易决定是否采集选定的目标源,而毋须等到网址采集后才发觉原先这个网站你没办法采或则根本不值得你浪费这个时间(前面的时间白搭了!)。
  火车v3.0最大的功能之一既是可以承继站点的规则,只要你上面制做的规则通用,那么在接下来的所有任务都不需要再制做内容采集规则了。由于上面我们制做的内容采集规则通用,所以那边的规则我们就不用讲解了,直接承继站点的,如图:

火车头采集器使用教程

采集交流优采云 发表了文章 • 0 个评论 • 485 次浏览 • 2020-04-20 11:01 • 来自相关话题

  下方有两个教程文章没更新,更新了我会更新知乎上的链接的。也可以直接关注我的博客网站。
  本教程使用火车头V9(又名火车采集器)版本,网站为wordpress5.x版本。
  网站服务器环境使用的宝塔面板,服务器系统是centos7火车头采集教程,windows系统跟linux一样的操作原理思路,不必苦恼用哪些系统。
  本教程将根据做一个wordpress采集站的过程步骤来写教程火车头采集教程,内容基本都是基础知识。
  关于采集内容
  网站大量采集的话相比手打原创内容更难收录,但是优点是显而易见的。手打怎样也不可能日更数千篇文章甚至上万篇。我这个网站大多数是自己写的,也有直接自动复制粘贴的。更新了几年也还不到一千篇。
  看自己的考虑了,这里只是屁话一下提个醒。
  采集的内容一定要版面整洁,不要乱糟糟的一大篇,那样没哪些意义。采集之前先把网站的基础框架设计好!
  其他说明
  本教程李关于采集发布设置做了简化处理,没有采集图片,发布设置仅仅发布标题和内容。未设置时间、作者、标签等。教程前面我会单独开文章写那些。这里仅以最简化的步骤来进行。
  接口文件没有区别,都是这一个。
  需要先下载那些东西:
  接口文件:火车头WP发布插口
  发布模块(教程使用):火车头WP发布模块(仅包括标题内容)
  发布模块:火车头WP发布模块(全发布参数,本教程不使用)
  采集器这儿就不放了,之前博客发了破解版被官方投诉了。
  教程目录
  火车头采集器wordpress5.x发布插口介绍
  火车头采集器发布模块直接放在火车头采集器程序一下目录内即可,这一步不需要做其他设置,所以这个就不写教程了
  放到\Module\这个目录内
  火车头采集器使用教程–寻找目标网站
  火车头采集器使用教程--批量添加目标网站列表链接
  火车头采集器使用教程–分析目标网站文章链接位置及规则
  火车头采集器使用教程–分析目标网站要采集内容的位置及规则
  火车头采集器使用教程–采集内容发布规则设置
  火车头采集器使用教程–测试采集和发布是否正常
  下面是一些特殊教程文章
  火车头采集器图片采集上传设置
  火车头采集器采集发布文章作者、时间、标签等内容
  火车头采集器定时采集更新网站内容(长期做站必用) 查看全部
  下方有两个教程文章没更新,更新了我会更新知乎上的链接的。也可以直接关注我的博客网站。
  本教程使用火车头V9(又名火车采集器)版本,网站为wordpress5.x版本。
  网站服务器环境使用的宝塔面板,服务器系统是centos7火车头采集教程,windows系统跟linux一样的操作原理思路,不必苦恼用哪些系统。
  本教程将根据做一个wordpress采集站的过程步骤来写教程火车头采集教程,内容基本都是基础知识。
  关于采集内容
  网站大量采集的话相比手打原创内容更难收录,但是优点是显而易见的。手打怎样也不可能日更数千篇文章甚至上万篇。我这个网站大多数是自己写的,也有直接自动复制粘贴的。更新了几年也还不到一千篇。
  看自己的考虑了,这里只是屁话一下提个醒。
  采集的内容一定要版面整洁,不要乱糟糟的一大篇,那样没哪些意义。采集之前先把网站的基础框架设计好!
  其他说明
  本教程李关于采集发布设置做了简化处理,没有采集图片,发布设置仅仅发布标题和内容。未设置时间、作者、标签等。教程前面我会单独开文章写那些。这里仅以最简化的步骤来进行。
  接口文件没有区别,都是这一个。
  需要先下载那些东西:
  接口文件:火车头WP发布插口
  发布模块(教程使用):火车头WP发布模块(仅包括标题内容)
  发布模块:火车头WP发布模块(全发布参数,本教程不使用)
  采集器这儿就不放了,之前博客发了破解版被官方投诉了。
  教程目录
  火车头采集器wordpress5.x发布插口介绍
  火车头采集器发布模块直接放在火车头采集器程序一下目录内即可,这一步不需要做其他设置,所以这个就不写教程了
  放到\Module\这个目录内
  火车头采集器使用教程–寻找目标网站
  火车头采集器使用教程--批量添加目标网站列表链接
  火车头采集器使用教程–分析目标网站文章链接位置及规则
  火车头采集器使用教程–分析目标网站要采集内容的位置及规则
  火车头采集器使用教程–采集内容发布规则设置
  火车头采集器使用教程–测试采集和发布是否正常
  下面是一些特殊教程文章
  火车头采集器图片采集上传设置
  火车头采集器采集发布文章作者、时间、标签等内容
  火车头采集器定时采集更新网站内容(长期做站必用)

新手使用火车头发布插口怎么采集文章教程

采集交流优采云 发表了文章 • 0 个评论 • 375 次浏览 • 2020-04-19 11:03 • 来自相关话题

  前沿:如果你对火车头一点都不知道,你还是去网上自学一点火车头采集的知识,我也不是哪些大师,硬着头皮写的火车头采集教程,至少能用,在这里我不会教你怎么写采集规则,因为写法种类太多,你问我我也不知道,火车头相关文件夹里提供的发布插口外置了马甲发布文章,并且支持远程图片抓取本地化,和发布文章时间设置(10-70分钟随机)。用户只需关注火车头标题和内容即可,参数值标题(title),内容(content)。
  第一步:站点设置里设置下火车头免登入发布插口的全局变量值:
  
  第二步:将发布插口上传覆盖程序根目录:
  
  第三步:登录火车头软件后导出发布模块"
  
  下图更多处下拉--选择导出:
  
  导入后:
  
  上图中,数字1处填写你在网站后台设置的全局变量值。
  2 处选择 utf-8 编码。
  3 处填写你网站域名,不要带 反斜杠'/'.
  4处选择不需要登陆
  5 处点击获取列表--选择你须要入库的分类
  6 随便给当前这个发布模块写个名子火车头采集教程,后续采集任务模块会用到。
  最后点击保存配置按键。
  ---------
  下面讲解导出采集任务:
  新建任务分组后,在该分组下导出任务规则(导入任务至该分组):
  
  选择我们的采集任务规则(.ljobx文件):
  
  下一步:双击规则项
  
  点击第三步:修改发布内容设置
  
  修改下你发布的分类:
  
  最后保存即可:
  
  然后右键开始任务采集。 查看全部
  前沿:如果你对火车头一点都不知道,你还是去网上自学一点火车头采集的知识,我也不是哪些大师,硬着头皮写的火车头采集教程,至少能用,在这里我不会教你怎么写采集规则,因为写法种类太多,你问我我也不知道,火车头相关文件夹里提供的发布插口外置了马甲发布文章,并且支持远程图片抓取本地化,和发布文章时间设置(10-70分钟随机)。用户只需关注火车头标题和内容即可,参数值标题(title),内容(content)。
  第一步:站点设置里设置下火车头免登入发布插口的全局变量值:
  
  第二步:将发布插口上传覆盖程序根目录:
  
  第三步:登录火车头软件后导出发布模块"
  
  下图更多处下拉--选择导出:
  
  导入后:
  
  上图中,数字1处填写你在网站后台设置的全局变量值。
  2 处选择 utf-8 编码。
  3 处填写你网站域名,不要带 反斜杠'/'.
  4处选择不需要登陆
  5 处点击获取列表--选择你须要入库的分类
  6 随便给当前这个发布模块写个名子火车头采集教程,后续采集任务模块会用到。
  最后点击保存配置按键。
  ---------
  下面讲解导出采集任务:
  新建任务分组后,在该分组下导出任务规则(导入任务至该分组):
  
  选择我们的采集任务规则(.ljobx文件):
  
  下一步:双击规则项
  
  点击第三步:修改发布内容设置
  
  修改下你发布的分类:
  
  最后保存即可:
  
  然后右键开始任务采集。

火车头采集器教程..

采集交流优采云 发表了文章 • 0 个评论 • 470 次浏览 • 2020-04-19 11:03 • 来自相关话题

  火车头采集器 使用流程说明? 一、软件安装? 二、新建站点? 三、采集网址 ? 四、采集内容 ? 五、发布内容 ? 六、任务采集 ? 七、导出数据一、软件安装须要安装软件: (1) WAMP5-v1.7.4 (2) phpcms (3) LocoySpiderV2009SP4_Build20090807 (火车头采集器) 注:每次采集前须要將wamp5打开后,在用火车头采集。一、软件安装1、wamp5_1.7.4安装完成后,解压缩phpcms后 将phpcms1剪切下来放在D:\wamp\www\目录下, 将phpcms1更名为phpcms。 2、打开WAMP5,启动PHP settings栏目中的 short open tag。 3、安装PHP,输入 进行。4、解压LocoySpiderV2009SP4_Build20090807 将Module文件下的phpcms2008-090109文件下 的locoy.php复制到D:\wamp\www\phpcms下。安装部份完成二、新建站点打开火车头软件(LocoySpider.exe) 界面如下图:二、新建站点第一步:新建站点(如右图) 第二步:点击“新建站点”后出现如下界面。
  填写站点名和站点网址点击“更新”三、采集网址新建好的站点会排列在窗口一侧“站点&amp;任务列表”中。右击新建好的站点,点击 “从该站点新建任务”,出现如下界面。 以本列表为例:三、采集网址点击向导添加后出现如下界面:批量/多页三、采集网址单条网址选项下:三、采集网址填写完成后,点击“完成”。则出现以下界面:三、采集网址注释: 1、在选择目标站时,最好选择文章更新快,文章质量高(少广告词、图片、链接、 视频、flash等),内容丰富而且在业界有一定权威性的站点。 2、过于滞后的文章不要采集。(例如:08年、09年的文章) 3、在选择列表的过程中最好以站点为单位,不要以某个列表为单位火车头采集教程,这样采集效 率会事半功倍。 4、在选择目标站时尽量不要选择动态页,多选择可以用数字或字母(*)代替的 静态页。 5、在采集过程中遇见不需要采集的文章,可以通过“不得包含”功能将其过滤掉。三、采集网址完成采集网址步骤过后,点击“开始测试网址采集”按钮。会出现如下界面:三、采集网址在检测采集连接无误的情况下,点击“返回更改设置”后,出现如下界面:四、采集内容选择“第二步:采集内容规则”后,出现如下界面。四、采集内容选择“添加标签”后,出现如下界面。
  四、采集内容將“标题”、 “资讯内容”、“内容摘要”、“信息关键词”、“meta关键词”、 “meta描述”、“责任编辑”、“信息来源”添加到标签名中,將其他不需要的标签 名称删掉,出现如下界面。四、采集内容下边分别说明“标题”、“内容摘要”、“信息关键词”、“meta关键词”、 “meta描述”、“责任编辑”、“信息来源”、“资讯内容”各个标签的采集规则。采集页面以为例。第一、标题查看本页面“源文件”搜索title代码,找到文章内容部份。如下图:注释:一般情况下检索&lt;title&gt;&lt;/title&gt;都可以采集到我们须要的标题标签,但因为 这篇文章此代码中设计到其他网站logo及列表分类不确定信息,所以选择 &lt;div id=“title”&gt;&lt;h1&gt;&lt;/h1&gt;中内容来替代。如果没有合适数组,可借助“内容排 除”选项进行筛选。四、采集内容双击上图窗口中的“标题”标签,將“源代码”中对应的标题开始代码和结束代码分 别输入到开始字符段和结束字符段中火车头采集教程,点击确定,标题标签设置完成。四、采集内容第二、资讯内容查看本页面“源文件”,找到文章内容部份。
  如下图:四、采集内容1、双击上图窗口中的“资讯内容”标签,將“源代码”中对应的资讯内容开始代 码和结束代码分别输入到开始字符段和结束字符段中。2、勾选“HTML标签排除”中的“链接”、“层”、“Span”、“图象”、“脚本” 选项。 3、选择“内容排除”中的添加项,將资讯内容代码中的无用代码和文本添加在此 选项中,过滤废物信息。 4、点击确定,资讯内容标签设置完成。 如下图:四、采集内容四、采集内容注释: 在资讯内容采集过程中最主要的是对垃圾信息的删掉,其中须要注意的有以下几项: 1、广告语 (例如:&lt;A href="; target=_blank&gt;2010年建材行业十大评比活动完满谢幕,电话:01062298529&lt;/A&gt;) 2、特殊标签 (例如:&lt;IFRAME&gt;&lt;sytle&gt;标签,大部分标签会在“HTML标签排除”中删掉。) 3、网站logo (例如:【&lt;STRONG&gt;&lt;A href=" ; target=_blank&gt;慧聪 建材网&lt;/A&gt;&lt;/STRONG&gt;】) 4、文章中铭感文字 (例如:点击下一页、点击查看更多图片、视频、责任编辑、评论、【热点导读】、 【相关新闻】等与文章正文无关的文字。
  )四、采集内容第三、内容描述、meta描述查看本页面“源文件” 搜索description代码,找到文章描述部份。如下图:四、采集内容將“源代码”中对应的描述开始代码和结束代码分别输入到开始字符段和结束字符 段中,点击确定,内容描述和meta描述标签设置完成。注释:有些文章描述部份设有大量广告语或与本文无关的内容,这样的文章描述我 们不给与采集。可以将标题的采集方法复制到描述采集中。四、采集内容第四、信息关键词、meta关键词查看本页面“源文件” 搜索keywords代码,找到文章关键词部份。如下图:四、采集内容將“源代码”中对应的关键词开始代码和结束代码分别输入到开始字符段和结束字 符段中,点击确定,信息关键词和meta关键词标签设置完成。注释:有些文章关键词部份设有大量广告语或与本文无关的内容,这样的文章关键 词我们不给与采集。可以将标题的采集方法复制到关键词采集中。四、采集内容第五、责任编辑双击责任编辑标签,选择“自定义固定格式的数据”,在固定的字符串选项中填写 自己的名称,点击确定,责任编辑设定完成。四、采集内容第六、信息来源双击责任编辑标签,选择“自定义固定格式的数据”,在固定的字符串选项中填写 信息来源,点击确定,信息来源设定完成。
  四、采集内容第七、分页在“页面内容分页区域/样式设置”中将分页部份代码输入其中,用(*)代替即 可。如下图: (注释:各站的分页代码不同,需要具体剖析,采集分页的文章在我们后台将成 为一篇通篇文章。建议少采集分页多的文章,影响用户体验。)四、采集内容规则填写完成后,返回至第一步“测试网址采集”。双击所采集到的任一文章地址。 则会自己弹出如下界面。(注释:建议多测试几篇文章,减少垃圾代码出现。)采集内容阶段完成,点击步入发布内容设置五、发布内容1、启动以下两项,点击“定义web在线发布到网站全局设置”。五、发布内容2、点击添加,选择phpcms2008 新闻发布模块 3、在“网站/cms根地址”:输入 4、点击“在动车外置浏览器中登陆”五、发布内容5、在地址栏输入: 6、输入用户名phpcms密码phpcms五、发布内容7、登录点击“确认登陆发布成功后即可关掉该窗口”,关掉此窗口。获得五、发布内容9、选择“系统设置”中的“添加栏目”,点击下一步8、登录本地后台(在浏览器中输入:。账号密码phpcms)五、发布内容10、输入栏目名称、栏目目录,点击确定,在本地后台会出现对应列表。11、点击获取列表后便可等对应ID,选择这次采集的对应列表。
  五、发布内容12、在配置名中输入要采集的栏目名称,点击保存配置。13、设置完成后点击保存。发布内容部份结束六、任务采集将刚才编撰好的规则保存后,程序则会手动跳转到主界面。右键点击设置好的任 务,选择开始采集。在采集完成后系统会手动提醒采集完成。七、导出数据采集数据在火车头\Data文件中。双击mdb格式文件,右键选择content选项,导出为Excel格式。七、导出数据建议将采集文档都置于一个文件夹里,有利于后续工作进行。七、导出数据打开导入的Excel文档,将ID、已采、已发、缩略图、PageUrl、处 理中等无关数据删掉,只保留“标题”、 “资讯内容”、“内容摘要”、 “信息关键词”、“meta关键词”、“meta描述”、“责任编辑”、“信息来源”。★在Excel中对采集文章进行最后筛选更改:1、删除内容缺位的文章。 2、删除所有标题中带有(图)(组图)(视频)的文章。 3、检查资讯内容中错乱代码,如有发觉错误借助ctrl+F对进行批量替换。七、导出数据导出数据库 打开后台,点击内容管理→资讯信息管理→批量导出资讯。选择须要导出采集信息的列表名称,将更改好的采集文档上传数据库,点击导出。导出数据部份完成 查看全部

  火车头采集器 使用流程说明? 一、软件安装? 二、新建站点? 三、采集网址 ? 四、采集内容 ? 五、发布内容 ? 六、任务采集 ? 七、导出数据一、软件安装须要安装软件: (1) WAMP5-v1.7.4 (2) phpcms (3) LocoySpiderV2009SP4_Build20090807 (火车头采集器) 注:每次采集前须要將wamp5打开后,在用火车头采集。一、软件安装1、wamp5_1.7.4安装完成后,解压缩phpcms后 将phpcms1剪切下来放在D:\wamp\www\目录下, 将phpcms1更名为phpcms。 2、打开WAMP5,启动PHP settings栏目中的 short open tag。 3、安装PHP,输入 进行。4、解压LocoySpiderV2009SP4_Build20090807 将Module文件下的phpcms2008-090109文件下 的locoy.php复制到D:\wamp\www\phpcms下。安装部份完成二、新建站点打开火车头软件(LocoySpider.exe) 界面如下图:二、新建站点第一步:新建站点(如右图) 第二步:点击“新建站点”后出现如下界面。
  填写站点名和站点网址点击“更新”三、采集网址新建好的站点会排列在窗口一侧“站点&amp;任务列表”中。右击新建好的站点,点击 “从该站点新建任务”,出现如下界面。 以本列表为例:三、采集网址点击向导添加后出现如下界面:批量/多页三、采集网址单条网址选项下:三、采集网址填写完成后,点击“完成”。则出现以下界面:三、采集网址注释: 1、在选择目标站时,最好选择文章更新快,文章质量高(少广告词、图片、链接、 视频、flash等),内容丰富而且在业界有一定权威性的站点。 2、过于滞后的文章不要采集。(例如:08年、09年的文章) 3、在选择列表的过程中最好以站点为单位,不要以某个列表为单位火车头采集教程,这样采集效 率会事半功倍。 4、在选择目标站时尽量不要选择动态页,多选择可以用数字或字母(*)代替的 静态页。 5、在采集过程中遇见不需要采集的文章,可以通过“不得包含”功能将其过滤掉。三、采集网址完成采集网址步骤过后,点击“开始测试网址采集”按钮。会出现如下界面:三、采集网址在检测采集连接无误的情况下,点击“返回更改设置”后,出现如下界面:四、采集内容选择“第二步:采集内容规则”后,出现如下界面。四、采集内容选择“添加标签”后,出现如下界面。
  四、采集内容將“标题”、 “资讯内容”、“内容摘要”、“信息关键词”、“meta关键词”、 “meta描述”、“责任编辑”、“信息来源”添加到标签名中,將其他不需要的标签 名称删掉,出现如下界面。四、采集内容下边分别说明“标题”、“内容摘要”、“信息关键词”、“meta关键词”、 “meta描述”、“责任编辑”、“信息来源”、“资讯内容”各个标签的采集规则。采集页面以为例。第一、标题查看本页面“源文件”搜索title代码,找到文章内容部份。如下图:注释:一般情况下检索&lt;title&gt;&lt;/title&gt;都可以采集到我们须要的标题标签,但因为 这篇文章此代码中设计到其他网站logo及列表分类不确定信息,所以选择 &lt;div id=“title”&gt;&lt;h1&gt;&lt;/h1&gt;中内容来替代。如果没有合适数组,可借助“内容排 除”选项进行筛选。四、采集内容双击上图窗口中的“标题”标签,將“源代码”中对应的标题开始代码和结束代码分 别输入到开始字符段和结束字符段中火车头采集教程,点击确定,标题标签设置完成。四、采集内容第二、资讯内容查看本页面“源文件”,找到文章内容部份。
  如下图:四、采集内容1、双击上图窗口中的“资讯内容”标签,將“源代码”中对应的资讯内容开始代 码和结束代码分别输入到开始字符段和结束字符段中。2、勾选“HTML标签排除”中的“链接”、“层”、“Span”、“图象”、“脚本” 选项。 3、选择“内容排除”中的添加项,將资讯内容代码中的无用代码和文本添加在此 选项中,过滤废物信息。 4、点击确定,资讯内容标签设置完成。 如下图:四、采集内容四、采集内容注释: 在资讯内容采集过程中最主要的是对垃圾信息的删掉,其中须要注意的有以下几项: 1、广告语 (例如:&lt;A href="; target=_blank&gt;2010年建材行业十大评比活动完满谢幕,电话:01062298529&lt;/A&gt;) 2、特殊标签 (例如:&lt;IFRAME&gt;&lt;sytle&gt;标签,大部分标签会在“HTML标签排除”中删掉。) 3、网站logo (例如:【&lt;STRONG&gt;&lt;A href=" ; target=_blank&gt;慧聪 建材网&lt;/A&gt;&lt;/STRONG&gt;】) 4、文章中铭感文字 (例如:点击下一页、点击查看更多图片、视频、责任编辑、评论、【热点导读】、 【相关新闻】等与文章正文无关的文字。
  )四、采集内容第三、内容描述、meta描述查看本页面“源文件” 搜索description代码,找到文章描述部份。如下图:四、采集内容將“源代码”中对应的描述开始代码和结束代码分别输入到开始字符段和结束字符 段中,点击确定,内容描述和meta描述标签设置完成。注释:有些文章描述部份设有大量广告语或与本文无关的内容,这样的文章描述我 们不给与采集。可以将标题的采集方法复制到描述采集中。四、采集内容第四、信息关键词、meta关键词查看本页面“源文件” 搜索keywords代码,找到文章关键词部份。如下图:四、采集内容將“源代码”中对应的关键词开始代码和结束代码分别输入到开始字符段和结束字 符段中,点击确定,信息关键词和meta关键词标签设置完成。注释:有些文章关键词部份设有大量广告语或与本文无关的内容,这样的文章关键 词我们不给与采集。可以将标题的采集方法复制到关键词采集中。四、采集内容第五、责任编辑双击责任编辑标签,选择“自定义固定格式的数据”,在固定的字符串选项中填写 自己的名称,点击确定,责任编辑设定完成。四、采集内容第六、信息来源双击责任编辑标签,选择“自定义固定格式的数据”,在固定的字符串选项中填写 信息来源,点击确定,信息来源设定完成。
  四、采集内容第七、分页在“页面内容分页区域/样式设置”中将分页部份代码输入其中,用(*)代替即 可。如下图: (注释:各站的分页代码不同,需要具体剖析,采集分页的文章在我们后台将成 为一篇通篇文章。建议少采集分页多的文章,影响用户体验。)四、采集内容规则填写完成后,返回至第一步“测试网址采集”。双击所采集到的任一文章地址。 则会自己弹出如下界面。(注释:建议多测试几篇文章,减少垃圾代码出现。)采集内容阶段完成,点击步入发布内容设置五、发布内容1、启动以下两项,点击“定义web在线发布到网站全局设置”。五、发布内容2、点击添加,选择phpcms2008 新闻发布模块 3、在“网站/cms根地址”:输入 4、点击“在动车外置浏览器中登陆”五、发布内容5、在地址栏输入: 6、输入用户名phpcms密码phpcms五、发布内容7、登录点击“确认登陆发布成功后即可关掉该窗口”,关掉此窗口。获得五、发布内容9、选择“系统设置”中的“添加栏目”,点击下一步8、登录本地后台(在浏览器中输入:。账号密码phpcms)五、发布内容10、输入栏目名称、栏目目录,点击确定,在本地后台会出现对应列表。11、点击获取列表后便可等对应ID,选择这次采集的对应列表。
  五、发布内容12、在配置名中输入要采集的栏目名称,点击保存配置。13、设置完成后点击保存。发布内容部份结束六、任务采集将刚才编撰好的规则保存后,程序则会手动跳转到主界面。右键点击设置好的任 务,选择开始采集。在采集完成后系统会手动提醒采集完成。七、导出数据采集数据在火车头\Data文件中。双击mdb格式文件,右键选择content选项,导出为Excel格式。七、导出数据建议将采集文档都置于一个文件夹里,有利于后续工作进行。七、导出数据打开导入的Excel文档,将ID、已采、已发、缩略图、PageUrl、处 理中等无关数据删掉,只保留“标题”、 “资讯内容”、“内容摘要”、 “信息关键词”、“meta关键词”、“meta描述”、“责任编辑”、“信息来源”。★在Excel中对采集文章进行最后筛选更改:1、删除内容缺位的文章。 2、删除所有标题中带有(图)(组图)(视频)的文章。 3、检查资讯内容中错乱代码,如有发觉错误借助ctrl+F对进行批量替换。七、导出数据导出数据库 打开后台,点击内容管理→资讯信息管理→批量导出资讯。选择须要导出采集信息的列表名称,将更改好的采集文档上传数据库,点击导出。导出数据部份完成

采集与发布带图片的文章

采集交流优采云 发表了文章 • 0 个评论 • 418 次浏览 • 2020-04-19 11:02 • 来自相关话题

  1怎样使用火车头采集器火车头采集器 7.6 免费版,功能有很多限制,但我已使用它实现了采集与发布(带图片、排版)。图片是通过采 集程序下载到本地, 放在一个约定好名子的文件夹中, 最后人工上传到服务器 DZ 程序运行目录下的 pic 目录下。 下 载火车头采集器 7.6 版本 LocoySpider_V7.6_Build20120912.Free.zip,解决后可运行。需要.NET 环境。 程序是 Discuz!X 2.5 GBK 版本。 核心工作有两部份:1、采集,2、 发布。 本文重点说怎么发布(带图片、排版), 简单说怎么采集。一、新建一个使用 UBB 格式的 Web 在线发布模块由于采集下来的文章内容是 HTML 格式,如:&lt;p&gt;正文&lt;/p&gt;这样带有 HTML 标签的文本。 而 DZ 论坛使用的是 UUB 格式,如:[p]正文[/p],所以在发布时要做一个手动转换。下面就是设置这个手动转 换功能。 如果你的文章发布的 DZ 门户,就不需要转换为 UBB. 1、 打开发布模块配置:2、 以软件里自带的 Discuz!X 2.0 论坛 为模板进行更改。我试过了可以正常住 Discuz!X 2.5 发布文章。
  3、 设置为:对 [标签: 内容]做 UBB 转换,如下图中的样子: 最后,另存为一个新的“发布模块” ,起一个新名子,后面要使用。24、在“内容发布参数”选项卡中更改: [标签: 内容] 的值可以用使用{0} 来代替。如下图:黄色框内的[标签:内容]替换成{0},如下图3第一部分工作就完成了。二、使用 Web 在线发布模块上面我新建了一个新的 Web 在线发布模块,下面就是使用它。 第一步:新一个“发布” ,操作如下图:4注意:请到峰会的后台更改设置,要求登陆时不需要输入验证码,才能登入成功,才能测试成功,记得之后要改回 来啊。 最后保存时要起个新名子。三、准备采集这里以列车自带的采集演示来说明 。鼠标右击“腾讯新闻”—“编辑任务” ,打开如下窗口。 如下图设置,使用前一步 建立 的“发布模块” ,可以把采集到的内容发布到峰会的某个栏目中。 设置如下图:5下边还有图:67对于采集工作,还有一些重要的设置,很重要。 如果你不是使用火车头自带的演示任务,而是自己新建采集任务,下面的内容就很重要。 下面的设置,是对采集的文章正文进行的设置。8“开始字符串”“结束字符串”是所有设置中最重要的内容,它拿来剖析页面的 HTML 源码,找出文章正文的开始 , 点与结束点。
  下图中使用的是火车头为腾讯打算默认值,不需要更改。 如果你不采集腾讯而采其它网站,这个就 要你自己看 HTML 源码来人工剖析了。 采集时,可选择性的过滤掉一些 HTML 标签,如&lt;script&gt;&lt;iframe&gt;, 如果你不知道要除去什么,就哪些也不用改,使用默认值吧。9下载的图片存目录设置 图片下载后被保存在: 火车头软件安装目录\Data\LocoySpider\80\ 文件夹中。 为什么叫 80,其实叫哪些都可以,但为了便捷管理火车头文章采集,这个腾讯采集任务编号是 80,所以放到 80 文件夹中。以后是 腾讯采集任务,采集下来图片都置于这儿,方便管理。 腾讯采集任务编号,请再前面一张图片中查看。10顾客通过浏览器访问我峰会的文章里的图片时, 统一访问服务器上 DZ 程序的根目录下的./pic/目录, 使用相对路径, pic 目录下边我们再新建一个 80 目录, 所以, 把火车头安装目录下的\Data\LocoySpider\中的 80 文件夹, COPY 到服务器 DZ 程序的根目录下的 pic 目录中, 这样,图片就储存在了:服务器 DZ 程序的根目录\pic\80\ 目录 同时 文章中的图片的地址是指向 ./pic/80/xxx.jpg 。
  文章就可以显示图片了。补充:后来经过实践,目录定为:/data/attachment/pic 章的“封面” ,这个路径是合适的。,好处是:为了通过程序取文章中的第一张图片做为文四、什么样的数据容易采集请看这个新闻列表: 有文章列表的、URL 地址有规律的文章火车头文章采集,容易采集。 采集时优先找 以上条件的文章进行采集。一般著名大网站都可以。 知名大网站页面的 HTML 源码太简约,方便人工剖析,找出文章正文起点与终点的 HTML 标记。. 查看全部

  1怎样使用火车头采集器火车头采集器 7.6 免费版,功能有很多限制,但我已使用它实现了采集与发布(带图片、排版)。图片是通过采 集程序下载到本地, 放在一个约定好名子的文件夹中, 最后人工上传到服务器 DZ 程序运行目录下的 pic 目录下。 下 载火车头采集器 7.6 版本 LocoySpider_V7.6_Build20120912.Free.zip,解决后可运行。需要.NET 环境。 程序是 Discuz!X 2.5 GBK 版本。 核心工作有两部份:1、采集,2、 发布。 本文重点说怎么发布(带图片、排版), 简单说怎么采集。一、新建一个使用 UBB 格式的 Web 在线发布模块由于采集下来的文章内容是 HTML 格式,如:&lt;p&gt;正文&lt;/p&gt;这样带有 HTML 标签的文本。 而 DZ 论坛使用的是 UUB 格式,如:[p]正文[/p],所以在发布时要做一个手动转换。下面就是设置这个手动转 换功能。 如果你的文章发布的 DZ 门户,就不需要转换为 UBB. 1、 打开发布模块配置:2、 以软件里自带的 Discuz!X 2.0 论坛 为模板进行更改。我试过了可以正常住 Discuz!X 2.5 发布文章。
  3、 设置为:对 [标签: 内容]做 UBB 转换,如下图中的样子: 最后,另存为一个新的“发布模块” ,起一个新名子,后面要使用。24、在“内容发布参数”选项卡中更改: [标签: 内容] 的值可以用使用{0} 来代替。如下图:黄色框内的[标签:内容]替换成{0},如下图3第一部分工作就完成了。二、使用 Web 在线发布模块上面我新建了一个新的 Web 在线发布模块,下面就是使用它。 第一步:新一个“发布” ,操作如下图:4注意:请到峰会的后台更改设置,要求登陆时不需要输入验证码,才能登入成功,才能测试成功,记得之后要改回 来啊。 最后保存时要起个新名子。三、准备采集这里以列车自带的采集演示来说明 。鼠标右击“腾讯新闻”—“编辑任务” ,打开如下窗口。 如下图设置,使用前一步 建立 的“发布模块” ,可以把采集到的内容发布到峰会的某个栏目中。 设置如下图:5下边还有图:67对于采集工作,还有一些重要的设置,很重要。 如果你不是使用火车头自带的演示任务,而是自己新建采集任务,下面的内容就很重要。 下面的设置,是对采集的文章正文进行的设置。8“开始字符串”“结束字符串”是所有设置中最重要的内容,它拿来剖析页面的 HTML 源码,找出文章正文的开始 , 点与结束点。
  下图中使用的是火车头为腾讯打算默认值,不需要更改。 如果你不采集腾讯而采其它网站,这个就 要你自己看 HTML 源码来人工剖析了。 采集时,可选择性的过滤掉一些 HTML 标签,如&lt;script&gt;&lt;iframe&gt;, 如果你不知道要除去什么,就哪些也不用改,使用默认值吧。9下载的图片存目录设置 图片下载后被保存在: 火车头软件安装目录\Data\LocoySpider\80\ 文件夹中。 为什么叫 80,其实叫哪些都可以,但为了便捷管理火车头文章采集,这个腾讯采集任务编号是 80,所以放到 80 文件夹中。以后是 腾讯采集任务,采集下来图片都置于这儿,方便管理。 腾讯采集任务编号,请再前面一张图片中查看。10顾客通过浏览器访问我峰会的文章里的图片时, 统一访问服务器上 DZ 程序的根目录下的./pic/目录, 使用相对路径, pic 目录下边我们再新建一个 80 目录, 所以, 把火车头安装目录下的\Data\LocoySpider\中的 80 文件夹, COPY 到服务器 DZ 程序的根目录下的 pic 目录中, 这样,图片就储存在了:服务器 DZ 程序的根目录\pic\80\ 目录 同时 文章中的图片的地址是指向 ./pic/80/xxx.jpg 。
  文章就可以显示图片了。补充:后来经过实践,目录定为:/data/attachment/pic 章的“封面” ,这个路径是合适的。,好处是:为了通过程序取文章中的第一张图片做为文四、什么样的数据容易采集请看这个新闻列表: 有文章列表的、URL 地址有规律的文章火车头文章采集,容易采集。 采集时优先找 以上条件的文章进行采集。一般著名大网站都可以。 知名大网站页面的 HTML 源码太简约,方便人工剖析,找出文章正文起点与终点的 HTML 标记。.

火车头采集多张图片

采集交流优采云 发表了文章 • 0 个评论 • 462 次浏览 • 2020-04-19 11:02 • 来自相关话题

  相信好多刚开始学习火车头的菜鸟们火车头怎么采集文章图片,也和稀泥一样使用的是火车头免费版,然后为我们的zencart网站进行一些产品数据的采集。但是在写采集规则的时侯,会时常遇到的一个问题就是怎么采集一个产品的多张图片。
  采集一张图片的规则,相信你们就会写了。那么多张图片呢?如何写呢?其实,这个和我们写采集一张图的是一样的,只是在一些细节里面设置正确就ok了。下面我就自己采集的一个站点给诸位做一下讲解。
  我们晓得要采集一个网站的图片,那么我们肯定是在火车头使用img标签来进行的。
  在上图中是标记下来的1和2是两张不同的图片,但是我们仔细的观察可以发觉img标签中火车头怎么采集文章图片,如果把图片的源地址和alt去除的话,那么其他的都是一样的。而火车头有一个标签循环使用的功能,这就为我们采集多张图片提供了一个便捷。我如今把源码粘贴下来:
  <img src="http://www.simplydresses.com/_ ... ot%3B border="0" alt="Long One Shoulder Formal Dress P641 TI-P641" />
  然后在火车头中进行采集规则的编撰:
  
  在数据提取方法中,我们选择了“正则提取”,而“正则匹配内容”中填写如下:
  <img src="http://www.simplydresses.com/_img/PRODUCTS/[参数]/[参数]"(*)width="(*)"(*)border="(*)"(*)alt="(*)"(*)/>
  组合结果中填写如下:
  <img src="http://www.simplydresses.com/_img/PRODUCTS/[参数1]/[参数2]"/>
  其中正则匹配内容第一个“参数”对应的是组合结果中的“参数1”,正则匹配内容第二个“参数”对应的是组合结果中的“参数2”,而其中的“*”是任意匹配的意思。
  这个是导入的结果。
  Ok,以上我们可以看见要采集多张图片,只要我们设置好了采集标签,然后此标签可以循环使用,就可以达到我们要的结果了…… 查看全部
  相信好多刚开始学习火车头的菜鸟们火车头怎么采集文章图片,也和稀泥一样使用的是火车头免费版,然后为我们的zencart网站进行一些产品数据的采集。但是在写采集规则的时侯,会时常遇到的一个问题就是怎么采集一个产品的多张图片。
  采集一张图片的规则,相信你们就会写了。那么多张图片呢?如何写呢?其实,这个和我们写采集一张图的是一样的,只是在一些细节里面设置正确就ok了。下面我就自己采集的一个站点给诸位做一下讲解。
  我们晓得要采集一个网站的图片,那么我们肯定是在火车头使用img标签来进行的。
  在上图中是标记下来的1和2是两张不同的图片,但是我们仔细的观察可以发觉img标签中火车头怎么采集文章图片,如果把图片的源地址和alt去除的话,那么其他的都是一样的。而火车头有一个标签循环使用的功能,这就为我们采集多张图片提供了一个便捷。我如今把源码粘贴下来:
  <img src="http://www.simplydresses.com/_ ... ot%3B border="0" alt="Long One Shoulder Formal Dress P641 TI-P641" />
  然后在火车头中进行采集规则的编撰:
  
  在数据提取方法中,我们选择了“正则提取”,而“正则匹配内容”中填写如下:
  <img src="http://www.simplydresses.com/_img/PRODUCTS/[参数]/[参数]"(*)width="(*)"(*)border="(*)"(*)alt="(*)"(*)/>
  组合结果中填写如下:
  <img src="http://www.simplydresses.com/_img/PRODUCTS/[参数1]/[参数2]"/>
  其中正则匹配内容第一个“参数”对应的是组合结果中的“参数1”,正则匹配内容第二个“参数”对应的是组合结果中的“参数2”,而其中的“*”是任意匹配的意思。
  这个是导入的结果。
  Ok,以上我们可以看见要采集多张图片,只要我们设置好了采集标签,然后此标签可以循环使用,就可以达到我们要的结果了……

火车头采集器企业版无限制功能软件 SEO推广优化文章采集必备软件

采集交流优采云 发表了文章 • 0 个评论 • 361 次浏览 • 2020-04-19 11:00 • 来自相关话题

  本店最新让利活动!买一送一!购买本店任何一件宝贝(虚拟商品类)5星好评后可以免费送相同价钱或高于商品价的商品一个!超值!!!!!!!!!!!(送的商品亲须要拍下付款,邮件留言或备注留下支付宝账号就可以了,工作人员会在12小时内退还到亲支付宝账号内.)
  火车头采集器企业版vip全功能使用|火车头采集器(拍下本软件附送教程)
  亲,这一款是火-车-头7.6版本的,企业版的,破-解-版的。
  下面是视频教程链接,亲可以先看教程,再决定是否须要,同时也可以直接百度"火车头采集器"seo文章采集软件,查看相关功能和作用:
  亲,购买前请知晓,本人只卖软件,自己也不会使用这款软件,所以使用过程中的问题seo文章采集软件,我帮不了您,购买前请谨慎考虑,谢谢!
  火车头实战使用视频教程
  提取密码:m51k
  官方图文教程链接:
  1、规则自定义 – 通过采集规则的定义,可以搜索所有网站采集几乎任何类型的信息。
  2、多任务,多线程 – 可以同时进行多个信息采集任务,每个任务可以使用多个线程。
  3、所见即所得 - 任务采集过程所见即所得,过程中遍历的链接信息、采集信息、错误信息等就会及时的反映在软件界面中。
  4、数据保存 - 数据边采集边手动保存到关系数据库中,并且数据结构才能手动适应,软件可以依据采集规则手动创建数据库,以及其中的表和数组,也可以通过导库形式灵活的将数据保存到顾客已有的数据库结构中。
  5、断点续采 – 信息采集任务可以在停止后从断点开始继续采集,从此你用不再害怕你的采集任务意外中断了。
  6、网站登录 - 支持网站Cookie,支持网站可视化登陆,即使登陆时须要验证码的网站也能采集。
  7、**任务 – 通过这个功能可以使你的采集任务定时、定量或则始终循环执行。
  8、采集范围限制 – 可以依据采集的深度和网址的标示来限制采集的范围。
  9、文件下载 - 可以将采集到的二进制文件(诸如:图片、音乐、软件、文档等等)下载到本地c盘或则采集结果数据库中。
  10、结果替换 – 可以将采集的结果按照规则替换成你定义的内容。
  11、条件保存 – 可以按照某个条件来决定这些信息保存,那些信息过滤。
  12、过滤重复内容 - 软件可依据用户设置和实际情况对重复内容和重复网址手动删掉重复内容。
  13、特殊链接辨识 – 运用此功能可以将用JavaScript动态生成的链接或其他更奇特的联接辨识下来。
  14、数据发布 - 可以通过自定义插口,将已采集的结果数据发布到任意的内容管理系统和指定数据库中。现在已支持的目标发布媒体包括:数据库(access, sql server,my sql,oracle) ,静态htm文件。
  15、预留编程插口 - 定义多个编程插口,用户可以在风波中借助PHP,C#语言进行编程,扩充采集功能。
  1、支持所有网站编码:完美支持采集所有编码格式的网页,程序还可以手动辨识网页编码。
  2、多种发布形式:支持目前所有主流和非主流的CMS,BBS等网站程序,通过系统的发布模块能实现采集器和网站程序间的完美结合。
  3、全手动:无人值守工作,配置好程序后,程序将根据您的设置手动运行,完全无需人工干预。 查看全部

  本店最新让利活动!买一送一!购买本店任何一件宝贝(虚拟商品类)5星好评后可以免费送相同价钱或高于商品价的商品一个!超值!!!!!!!!!!!(送的商品亲须要拍下付款,邮件留言或备注留下支付宝账号就可以了,工作人员会在12小时内退还到亲支付宝账号内.)
  火车头采集器企业版vip全功能使用|火车头采集器(拍下本软件附送教程)
  亲,这一款是火-车-头7.6版本的,企业版的,破-解-版的。
  下面是视频教程链接,亲可以先看教程,再决定是否须要,同时也可以直接百度"火车头采集器"seo文章采集软件,查看相关功能和作用:
  亲,购买前请知晓,本人只卖软件,自己也不会使用这款软件,所以使用过程中的问题seo文章采集软件,我帮不了您,购买前请谨慎考虑,谢谢!
  火车头实战使用视频教程
  提取密码:m51k
  官方图文教程链接:
  1、规则自定义 – 通过采集规则的定义,可以搜索所有网站采集几乎任何类型的信息。
  2、多任务,多线程 – 可以同时进行多个信息采集任务,每个任务可以使用多个线程。
  3、所见即所得 - 任务采集过程所见即所得,过程中遍历的链接信息、采集信息、错误信息等就会及时的反映在软件界面中。
  4、数据保存 - 数据边采集边手动保存到关系数据库中,并且数据结构才能手动适应,软件可以依据采集规则手动创建数据库,以及其中的表和数组,也可以通过导库形式灵活的将数据保存到顾客已有的数据库结构中。
  5、断点续采 – 信息采集任务可以在停止后从断点开始继续采集,从此你用不再害怕你的采集任务意外中断了。
  6、网站登录 - 支持网站Cookie,支持网站可视化登陆,即使登陆时须要验证码的网站也能采集。
  7、**任务 – 通过这个功能可以使你的采集任务定时、定量或则始终循环执行。
  8、采集范围限制 – 可以依据采集的深度和网址的标示来限制采集的范围。
  9、文件下载 - 可以将采集到的二进制文件(诸如:图片、音乐、软件、文档等等)下载到本地c盘或则采集结果数据库中。
  10、结果替换 – 可以将采集的结果按照规则替换成你定义的内容。
  11、条件保存 – 可以按照某个条件来决定这些信息保存,那些信息过滤。
  12、过滤重复内容 - 软件可依据用户设置和实际情况对重复内容和重复网址手动删掉重复内容。
  13、特殊链接辨识 – 运用此功能可以将用JavaScript动态生成的链接或其他更奇特的联接辨识下来。
  14、数据发布 - 可以通过自定义插口,将已采集的结果数据发布到任意的内容管理系统和指定数据库中。现在已支持的目标发布媒体包括:数据库(access, sql server,my sql,oracle) ,静态htm文件。
  15、预留编程插口 - 定义多个编程插口,用户可以在风波中借助PHP,C#语言进行编程,扩充采集功能。
  1、支持所有网站编码:完美支持采集所有编码格式的网页,程序还可以手动辨识网页编码。
  2、多种发布形式:支持目前所有主流和非主流的CMS,BBS等网站程序,通过系统的发布模块能实现采集器和网站程序间的完美结合。
  3、全手动:无人值守工作,配置好程序后,程序将根据您的设置手动运行,完全无需人工干预。

火车头采集:快速采集网页文章教程

采集交流优采云 发表了文章 • 0 个评论 • 416 次浏览 • 2020-04-18 11:00 • 来自相关话题

  
  1、添加起始网址:按照给出的网址打开腾讯新闻,发现新闻页面是以列表分页的方式诠释的,那么首先就要把列表页的地址作为起始网址先添加到列车采集器中。
  这里我们以添加6页为例,我们可以点开这6个分页的网址一条条的添加到采集器中。但是假如我们要添加的网址好多火车头文章采集,几百或上千条,那么一条条的进行添加就过分冗长,所以我们可以试着找出网址之间的变化规律火车头文章采集,进行批量添加。
  我们分别打开第一页、第二页……观察其网址变化采集器,可以发觉不仅第一页之外,后面的分页网址都是以“_数字”递增的规律变化的,如下:
  那么我们首先将不符合规律的第一页网址“”添加到起始网址的列表中如下:
  第一页添加好了,那么前面的列表分页我们选择向导添加——批量网址添加,用一个通用的格式手动产生所须要的网址,网址中的变量就可以用地址参数来取代,地址参数的规律须要我们设置一下,上述规律就是从2开始,以1为递增量,共计5项。填写完成后列车采集器V9手动生成预览如下图,点击确定后起始网址(这里就是列表页网址)就添加好了。
  2、获取内容页网址:通过观察新闻页面可以发觉列表分页的下一级就是内容页,那么内容页网址就是一级网址(列表页为0级网址),这里我们使用最简单的“自动获取地址链接”的方法,通过剖析列表页面的源代码,可以找出新闻内容页地址所在的区域,其开始字符为:“<div class="mod newslist">”,结束字符为:“</div>”。填写以后列车采集器会在这个区域内手动辨识地址链接,我们点击网址采集测试就可以看见我们设置的规则采集到列表页和内容页网址是否正确和完整。 查看全部
  
  1、添加起始网址:按照给出的网址打开腾讯新闻,发现新闻页面是以列表分页的方式诠释的,那么首先就要把列表页的地址作为起始网址先添加到列车采集器中。
  这里我们以添加6页为例,我们可以点开这6个分页的网址一条条的添加到采集器中。但是假如我们要添加的网址好多火车头文章采集,几百或上千条,那么一条条的进行添加就过分冗长,所以我们可以试着找出网址之间的变化规律火车头文章采集,进行批量添加。
  我们分别打开第一页、第二页……观察其网址变化采集器,可以发觉不仅第一页之外,后面的分页网址都是以“_数字”递增的规律变化的,如下:
  那么我们首先将不符合规律的第一页网址“”添加到起始网址的列表中如下:
  第一页添加好了,那么前面的列表分页我们选择向导添加——批量网址添加,用一个通用的格式手动产生所须要的网址,网址中的变量就可以用地址参数来取代,地址参数的规律须要我们设置一下,上述规律就是从2开始,以1为递增量,共计5项。填写完成后列车采集器V9手动生成预览如下图,点击确定后起始网址(这里就是列表页网址)就添加好了。
  2、获取内容页网址:通过观察新闻页面可以发觉列表分页的下一级就是内容页,那么内容页网址就是一级网址(列表页为0级网址),这里我们使用最简单的“自动获取地址链接”的方法,通过剖析列表页面的源代码,可以找出新闻内容页地址所在的区域,其开始字符为:“<div class="mod newslist">”,结束字符为:“</div>”。填写以后列车采集器会在这个区域内手动辨识地址链接,我们点击网址采集测试就可以看见我们设置的规则采集到列表页和内容页网址是否正确和完整。

最详尽火车头数据采集系统DedeCMS发布文章攻略

采集交流优采云 发表了文章 • 0 个评论 • 352 次浏览 • 2020-04-18 11:00 • 来自相关话题

  
  
  搜索引擎不喜欢复制的东西更不喜欢数据采集,但有时候碰到一些情况采集器,比如网站由于改版、换数据库、换管理程序等,需要把网路数据采集或网站备份。提醒诸位:
  ①做任何操作之前一定要备份数据库并打包原站;
  ②对排行较好的网站不建议对网站管理系统进行这样大的更改;
  ③对新站不建议采集别人网站的信息,会增加新站特殊权重给分。
  前段时间做一个老网站的改版方案火车头采集文章,由于管理系统和数据库都更换,决定采用对原网站数据采集的解决方案。新手进行网站改版须要把握的建站知识和SEO知识是特别多的,这些经验用来跟你们分享。
  
  网站基本情况
  这个站原先有排行,收录量也比较多,优化也比较好,制作风格和吖七太相像,代码简约,前端大气,标签运用还可以,只是网站优化方式带点黑帽。用的asp程序后台,数据库是access,要换成php,数据库是mysql。
  网站改版用的软件工具
  
-EditPlus或DreamWear(代码编辑器);
-APMServ(本地ASP、PHP环境);
-Fiddler Web汉化版(web数据抓包);
-火车头(LocoySpider)采集7.6(破解稳定版、数据采集);
-DedeCMS V5.7(后台内容管理程序);
-其他辅助工具。
  网站借助火车头采集改版详尽步骤1.本地环境搭建、安装DedeCMS、安装Fiddler Web抓包工具、安装火车头采集7.6等软件
  安装方式很简单,相关文章《本地安装PHP环境 测试织梦CMS》,《如何安装dedecms织梦详解》。
  提供部份软件下载链接: 密码:3n7e
  2.火车头设置(重点内容)
  官方说明较简单火车头采集文章,新手采集网站数据一定要多看多实践。打开火车头采集工具,新建一个任务和分组。 查看全部

  
  
  搜索引擎不喜欢复制的东西更不喜欢数据采集,但有时候碰到一些情况采集器,比如网站由于改版、换数据库、换管理程序等,需要把网路数据采集或网站备份。提醒诸位:
  ①做任何操作之前一定要备份数据库并打包原站;
  ②对排行较好的网站不建议对网站管理系统进行这样大的更改;
  ③对新站不建议采集别人网站的信息,会增加新站特殊权重给分。
  前段时间做一个老网站的改版方案火车头采集文章,由于管理系统和数据库都更换,决定采用对原网站数据采集的解决方案。新手进行网站改版须要把握的建站知识和SEO知识是特别多的,这些经验用来跟你们分享。
  
  网站基本情况
  这个站原先有排行,收录量也比较多,优化也比较好,制作风格和吖七太相像,代码简约,前端大气,标签运用还可以,只是网站优化方式带点黑帽。用的asp程序后台,数据库是access,要换成php,数据库是mysql。
  网站改版用的软件工具
  
-EditPlus或DreamWear(代码编辑器);
-APMServ(本地ASP、PHP环境);
-Fiddler Web汉化版(web数据抓包);
-火车头(LocoySpider)采集7.6(破解稳定版、数据采集);
-DedeCMS V5.7(后台内容管理程序);
-其他辅助工具。
  网站借助火车头采集改版详尽步骤1.本地环境搭建、安装DedeCMS、安装Fiddler Web抓包工具、安装火车头采集7.6等软件
  安装方式很简单,相关文章《本地安装PHP环境 测试织梦CMS》,《如何安装dedecms织梦详解》。
  提供部份软件下载链接: 密码:3n7e
  2.火车头设置(重点内容)
  官方说明较简单火车头采集文章,新手采集网站数据一定要多看多实践。打开火车头采集工具,新建一个任务和分组。

SEO黑科技:5118伪原创+火车头采集教程(1)

采集交流优采云 发表了文章 • 0 个评论 • 538 次浏览 • 2020-04-24 11:01 • 来自相关话题

  最近在研究火车头采集器,通过火车头采集软件可以轻而易举的获得海量的网站内容(采集确实不妥)可以解放站长右手,机器时代工具自然比手工效率高多了。
  经过一段时间研究,目前早已把握了火车头采集技术能力,火车头采集对接开源CMS程序手动更新能力,可以结合ai伪原创插口 实现批量采集并直接发布到WP、DEDECMS网站。说实在的,不是常常被人问采集相关的问题,我根本不乐意研究这种采集技术。
  
  接下来谈谈火车头采集器集成5118智能原创功能吧,这也是5118明天刚推送的一篇公众号文章。
  在列车采集器中,利用5118智能原创插件,不再须要经过人工处理,即能批量生产出内容指纹完全不同的文章,大幅提升了内容SEO采编的工作效率,让文章更容易被收录。
  5118智能原创-火车采集器插件下载链接: 提取码: umjx
  第一步,使用解压软件,提取插件安装包中的文件,解压到一个文件夹中。
  
  第二步,打开解压后的文件夹,将上面的【5118 智能原创.dll】文件,放入在【火车采集器】安装目录下的Plugins文件夹里。
  
  第三步,将文件夹中的【5118智能原创配置工具.exe】和
  【Newtonsoft.Json.dll】文件,放入在【火车采集器】安装目录中。
  
  第四步,在【火车采集器】的根目录里,打开【5118 智能原创配置工具.exe】,点击“获取API-Key”,将会在浏览器中打开5118获取API的页面。
  
  页面中找到“一键智能原创API”,点击复制按键,返回【5118 智能原创配置工具.exe】界面,粘贴API-Key到输入框中。
  一键智能原创API支持免费试用
  
  当然5118伪原创是要订购付费的,可申请100次免费使用,可选购一键智能原创API套餐。5118会员折扣码 D569F5
  第一步,打开火车头采集器,点击开始栏的【插件管理】,在插件管理框右侧列表里,选中【5118智能原创】,在两侧框中输入需采集的网址,点击测试按键,查看插件是否正常。
  第二步,测试没有问题后,开始使用插件设置内容采集规则。
  
  第三步,选择已有采集任务,在【其他设置】的一侧栏目中选择插件,在采集结果处理插件下拉框中火车头采集教程,选择【5118智能原创.dll】,点击保存即可。
  
  此处需注意,【内容采集规则】左侧列表里的“内容”标签,是插件将手动智能原创的内容,固定标签名称为“内容”。
  
  导出任务数据时,在任务列表里,选中对应任务项目,右侧“发布”项必须勾选,否则数据难以导入。
  
  第四步,查看5118智能原创插件疗效。运行完成后,即可在之前所保存的地址中查看导入疗效。所导入的内容,已经是使用智能原创插件替换后的数据。(以上内容转载自5118公众号)
  需要把握以下技能:
  1,火车头采集工具使用 ,推荐学习 SEOWHY火车头采集基础教程 和 SEOWHY火车头采集器(高级教程)
  2,5118伪原创工具使用,会员折扣码D569F5 5118官网
  3,常用CMS网站程序功能使用,课程中讲过
  4,采集网页须要用到规则火车头采集教程,要熟悉div+css
  5,WP博客系统插口,织梦CMS发文插口
  如果你对这个SEO黑科技有兴趣,站长同学不妨研究一下。需要工具软件和折扣消息可以联系我,常用CMS发布插口都不是问题。 查看全部

  最近在研究火车头采集器,通过火车头采集软件可以轻而易举的获得海量的网站内容(采集确实不妥)可以解放站长右手,机器时代工具自然比手工效率高多了。
  经过一段时间研究,目前早已把握了火车头采集技术能力,火车头采集对接开源CMS程序手动更新能力,可以结合ai伪原创插口 实现批量采集并直接发布到WP、DEDECMS网站。说实在的,不是常常被人问采集相关的问题,我根本不乐意研究这种采集技术。
  
  接下来谈谈火车头采集器集成5118智能原创功能吧,这也是5118明天刚推送的一篇公众号文章。
  在列车采集器中,利用5118智能原创插件,不再须要经过人工处理,即能批量生产出内容指纹完全不同的文章,大幅提升了内容SEO采编的工作效率,让文章更容易被收录。
  5118智能原创-火车采集器插件下载链接: 提取码: umjx
  第一步,使用解压软件,提取插件安装包中的文件,解压到一个文件夹中。
  
  第二步,打开解压后的文件夹,将上面的【5118 智能原创.dll】文件,放入在【火车采集器】安装目录下的Plugins文件夹里。
  
  第三步,将文件夹中的【5118智能原创配置工具.exe】和
  【Newtonsoft.Json.dll】文件,放入在【火车采集器】安装目录中。
  
  第四步,在【火车采集器】的根目录里,打开【5118 智能原创配置工具.exe】,点击“获取API-Key”,将会在浏览器中打开5118获取API的页面。
  
  页面中找到“一键智能原创API”,点击复制按键,返回【5118 智能原创配置工具.exe】界面,粘贴API-Key到输入框中。
  一键智能原创API支持免费试用
  
  当然5118伪原创是要订购付费的,可申请100次免费使用,可选购一键智能原创API套餐。5118会员折扣码 D569F5
  第一步,打开火车头采集器,点击开始栏的【插件管理】,在插件管理框右侧列表里,选中【5118智能原创】,在两侧框中输入需采集的网址,点击测试按键,查看插件是否正常。
  第二步,测试没有问题后,开始使用插件设置内容采集规则。
  
  第三步,选择已有采集任务,在【其他设置】的一侧栏目中选择插件,在采集结果处理插件下拉框中火车头采集教程,选择【5118智能原创.dll】,点击保存即可。
  
  此处需注意,【内容采集规则】左侧列表里的“内容”标签,是插件将手动智能原创的内容,固定标签名称为“内容”。
  
  导出任务数据时,在任务列表里,选中对应任务项目,右侧“发布”项必须勾选,否则数据难以导入。
  
  第四步,查看5118智能原创插件疗效。运行完成后,即可在之前所保存的地址中查看导入疗效。所导入的内容,已经是使用智能原创插件替换后的数据。(以上内容转载自5118公众号)
  需要把握以下技能:
  1,火车头采集工具使用 ,推荐学习 SEOWHY火车头采集基础教程 和 SEOWHY火车头采集器(高级教程)
  2,5118伪原创工具使用,会员折扣码D569F5 5118官网
  3,常用CMS网站程序功能使用,课程中讲过
  4,采集网页须要用到规则火车头采集教程,要熟悉div+css
  5,WP博客系统插口,织梦CMS发文插口
  如果你对这个SEO黑科技有兴趣,站长同学不妨研究一下。需要工具软件和折扣消息可以联系我,常用CMS发布插口都不是问题。

Discuz X3.2 采集教程 – 火车头采集器 v7

采集交流优采云 发表了文章 • 0 个评论 • 558 次浏览 • 2020-04-24 11:00 • 来自相关话题

  
  一般做站的人基本上都晓得采集,尤其是做站群或则做峰会的人。但是现今网上的采集工具基本上都是收费的。而且不光软件收费,采集规则还收费。真是羊绒一把把的薅啊。像火车头这个软件,现在早已到 v9 了,但是精典款还是 v7.6 ,至于为何,你们自己心中应当有数。一般采集内容你们就会,直接定义起始点和结束点就可以了。而火车头带的这个 Web发布配置管理就有点麻烦了。今天 Forece 教你们怎么用设置火车头采集器 v7.6 的Web发布配置管理。针对的是 Discuz X3.2 / X3.3 / X3.4
  打开火车头采集器 v7.6 - 工具 - Web发布配置管理
  
  
  弹出一个新窗口,我们一个一个配置,先来这个登入配置,点击手动抓取登录数据包
  
  在以后弹出的窗口中输入 Discuz 论坛的地址(Forece 用的本地测试),然后登录你注册过的用户。在 Post 数据框那儿应当可以看见数据,然后点击确定。当然若果有的网站无法使用手动登入获取 POST 数据的话,你可以用 Fiddler 来获取 Post 数据。然后在上一个窗口中,选择粘贴 Post 数据。
  
  Post 数据通常是长这个样的:
  fastloginfield=username&amp;username=forece&amp;password=xxxxxxxxxxxxxx&amp;quickforward=yes&amp;handlekey=ls
  点击确定后,你可以听到大部分表格都早已填写完毕了
  
  我们还须要再做一下更改,需要将 username 和 password 的表单值改为 [用户名] 和 [密码],另外还须要加一个登录失败标志码码和登录成功标志码。
  登陆失败标志码
  登录失败
  登陆成功标志码
  <script type="text/javascript" reload="1">
  最后截图如下:
  
  然后我们步入下一个 Tab ,网页随机值获取。获取这个数值的诱因是因为 Discuz 有一个称作 formhash 的东西。这玩意还不是固定的火车头采集教程,每次都变。
  
  然后依次填入以下数据:
  获取页面:
  /forum.php?mod=post&amp;action=newthread&amp;fid=2
  来源页面
  /forum.php?mod=post&amp;action=newthread&amp;fid=2
  随机值前字符串
  name="formhash" value="
  随机值后字符串
  然后将 每次恳求都使用第一次获取的网页随机值 的选项关闭。
  PS: 获取页面和来源页面是你发布贴子的页面。大家听到我旁边的 fid=2 是我的版块名称,请依照自己 Discuz 论坛的情况配置。
  最后设置截图如下:
  
  内容发布参数的设置和登录的有点类似火车头采集教程,也是须要获取 Post 数据
  
  登陆进峰会 - 选择发贴 - 填写标题 - 内容 - 按发贴 - 获取 Post 数据 - 按确定
  
  Post 数据应当是这样的:
  formhash=9c552f8e&amp;posttime=1507576154&amp;wysiwyg=1&amp;subject=%E7%81%AB%E8%BD%A6%E5%A4%B4%E8%8E%B7%E5%8F%96+Post+%E6%95%B0%E6%8D%AE%E6%B5%8B%E8%AF%95%E5%B8%96&amp;message=by+Forece&amp;replycredit_extcredits=0&amp;replycredit_times=1&amp;replycredit_membertimes=1&amp;replycredit_random=100&amp;readperm=&amp;price=&amp;tags=&amp;rushreplyfrom=&amp;rushreplyto=&amp;rewardfloor=&amp;replylimit=&amp;stopfloor=&amp;creditlimit=&amp;allownoticeauthor=1&amp;usesig=1&amp;save=
  按完确定后,表单数据获取完毕,我们还是须要更改一些表单。
  
  
  formhash: [网页随机值1]posttime: [系统时间戳]subject: [标签:标题]message: [标签:内容]
  发表错误标志码
  抱歉,您的恳求来路不正确或表单验证串不符,无法递交
  抱歉,您仍未输入标题或内容
  成功标志码
  帖子地址复制成功
  最后截图如下:
  
  其实到现今这个Web发布规则早已配置完毕,但是由于 Discuz 用的是 UBB 标签而不是 HTML 标签,所以我们再稍为让这个发布规则更完美一些。进入中级功能,选择操作类型,标签填写 [标签:内容] ,CMS 选择 Discuz , 按确定。
  
  然后回到内容发布规则里,将表单message里面的值替换成{0}
  
  
  按照自己的情况来配置,是 UTF-8 就填写 UTF-8,是 GBK 就填写 GBK 别搞混了。
  
  PS: 不知道为何保存完规则后网页随机值消失不见了,我测试的时侯仍然未能发布内容,重新把网页随机值加进去就好了。 查看全部
  
  一般做站的人基本上都晓得采集,尤其是做站群或则做峰会的人。但是现今网上的采集工具基本上都是收费的。而且不光软件收费,采集规则还收费。真是羊绒一把把的薅啊。像火车头这个软件,现在早已到 v9 了,但是精典款还是 v7.6 ,至于为何,你们自己心中应当有数。一般采集内容你们就会,直接定义起始点和结束点就可以了。而火车头带的这个 Web发布配置管理就有点麻烦了。今天 Forece 教你们怎么用设置火车头采集器 v7.6 的Web发布配置管理。针对的是 Discuz X3.2 / X3.3 / X3.4
  打开火车头采集器 v7.6 - 工具 - Web发布配置管理
  
  
  弹出一个新窗口,我们一个一个配置,先来这个登入配置,点击手动抓取登录数据包
  
  在以后弹出的窗口中输入 Discuz 论坛的地址(Forece 用的本地测试),然后登录你注册过的用户。在 Post 数据框那儿应当可以看见数据,然后点击确定。当然若果有的网站无法使用手动登入获取 POST 数据的话,你可以用 Fiddler 来获取 Post 数据。然后在上一个窗口中,选择粘贴 Post 数据。
  
  Post 数据通常是长这个样的:
  fastloginfield=username&amp;username=forece&amp;password=xxxxxxxxxxxxxx&amp;quickforward=yes&amp;handlekey=ls
  点击确定后,你可以听到大部分表格都早已填写完毕了
  
  我们还须要再做一下更改,需要将 username 和 password 的表单值改为 [用户名] 和 [密码],另外还须要加一个登录失败标志码码和登录成功标志码。
  登陆失败标志码
  登录失败
  登陆成功标志码
  <script type="text/javascript" reload="1">
  最后截图如下:
  
  然后我们步入下一个 Tab ,网页随机值获取。获取这个数值的诱因是因为 Discuz 有一个称作 formhash 的东西。这玩意还不是固定的火车头采集教程,每次都变。
  
  然后依次填入以下数据:
  获取页面:
  /forum.php?mod=post&amp;action=newthread&amp;fid=2
  来源页面
  /forum.php?mod=post&amp;action=newthread&amp;fid=2
  随机值前字符串
  name="formhash" value="
  随机值后字符串
  然后将 每次恳求都使用第一次获取的网页随机值 的选项关闭。
  PS: 获取页面和来源页面是你发布贴子的页面。大家听到我旁边的 fid=2 是我的版块名称,请依照自己 Discuz 论坛的情况配置。
  最后设置截图如下:
  
  内容发布参数的设置和登录的有点类似火车头采集教程,也是须要获取 Post 数据
  
  登陆进峰会 - 选择发贴 - 填写标题 - 内容 - 按发贴 - 获取 Post 数据 - 按确定
  
  Post 数据应当是这样的:
  formhash=9c552f8e&amp;posttime=1507576154&amp;wysiwyg=1&amp;subject=%E7%81%AB%E8%BD%A6%E5%A4%B4%E8%8E%B7%E5%8F%96+Post+%E6%95%B0%E6%8D%AE%E6%B5%8B%E8%AF%95%E5%B8%96&amp;message=by+Forece&amp;replycredit_extcredits=0&amp;replycredit_times=1&amp;replycredit_membertimes=1&amp;replycredit_random=100&amp;readperm=&amp;price=&amp;tags=&amp;rushreplyfrom=&amp;rushreplyto=&amp;rewardfloor=&amp;replylimit=&amp;stopfloor=&amp;creditlimit=&amp;allownoticeauthor=1&amp;usesig=1&amp;save=
  按完确定后,表单数据获取完毕,我们还是须要更改一些表单。
  
  
  formhash: [网页随机值1]posttime: [系统时间戳]subject: [标签:标题]message: [标签:内容]
  发表错误标志码
  抱歉,您的恳求来路不正确或表单验证串不符,无法递交
  抱歉,您仍未输入标题或内容
  成功标志码
  帖子地址复制成功
  最后截图如下:
  
  其实到现今这个Web发布规则早已配置完毕,但是由于 Discuz 用的是 UBB 标签而不是 HTML 标签,所以我们再稍为让这个发布规则更完美一些。进入中级功能,选择操作类型,标签填写 [标签:内容] ,CMS 选择 Discuz , 按确定。
  
  然后回到内容发布规则里,将表单message里面的值替换成{0}
  
  
  按照自己的情况来配置,是 UTF-8 就填写 UTF-8,是 GBK 就填写 GBK 别搞混了。
  
  PS: 不知道为何保存完规则后网页随机值消失不见了,我测试的时侯仍然未能发布内容,重新把网页随机值加进去就好了。

[精品]火车头采集入库教程

采集交流优采云 发表了文章 • 0 个评论 • 409 次浏览 • 2020-04-23 11:04 • 来自相关话题

  今天给你们开堂讲火车头数据库导库模块的使用方式 教程打算: 1. 火车头采集器 2. 导库演示用我及其研究的 sNews CMS 程序 3. 数据库管理权限 phpMyAdmin 开堂啦. . . . 使用列车导出第一项做的事是构建数据库发布模块, ps: 当然构建数据库发布模块须要商业版才有的功能, 或自直接订购数据库发布模块的编辑器。 另外火车头也提供了比较常用的程序数据库发布模块, 大家可以直接下载使用就可以了。 ^^ 编辑好数据库发布模块后下一步就是数据库发布模块配置。 在接着就是新建采集任务, 把发布模式选择为数据库发布模式。好吧, 先来做数据库发布模块- 打开你的 sNews CMS 发布一条测试内容 填写好发布的各项内容 如 标题: title 内容: 发布内容 描述 : Description 关键词: Keywords 发布成功! 之后转回你数据库管理工具 phpMyAdmin, 选择 cms 的数据库, 然后进行导入数据库表。 演示的 sNews 数据库须要导库的表是 articles。当然不同的 cms 需要研究须要操作的表是不同的,一般你发表几篇文章后再观察就可以找到。
   还有的就是联动操作, 这个将在之后再给你们讲座, 呵呵简单的学起 导入表后, 打开数据库发布模块编辑工具, 同时打开导入的数据文件, 可以用文本工具打开数据库就可以看见 INSERT 的句子, 把这个句子直接复制到数据库发布模块编辑工具里面, 然后按相应的标签更改。 模块名称: sNews 数据库类型我们演示的选择是 mysql 添加数据表前缀, 演示的 sNews 虽然没使用数据库表前缀^^ 开始更改, 一般 ID 字段是自增 ID, 确定不需要的可以删掉掉。 其它的一一对好数组更改好。 接着按手动获取操作数据库表。 最后写上说明,编辑好后保存模块火车头采集教程, 这样我的入库模块就完成了。 . . . 开始配置数据库发布, 1. 选择数据库类型 mysql 2. 选择刚刚构建的发布模块 sNews 3. 设置登陆数据库资料 4. 测试联接, OK 后保存 这儿我们通常建议直接填写数据库名称, 因为远程导库通常是刷不到数据库名称的!! 还有要填数据库前缀, 但我们演示的是没有的, 如果有一定要填上 新建任务, 我演示用列车外置好的吧! 一般的采集任务设置我们略过. . . 直接到采集标签那, 主要演示给你们晓得要做好对应发布模块的标签设置。
   下一步到发布内容设置, 启用形式三导入自定义数据库。 最后设置成功发表项设置。 好了, 大家复工吧开始采集,就可以享受数据库导库给你带来的快感啦. . . . . 明天到此为止火车头采集教程, 因为我的时间比较忙, 教程做的比较简短, 暂时到这。 有其它问题的可以到列车峰会或我的 blog 交流^^ 我的 blog: http: //ajun. org 欢迎你们长来踩踩哦! 查看全部

  今天给你们开堂讲火车头数据库导库模块的使用方式 教程打算: 1. 火车头采集器 2. 导库演示用我及其研究的 sNews CMS 程序 3. 数据库管理权限 phpMyAdmin 开堂啦. . . . 使用列车导出第一项做的事是构建数据库发布模块, ps: 当然构建数据库发布模块须要商业版才有的功能, 或自直接订购数据库发布模块的编辑器。 另外火车头也提供了比较常用的程序数据库发布模块, 大家可以直接下载使用就可以了。 ^^ 编辑好数据库发布模块后下一步就是数据库发布模块配置。 在接着就是新建采集任务, 把发布模式选择为数据库发布模式。好吧, 先来做数据库发布模块- 打开你的 sNews CMS 发布一条测试内容 填写好发布的各项内容 如 标题: title 内容: 发布内容 描述 : Description 关键词: Keywords 发布成功! 之后转回你数据库管理工具 phpMyAdmin, 选择 cms 的数据库, 然后进行导入数据库表。 演示的 sNews 数据库须要导库的表是 articles。当然不同的 cms 需要研究须要操作的表是不同的,一般你发表几篇文章后再观察就可以找到。
   还有的就是联动操作, 这个将在之后再给你们讲座, 呵呵简单的学起 导入表后, 打开数据库发布模块编辑工具, 同时打开导入的数据文件, 可以用文本工具打开数据库就可以看见 INSERT 的句子, 把这个句子直接复制到数据库发布模块编辑工具里面, 然后按相应的标签更改。 模块名称: sNews 数据库类型我们演示的选择是 mysql 添加数据表前缀, 演示的 sNews 虽然没使用数据库表前缀^^ 开始更改, 一般 ID 字段是自增 ID, 确定不需要的可以删掉掉。 其它的一一对好数组更改好。 接着按手动获取操作数据库表。 最后写上说明,编辑好后保存模块火车头采集教程, 这样我的入库模块就完成了。 . . . 开始配置数据库发布, 1. 选择数据库类型 mysql 2. 选择刚刚构建的发布模块 sNews 3. 设置登陆数据库资料 4. 测试联接, OK 后保存 这儿我们通常建议直接填写数据库名称, 因为远程导库通常是刷不到数据库名称的!! 还有要填数据库前缀, 但我们演示的是没有的, 如果有一定要填上 新建任务, 我演示用列车外置好的吧! 一般的采集任务设置我们略过. . . 直接到采集标签那, 主要演示给你们晓得要做好对应发布模块的标签设置。
   下一步到发布内容设置, 启用形式三导入自定义数据库。 最后设置成功发表项设置。 好了, 大家复工吧开始采集,就可以享受数据库导库给你带来的快感啦. . . . . 明天到此为止火车头采集教程, 因为我的时间比较忙, 教程做的比较简短, 暂时到这。 有其它问题的可以到列车峰会或我的 blog 交流^^ 我的 blog: http: //ajun. org 欢迎你们长来踩踩哦!

火车头采集器v9.4下载 免费版 【附教程】

采集交流优采云 发表了文章 • 0 个评论 • 442 次浏览 • 2020-04-23 11:04 • 来自相关话题

  火车头采集器v9破解版是一款老牌的内容采集工具了,不少原先的站长都喜欢使用火车头采集器进行指定内容的采集操作,火车头采集器为用户提供了分布式高速采集技术,可以同时运行多个任务进行采集操作,拥有手动编码辨识、中文动词辨识和正文辨识等功能,免去了自动配置规则的麻烦,同时还拥有强悍的反义词替换功能,可以使你的内容愈加丰富、专业,不过小编须要提醒你们的是就是火车头采集器v9是最新版本,目前暂无破解版本,小编为你们提供的是官方版本,大家可以先试用一下,同时还包含了基本的操作教程供你们参考。
  分布式高速采集
  任务分配至多个客户端,同时运行采集,效率倍增。
  多辨识系统
  配备正文辨识、中文动词辨识、任意编码辨识等多种辨识系统,智能辨识操作更轻松。
  可选验证方法
  可选择是否使用加密狗,随时保障数据安全。
  全自动运行
  无需人工值守操作,任务完成后自动关机。
  替换功能
  同义,近义词替换、参数替换,伪原创必备技能。
  任意文件格式下载
  图片、压缩文件、视频等任意格式的文件都能轻松下载。
  采集监控系统
  实时监控采集,确保数据的准确性。
  支持多数据库
  支持Access/MySQL/MsSQL/Sqlite/Oracle多种类型的数据库保存及发布。
  无限级多页采集
  支持包含ajax恳求数据在内的多个页面信息的无限级采集。
  支持扩充
  支持插口和插件扩充,满足各类采发需求。
  
  1.新建分组
  新建一个任务分组,选择所属分组,确定分组名称和备注。
  2.新建任务
  确定所属分组,新建一个任务,填写任务名称并保存。
  3.Web发布配置
  Web发布配置定义了怎样登录一个网站以及向该网站提交数据。
  主要涉及到登陆信息的获取,网站编码设定,栏目列表的获取,以及使用数据测试发布疗效。
  详细教程后续分解。
  
  4.Web发布模块
  可以定义网站登录,获取栏目列表,获取网页随机值,内容发布参数,以及上传文件,构造发布数据等中级功能。
  详细教程后续分解。
  
  5.数据库发布配置
  数据库发布配置定义了数据库链接信息的设置以及数据库模块的选择。
  详细教程后续分解。
  6.数据库发布模块
  用于编辑数据库的发布模块,方便我们将数据发布到配置好的数据库中。
  火车采集器可选mysql、sqlserver、oracle、access四种数据库类型,在文本输入框中填写sql句子
  (需有数据库相关知识),并可使用标签替换相应数据。也可在采集器模块文件夹中加载某一模块进行编辑。
  详细教程后续分解。
  
  7.计划任务
  设置列表中采集任务的启动计划,可每间隔、每天、每周、仅一次、或自定义Cron表达式火车头采集教程,
  (Cron表达式的写法可参考相关术语中的介绍)。保存设置后,任务即可根据设置执行。
  详细教程后续分解。
  
  8.插件管理
  插件是可以拿来扩充列车采集器功能的程序
  火车采集器V9支持PHP源码、C#源码、C#泛型三种类型的插件,
  可用于扩充http请求、内容处理和文件下载的功能,并可以分别进行测试。
  详细教程后续分解。
  9.http二级代理
  网络中的代理服务器,可以代理网路用户去取得所须要的网路信息。
  代理的功能有可以突破自身ip的访问限制访问美国站点,访问一些单位或团体内部资源,
  突破联通的ip封锁和隐藏真实的ip等。
  火车采集器V9支持http代理、socket4和socket5代理。
  详细教程后续分解。
  
  10.http模拟恳求
  可以设置怎么发起一个http请求,包括设置恳求信息,返回头信息。并具有手动递交的功能。
  
  1.任务批量编辑
  批量更改任务规则细节参数
  
  2.任务批量处理
  按照以下选项批量清除或导出数据。
  
  3.远程管理
  该功能可以通过http协议来对服务器上的采集器进行远程管理。
  换言之,我们可以通过浏览器访问到我们的采集器来进行管理。
  点击启动后如图:
  
  访问地址后进行常用操作管理:
  
  4.用户管理
  该功能容许用户将自己写好的采集规则共享给一个或多个客户端用户。
  可以通过服务器用户管理设置用户账号,用来限定用户下载规则的权限和容许用户访问的分组。
  客户端用户可以下载远程的采集规则火车头采集教程,并可以有选择地更新任务,还可以一键更新所有远程的采集规则。
  该功能对于一些非技术顾客而言市去了写规则的麻烦,也帮助开办规则服务器的用户省去了远程指导的环节。
  5.运行统计
  用于统计用户运行的任务,可以以天、周、月或选择的时间段来查询,
  包括采集到的网址、重复网址、采集成功、采集失败、发布成功、发布失败等数据。
  6、同义词替换
  此功能可以将采集内容中的词句进行替换,自定义替换规则。
  但需注意:两个同义词之间要用英语全角顿号联接,比如将快乐替换成高兴,即如下图:
  “快乐,高兴” “美丽,漂亮”,然后保存,即可在数据处理中选择对应词库使用替换功能。
  
  7.中文动词
  用来测试英文动词以及关键词提取的疗效。
  可通过编辑用户词库,设置时态,词频,允许词,禁用词,来影响最终疗效
  8.数据转换
  数据采集下来后可选择保存到sqlite、mysql、sqlserver三种类型的数据库中。
  默认保存为sqlite数据库,可转换为其他类型,其中sqlite是可以保存在本地数据库的。
  mysql、sqlserver既可以保存在本地数据库,也可以保存到远程数据库。
  9.选项
  可对全局选项、采集设置、配置备份和使用偏好等进行设置。
  10.运行完自动关机
  如勾选该项,则在任务运行完毕后自动关机。
  1,批量网址更新,日期可以支持小于明天的数据。标签可以采用多参数同步变化
  2,标签组合,增加对于循环组合的支持。
  3,优化网址库排重逻辑,大大推动大网址库下的任务加载速率,优化网址库排重显存占用。
  4,数据库发布模块,增加“insert ignore”模式的支持
  5, 新增任务的云端备份、同步功能
  6,http远程服务器,增加对于单条数据更改的API支持。
  7,水印降低指定大小的压缩功能
  8,修复FTP,SFTP链接无法正确断掉的问题
  9,修复Word2007未能保存图片的问题
  10,修复标签超长时侯的显示错误问题。
  11,修复标签数据替换中的替换错误问题。
  12,修复了数据逆序发布的问题。
  13,优化了几个会导致采集器长时间运行后显存未能释放的问题。 查看全部

  火车头采集器v9破解版是一款老牌的内容采集工具了,不少原先的站长都喜欢使用火车头采集器进行指定内容的采集操作,火车头采集器为用户提供了分布式高速采集技术,可以同时运行多个任务进行采集操作,拥有手动编码辨识、中文动词辨识和正文辨识等功能,免去了自动配置规则的麻烦,同时还拥有强悍的反义词替换功能,可以使你的内容愈加丰富、专业,不过小编须要提醒你们的是就是火车头采集器v9是最新版本,目前暂无破解版本,小编为你们提供的是官方版本,大家可以先试用一下,同时还包含了基本的操作教程供你们参考。
  分布式高速采集
  任务分配至多个客户端,同时运行采集,效率倍增。
  多辨识系统
  配备正文辨识、中文动词辨识、任意编码辨识等多种辨识系统,智能辨识操作更轻松。
  可选验证方法
  可选择是否使用加密狗,随时保障数据安全。
  全自动运行
  无需人工值守操作,任务完成后自动关机。
  替换功能
  同义,近义词替换、参数替换,伪原创必备技能。
  任意文件格式下载
  图片、压缩文件、视频等任意格式的文件都能轻松下载。
  采集监控系统
  实时监控采集,确保数据的准确性。
  支持多数据库
  支持Access/MySQL/MsSQL/Sqlite/Oracle多种类型的数据库保存及发布。
  无限级多页采集
  支持包含ajax恳求数据在内的多个页面信息的无限级采集。
  支持扩充
  支持插口和插件扩充,满足各类采发需求。
  
  1.新建分组
  新建一个任务分组,选择所属分组,确定分组名称和备注。
  2.新建任务
  确定所属分组,新建一个任务,填写任务名称并保存。
  3.Web发布配置
  Web发布配置定义了怎样登录一个网站以及向该网站提交数据。
  主要涉及到登陆信息的获取,网站编码设定,栏目列表的获取,以及使用数据测试发布疗效。
  详细教程后续分解。
  
  4.Web发布模块
  可以定义网站登录,获取栏目列表,获取网页随机值,内容发布参数,以及上传文件,构造发布数据等中级功能。
  详细教程后续分解。
  
  5.数据库发布配置
  数据库发布配置定义了数据库链接信息的设置以及数据库模块的选择。
  详细教程后续分解。
  6.数据库发布模块
  用于编辑数据库的发布模块,方便我们将数据发布到配置好的数据库中。
  火车采集器可选mysql、sqlserver、oracle、access四种数据库类型,在文本输入框中填写sql句子
  (需有数据库相关知识),并可使用标签替换相应数据。也可在采集器模块文件夹中加载某一模块进行编辑。
  详细教程后续分解。
  
  7.计划任务
  设置列表中采集任务的启动计划,可每间隔、每天、每周、仅一次、或自定义Cron表达式火车头采集教程,
  (Cron表达式的写法可参考相关术语中的介绍)。保存设置后,任务即可根据设置执行。
  详细教程后续分解。
  
  8.插件管理
  插件是可以拿来扩充列车采集器功能的程序
  火车采集器V9支持PHP源码、C#源码、C#泛型三种类型的插件,
  可用于扩充http请求、内容处理和文件下载的功能,并可以分别进行测试。
  详细教程后续分解。
  9.http二级代理
  网络中的代理服务器,可以代理网路用户去取得所须要的网路信息。
  代理的功能有可以突破自身ip的访问限制访问美国站点,访问一些单位或团体内部资源,
  突破联通的ip封锁和隐藏真实的ip等。
  火车采集器V9支持http代理、socket4和socket5代理。
  详细教程后续分解。
  
  10.http模拟恳求
  可以设置怎么发起一个http请求,包括设置恳求信息,返回头信息。并具有手动递交的功能。
  
  1.任务批量编辑
  批量更改任务规则细节参数
  
  2.任务批量处理
  按照以下选项批量清除或导出数据。
  
  3.远程管理
  该功能可以通过http协议来对服务器上的采集器进行远程管理。
  换言之,我们可以通过浏览器访问到我们的采集器来进行管理。
  点击启动后如图:
  
  访问地址后进行常用操作管理:
  
  4.用户管理
  该功能容许用户将自己写好的采集规则共享给一个或多个客户端用户。
  可以通过服务器用户管理设置用户账号,用来限定用户下载规则的权限和容许用户访问的分组。
  客户端用户可以下载远程的采集规则火车头采集教程,并可以有选择地更新任务,还可以一键更新所有远程的采集规则。
  该功能对于一些非技术顾客而言市去了写规则的麻烦,也帮助开办规则服务器的用户省去了远程指导的环节。
  5.运行统计
  用于统计用户运行的任务,可以以天、周、月或选择的时间段来查询,
  包括采集到的网址、重复网址、采集成功、采集失败、发布成功、发布失败等数据。
  6、同义词替换
  此功能可以将采集内容中的词句进行替换,自定义替换规则。
  但需注意:两个同义词之间要用英语全角顿号联接,比如将快乐替换成高兴,即如下图:
  “快乐,高兴” “美丽,漂亮”,然后保存,即可在数据处理中选择对应词库使用替换功能。
  
  7.中文动词
  用来测试英文动词以及关键词提取的疗效。
  可通过编辑用户词库,设置时态,词频,允许词,禁用词,来影响最终疗效
  8.数据转换
  数据采集下来后可选择保存到sqlite、mysql、sqlserver三种类型的数据库中。
  默认保存为sqlite数据库,可转换为其他类型,其中sqlite是可以保存在本地数据库的。
  mysql、sqlserver既可以保存在本地数据库,也可以保存到远程数据库。
  9.选项
  可对全局选项、采集设置、配置备份和使用偏好等进行设置。
  10.运行完自动关机
  如勾选该项,则在任务运行完毕后自动关机。
  1,批量网址更新,日期可以支持小于明天的数据。标签可以采用多参数同步变化
  2,标签组合,增加对于循环组合的支持。
  3,优化网址库排重逻辑,大大推动大网址库下的任务加载速率,优化网址库排重显存占用。
  4,数据库发布模块,增加“insert ignore”模式的支持
  5, 新增任务的云端备份、同步功能
  6,http远程服务器,增加对于单条数据更改的API支持。
  7,水印降低指定大小的压缩功能
  8,修复FTP,SFTP链接无法正确断掉的问题
  9,修复Word2007未能保存图片的问题
  10,修复标签超长时侯的显示错误问题。
  11,修复标签数据替换中的替换错误问题。
  12,修复了数据逆序发布的问题。
  13,优化了几个会导致采集器长时间运行后显存未能释放的问题。

火车头采集器采集文章使用教程实例

采集交流优采云 发表了文章 • 0 个评论 • 606 次浏览 • 2020-04-23 11:03 • 来自相关话题

  
  选择范围在 ul 里面的 li 里面的链接,注意排除重复地址,可以点击下边测试网址采集获取。
  
  可以见到有采集到的文章链接了。
  
  3、采集内容规则
  我那边须要采集下面图上展示数据(catid是栏目id,可以将采集到的数据装入对应栏目,设置固定值就好)
  
  着重说下内容和图片的采集,标题和描述同理内容采集
  
  内容采集:
  打开一个采集的文章页面,查看源代码(禁了右键的f11 或者在网址后面加上 view-source:一样可以查看):
  选中文章开头一个位置,截取一段在ctrl+f 搜下是否惟一一段,若是就可以放到位置右图1处,结尾同开头一样。
  我截取内容不想上面还带有链接图片可以数据处理,添加--html标签排除--选好确定--确定
  
  还有须要下载页面图片火车头文章采集,勾选和填写下边选项
  
  图片采集:
  (1)选中范围和内容一样(文章内图片)
  (2)数据处理选 提取第一张图片 内容是:
  (3)只要aa.jpg,正则过滤
  
  ,获取内容:aa.jpg
  (4)数据库储存有前缀,添加上, upload/xxxxx/
  
  找一个页面测试一下,可以看见对应项目都获取到了。
  
  4、发布内容设置火车头文章采集,这里以形式三发布到数据库为反例,编辑后回到那边勾选刚定义的模块就好:
  
  
  5、我需要保存图片到本地,要设置下保存文件的路径(ftp后续会试着使用)。
  
  6、保存,查看刚新建的任务,右键 开始任务运行,这边就可以看见文字和图片都下载出来了,数据库上面也可以见到了。 查看全部

  
  选择范围在 ul 里面的 li 里面的链接,注意排除重复地址,可以点击下边测试网址采集获取。
  
  可以见到有采集到的文章链接了。
  
  3、采集内容规则
  我那边须要采集下面图上展示数据(catid是栏目id,可以将采集到的数据装入对应栏目,设置固定值就好)
  
  着重说下内容和图片的采集,标题和描述同理内容采集
  
  内容采集:
  打开一个采集的文章页面,查看源代码(禁了右键的f11 或者在网址后面加上 view-source:一样可以查看):
  选中文章开头一个位置,截取一段在ctrl+f 搜下是否惟一一段,若是就可以放到位置右图1处,结尾同开头一样。
  我截取内容不想上面还带有链接图片可以数据处理,添加--html标签排除--选好确定--确定
  
  还有须要下载页面图片火车头文章采集,勾选和填写下边选项
  
  图片采集:
  (1)选中范围和内容一样(文章内图片)
  (2)数据处理选 提取第一张图片 内容是:
  (3)只要aa.jpg,正则过滤
  
  ,获取内容:aa.jpg
  (4)数据库储存有前缀,添加上, upload/xxxxx/
  
  找一个页面测试一下,可以看见对应项目都获取到了。
  
  4、发布内容设置火车头文章采集,这里以形式三发布到数据库为反例,编辑后回到那边勾选刚定义的模块就好:
  
  
  5、我需要保存图片到本地,要设置下保存文件的路径(ftp后续会试着使用)。
  
  6、保存,查看刚新建的任务,右键 开始任务运行,这边就可以看见文字和图片都下载出来了,数据库上面也可以见到了。

火车头使用教程,如何使用火车头采集视频课程

采集交流优采云 发表了文章 • 0 个评论 • 361 次浏览 • 2020-04-23 11:03 • 来自相关话题

  
  想要做一个网站,人们常常以为,从无到有搭好一个网站是最难的,其实不然,一个网站如果只是存在一个框架 ,除了个别特定的不需要宣传的企业站和工具站,对于其他网站来说,意义真的不大。
  那么想要做好一个网站该怎样办呢?让这个网站有权重、有排行、最后可以转化为流量,给自己的产品引流。常规的方式想必诸位熟悉网站的同学都晓得了,无非就是关键词、换友链、给网站内部做一些易于优化的排版和设置,以及——发布一些新鲜信息。
  众所周知,百度搜索引擎最喜欢的就是新鲜内容,如果一个站长可以每晚更新新鲜内容,对于网站来说,就是权重下降的最好技巧。
  方法尚且简单,可是想要做到却不是一件简单事 ,有多少站长可以每晚坚持自己写文章或者找寻其他平台的新鲜文章呢?
  大数据时代,你须要把握一门获取庞大内容的能力。熟练把握火车头采集器使用方法,能够轻松解决内容困局。
  火车头采集器是哪些
  火车采集器(LocoySpider)是一款功能强悍且便于上手的专业采集软件,强大的内容采集和数据导出功能能将您采集的任何网页数据发布到远程服务器。
  火车头采集器可以做哪些
  01·舆情检测解决方案
  通过采集软件可针对峰会,微博,博客等各类类型网站进行实时检测,系统可以智能运算将潜在上升趋势的热词提早预警。
  02·竞争情报解决方案
  实时准确地监控、追踪竞争对手或产品代理渠道的动态,以便应对市场改变营销策略和研究行业市场变化。
  03·信息聚合解决方案
  针对垂直领域里细分行业需求,抓取行业数据并进行归类整合, 最终产生“纯度”更高的专业领域信息。
  04·股票金融解决方案
  实时抓取股票、基金、研报、微博、股吧、财经新闻等领域信息,为市场迈向趋势提供数据基础。
  05·品牌监控解决方案
  每天定时或实时手动采集指定网站的指定内容,快速抓取不同地区与行业的新闻信息。
  06·科研学术解决方案
  实时跟踪、采集相关的国内外科技信息与新闻,整合分布在各个网站网页上的科研数据。
  哪些行业适宜用火车头
  01·电商购物
  可采集各类电商网站商品动态信息,包括价钱变动、销量、优惠、新增商品、关键词排行、评论、发货地等信息。
  02·社交媒体
  一键采集和导入全网各类新闻、论坛、博客、贴吧、 微博、微信公众号等社交媒体用户发表的文章、评论、点赞等。
  03·垂直分类网站
  针对垂直领域里细分行业需求,抓取行业数据并进行归类整合,形成“纯度”更高的专业领域信息。
  04·房产财经
  采集房源信息,价格、位置、户型、经纪人,股票、基金、黄金价钱、资讯、评论等动态信息。
  05·地图信息
  定位采集特定区域的店家数据,企业信息区域化采集设置,商家单位名录资料搜集首选。
  06·新闻资讯
  品牌检测,市场风控,实时采集各大权威新闻媒体平台、门户网站信息。
  07·招聘求职
  抓取各急聘网站,岗位信息、公司待遇、求职评价,可服务于行业用人需求剖析,人力资源市场调查等场景。
  08·学术科研
  学术研究、技术分享、互联网数据挖掘爬取国内外公开发布在互联网上的科研资料。
  09·app数据
  手机应用、资源图片、app数据信息采集。
  
  总而言之,火车头采集器是一个功能非常强悍的采集工具,也是诸位站长想要学习和使用采集技术的首选。
  但是,与强悍功能相匹配的是,火车头采集器上手并不简单,很多菜鸟站长可能一上手就蒙了。 查看全部
  
  想要做一个网站,人们常常以为,从无到有搭好一个网站是最难的,其实不然,一个网站如果只是存在一个框架 ,除了个别特定的不需要宣传的企业站和工具站,对于其他网站来说,意义真的不大。
  那么想要做好一个网站该怎样办呢?让这个网站有权重、有排行、最后可以转化为流量,给自己的产品引流。常规的方式想必诸位熟悉网站的同学都晓得了,无非就是关键词、换友链、给网站内部做一些易于优化的排版和设置,以及——发布一些新鲜信息。
  众所周知,百度搜索引擎最喜欢的就是新鲜内容,如果一个站长可以每晚更新新鲜内容,对于网站来说,就是权重下降的最好技巧。
  方法尚且简单,可是想要做到却不是一件简单事 ,有多少站长可以每晚坚持自己写文章或者找寻其他平台的新鲜文章呢?
  大数据时代,你须要把握一门获取庞大内容的能力。熟练把握火车头采集器使用方法,能够轻松解决内容困局。
  火车头采集器是哪些
  火车采集器(LocoySpider)是一款功能强悍且便于上手的专业采集软件,强大的内容采集和数据导出功能能将您采集的任何网页数据发布到远程服务器。
  火车头采集器可以做哪些
  01·舆情检测解决方案
  通过采集软件可针对峰会,微博,博客等各类类型网站进行实时检测,系统可以智能运算将潜在上升趋势的热词提早预警。
  02·竞争情报解决方案
  实时准确地监控、追踪竞争对手或产品代理渠道的动态,以便应对市场改变营销策略和研究行业市场变化。
  03·信息聚合解决方案
  针对垂直领域里细分行业需求,抓取行业数据并进行归类整合, 最终产生“纯度”更高的专业领域信息。
  04·股票金融解决方案
  实时抓取股票、基金、研报、微博、股吧、财经新闻等领域信息,为市场迈向趋势提供数据基础。
  05·品牌监控解决方案
  每天定时或实时手动采集指定网站的指定内容,快速抓取不同地区与行业的新闻信息。
  06·科研学术解决方案
  实时跟踪、采集相关的国内外科技信息与新闻,整合分布在各个网站网页上的科研数据。
  哪些行业适宜用火车头
  01·电商购物
  可采集各类电商网站商品动态信息,包括价钱变动、销量、优惠、新增商品、关键词排行、评论、发货地等信息。
  02·社交媒体
  一键采集和导入全网各类新闻、论坛、博客、贴吧、 微博、微信公众号等社交媒体用户发表的文章、评论、点赞等。
  03·垂直分类网站
  针对垂直领域里细分行业需求,抓取行业数据并进行归类整合,形成“纯度”更高的专业领域信息。
  04·房产财经
  采集房源信息,价格、位置、户型、经纪人,股票、基金、黄金价钱、资讯、评论等动态信息。
  05·地图信息
  定位采集特定区域的店家数据,企业信息区域化采集设置,商家单位名录资料搜集首选。
  06·新闻资讯
  品牌检测,市场风控,实时采集各大权威新闻媒体平台、门户网站信息。
  07·招聘求职
  抓取各急聘网站,岗位信息、公司待遇、求职评价,可服务于行业用人需求剖析,人力资源市场调查等场景。
  08·学术科研
  学术研究、技术分享、互联网数据挖掘爬取国内外公开发布在互联网上的科研资料。
  09·app数据
  手机应用、资源图片、app数据信息采集。
  
  总而言之,火车头采集器是一个功能非常强悍的采集工具,也是诸位站长想要学习和使用采集技术的首选。
  但是,与强悍功能相匹配的是,火车头采集器上手并不简单,很多菜鸟站长可能一上手就蒙了。

苹果cms怎么用火车头采集文章资讯教程

采集交流优采云 发表了文章 • 0 个评论 • 652 次浏览 • 2020-04-23 11:01 • 来自相关话题

  苹果cms v10如何添加文章资讯,手把手教你火车头采集文章资讯图文教程。只要你能沉下心来小白看完保证也能学会。我耗费几个小时用心写的教程,你都不愿花几分钟看完的,你注定哪些都学不会的。
  一直想写几篇使小白看了也能用火车头采集资讯 明星 视频 的教程,因为有太多的小白来问我这个问题了,我说大家去百度下,反馈回去的结果都是一样说没有详尽的配置教程火车头采集教程,发布老是提示失败。今天总算闲下来为小白们写一篇简单实用的采集教程。先写这个如何采集文章资讯的教程吧 。后面有时间了再更新视频 和名星的,这个教程是写如何使用早已有了采集规则的教程。采集规则和火车头软件自己在文章尾部的链接里下载,下载以后根据我写的教程操作保证使你学会火车头采集文章资讯了,好了开始我们明天的采集教程吧。
  教程分两个大部分,一个是发布模块的配置 再就是采集规则的配置,发布模块和采集规则是两个缺一不可的组成部分。有些小伙伴们说在采集的时侯老是发布失败是如何回事?最终说到底就是这两个地方没有配置好造成。往下看
  一,先来配置发布模块
  1,打开火车头软件文件夹 点击右图这个启动程序图标
  
  2,软件启动后点击这个“发布”进入到web发布模块配置界面。
  
  3,我发给大家火车头软件里早已导出了苹果v10的4个发布模块,双击“苹果cms-v10文章”模块对其编辑,编辑地方有3个 如下图
  ①火车头采集教程,编码设置改成 UTF-8
  ②,网站跟地址把 “1.cn” 替换成你的网站主域名
  ③,登陆方法改成 不需要登录http请求
  ④,都弄好后点击右下角的测试配置,我们首先要确定下这个发布模块是否可以正常使用,如果不能使用采集规则再正确也是发布不了的。点击测试配置步入到测试配置页面。如下图
  
  4,配置发布模块最关键的一步,也是很多人出错或是甚至弄不懂的地方。我用箭头所指向的地方就是我们要配置的地方。如下图
  
  ①,先来配置验证密码:验证密码就是站外入库系联接苹果cms系统后台的验证码 ,这个须要去系统后台查看后填写,找到验证码后双击一侧“验证密码”在左边的编辑框里复制粘贴到上面就可以了。系统后台的验证码看右图所示。找到后复制下来粘贴到我们的发布模块里。
  
  ②,再来配置发布模块的“名称”,这里模块的名称虽然就是文章的标题,我们可以随意起一个名子,这个地方要理解了 就是整篇文章都有一个标题,有了标题才可以发布,我们这儿是在测试发布模块,所以要自动填写一个标题,如果是采集规则的话这个地方是不用填写的,采集规则就会手动采集网站上的标题的。我们起名称以“首搽”为例吧 双击名称后在左侧填写首搽后点击更改就可以了 。
  
  ③,再来配置下“分类名称”和“分类编号”这两个也是在系统的后台来确定的,就是你要采集文章到网站哪个分类的名称和编号,看右图所示
  来到系统后台点击基础>>>分类管理 拉到下边(第2张图)我们可以看见资讯的顶尖分类和子分类 一共三个,这三个分类我们都是发布文章的分类,都可以使用,我们就随意选择一个分类“头条”这个分类吧。这里的头条就是我们的分类名称,头条上面的18就是分类编号。所以我们就由此得到了分类的名称和编号,直接填写到发布模块的配置即可。
  
  
  ④ 一起都填写完毕后就是最后的测试了,我们点击“发表文章测试“下面下来的就是发布入库成功的相关提示。我们可以到网站前台看下有没有这个文章。
  
  ⑤我们来到网站的前台点击导航栏的分类,可以看见一个标题名称为首搽的文章,这也代表了我们文章发布模块配置成功。
  
  5,由于文字篇幅宽度的限制我们在下一篇文章里介绍文章采集规则的配置,看完下半部份的配置相信你一定会用火车头来采集文章资讯到自己的网站上。 查看全部
  苹果cms v10如何添加文章资讯,手把手教你火车头采集文章资讯图文教程。只要你能沉下心来小白看完保证也能学会。我耗费几个小时用心写的教程,你都不愿花几分钟看完的,你注定哪些都学不会的。
  一直想写几篇使小白看了也能用火车头采集资讯 明星 视频 的教程,因为有太多的小白来问我这个问题了,我说大家去百度下,反馈回去的结果都是一样说没有详尽的配置教程火车头采集教程,发布老是提示失败。今天总算闲下来为小白们写一篇简单实用的采集教程。先写这个如何采集文章资讯的教程吧 。后面有时间了再更新视频 和名星的,这个教程是写如何使用早已有了采集规则的教程。采集规则和火车头软件自己在文章尾部的链接里下载,下载以后根据我写的教程操作保证使你学会火车头采集文章资讯了,好了开始我们明天的采集教程吧。
  教程分两个大部分,一个是发布模块的配置 再就是采集规则的配置,发布模块和采集规则是两个缺一不可的组成部分。有些小伙伴们说在采集的时侯老是发布失败是如何回事?最终说到底就是这两个地方没有配置好造成。往下看
  一,先来配置发布模块
  1,打开火车头软件文件夹 点击右图这个启动程序图标
  
  2,软件启动后点击这个“发布”进入到web发布模块配置界面。
  
  3,我发给大家火车头软件里早已导出了苹果v10的4个发布模块,双击“苹果cms-v10文章”模块对其编辑,编辑地方有3个 如下图
  ①火车头采集教程,编码设置改成 UTF-8
  ②,网站跟地址把 “1.cn” 替换成你的网站主域名
  ③,登陆方法改成 不需要登录http请求
  ④,都弄好后点击右下角的测试配置,我们首先要确定下这个发布模块是否可以正常使用,如果不能使用采集规则再正确也是发布不了的。点击测试配置步入到测试配置页面。如下图
  
  4,配置发布模块最关键的一步,也是很多人出错或是甚至弄不懂的地方。我用箭头所指向的地方就是我们要配置的地方。如下图
  
  ①,先来配置验证密码:验证密码就是站外入库系联接苹果cms系统后台的验证码 ,这个须要去系统后台查看后填写,找到验证码后双击一侧“验证密码”在左边的编辑框里复制粘贴到上面就可以了。系统后台的验证码看右图所示。找到后复制下来粘贴到我们的发布模块里。
  
  ②,再来配置发布模块的“名称”,这里模块的名称虽然就是文章的标题,我们可以随意起一个名子,这个地方要理解了 就是整篇文章都有一个标题,有了标题才可以发布,我们这儿是在测试发布模块,所以要自动填写一个标题,如果是采集规则的话这个地方是不用填写的,采集规则就会手动采集网站上的标题的。我们起名称以“首搽”为例吧 双击名称后在左侧填写首搽后点击更改就可以了 。
  
  ③,再来配置下“分类名称”和“分类编号”这两个也是在系统的后台来确定的,就是你要采集文章到网站哪个分类的名称和编号,看右图所示
  来到系统后台点击基础>>>分类管理 拉到下边(第2张图)我们可以看见资讯的顶尖分类和子分类 一共三个,这三个分类我们都是发布文章的分类,都可以使用,我们就随意选择一个分类“头条”这个分类吧。这里的头条就是我们的分类名称,头条上面的18就是分类编号。所以我们就由此得到了分类的名称和编号,直接填写到发布模块的配置即可。
  
  
  ④ 一起都填写完毕后就是最后的测试了,我们点击“发表文章测试“下面下来的就是发布入库成功的相关提示。我们可以到网站前台看下有没有这个文章。
  
  ⑤我们来到网站的前台点击导航栏的分类,可以看见一个标题名称为首搽的文章,这也代表了我们文章发布模块配置成功。
  
  5,由于文字篇幅宽度的限制我们在下一篇文章里介绍文章采集规则的配置,看完下半部份的配置相信你一定会用火车头来采集文章资讯到自己的网站上。

哆麦CMS火车头发布教程

采集交流优采云 发表了文章 • 0 个评论 • 236 次浏览 • 2020-04-22 11:11 • 来自相关话题

  为保证安全性,哆麦CMS0.8.7以上版本取消了直接发布数据功能,要发布数据,必须在插口里登入帐户,首先须要下载Domai发布插口0.0.4.wpm,并导出到火车头采集接口中,然后创建一个配置,选择最新的发布模块,输入网站网址,点击数据包登陆,并输入用户名和密码,点击登入即可,登录成功以后即可正确获取系统的栏目。
  
  保存好配置以后,即可借助火车头发布内容。版本更新以后,有2点须要注意,一是哆麦CMS同一个用户只能一个登陆,这意味着假如火车头使用的帐户会挤掉正常操作的帐户,所以推荐为火车头单独配置一个帐户,第二点是发布时,只有用户拥有相关权限能够发布成功。
  ===以下方面是0.8.7版本之前的设置方式===
  火车头是国外太常用的采集发布工具,哆麦CMS系统早已集成了可以和火车头采集工具的协同工作的发布插口和模块。本文默认读者熟悉火车头采集器工作,重点介绍假如配置哆麦火车头发布模块,不讲火车头的工作原理。
  哆麦CMS的“dm-admin”目录下的push.php文件是系统的发布插口,在使用火车头采集工具发布之前,打开此文件,可以看见:
  <?php
/**
* Domai CMS
* 哆麦内容管理系统
* Copyright @2018 Hito
*
* 无需登陆的数据发布接口
* 用于直接往数据库插入数据
*
* 注意:
* 预留这个接口非常危险!
* 请更改默认密码或删除这个文件
*/
//定义传输口令,请在需要时更改口令
define(&#39;PASSWD&#39;, get_rand_str(10));
  在16行,需要自动指定一个密码,如“define('PASSWD', '2020domaicms');”,这个密码会在火车头的发布插口中使用,泄漏这个密码可能会造成网站被黑客攻破。
  第二步,点击这儿下载哆麦CMS火车头发布插口,下载以后放入到火车头的发布模块中,然后编辑此模块,更改获取栏目和发布内容中的秘钥为上一步设置的密码:
  
  
  更改完成以后火车头采集教程,新建一个发布列表,网页编码选择UTF-8,网站地址填入网址域名,登录方法选择不登录,点击下方的获取列表,如果才能获取成功,则代表配置成功,否请检测上述操作是否正确。
  
  设置正确以后,输入配置名点击添加,接下来再采集到内容以后火车头采集教程,就可以选择此发布配置进行发布。 查看全部
  为保证安全性,哆麦CMS0.8.7以上版本取消了直接发布数据功能,要发布数据,必须在插口里登入帐户,首先须要下载Domai发布插口0.0.4.wpm,并导出到火车头采集接口中,然后创建一个配置,选择最新的发布模块,输入网站网址,点击数据包登陆,并输入用户名和密码,点击登入即可,登录成功以后即可正确获取系统的栏目。
  
  保存好配置以后,即可借助火车头发布内容。版本更新以后,有2点须要注意,一是哆麦CMS同一个用户只能一个登陆,这意味着假如火车头使用的帐户会挤掉正常操作的帐户,所以推荐为火车头单独配置一个帐户,第二点是发布时,只有用户拥有相关权限能够发布成功。
  ===以下方面是0.8.7版本之前的设置方式===
  火车头是国外太常用的采集发布工具,哆麦CMS系统早已集成了可以和火车头采集工具的协同工作的发布插口和模块。本文默认读者熟悉火车头采集器工作,重点介绍假如配置哆麦火车头发布模块,不讲火车头的工作原理。
  哆麦CMS的“dm-admin”目录下的push.php文件是系统的发布插口,在使用火车头采集工具发布之前,打开此文件,可以看见:
  <?php
/**
* Domai CMS
* 哆麦内容管理系统
* Copyright @2018 Hito
*
* 无需登陆的数据发布接口
* 用于直接往数据库插入数据
*
* 注意:
* 预留这个接口非常危险!
* 请更改默认密码或删除这个文件
*/
//定义传输口令,请在需要时更改口令
define(&#39;PASSWD&#39;, get_rand_str(10));
  在16行,需要自动指定一个密码,如“define('PASSWD', '2020domaicms');”,这个密码会在火车头的发布插口中使用,泄漏这个密码可能会造成网站被黑客攻破。
  第二步,点击这儿下载哆麦CMS火车头发布插口,下载以后放入到火车头的发布模块中,然后编辑此模块,更改获取栏目和发布内容中的秘钥为上一步设置的密码:
  
  
  更改完成以后火车头采集教程,新建一个发布列表,网页编码选择UTF-8,网站地址填入网址域名,登录方法选择不登录,点击下方的获取列表,如果才能获取成功,则代表配置成功,否请检测上述操作是否正确。
  
  设置正确以后,输入配置名点击添加,接下来再采集到内容以后火车头采集教程,就可以选择此发布配置进行发布。

火车头采集发布织梦dedecms为何显示1970-01-01,如何解决?

采集交流优采云 发表了文章 • 0 个评论 • 449 次浏览 • 2020-04-22 11:05 • 来自相关话题

  后台执行SQL句子SELECT * FROM dede_archives order by id DESC limit 1
  这样你可以看见你刚刚新加加的文章一所有数组值。
  观察以下的数据:
  
  其中1231846313就是时间数据了。
  然后就是替换了。
  
  首先,看到第一句话应当就可以pass他了,下面具体谈谈,他这个方式的问题在那里(注:这种执行sql句子,或者须要更改数据库的一定先备份数据库)。
  对应的是数据库的dede_archives表,请按照你的实际情况更换前缀。
  这个表里有三个表示时间的数组:
  pubdate:发布时间(前台可修改)
  senddate:入库时间
  sortrank:前台调用最新文章。实际上是用这个时间。
  这段说的是没有问题的,我再详尽的说下:
  1.pubdate:发布时间(前台可修改)
  在发布新文章或编辑文章时,可在中级参数里看见,可以修改。也是系统在内容页及列表页调用的时间。当发布时间为1970时,列表页会显示1970-01-01,而文章页获取的发布时间则为“暂无”,当然这个以dede默认模板为准,如果你更改了可能会有其他结果。如:我的待初审文章审核发布时会手动更新为当前系统时间(如果不会设置,看Dedecms未初审文档手动更新发布时间)
  2.senddate:入库时间
  根据字面意思即可理解,但是所谓的入库时间彰显在那里?就是dede后台档案列表中的“录入时间”,理论上dede后台难以更改火车头采集教程,但实际也可以执行sql句子更改,并无实际意义。如果你的文章命名规则为“{typedir}/{Y}/{M}{D}/{aid}.html”的话,也直观的提如今你文章页的url中。
  3.sortrank:前台调用最新文章。实际上是用这个时间。
  这个时间我们通常看不到,但是前台模板设置为“orderby=’public’的话,系统就是根据这个时间来调用的。说了一大堆只是在指出这种细节,也算是讲讲原理吧。
  其次,我们应当了解,即使是火车头采集,或者dede采集,pubdate、senddate、sortrank这三个时间也不可能完全一致,所以这儿也有点问题,但是无伤大雅,最终要的在于,这个方案是更改了整个系统的数据库pubdate、senddate、sortrank的三个时间段,也就是说,从你发的第一篇文章,到最后一篇,都会弄成你如今更改的这个时间,我第一次更改以后,整站的文章都成了3月19日发布的,可以说几乎所有的东西都乱了,这个你们应当能想明白,所以,我说备份很重要,转载这篇文章的人,确实太害人。这种方式我认为没有哪些可取的,完全用不上的。
  二、正确的解决1970的方案
  火车头采集发布时惟一不会错的就是系统录入时间,所以,我们以这个为标准,将public及sortrank时间改为senddate(声明下,先备份,后操作)。同时,网站采集比较多的考虑下,是不是有些文章的发布时间与入库时间相差很大?如3-19采集了好多篇,发布为待初审,通过插件控制每晚手动更新,4-19才更新完,如果你执行两条命令的话,那原先初审最晚的这些文章也会弄成3-19日发布,不过你可以选择只执行一条命令。)
  如果你不介意里面我说的火车头采集教程,确实须要解决1970的问题的话,在dede后台-系统-sql命令行工具,执行以下命令:
  
  这条命令是将前台调用时间也改成入库时间,如果你是我前面提及的那个,就不要执行了,至于1970都会不会有其他影响,自己掂量
  
  这条命令是将发布时间改为入库时间,就不解释了,上面都说了 查看全部
  后台执行SQL句子SELECT * FROM dede_archives order by id DESC limit 1
  这样你可以看见你刚刚新加加的文章一所有数组值。
  观察以下的数据:
  
  其中1231846313就是时间数据了。
  然后就是替换了。
  
  首先,看到第一句话应当就可以pass他了,下面具体谈谈,他这个方式的问题在那里(注:这种执行sql句子,或者须要更改数据库的一定先备份数据库)。
  对应的是数据库的dede_archives表,请按照你的实际情况更换前缀。
  这个表里有三个表示时间的数组:
  pubdate:发布时间(前台可修改)
  senddate:入库时间
  sortrank:前台调用最新文章。实际上是用这个时间。
  这段说的是没有问题的,我再详尽的说下:
  1.pubdate:发布时间(前台可修改)
  在发布新文章或编辑文章时,可在中级参数里看见,可以修改。也是系统在内容页及列表页调用的时间。当发布时间为1970时,列表页会显示1970-01-01,而文章页获取的发布时间则为“暂无”,当然这个以dede默认模板为准,如果你更改了可能会有其他结果。如:我的待初审文章审核发布时会手动更新为当前系统时间(如果不会设置,看Dedecms未初审文档手动更新发布时间)
  2.senddate:入库时间
  根据字面意思即可理解,但是所谓的入库时间彰显在那里?就是dede后台档案列表中的“录入时间”,理论上dede后台难以更改火车头采集教程,但实际也可以执行sql句子更改,并无实际意义。如果你的文章命名规则为“{typedir}/{Y}/{M}{D}/{aid}.html”的话,也直观的提如今你文章页的url中。
  3.sortrank:前台调用最新文章。实际上是用这个时间。
  这个时间我们通常看不到,但是前台模板设置为“orderby=’public’的话,系统就是根据这个时间来调用的。说了一大堆只是在指出这种细节,也算是讲讲原理吧。
  其次,我们应当了解,即使是火车头采集,或者dede采集,pubdate、senddate、sortrank这三个时间也不可能完全一致,所以这儿也有点问题,但是无伤大雅,最终要的在于,这个方案是更改了整个系统的数据库pubdate、senddate、sortrank的三个时间段,也就是说,从你发的第一篇文章,到最后一篇,都会弄成你如今更改的这个时间,我第一次更改以后,整站的文章都成了3月19日发布的,可以说几乎所有的东西都乱了,这个你们应当能想明白,所以,我说备份很重要,转载这篇文章的人,确实太害人。这种方式我认为没有哪些可取的,完全用不上的。
  二、正确的解决1970的方案
  火车头采集发布时惟一不会错的就是系统录入时间,所以,我们以这个为标准,将public及sortrank时间改为senddate(声明下,先备份,后操作)。同时,网站采集比较多的考虑下,是不是有些文章的发布时间与入库时间相差很大?如3-19采集了好多篇,发布为待初审,通过插件控制每晚手动更新,4-19才更新完,如果你执行两条命令的话,那原先初审最晚的这些文章也会弄成3-19日发布,不过你可以选择只执行一条命令。)
  如果你不介意里面我说的火车头采集教程,确实须要解决1970的问题的话,在dede后台-系统-sql命令行工具,执行以下命令:
  
  这条命令是将前台调用时间也改成入库时间,如果你是我前面提及的那个,就不要执行了,至于1970都会不会有其他影响,自己掂量
  
  这条命令是将发布时间改为入库时间,就不解释了,上面都说了

火车头WordPress发布规则写法教程

采集交流优采云 发表了文章 • 0 个评论 • 202 次浏览 • 2020-04-22 11:04 • 来自相关话题

  火车头采集规则都收费,这篇火车头WordPress发布规则写法教程献给你们。由于wordpress有登陆信令,为了便捷采集,有人采用了PHP插口+火车头进行采集的方案,个人认为这些方案非常好用,推荐给你们使用。
  学会本文后,你将能自己独立写wordpress的发布规则,配合上文的火车头采集规则教程,下一个采集大王就是你!
  这里的发布规则是以火车头采集器为例。发布就是递交数据到服务器,服务器的程序能把数据正确写入数据库的过程。这里的服务器程序可以是网站程序,也可以是自己写的插口,只要能将数据正确写入数据库即可。提交数据这儿就须要你们有post基础了,简单说一下post传递数据的过程吧。HTTP传递数据主要有两种方法,一种是get一种是post。get通常拿来获取数据,可以携带少量参数数据,post在此基础上可以携带大量数据,比如我们一篇历时1000字的文章等。
  我们通过浏览器的F12network标签可以看见,每次恳求网页的恳求类型和详情。采集的发布规则就是模拟递交post恳求给网站程序,让网站程序觉得是我们人工操作的。
  前面说到wordpress有轮询机制,如果你没有权限,wordpress是不会使你发布文章的,因此,我们只能揭秘wordpress的登陆算法,拿到用户登入账簿能够正常发布文章,这样做过分麻烦。为了简单,我们可以为wordpress降低一个不需要信令的插口,在这个插口中直接操作数据库即可。
  搞清楚原理,我们就可以开始写插口了,代码过多,我就不贴代码了,完整代码在文章末尾会给,自行下载。先来瞧瞧火车头的发布模块是什么样的结构,了解后我们能够写插口程序。
  火车头WordPress发布规则写法教程
  自动登入可以直接忽视,我们使用自己的插口不需要登入。在发布文章的时侯我们须要晓得发布到那个分类中,因此,首先须要提供的插口就是所有的分类及ID。如上图所示,我定义了一个get插口,接口文件名是post.php,提交了一个get参数action火车头采集教程,值是list。对应的插口程序如下图:
  火车头WordPress发布规则写法教程
  在火车头发布规则中,我们须要的分类ID与分类名称被变量取代了,看了上面各类采集器爬虫程序实现原理科普文一文应当有所了解了。
  这段插口代码与火车头发布配置在火车头中的疗效是这样的:
  火车头WordPress发布规则写法教程
  同样的,还有递交的post数据火车头采集教程,即文章内容,火车头发布模块规则如下:
  火车头WordPress发布规则写法教程
  接口代码我就不贴了,自己下载文末的插口文件看吧。 查看全部
  火车头采集规则都收费,这篇火车头WordPress发布规则写法教程献给你们。由于wordpress有登陆信令,为了便捷采集,有人采用了PHP插口+火车头进行采集的方案,个人认为这些方案非常好用,推荐给你们使用。
  学会本文后,你将能自己独立写wordpress的发布规则,配合上文的火车头采集规则教程,下一个采集大王就是你!
  这里的发布规则是以火车头采集器为例。发布就是递交数据到服务器,服务器的程序能把数据正确写入数据库的过程。这里的服务器程序可以是网站程序,也可以是自己写的插口,只要能将数据正确写入数据库即可。提交数据这儿就须要你们有post基础了,简单说一下post传递数据的过程吧。HTTP传递数据主要有两种方法,一种是get一种是post。get通常拿来获取数据,可以携带少量参数数据,post在此基础上可以携带大量数据,比如我们一篇历时1000字的文章等。
  我们通过浏览器的F12network标签可以看见,每次恳求网页的恳求类型和详情。采集的发布规则就是模拟递交post恳求给网站程序,让网站程序觉得是我们人工操作的。
  前面说到wordpress有轮询机制,如果你没有权限,wordpress是不会使你发布文章的,因此,我们只能揭秘wordpress的登陆算法,拿到用户登入账簿能够正常发布文章,这样做过分麻烦。为了简单,我们可以为wordpress降低一个不需要信令的插口,在这个插口中直接操作数据库即可。
  搞清楚原理,我们就可以开始写插口了,代码过多,我就不贴代码了,完整代码在文章末尾会给,自行下载。先来瞧瞧火车头的发布模块是什么样的结构,了解后我们能够写插口程序。
  火车头WordPress发布规则写法教程
  自动登入可以直接忽视,我们使用自己的插口不需要登入。在发布文章的时侯我们须要晓得发布到那个分类中,因此,首先须要提供的插口就是所有的分类及ID。如上图所示,我定义了一个get插口,接口文件名是post.php,提交了一个get参数action火车头采集教程,值是list。对应的插口程序如下图:
  火车头WordPress发布规则写法教程
  在火车头发布规则中,我们须要的分类ID与分类名称被变量取代了,看了上面各类采集器爬虫程序实现原理科普文一文应当有所了解了。
  这段插口代码与火车头发布配置在火车头中的疗效是这样的:
  火车头WordPress发布规则写法教程
  同样的,还有递交的post数据火车头采集教程,即文章内容,火车头发布模块规则如下:
  火车头WordPress发布规则写法教程
  接口代码我就不贴了,自己下载文末的插口文件看吧。

火车头采集器教程之实战演练——CMS采集规则编撰

采集交流优采云 发表了文章 • 0 个评论 • 319 次浏览 • 2020-04-21 11:02 • 来自相关话题

  火车头采集器教程之实战视频——CMS采集规则编撰
  ********************************************************************
  火车头采集器教程之实战演练——CMS采集规则编撰
  ********************************************************************
  首先,我们先了解一下火车头采集器(LocoySpider)V3的基本功能,
  我们明天所用到的火车头的基本功能如下
  1、新建站点
  2、新建任务
  3、数据发布形式之“保存到软件数据库”
  当然本教程是围绕“CMS采集规则编撰”这一主题展开的,所以不可能面面俱到的陈表火车头采集器的功能,在此请见谅!
  现在我们结合实战来给你们讲解
  *********************************************************
  一、新建站点
  1、功能:对同一站点具有“相同采集内容规则”的采集任务进行聚合
  2、好处:
  a、分类明确,便于查询、调用;
  b、在站点下构建的采集任务默认承继站点采集内容规则,避免了重复编撰采集规则的麻烦;
  3、实战:
  我们以“每日经济新闻”为例进行讲解,首先我们打开其站点 ,浏览其中不同栏目的文章发现这个站点的文章模式(模板)几乎是完全一致的
  (当然,其中有一点小小的区别,就是有的文章段落是靠段落标记<
  </P>进行界定的,有的文章段落是靠<DIV></DIV>进行界定的,这时候假如你的网站布局是采用<
  table></table>布局的没哪些大不了的,但是假如你的网站是采用<DIV></DIV>布局的,
  那么残余的DIV标记太可能会破坏你原先的布局,此种情况的解决办法我们之后再继续讨论,这里我就不再赘言了)。
  好,现在我们有理由相信,我们构建一个站点的“内容规则”,就可以将这个网站的所有栏目囊括了。
  点选新建按键,选择新建站点“每日经济新闻”
  我们,先进行“标题”规则的编撰
  标题标签规则的编撰
  注意:标签起始字符串的确认,一定要注意两点,一、唯一性;二、贴身原则,即尽可能紧贴目标采集区域;
  开始字符串:<span>
  结束字符串:</span><span>
  注意:确认字符串的唯一性:复制字符串,点按快捷键“Ctrl+F”进行查找,如果字符串为惟一,会有提示信息“找不到XXX”的提示。
  为了确认标签的通用性,我们可以选择不同的文章进行测试,,这里就不做演示了/。
  Html标签排除:我们选择“全选”。
  注意:然对于“空格(占位符) ”我们可以有所保留,因为有些站点的“长标题”的分隔不是靠标点或则正宗意义上的空白,而是靠“占位符 ”进行分隔的,那么这时候我们就要保留“空格(占位符) ”选项。(课后看吧)
  此时我们可以以点代面,直接进行“典型页面”的采集测试,测试一下采集效果,满意后,我们接下来进行文章内容的规则编撰。
  文章内容标签规则的编撰
  开始字符串:<span>
  结束字符串:<br><iframe
  Html标签排除:此时我们要保留拿来界定段落的一下常用字符串“<br />”、“P”、“<DIV”,并且保留文章中常用的图象“<img”。(测试)
  注意:我们早已选择将"<table"排除了,但是常常有的文章中就富含一些"数据表格",这时候我们只能是顾全大局了,日后再查缺补漏。除非你才能确认你的目标采集区域不会有多余的“布局表格”出现,否则我们还是将表格标记排除为妙。
  作者标签规则的编撰
  要点与标题标签规则的编撰相同火车头采集教程,此处不再赘言。
  开始字符串:<div style=font-size:9pt>
  结束字符串:[200
  Html标签排除:我们选择“全选”。(测试)
  时间标签编撰规则
  要点同上。
  开始字符串:<span>
  结束字符串:<br><iframe
  Html标签排除:我们选择“全选”。(测试)
  出处标签尺寸的编撰
  此值,一般来说,我们默认为我们采集的目标网站,使用“固定格式的数据”进行设置,但是,你若果为了更好的彰显贵网站的版权意识,那么,你在对目标网站转载的文章进行采集设置的时侯,可以进行相应调整,此处不做赘言。
  好了,整个站点的“内容规则”我们设置完毕火车头采集教程,下面将进行,采集任务的设置。
  **************************************************************************
  二、新建采集任务
  在刚才构建的采集站点上点击滑鼠右键,选择“从该站点新建任务”,,在弹出的对话框里我们察看一下“内容规则”,结果正如前面所说“在站点下构建的采集任务默认承继站点采集内容规则”,好了,我们就可以直接编撰“采集网址”的规则了。 查看全部
  火车头采集器教程之实战视频——CMS采集规则编撰
  ********************************************************************
  火车头采集器教程之实战演练——CMS采集规则编撰
  ********************************************************************
  首先,我们先了解一下火车头采集器(LocoySpider)V3的基本功能,
  我们明天所用到的火车头的基本功能如下
  1、新建站点
  2、新建任务
  3、数据发布形式之“保存到软件数据库”
  当然本教程是围绕“CMS采集规则编撰”这一主题展开的,所以不可能面面俱到的陈表火车头采集器的功能,在此请见谅!
  现在我们结合实战来给你们讲解
  *********************************************************
  一、新建站点
  1、功能:对同一站点具有“相同采集内容规则”的采集任务进行聚合
  2、好处:
  a、分类明确,便于查询、调用;
  b、在站点下构建的采集任务默认承继站点采集内容规则,避免了重复编撰采集规则的麻烦;
  3、实战:
  我们以“每日经济新闻”为例进行讲解,首先我们打开其站点 ,浏览其中不同栏目的文章发现这个站点的文章模式(模板)几乎是完全一致的
  (当然,其中有一点小小的区别,就是有的文章段落是靠段落标记<
  </P>进行界定的,有的文章段落是靠<DIV></DIV>进行界定的,这时候假如你的网站布局是采用<
  table></table>布局的没哪些大不了的,但是假如你的网站是采用<DIV></DIV>布局的,
  那么残余的DIV标记太可能会破坏你原先的布局,此种情况的解决办法我们之后再继续讨论,这里我就不再赘言了)。
  好,现在我们有理由相信,我们构建一个站点的“内容规则”,就可以将这个网站的所有栏目囊括了。
  点选新建按键,选择新建站点“每日经济新闻”
  我们,先进行“标题”规则的编撰
  标题标签规则的编撰
  注意:标签起始字符串的确认,一定要注意两点,一、唯一性;二、贴身原则,即尽可能紧贴目标采集区域;
  开始字符串:<span>
  结束字符串:</span><span>
  注意:确认字符串的唯一性:复制字符串,点按快捷键“Ctrl+F”进行查找,如果字符串为惟一,会有提示信息“找不到XXX”的提示。
  为了确认标签的通用性,我们可以选择不同的文章进行测试,,这里就不做演示了/。
  Html标签排除:我们选择“全选”。
  注意:然对于“空格(占位符) ”我们可以有所保留,因为有些站点的“长标题”的分隔不是靠标点或则正宗意义上的空白,而是靠“占位符 ”进行分隔的,那么这时候我们就要保留“空格(占位符) ”选项。(课后看吧)
  此时我们可以以点代面,直接进行“典型页面”的采集测试,测试一下采集效果,满意后,我们接下来进行文章内容的规则编撰。
  文章内容标签规则的编撰
  开始字符串:<span>
  结束字符串:<br><iframe
  Html标签排除:此时我们要保留拿来界定段落的一下常用字符串“<br />”、“P”、“<DIV”,并且保留文章中常用的图象“<img”。(测试)
  注意:我们早已选择将"<table"排除了,但是常常有的文章中就富含一些"数据表格",这时候我们只能是顾全大局了,日后再查缺补漏。除非你才能确认你的目标采集区域不会有多余的“布局表格”出现,否则我们还是将表格标记排除为妙。
  作者标签规则的编撰
  要点与标题标签规则的编撰相同火车头采集教程,此处不再赘言。
  开始字符串:<div style=font-size:9pt>
  结束字符串:[200
  Html标签排除:我们选择“全选”。(测试)
  时间标签编撰规则
  要点同上。
  开始字符串:<span>
  结束字符串:<br><iframe
  Html标签排除:我们选择“全选”。(测试)
  出处标签尺寸的编撰
  此值,一般来说,我们默认为我们采集的目标网站,使用“固定格式的数据”进行设置,但是,你若果为了更好的彰显贵网站的版权意识,那么,你在对目标网站转载的文章进行采集设置的时侯,可以进行相应调整,此处不做赘言。
  好了,整个站点的“内容规则”我们设置完毕火车头采集教程,下面将进行,采集任务的设置。
  **************************************************************************
  二、新建采集任务
  在刚才构建的采集站点上点击滑鼠右键,选择“从该站点新建任务”,,在弹出的对话框里我们察看一下“内容规则”,结果正如前面所说“在站点下构建的采集任务默认承继站点采集内容规则”,好了,我们就可以直接编撰“采集网址”的规则了。

火车头采集器3.0采集图文教程

采集交流优采云 发表了文章 • 0 个评论 • 393 次浏览 • 2020-04-20 11:02 • 来自相关话题

  以采集示例解读部份功能
  今天要给你们做示例的网站是163的 娱乐频道 这个应当是个比较通用和实用的规则,下面开始。
  如果您是列车采集器的老鸟,那么您可以参考下,因为我要讲解的会有违传统的思维;如我您是菜鸟这么您最好能仔细看下,因为这将推动您的入门,同时在之后给您节约好多时间。以下是一些采集的基本步骤火车头采集教程,您可以灵活运用:
  一、建立站点
  1、请先打开列车采集器,新建站点,看右图:
  
  为了便捷管理您可以为您的站点取任何的您认为易记的名称,但是我建议用目标源的名子作为站点的名称有利于日后的管理,如右图
  
  大部分的站点,通站常常只有一套模版或则有几套类似的模版,这边所谓的类似讲的是模版中的标记太接近,那哪些是模版标记?模版标记指的是某部份内容开始和结束记号。比如好多正规的网站(通常是一些站点比较大,内容比较多的网站,比如sina、163等)会在内容开始的部份用类似于或
  等标志来表示内容的开始。他们如此作的缘由有两个,一个是因为内容多,为了各个部门之间的配合而作了对应的标记便于于工程的交接,另一个缘由就是内容控制的须要,随着xhtml的流行,用层控制越来越多,这就促使我们找寻采集标示越来越简单(这点大家之后会渐渐理解的)。上面给诸位讲这种是因为接下来要我们要讲解的是整站内容规则。
  2、标题标签讲解。对应的页面在这:
  首先从“站点基本信息”切换到“整站内容规则”,然后把要采集的内容页面的网址拷贝到“典型页面”接着点击“测试”读取源码。先从标题标签开始,我们发觉按默认标签采集回来的标题多了“_网易娱乐”,请双击标题标签或则选种标题标签在点击更改,把“_网易娱乐”添加到排除内容框里,标题标签完成。如图:
  
  3、内容标签讲解。制作采集规则(任务)的任何一个标签最重要的就在于找寻开始也结束的标志。目前大部分的采集器要求开始和结束的标志必须是整个源代码的惟一标志,也就是所有的html源码里只能找到一个开始或结束的标志。但是列车采集器并不需要如此作,你要找的只须要是从上到下第一个标志就可以了,我的意思是说,html代码中容许有n个相同的开始(结束,下同)标志,但是只要这个坐落我们要采集的内容的地方的标志是html从上到下的第一个就可以了。打开任何一个内容页面,这边以 为例,我们发觉他的内容从“进入峰会”,因此双击代码测试框,查找须要的代码,如图:
  
  我们可以用这个作为内容开始的标志,不过这样还不完美,请自己在打开几个内容页面,在网页中“右键点击”——“查看源码”,然后对比代码,并提取相同的部份,我以
  作为内容开始的标志。
  
  接下来看内容结束标志,如下两图:
  
  
  下面是按照我么设置规则采集回来的内容
  
  一般来说我们从开始标志到结束标志所采集回来的内容中还会包含有必须排除的内容或广告,或链接。这边我们须要排除的内容是“相关专题&gt;&gt;&gt; 第六届金鹰电视艺术节”。排除的方式是火车头采集教程,找到相对应的代码把代码完整的拷贝进内容排除窗口,变动的部份用“(*)”替代。由于这个是整站规则,所以必须多找几个类别,比如现今的这个163娱乐还包括了“明星 | 图片 | 电影 | 电视 | 音乐 | 论坛 | 专题 | 名人访 ”等,在那边我只抽取“明星、图片、电影”作为列子跟你们讲解。找其他的类别只是希望把规则做的通用完美,如果你只要其中的一个分类,比如“图片”那么你直接做这个的规则即可。
  这个页面正好有分页,所以就顺便讲下上下页的设置。他那边的“上一页”和“下一页”是用图片做链接的,所以只要不图片的名子(右键点击对应的图片查看属性,拷贝图片名即可)拷贝进对应的代码框即可,详细的看图片:
  
  这边提示下,任何内容的排除你只要找到对应的代码完整的拷贝进代码排除窗并把其中可变的部份替换成"(*)"即可。由于他那边没有广告,所有整站规则即使制做完毕,点击保存步入单任务制做。好了,整站规则就讲这两个标签,其他的依据须要自己按前面的步骤添加,记住,万变不距其宗。其他的问题请到列车采集器峰会: 探讨。
  二、下面讲解单任务规则制做:
  1、内容规则的制做,很多人到如今可能都还不明白列车采集器好在哪,现在讲的这个绝对是列车独有的特色(至少到目前为止是这样,以后有没有人出相同的功能就不得而知了!)
  火车采集器是不需要经过网址规则制做即可直接步入内容采集,这样你就可以按照站点的难易决定是否采集选定的目标源,而毋须等到网址采集后才发觉原先这个网站你没办法采或则根本不值得你浪费这个时间(前面的时间白搭了!)。
  火车v3.0最大的功能之一既是可以承继站点的规则,只要你上面制做的规则通用,那么在接下来的所有任务都不需要再制做内容采集规则了。由于上面我们制做的内容采集规则通用,所以那边的规则我们就不用讲解了,直接承继站点的,如图: 查看全部

  以采集示例解读部份功能
  今天要给你们做示例的网站是163的 娱乐频道 这个应当是个比较通用和实用的规则,下面开始。
  如果您是列车采集器的老鸟,那么您可以参考下,因为我要讲解的会有违传统的思维;如我您是菜鸟这么您最好能仔细看下,因为这将推动您的入门,同时在之后给您节约好多时间。以下是一些采集的基本步骤火车头采集教程,您可以灵活运用:
  一、建立站点
  1、请先打开列车采集器,新建站点,看右图:
  
  为了便捷管理您可以为您的站点取任何的您认为易记的名称,但是我建议用目标源的名子作为站点的名称有利于日后的管理,如右图
  
  大部分的站点,通站常常只有一套模版或则有几套类似的模版,这边所谓的类似讲的是模版中的标记太接近,那哪些是模版标记?模版标记指的是某部份内容开始和结束记号。比如好多正规的网站(通常是一些站点比较大,内容比较多的网站,比如sina、163等)会在内容开始的部份用类似于或
  等标志来表示内容的开始。他们如此作的缘由有两个,一个是因为内容多,为了各个部门之间的配合而作了对应的标记便于于工程的交接,另一个缘由就是内容控制的须要,随着xhtml的流行,用层控制越来越多,这就促使我们找寻采集标示越来越简单(这点大家之后会渐渐理解的)。上面给诸位讲这种是因为接下来要我们要讲解的是整站内容规则。
  2、标题标签讲解。对应的页面在这:
  首先从“站点基本信息”切换到“整站内容规则”,然后把要采集的内容页面的网址拷贝到“典型页面”接着点击“测试”读取源码。先从标题标签开始,我们发觉按默认标签采集回来的标题多了“_网易娱乐”,请双击标题标签或则选种标题标签在点击更改,把“_网易娱乐”添加到排除内容框里,标题标签完成。如图:
  
  3、内容标签讲解。制作采集规则(任务)的任何一个标签最重要的就在于找寻开始也结束的标志。目前大部分的采集器要求开始和结束的标志必须是整个源代码的惟一标志,也就是所有的html源码里只能找到一个开始或结束的标志。但是列车采集器并不需要如此作,你要找的只须要是从上到下第一个标志就可以了,我的意思是说,html代码中容许有n个相同的开始(结束,下同)标志,但是只要这个坐落我们要采集的内容的地方的标志是html从上到下的第一个就可以了。打开任何一个内容页面,这边以 为例,我们发觉他的内容从“进入峰会”,因此双击代码测试框,查找须要的代码,如图:
  
  我们可以用这个作为内容开始的标志,不过这样还不完美,请自己在打开几个内容页面,在网页中“右键点击”——“查看源码”,然后对比代码,并提取相同的部份,我以
  作为内容开始的标志。
  
  接下来看内容结束标志,如下两图:
  
  
  下面是按照我么设置规则采集回来的内容
  
  一般来说我们从开始标志到结束标志所采集回来的内容中还会包含有必须排除的内容或广告,或链接。这边我们须要排除的内容是“相关专题&gt;&gt;&gt; 第六届金鹰电视艺术节”。排除的方式是火车头采集教程,找到相对应的代码把代码完整的拷贝进内容排除窗口,变动的部份用“(*)”替代。由于这个是整站规则,所以必须多找几个类别,比如现今的这个163娱乐还包括了“明星 | 图片 | 电影 | 电视 | 音乐 | 论坛 | 专题 | 名人访 ”等,在那边我只抽取“明星、图片、电影”作为列子跟你们讲解。找其他的类别只是希望把规则做的通用完美,如果你只要其中的一个分类,比如“图片”那么你直接做这个的规则即可。
  这个页面正好有分页,所以就顺便讲下上下页的设置。他那边的“上一页”和“下一页”是用图片做链接的,所以只要不图片的名子(右键点击对应的图片查看属性,拷贝图片名即可)拷贝进对应的代码框即可,详细的看图片:
  
  这边提示下,任何内容的排除你只要找到对应的代码完整的拷贝进代码排除窗并把其中可变的部份替换成"(*)"即可。由于他那边没有广告,所有整站规则即使制做完毕,点击保存步入单任务制做。好了,整站规则就讲这两个标签,其他的依据须要自己按前面的步骤添加,记住,万变不距其宗。其他的问题请到列车采集器峰会: 探讨。
  二、下面讲解单任务规则制做:
  1、内容规则的制做,很多人到如今可能都还不明白列车采集器好在哪,现在讲的这个绝对是列车独有的特色(至少到目前为止是这样,以后有没有人出相同的功能就不得而知了!)
  火车采集器是不需要经过网址规则制做即可直接步入内容采集,这样你就可以按照站点的难易决定是否采集选定的目标源,而毋须等到网址采集后才发觉原先这个网站你没办法采或则根本不值得你浪费这个时间(前面的时间白搭了!)。
  火车v3.0最大的功能之一既是可以承继站点的规则,只要你上面制做的规则通用,那么在接下来的所有任务都不需要再制做内容采集规则了。由于上面我们制做的内容采集规则通用,所以那边的规则我们就不用讲解了,直接承继站点的,如图:

火车头采集器使用教程

采集交流优采云 发表了文章 • 0 个评论 • 485 次浏览 • 2020-04-20 11:01 • 来自相关话题

  下方有两个教程文章没更新,更新了我会更新知乎上的链接的。也可以直接关注我的博客网站。
  本教程使用火车头V9(又名火车采集器)版本,网站为wordpress5.x版本。
  网站服务器环境使用的宝塔面板,服务器系统是centos7火车头采集教程,windows系统跟linux一样的操作原理思路,不必苦恼用哪些系统。
  本教程将根据做一个wordpress采集站的过程步骤来写教程火车头采集教程,内容基本都是基础知识。
  关于采集内容
  网站大量采集的话相比手打原创内容更难收录,但是优点是显而易见的。手打怎样也不可能日更数千篇文章甚至上万篇。我这个网站大多数是自己写的,也有直接自动复制粘贴的。更新了几年也还不到一千篇。
  看自己的考虑了,这里只是屁话一下提个醒。
  采集的内容一定要版面整洁,不要乱糟糟的一大篇,那样没哪些意义。采集之前先把网站的基础框架设计好!
  其他说明
  本教程李关于采集发布设置做了简化处理,没有采集图片,发布设置仅仅发布标题和内容。未设置时间、作者、标签等。教程前面我会单独开文章写那些。这里仅以最简化的步骤来进行。
  接口文件没有区别,都是这一个。
  需要先下载那些东西:
  接口文件:火车头WP发布插口
  发布模块(教程使用):火车头WP发布模块(仅包括标题内容)
  发布模块:火车头WP发布模块(全发布参数,本教程不使用)
  采集器这儿就不放了,之前博客发了破解版被官方投诉了。
  教程目录
  火车头采集器wordpress5.x发布插口介绍
  火车头采集器发布模块直接放在火车头采集器程序一下目录内即可,这一步不需要做其他设置,所以这个就不写教程了
  放到\Module\这个目录内
  火车头采集器使用教程–寻找目标网站
  火车头采集器使用教程--批量添加目标网站列表链接
  火车头采集器使用教程–分析目标网站文章链接位置及规则
  火车头采集器使用教程–分析目标网站要采集内容的位置及规则
  火车头采集器使用教程–采集内容发布规则设置
  火车头采集器使用教程–测试采集和发布是否正常
  下面是一些特殊教程文章
  火车头采集器图片采集上传设置
  火车头采集器采集发布文章作者、时间、标签等内容
  火车头采集器定时采集更新网站内容(长期做站必用) 查看全部
  下方有两个教程文章没更新,更新了我会更新知乎上的链接的。也可以直接关注我的博客网站。
  本教程使用火车头V9(又名火车采集器)版本,网站为wordpress5.x版本。
  网站服务器环境使用的宝塔面板,服务器系统是centos7火车头采集教程,windows系统跟linux一样的操作原理思路,不必苦恼用哪些系统。
  本教程将根据做一个wordpress采集站的过程步骤来写教程火车头采集教程,内容基本都是基础知识。
  关于采集内容
  网站大量采集的话相比手打原创内容更难收录,但是优点是显而易见的。手打怎样也不可能日更数千篇文章甚至上万篇。我这个网站大多数是自己写的,也有直接自动复制粘贴的。更新了几年也还不到一千篇。
  看自己的考虑了,这里只是屁话一下提个醒。
  采集的内容一定要版面整洁,不要乱糟糟的一大篇,那样没哪些意义。采集之前先把网站的基础框架设计好!
  其他说明
  本教程李关于采集发布设置做了简化处理,没有采集图片,发布设置仅仅发布标题和内容。未设置时间、作者、标签等。教程前面我会单独开文章写那些。这里仅以最简化的步骤来进行。
  接口文件没有区别,都是这一个。
  需要先下载那些东西:
  接口文件:火车头WP发布插口
  发布模块(教程使用):火车头WP发布模块(仅包括标题内容)
  发布模块:火车头WP发布模块(全发布参数,本教程不使用)
  采集器这儿就不放了,之前博客发了破解版被官方投诉了。
  教程目录
  火车头采集器wordpress5.x发布插口介绍
  火车头采集器发布模块直接放在火车头采集器程序一下目录内即可,这一步不需要做其他设置,所以这个就不写教程了
  放到\Module\这个目录内
  火车头采集器使用教程–寻找目标网站
  火车头采集器使用教程--批量添加目标网站列表链接
  火车头采集器使用教程–分析目标网站文章链接位置及规则
  火车头采集器使用教程–分析目标网站要采集内容的位置及规则
  火车头采集器使用教程–采集内容发布规则设置
  火车头采集器使用教程–测试采集和发布是否正常
  下面是一些特殊教程文章
  火车头采集器图片采集上传设置
  火车头采集器采集发布文章作者、时间、标签等内容
  火车头采集器定时采集更新网站内容(长期做站必用)

新手使用火车头发布插口怎么采集文章教程

采集交流优采云 发表了文章 • 0 个评论 • 375 次浏览 • 2020-04-19 11:03 • 来自相关话题

  前沿:如果你对火车头一点都不知道,你还是去网上自学一点火车头采集的知识,我也不是哪些大师,硬着头皮写的火车头采集教程,至少能用,在这里我不会教你怎么写采集规则,因为写法种类太多,你问我我也不知道,火车头相关文件夹里提供的发布插口外置了马甲发布文章,并且支持远程图片抓取本地化,和发布文章时间设置(10-70分钟随机)。用户只需关注火车头标题和内容即可,参数值标题(title),内容(content)。
  第一步:站点设置里设置下火车头免登入发布插口的全局变量值:
  
  第二步:将发布插口上传覆盖程序根目录:
  
  第三步:登录火车头软件后导出发布模块"
  
  下图更多处下拉--选择导出:
  
  导入后:
  
  上图中,数字1处填写你在网站后台设置的全局变量值。
  2 处选择 utf-8 编码。
  3 处填写你网站域名,不要带 反斜杠'/'.
  4处选择不需要登陆
  5 处点击获取列表--选择你须要入库的分类
  6 随便给当前这个发布模块写个名子火车头采集教程,后续采集任务模块会用到。
  最后点击保存配置按键。
  ---------
  下面讲解导出采集任务:
  新建任务分组后,在该分组下导出任务规则(导入任务至该分组):
  
  选择我们的采集任务规则(.ljobx文件):
  
  下一步:双击规则项
  
  点击第三步:修改发布内容设置
  
  修改下你发布的分类:
  
  最后保存即可:
  
  然后右键开始任务采集。 查看全部
  前沿:如果你对火车头一点都不知道,你还是去网上自学一点火车头采集的知识,我也不是哪些大师,硬着头皮写的火车头采集教程,至少能用,在这里我不会教你怎么写采集规则,因为写法种类太多,你问我我也不知道,火车头相关文件夹里提供的发布插口外置了马甲发布文章,并且支持远程图片抓取本地化,和发布文章时间设置(10-70分钟随机)。用户只需关注火车头标题和内容即可,参数值标题(title),内容(content)。
  第一步:站点设置里设置下火车头免登入发布插口的全局变量值:
  
  第二步:将发布插口上传覆盖程序根目录:
  
  第三步:登录火车头软件后导出发布模块"
  
  下图更多处下拉--选择导出:
  
  导入后:
  
  上图中,数字1处填写你在网站后台设置的全局变量值。
  2 处选择 utf-8 编码。
  3 处填写你网站域名,不要带 反斜杠'/'.
  4处选择不需要登陆
  5 处点击获取列表--选择你须要入库的分类
  6 随便给当前这个发布模块写个名子火车头采集教程,后续采集任务模块会用到。
  最后点击保存配置按键。
  ---------
  下面讲解导出采集任务:
  新建任务分组后,在该分组下导出任务规则(导入任务至该分组):
  
  选择我们的采集任务规则(.ljobx文件):
  
  下一步:双击规则项
  
  点击第三步:修改发布内容设置
  
  修改下你发布的分类:
  
  最后保存即可:
  
  然后右键开始任务采集。

火车头采集器教程..

采集交流优采云 发表了文章 • 0 个评论 • 470 次浏览 • 2020-04-19 11:03 • 来自相关话题

  火车头采集器 使用流程说明? 一、软件安装? 二、新建站点? 三、采集网址 ? 四、采集内容 ? 五、发布内容 ? 六、任务采集 ? 七、导出数据一、软件安装须要安装软件: (1) WAMP5-v1.7.4 (2) phpcms (3) LocoySpiderV2009SP4_Build20090807 (火车头采集器) 注:每次采集前须要將wamp5打开后,在用火车头采集。一、软件安装1、wamp5_1.7.4安装完成后,解压缩phpcms后 将phpcms1剪切下来放在D:\wamp\www\目录下, 将phpcms1更名为phpcms。 2、打开WAMP5,启动PHP settings栏目中的 short open tag。 3、安装PHP,输入 进行。4、解压LocoySpiderV2009SP4_Build20090807 将Module文件下的phpcms2008-090109文件下 的locoy.php复制到D:\wamp\www\phpcms下。安装部份完成二、新建站点打开火车头软件(LocoySpider.exe) 界面如下图:二、新建站点第一步:新建站点(如右图) 第二步:点击“新建站点”后出现如下界面。
  填写站点名和站点网址点击“更新”三、采集网址新建好的站点会排列在窗口一侧“站点&amp;任务列表”中。右击新建好的站点,点击 “从该站点新建任务”,出现如下界面。 以本列表为例:三、采集网址点击向导添加后出现如下界面:批量/多页三、采集网址单条网址选项下:三、采集网址填写完成后,点击“完成”。则出现以下界面:三、采集网址注释: 1、在选择目标站时,最好选择文章更新快,文章质量高(少广告词、图片、链接、 视频、flash等),内容丰富而且在业界有一定权威性的站点。 2、过于滞后的文章不要采集。(例如:08年、09年的文章) 3、在选择列表的过程中最好以站点为单位,不要以某个列表为单位火车头采集教程,这样采集效 率会事半功倍。 4、在选择目标站时尽量不要选择动态页,多选择可以用数字或字母(*)代替的 静态页。 5、在采集过程中遇见不需要采集的文章,可以通过“不得包含”功能将其过滤掉。三、采集网址完成采集网址步骤过后,点击“开始测试网址采集”按钮。会出现如下界面:三、采集网址在检测采集连接无误的情况下,点击“返回更改设置”后,出现如下界面:四、采集内容选择“第二步:采集内容规则”后,出现如下界面。四、采集内容选择“添加标签”后,出现如下界面。
  四、采集内容將“标题”、 “资讯内容”、“内容摘要”、“信息关键词”、“meta关键词”、 “meta描述”、“责任编辑”、“信息来源”添加到标签名中,將其他不需要的标签 名称删掉,出现如下界面。四、采集内容下边分别说明“标题”、“内容摘要”、“信息关键词”、“meta关键词”、 “meta描述”、“责任编辑”、“信息来源”、“资讯内容”各个标签的采集规则。采集页面以为例。第一、标题查看本页面“源文件”搜索title代码,找到文章内容部份。如下图:注释:一般情况下检索&lt;title&gt;&lt;/title&gt;都可以采集到我们须要的标题标签,但因为 这篇文章此代码中设计到其他网站logo及列表分类不确定信息,所以选择 &lt;div id=“title”&gt;&lt;h1&gt;&lt;/h1&gt;中内容来替代。如果没有合适数组,可借助“内容排 除”选项进行筛选。四、采集内容双击上图窗口中的“标题”标签,將“源代码”中对应的标题开始代码和结束代码分 别输入到开始字符段和结束字符段中火车头采集教程,点击确定,标题标签设置完成。四、采集内容第二、资讯内容查看本页面“源文件”,找到文章内容部份。
  如下图:四、采集内容1、双击上图窗口中的“资讯内容”标签,將“源代码”中对应的资讯内容开始代 码和结束代码分别输入到开始字符段和结束字符段中。2、勾选“HTML标签排除”中的“链接”、“层”、“Span”、“图象”、“脚本” 选项。 3、选择“内容排除”中的添加项,將资讯内容代码中的无用代码和文本添加在此 选项中,过滤废物信息。 4、点击确定,资讯内容标签设置完成。 如下图:四、采集内容四、采集内容注释: 在资讯内容采集过程中最主要的是对垃圾信息的删掉,其中须要注意的有以下几项: 1、广告语 (例如:&lt;A href="; target=_blank&gt;2010年建材行业十大评比活动完满谢幕,电话:01062298529&lt;/A&gt;) 2、特殊标签 (例如:&lt;IFRAME&gt;&lt;sytle&gt;标签,大部分标签会在“HTML标签排除”中删掉。) 3、网站logo (例如:【&lt;STRONG&gt;&lt;A href=" ; target=_blank&gt;慧聪 建材网&lt;/A&gt;&lt;/STRONG&gt;】) 4、文章中铭感文字 (例如:点击下一页、点击查看更多图片、视频、责任编辑、评论、【热点导读】、 【相关新闻】等与文章正文无关的文字。
  )四、采集内容第三、内容描述、meta描述查看本页面“源文件” 搜索description代码,找到文章描述部份。如下图:四、采集内容將“源代码”中对应的描述开始代码和结束代码分别输入到开始字符段和结束字符 段中,点击确定,内容描述和meta描述标签设置完成。注释:有些文章描述部份设有大量广告语或与本文无关的内容,这样的文章描述我 们不给与采集。可以将标题的采集方法复制到描述采集中。四、采集内容第四、信息关键词、meta关键词查看本页面“源文件” 搜索keywords代码,找到文章关键词部份。如下图:四、采集内容將“源代码”中对应的关键词开始代码和结束代码分别输入到开始字符段和结束字 符段中,点击确定,信息关键词和meta关键词标签设置完成。注释:有些文章关键词部份设有大量广告语或与本文无关的内容,这样的文章关键 词我们不给与采集。可以将标题的采集方法复制到关键词采集中。四、采集内容第五、责任编辑双击责任编辑标签,选择“自定义固定格式的数据”,在固定的字符串选项中填写 自己的名称,点击确定,责任编辑设定完成。四、采集内容第六、信息来源双击责任编辑标签,选择“自定义固定格式的数据”,在固定的字符串选项中填写 信息来源,点击确定,信息来源设定完成。
  四、采集内容第七、分页在“页面内容分页区域/样式设置”中将分页部份代码输入其中,用(*)代替即 可。如下图: (注释:各站的分页代码不同,需要具体剖析,采集分页的文章在我们后台将成 为一篇通篇文章。建议少采集分页多的文章,影响用户体验。)四、采集内容规则填写完成后,返回至第一步“测试网址采集”。双击所采集到的任一文章地址。 则会自己弹出如下界面。(注释:建议多测试几篇文章,减少垃圾代码出现。)采集内容阶段完成,点击步入发布内容设置五、发布内容1、启动以下两项,点击“定义web在线发布到网站全局设置”。五、发布内容2、点击添加,选择phpcms2008 新闻发布模块 3、在“网站/cms根地址”:输入 4、点击“在动车外置浏览器中登陆”五、发布内容5、在地址栏输入: 6、输入用户名phpcms密码phpcms五、发布内容7、登录点击“确认登陆发布成功后即可关掉该窗口”,关掉此窗口。获得五、发布内容9、选择“系统设置”中的“添加栏目”,点击下一步8、登录本地后台(在浏览器中输入:。账号密码phpcms)五、发布内容10、输入栏目名称、栏目目录,点击确定,在本地后台会出现对应列表。11、点击获取列表后便可等对应ID,选择这次采集的对应列表。
  五、发布内容12、在配置名中输入要采集的栏目名称,点击保存配置。13、设置完成后点击保存。发布内容部份结束六、任务采集将刚才编撰好的规则保存后,程序则会手动跳转到主界面。右键点击设置好的任 务,选择开始采集。在采集完成后系统会手动提醒采集完成。七、导出数据采集数据在火车头\Data文件中。双击mdb格式文件,右键选择content选项,导出为Excel格式。七、导出数据建议将采集文档都置于一个文件夹里,有利于后续工作进行。七、导出数据打开导入的Excel文档,将ID、已采、已发、缩略图、PageUrl、处 理中等无关数据删掉,只保留“标题”、 “资讯内容”、“内容摘要”、 “信息关键词”、“meta关键词”、“meta描述”、“责任编辑”、“信息来源”。★在Excel中对采集文章进行最后筛选更改:1、删除内容缺位的文章。 2、删除所有标题中带有(图)(组图)(视频)的文章。 3、检查资讯内容中错乱代码,如有发觉错误借助ctrl+F对进行批量替换。七、导出数据导出数据库 打开后台,点击内容管理→资讯信息管理→批量导出资讯。选择须要导出采集信息的列表名称,将更改好的采集文档上传数据库,点击导出。导出数据部份完成 查看全部

  火车头采集器 使用流程说明? 一、软件安装? 二、新建站点? 三、采集网址 ? 四、采集内容 ? 五、发布内容 ? 六、任务采集 ? 七、导出数据一、软件安装须要安装软件: (1) WAMP5-v1.7.4 (2) phpcms (3) LocoySpiderV2009SP4_Build20090807 (火车头采集器) 注:每次采集前须要將wamp5打开后,在用火车头采集。一、软件安装1、wamp5_1.7.4安装完成后,解压缩phpcms后 将phpcms1剪切下来放在D:\wamp\www\目录下, 将phpcms1更名为phpcms。 2、打开WAMP5,启动PHP settings栏目中的 short open tag。 3、安装PHP,输入 进行。4、解压LocoySpiderV2009SP4_Build20090807 将Module文件下的phpcms2008-090109文件下 的locoy.php复制到D:\wamp\www\phpcms下。安装部份完成二、新建站点打开火车头软件(LocoySpider.exe) 界面如下图:二、新建站点第一步:新建站点(如右图) 第二步:点击“新建站点”后出现如下界面。
  填写站点名和站点网址点击“更新”三、采集网址新建好的站点会排列在窗口一侧“站点&amp;任务列表”中。右击新建好的站点,点击 “从该站点新建任务”,出现如下界面。 以本列表为例:三、采集网址点击向导添加后出现如下界面:批量/多页三、采集网址单条网址选项下:三、采集网址填写完成后,点击“完成”。则出现以下界面:三、采集网址注释: 1、在选择目标站时,最好选择文章更新快,文章质量高(少广告词、图片、链接、 视频、flash等),内容丰富而且在业界有一定权威性的站点。 2、过于滞后的文章不要采集。(例如:08年、09年的文章) 3、在选择列表的过程中最好以站点为单位,不要以某个列表为单位火车头采集教程,这样采集效 率会事半功倍。 4、在选择目标站时尽量不要选择动态页,多选择可以用数字或字母(*)代替的 静态页。 5、在采集过程中遇见不需要采集的文章,可以通过“不得包含”功能将其过滤掉。三、采集网址完成采集网址步骤过后,点击“开始测试网址采集”按钮。会出现如下界面:三、采集网址在检测采集连接无误的情况下,点击“返回更改设置”后,出现如下界面:四、采集内容选择“第二步:采集内容规则”后,出现如下界面。四、采集内容选择“添加标签”后,出现如下界面。
  四、采集内容將“标题”、 “资讯内容”、“内容摘要”、“信息关键词”、“meta关键词”、 “meta描述”、“责任编辑”、“信息来源”添加到标签名中,將其他不需要的标签 名称删掉,出现如下界面。四、采集内容下边分别说明“标题”、“内容摘要”、“信息关键词”、“meta关键词”、 “meta描述”、“责任编辑”、“信息来源”、“资讯内容”各个标签的采集规则。采集页面以为例。第一、标题查看本页面“源文件”搜索title代码,找到文章内容部份。如下图:注释:一般情况下检索&lt;title&gt;&lt;/title&gt;都可以采集到我们须要的标题标签,但因为 这篇文章此代码中设计到其他网站logo及列表分类不确定信息,所以选择 &lt;div id=“title”&gt;&lt;h1&gt;&lt;/h1&gt;中内容来替代。如果没有合适数组,可借助“内容排 除”选项进行筛选。四、采集内容双击上图窗口中的“标题”标签,將“源代码”中对应的标题开始代码和结束代码分 别输入到开始字符段和结束字符段中火车头采集教程,点击确定,标题标签设置完成。四、采集内容第二、资讯内容查看本页面“源文件”,找到文章内容部份。
  如下图:四、采集内容1、双击上图窗口中的“资讯内容”标签,將“源代码”中对应的资讯内容开始代 码和结束代码分别输入到开始字符段和结束字符段中。2、勾选“HTML标签排除”中的“链接”、“层”、“Span”、“图象”、“脚本” 选项。 3、选择“内容排除”中的添加项,將资讯内容代码中的无用代码和文本添加在此 选项中,过滤废物信息。 4、点击确定,资讯内容标签设置完成。 如下图:四、采集内容四、采集内容注释: 在资讯内容采集过程中最主要的是对垃圾信息的删掉,其中须要注意的有以下几项: 1、广告语 (例如:&lt;A href="; target=_blank&gt;2010年建材行业十大评比活动完满谢幕,电话:01062298529&lt;/A&gt;) 2、特殊标签 (例如:&lt;IFRAME&gt;&lt;sytle&gt;标签,大部分标签会在“HTML标签排除”中删掉。) 3、网站logo (例如:【&lt;STRONG&gt;&lt;A href=" ; target=_blank&gt;慧聪 建材网&lt;/A&gt;&lt;/STRONG&gt;】) 4、文章中铭感文字 (例如:点击下一页、点击查看更多图片、视频、责任编辑、评论、【热点导读】、 【相关新闻】等与文章正文无关的文字。
  )四、采集内容第三、内容描述、meta描述查看本页面“源文件” 搜索description代码,找到文章描述部份。如下图:四、采集内容將“源代码”中对应的描述开始代码和结束代码分别输入到开始字符段和结束字符 段中,点击确定,内容描述和meta描述标签设置完成。注释:有些文章描述部份设有大量广告语或与本文无关的内容,这样的文章描述我 们不给与采集。可以将标题的采集方法复制到描述采集中。四、采集内容第四、信息关键词、meta关键词查看本页面“源文件” 搜索keywords代码,找到文章关键词部份。如下图:四、采集内容將“源代码”中对应的关键词开始代码和结束代码分别输入到开始字符段和结束字 符段中,点击确定,信息关键词和meta关键词标签设置完成。注释:有些文章关键词部份设有大量广告语或与本文无关的内容,这样的文章关键 词我们不给与采集。可以将标题的采集方法复制到关键词采集中。四、采集内容第五、责任编辑双击责任编辑标签,选择“自定义固定格式的数据”,在固定的字符串选项中填写 自己的名称,点击确定,责任编辑设定完成。四、采集内容第六、信息来源双击责任编辑标签,选择“自定义固定格式的数据”,在固定的字符串选项中填写 信息来源,点击确定,信息来源设定完成。
  四、采集内容第七、分页在“页面内容分页区域/样式设置”中将分页部份代码输入其中,用(*)代替即 可。如下图: (注释:各站的分页代码不同,需要具体剖析,采集分页的文章在我们后台将成 为一篇通篇文章。建议少采集分页多的文章,影响用户体验。)四、采集内容规则填写完成后,返回至第一步“测试网址采集”。双击所采集到的任一文章地址。 则会自己弹出如下界面。(注释:建议多测试几篇文章,减少垃圾代码出现。)采集内容阶段完成,点击步入发布内容设置五、发布内容1、启动以下两项,点击“定义web在线发布到网站全局设置”。五、发布内容2、点击添加,选择phpcms2008 新闻发布模块 3、在“网站/cms根地址”:输入 4、点击“在动车外置浏览器中登陆”五、发布内容5、在地址栏输入: 6、输入用户名phpcms密码phpcms五、发布内容7、登录点击“确认登陆发布成功后即可关掉该窗口”,关掉此窗口。获得五、发布内容9、选择“系统设置”中的“添加栏目”,点击下一步8、登录本地后台(在浏览器中输入:。账号密码phpcms)五、发布内容10、输入栏目名称、栏目目录,点击确定,在本地后台会出现对应列表。11、点击获取列表后便可等对应ID,选择这次采集的对应列表。
  五、发布内容12、在配置名中输入要采集的栏目名称,点击保存配置。13、设置完成后点击保存。发布内容部份结束六、任务采集将刚才编撰好的规则保存后,程序则会手动跳转到主界面。右键点击设置好的任 务,选择开始采集。在采集完成后系统会手动提醒采集完成。七、导出数据采集数据在火车头\Data文件中。双击mdb格式文件,右键选择content选项,导出为Excel格式。七、导出数据建议将采集文档都置于一个文件夹里,有利于后续工作进行。七、导出数据打开导入的Excel文档,将ID、已采、已发、缩略图、PageUrl、处 理中等无关数据删掉,只保留“标题”、 “资讯内容”、“内容摘要”、 “信息关键词”、“meta关键词”、“meta描述”、“责任编辑”、“信息来源”。★在Excel中对采集文章进行最后筛选更改:1、删除内容缺位的文章。 2、删除所有标题中带有(图)(组图)(视频)的文章。 3、检查资讯内容中错乱代码,如有发觉错误借助ctrl+F对进行批量替换。七、导出数据导出数据库 打开后台,点击内容管理→资讯信息管理→批量导出资讯。选择须要导出采集信息的列表名称,将更改好的采集文档上传数据库,点击导出。导出数据部份完成

采集与发布带图片的文章

采集交流优采云 发表了文章 • 0 个评论 • 418 次浏览 • 2020-04-19 11:02 • 来自相关话题

  1怎样使用火车头采集器火车头采集器 7.6 免费版,功能有很多限制,但我已使用它实现了采集与发布(带图片、排版)。图片是通过采 集程序下载到本地, 放在一个约定好名子的文件夹中, 最后人工上传到服务器 DZ 程序运行目录下的 pic 目录下。 下 载火车头采集器 7.6 版本 LocoySpider_V7.6_Build20120912.Free.zip,解决后可运行。需要.NET 环境。 程序是 Discuz!X 2.5 GBK 版本。 核心工作有两部份:1、采集,2、 发布。 本文重点说怎么发布(带图片、排版), 简单说怎么采集。一、新建一个使用 UBB 格式的 Web 在线发布模块由于采集下来的文章内容是 HTML 格式,如:&lt;p&gt;正文&lt;/p&gt;这样带有 HTML 标签的文本。 而 DZ 论坛使用的是 UUB 格式,如:[p]正文[/p],所以在发布时要做一个手动转换。下面就是设置这个手动转 换功能。 如果你的文章发布的 DZ 门户,就不需要转换为 UBB. 1、 打开发布模块配置:2、 以软件里自带的 Discuz!X 2.0 论坛 为模板进行更改。我试过了可以正常住 Discuz!X 2.5 发布文章。
  3、 设置为:对 [标签: 内容]做 UBB 转换,如下图中的样子: 最后,另存为一个新的“发布模块” ,起一个新名子,后面要使用。24、在“内容发布参数”选项卡中更改: [标签: 内容] 的值可以用使用{0} 来代替。如下图:黄色框内的[标签:内容]替换成{0},如下图3第一部分工作就完成了。二、使用 Web 在线发布模块上面我新建了一个新的 Web 在线发布模块,下面就是使用它。 第一步:新一个“发布” ,操作如下图:4注意:请到峰会的后台更改设置,要求登陆时不需要输入验证码,才能登入成功,才能测试成功,记得之后要改回 来啊。 最后保存时要起个新名子。三、准备采集这里以列车自带的采集演示来说明 。鼠标右击“腾讯新闻”—“编辑任务” ,打开如下窗口。 如下图设置,使用前一步 建立 的“发布模块” ,可以把采集到的内容发布到峰会的某个栏目中。 设置如下图:5下边还有图:67对于采集工作,还有一些重要的设置,很重要。 如果你不是使用火车头自带的演示任务,而是自己新建采集任务,下面的内容就很重要。 下面的设置,是对采集的文章正文进行的设置。8“开始字符串”“结束字符串”是所有设置中最重要的内容,它拿来剖析页面的 HTML 源码,找出文章正文的开始 , 点与结束点。
  下图中使用的是火车头为腾讯打算默认值,不需要更改。 如果你不采集腾讯而采其它网站,这个就 要你自己看 HTML 源码来人工剖析了。 采集时,可选择性的过滤掉一些 HTML 标签,如&lt;script&gt;&lt;iframe&gt;, 如果你不知道要除去什么,就哪些也不用改,使用默认值吧。9下载的图片存目录设置 图片下载后被保存在: 火车头软件安装目录\Data\LocoySpider\80\ 文件夹中。 为什么叫 80,其实叫哪些都可以,但为了便捷管理火车头文章采集,这个腾讯采集任务编号是 80,所以放到 80 文件夹中。以后是 腾讯采集任务,采集下来图片都置于这儿,方便管理。 腾讯采集任务编号,请再前面一张图片中查看。10顾客通过浏览器访问我峰会的文章里的图片时, 统一访问服务器上 DZ 程序的根目录下的./pic/目录, 使用相对路径, pic 目录下边我们再新建一个 80 目录, 所以, 把火车头安装目录下的\Data\LocoySpider\中的 80 文件夹, COPY 到服务器 DZ 程序的根目录下的 pic 目录中, 这样,图片就储存在了:服务器 DZ 程序的根目录\pic\80\ 目录 同时 文章中的图片的地址是指向 ./pic/80/xxx.jpg 。
  文章就可以显示图片了。补充:后来经过实践,目录定为:/data/attachment/pic 章的“封面” ,这个路径是合适的。,好处是:为了通过程序取文章中的第一张图片做为文四、什么样的数据容易采集请看这个新闻列表: 有文章列表的、URL 地址有规律的文章火车头文章采集,容易采集。 采集时优先找 以上条件的文章进行采集。一般著名大网站都可以。 知名大网站页面的 HTML 源码太简约,方便人工剖析,找出文章正文起点与终点的 HTML 标记。. 查看全部

  1怎样使用火车头采集器火车头采集器 7.6 免费版,功能有很多限制,但我已使用它实现了采集与发布(带图片、排版)。图片是通过采 集程序下载到本地, 放在一个约定好名子的文件夹中, 最后人工上传到服务器 DZ 程序运行目录下的 pic 目录下。 下 载火车头采集器 7.6 版本 LocoySpider_V7.6_Build20120912.Free.zip,解决后可运行。需要.NET 环境。 程序是 Discuz!X 2.5 GBK 版本。 核心工作有两部份:1、采集,2、 发布。 本文重点说怎么发布(带图片、排版), 简单说怎么采集。一、新建一个使用 UBB 格式的 Web 在线发布模块由于采集下来的文章内容是 HTML 格式,如:&lt;p&gt;正文&lt;/p&gt;这样带有 HTML 标签的文本。 而 DZ 论坛使用的是 UUB 格式,如:[p]正文[/p],所以在发布时要做一个手动转换。下面就是设置这个手动转 换功能。 如果你的文章发布的 DZ 门户,就不需要转换为 UBB. 1、 打开发布模块配置:2、 以软件里自带的 Discuz!X 2.0 论坛 为模板进行更改。我试过了可以正常住 Discuz!X 2.5 发布文章。
  3、 设置为:对 [标签: 内容]做 UBB 转换,如下图中的样子: 最后,另存为一个新的“发布模块” ,起一个新名子,后面要使用。24、在“内容发布参数”选项卡中更改: [标签: 内容] 的值可以用使用{0} 来代替。如下图:黄色框内的[标签:内容]替换成{0},如下图3第一部分工作就完成了。二、使用 Web 在线发布模块上面我新建了一个新的 Web 在线发布模块,下面就是使用它。 第一步:新一个“发布” ,操作如下图:4注意:请到峰会的后台更改设置,要求登陆时不需要输入验证码,才能登入成功,才能测试成功,记得之后要改回 来啊。 最后保存时要起个新名子。三、准备采集这里以列车自带的采集演示来说明 。鼠标右击“腾讯新闻”—“编辑任务” ,打开如下窗口。 如下图设置,使用前一步 建立 的“发布模块” ,可以把采集到的内容发布到峰会的某个栏目中。 设置如下图:5下边还有图:67对于采集工作,还有一些重要的设置,很重要。 如果你不是使用火车头自带的演示任务,而是自己新建采集任务,下面的内容就很重要。 下面的设置,是对采集的文章正文进行的设置。8“开始字符串”“结束字符串”是所有设置中最重要的内容,它拿来剖析页面的 HTML 源码,找出文章正文的开始 , 点与结束点。
  下图中使用的是火车头为腾讯打算默认值,不需要更改。 如果你不采集腾讯而采其它网站,这个就 要你自己看 HTML 源码来人工剖析了。 采集时,可选择性的过滤掉一些 HTML 标签,如&lt;script&gt;&lt;iframe&gt;, 如果你不知道要除去什么,就哪些也不用改,使用默认值吧。9下载的图片存目录设置 图片下载后被保存在: 火车头软件安装目录\Data\LocoySpider\80\ 文件夹中。 为什么叫 80,其实叫哪些都可以,但为了便捷管理火车头文章采集,这个腾讯采集任务编号是 80,所以放到 80 文件夹中。以后是 腾讯采集任务,采集下来图片都置于这儿,方便管理。 腾讯采集任务编号,请再前面一张图片中查看。10顾客通过浏览器访问我峰会的文章里的图片时, 统一访问服务器上 DZ 程序的根目录下的./pic/目录, 使用相对路径, pic 目录下边我们再新建一个 80 目录, 所以, 把火车头安装目录下的\Data\LocoySpider\中的 80 文件夹, COPY 到服务器 DZ 程序的根目录下的 pic 目录中, 这样,图片就储存在了:服务器 DZ 程序的根目录\pic\80\ 目录 同时 文章中的图片的地址是指向 ./pic/80/xxx.jpg 。
  文章就可以显示图片了。补充:后来经过实践,目录定为:/data/attachment/pic 章的“封面” ,这个路径是合适的。,好处是:为了通过程序取文章中的第一张图片做为文四、什么样的数据容易采集请看这个新闻列表: 有文章列表的、URL 地址有规律的文章火车头文章采集,容易采集。 采集时优先找 以上条件的文章进行采集。一般著名大网站都可以。 知名大网站页面的 HTML 源码太简约,方便人工剖析,找出文章正文起点与终点的 HTML 标记。.

火车头采集多张图片

采集交流优采云 发表了文章 • 0 个评论 • 462 次浏览 • 2020-04-19 11:02 • 来自相关话题

  相信好多刚开始学习火车头的菜鸟们火车头怎么采集文章图片,也和稀泥一样使用的是火车头免费版,然后为我们的zencart网站进行一些产品数据的采集。但是在写采集规则的时侯,会时常遇到的一个问题就是怎么采集一个产品的多张图片。
  采集一张图片的规则,相信你们就会写了。那么多张图片呢?如何写呢?其实,这个和我们写采集一张图的是一样的,只是在一些细节里面设置正确就ok了。下面我就自己采集的一个站点给诸位做一下讲解。
  我们晓得要采集一个网站的图片,那么我们肯定是在火车头使用img标签来进行的。
  在上图中是标记下来的1和2是两张不同的图片,但是我们仔细的观察可以发觉img标签中火车头怎么采集文章图片,如果把图片的源地址和alt去除的话,那么其他的都是一样的。而火车头有一个标签循环使用的功能,这就为我们采集多张图片提供了一个便捷。我如今把源码粘贴下来:
  <img src="http://www.simplydresses.com/_ ... ot%3B border="0" alt="Long One Shoulder Formal Dress P641 TI-P641" />
  然后在火车头中进行采集规则的编撰:
  
  在数据提取方法中,我们选择了“正则提取”,而“正则匹配内容”中填写如下:
  <img src="http://www.simplydresses.com/_img/PRODUCTS/[参数]/[参数]"(*)width="(*)"(*)border="(*)"(*)alt="(*)"(*)/>
  组合结果中填写如下:
  <img src="http://www.simplydresses.com/_img/PRODUCTS/[参数1]/[参数2]"/>
  其中正则匹配内容第一个“参数”对应的是组合结果中的“参数1”,正则匹配内容第二个“参数”对应的是组合结果中的“参数2”,而其中的“*”是任意匹配的意思。
  这个是导入的结果。
  Ok,以上我们可以看见要采集多张图片,只要我们设置好了采集标签,然后此标签可以循环使用,就可以达到我们要的结果了…… 查看全部
  相信好多刚开始学习火车头的菜鸟们火车头怎么采集文章图片,也和稀泥一样使用的是火车头免费版,然后为我们的zencart网站进行一些产品数据的采集。但是在写采集规则的时侯,会时常遇到的一个问题就是怎么采集一个产品的多张图片。
  采集一张图片的规则,相信你们就会写了。那么多张图片呢?如何写呢?其实,这个和我们写采集一张图的是一样的,只是在一些细节里面设置正确就ok了。下面我就自己采集的一个站点给诸位做一下讲解。
  我们晓得要采集一个网站的图片,那么我们肯定是在火车头使用img标签来进行的。
  在上图中是标记下来的1和2是两张不同的图片,但是我们仔细的观察可以发觉img标签中火车头怎么采集文章图片,如果把图片的源地址和alt去除的话,那么其他的都是一样的。而火车头有一个标签循环使用的功能,这就为我们采集多张图片提供了一个便捷。我如今把源码粘贴下来:
  <img src="http://www.simplydresses.com/_ ... ot%3B border="0" alt="Long One Shoulder Formal Dress P641 TI-P641" />
  然后在火车头中进行采集规则的编撰:
  
  在数据提取方法中,我们选择了“正则提取”,而“正则匹配内容”中填写如下:
  <img src="http://www.simplydresses.com/_img/PRODUCTS/[参数]/[参数]"(*)width="(*)"(*)border="(*)"(*)alt="(*)"(*)/>
  组合结果中填写如下:
  <img src="http://www.simplydresses.com/_img/PRODUCTS/[参数1]/[参数2]"/>
  其中正则匹配内容第一个“参数”对应的是组合结果中的“参数1”,正则匹配内容第二个“参数”对应的是组合结果中的“参数2”,而其中的“*”是任意匹配的意思。
  这个是导入的结果。
  Ok,以上我们可以看见要采集多张图片,只要我们设置好了采集标签,然后此标签可以循环使用,就可以达到我们要的结果了……

火车头采集器企业版无限制功能软件 SEO推广优化文章采集必备软件

采集交流优采云 发表了文章 • 0 个评论 • 361 次浏览 • 2020-04-19 11:00 • 来自相关话题

  本店最新让利活动!买一送一!购买本店任何一件宝贝(虚拟商品类)5星好评后可以免费送相同价钱或高于商品价的商品一个!超值!!!!!!!!!!!(送的商品亲须要拍下付款,邮件留言或备注留下支付宝账号就可以了,工作人员会在12小时内退还到亲支付宝账号内.)
  火车头采集器企业版vip全功能使用|火车头采集器(拍下本软件附送教程)
  亲,这一款是火-车-头7.6版本的,企业版的,破-解-版的。
  下面是视频教程链接,亲可以先看教程,再决定是否须要,同时也可以直接百度"火车头采集器"seo文章采集软件,查看相关功能和作用:
  亲,购买前请知晓,本人只卖软件,自己也不会使用这款软件,所以使用过程中的问题seo文章采集软件,我帮不了您,购买前请谨慎考虑,谢谢!
  火车头实战使用视频教程
  提取密码:m51k
  官方图文教程链接:
  1、规则自定义 – 通过采集规则的定义,可以搜索所有网站采集几乎任何类型的信息。
  2、多任务,多线程 – 可以同时进行多个信息采集任务,每个任务可以使用多个线程。
  3、所见即所得 - 任务采集过程所见即所得,过程中遍历的链接信息、采集信息、错误信息等就会及时的反映在软件界面中。
  4、数据保存 - 数据边采集边手动保存到关系数据库中,并且数据结构才能手动适应,软件可以依据采集规则手动创建数据库,以及其中的表和数组,也可以通过导库形式灵活的将数据保存到顾客已有的数据库结构中。
  5、断点续采 – 信息采集任务可以在停止后从断点开始继续采集,从此你用不再害怕你的采集任务意外中断了。
  6、网站登录 - 支持网站Cookie,支持网站可视化登陆,即使登陆时须要验证码的网站也能采集。
  7、**任务 – 通过这个功能可以使你的采集任务定时、定量或则始终循环执行。
  8、采集范围限制 – 可以依据采集的深度和网址的标示来限制采集的范围。
  9、文件下载 - 可以将采集到的二进制文件(诸如:图片、音乐、软件、文档等等)下载到本地c盘或则采集结果数据库中。
  10、结果替换 – 可以将采集的结果按照规则替换成你定义的内容。
  11、条件保存 – 可以按照某个条件来决定这些信息保存,那些信息过滤。
  12、过滤重复内容 - 软件可依据用户设置和实际情况对重复内容和重复网址手动删掉重复内容。
  13、特殊链接辨识 – 运用此功能可以将用JavaScript动态生成的链接或其他更奇特的联接辨识下来。
  14、数据发布 - 可以通过自定义插口,将已采集的结果数据发布到任意的内容管理系统和指定数据库中。现在已支持的目标发布媒体包括:数据库(access, sql server,my sql,oracle) ,静态htm文件。
  15、预留编程插口 - 定义多个编程插口,用户可以在风波中借助PHP,C#语言进行编程,扩充采集功能。
  1、支持所有网站编码:完美支持采集所有编码格式的网页,程序还可以手动辨识网页编码。
  2、多种发布形式:支持目前所有主流和非主流的CMS,BBS等网站程序,通过系统的发布模块能实现采集器和网站程序间的完美结合。
  3、全手动:无人值守工作,配置好程序后,程序将根据您的设置手动运行,完全无需人工干预。 查看全部

  本店最新让利活动!买一送一!购买本店任何一件宝贝(虚拟商品类)5星好评后可以免费送相同价钱或高于商品价的商品一个!超值!!!!!!!!!!!(送的商品亲须要拍下付款,邮件留言或备注留下支付宝账号就可以了,工作人员会在12小时内退还到亲支付宝账号内.)
  火车头采集器企业版vip全功能使用|火车头采集器(拍下本软件附送教程)
  亲,这一款是火-车-头7.6版本的,企业版的,破-解-版的。
  下面是视频教程链接,亲可以先看教程,再决定是否须要,同时也可以直接百度"火车头采集器"seo文章采集软件,查看相关功能和作用:
  亲,购买前请知晓,本人只卖软件,自己也不会使用这款软件,所以使用过程中的问题seo文章采集软件,我帮不了您,购买前请谨慎考虑,谢谢!
  火车头实战使用视频教程
  提取密码:m51k
  官方图文教程链接:
  1、规则自定义 – 通过采集规则的定义,可以搜索所有网站采集几乎任何类型的信息。
  2、多任务,多线程 – 可以同时进行多个信息采集任务,每个任务可以使用多个线程。
  3、所见即所得 - 任务采集过程所见即所得,过程中遍历的链接信息、采集信息、错误信息等就会及时的反映在软件界面中。
  4、数据保存 - 数据边采集边手动保存到关系数据库中,并且数据结构才能手动适应,软件可以依据采集规则手动创建数据库,以及其中的表和数组,也可以通过导库形式灵活的将数据保存到顾客已有的数据库结构中。
  5、断点续采 – 信息采集任务可以在停止后从断点开始继续采集,从此你用不再害怕你的采集任务意外中断了。
  6、网站登录 - 支持网站Cookie,支持网站可视化登陆,即使登陆时须要验证码的网站也能采集。
  7、**任务 – 通过这个功能可以使你的采集任务定时、定量或则始终循环执行。
  8、采集范围限制 – 可以依据采集的深度和网址的标示来限制采集的范围。
  9、文件下载 - 可以将采集到的二进制文件(诸如:图片、音乐、软件、文档等等)下载到本地c盘或则采集结果数据库中。
  10、结果替换 – 可以将采集的结果按照规则替换成你定义的内容。
  11、条件保存 – 可以按照某个条件来决定这些信息保存,那些信息过滤。
  12、过滤重复内容 - 软件可依据用户设置和实际情况对重复内容和重复网址手动删掉重复内容。
  13、特殊链接辨识 – 运用此功能可以将用JavaScript动态生成的链接或其他更奇特的联接辨识下来。
  14、数据发布 - 可以通过自定义插口,将已采集的结果数据发布到任意的内容管理系统和指定数据库中。现在已支持的目标发布媒体包括:数据库(access, sql server,my sql,oracle) ,静态htm文件。
  15、预留编程插口 - 定义多个编程插口,用户可以在风波中借助PHP,C#语言进行编程,扩充采集功能。
  1、支持所有网站编码:完美支持采集所有编码格式的网页,程序还可以手动辨识网页编码。
  2、多种发布形式:支持目前所有主流和非主流的CMS,BBS等网站程序,通过系统的发布模块能实现采集器和网站程序间的完美结合。
  3、全手动:无人值守工作,配置好程序后,程序将根据您的设置手动运行,完全无需人工干预。

火车头采集:快速采集网页文章教程

采集交流优采云 发表了文章 • 0 个评论 • 416 次浏览 • 2020-04-18 11:00 • 来自相关话题

  
  1、添加起始网址:按照给出的网址打开腾讯新闻,发现新闻页面是以列表分页的方式诠释的,那么首先就要把列表页的地址作为起始网址先添加到列车采集器中。
  这里我们以添加6页为例,我们可以点开这6个分页的网址一条条的添加到采集器中。但是假如我们要添加的网址好多火车头文章采集,几百或上千条,那么一条条的进行添加就过分冗长,所以我们可以试着找出网址之间的变化规律火车头文章采集,进行批量添加。
  我们分别打开第一页、第二页……观察其网址变化采集器,可以发觉不仅第一页之外,后面的分页网址都是以“_数字”递增的规律变化的,如下:
  那么我们首先将不符合规律的第一页网址“”添加到起始网址的列表中如下:
  第一页添加好了,那么前面的列表分页我们选择向导添加——批量网址添加,用一个通用的格式手动产生所须要的网址,网址中的变量就可以用地址参数来取代,地址参数的规律须要我们设置一下,上述规律就是从2开始,以1为递增量,共计5项。填写完成后列车采集器V9手动生成预览如下图,点击确定后起始网址(这里就是列表页网址)就添加好了。
  2、获取内容页网址:通过观察新闻页面可以发觉列表分页的下一级就是内容页,那么内容页网址就是一级网址(列表页为0级网址),这里我们使用最简单的“自动获取地址链接”的方法,通过剖析列表页面的源代码,可以找出新闻内容页地址所在的区域,其开始字符为:“<div class="mod newslist">”,结束字符为:“</div>”。填写以后列车采集器会在这个区域内手动辨识地址链接,我们点击网址采集测试就可以看见我们设置的规则采集到列表页和内容页网址是否正确和完整。 查看全部
  
  1、添加起始网址:按照给出的网址打开腾讯新闻,发现新闻页面是以列表分页的方式诠释的,那么首先就要把列表页的地址作为起始网址先添加到列车采集器中。
  这里我们以添加6页为例,我们可以点开这6个分页的网址一条条的添加到采集器中。但是假如我们要添加的网址好多火车头文章采集,几百或上千条,那么一条条的进行添加就过分冗长,所以我们可以试着找出网址之间的变化规律火车头文章采集,进行批量添加。
  我们分别打开第一页、第二页……观察其网址变化采集器,可以发觉不仅第一页之外,后面的分页网址都是以“_数字”递增的规律变化的,如下:
  那么我们首先将不符合规律的第一页网址“”添加到起始网址的列表中如下:
  第一页添加好了,那么前面的列表分页我们选择向导添加——批量网址添加,用一个通用的格式手动产生所须要的网址,网址中的变量就可以用地址参数来取代,地址参数的规律须要我们设置一下,上述规律就是从2开始,以1为递增量,共计5项。填写完成后列车采集器V9手动生成预览如下图,点击确定后起始网址(这里就是列表页网址)就添加好了。
  2、获取内容页网址:通过观察新闻页面可以发觉列表分页的下一级就是内容页,那么内容页网址就是一级网址(列表页为0级网址),这里我们使用最简单的“自动获取地址链接”的方法,通过剖析列表页面的源代码,可以找出新闻内容页地址所在的区域,其开始字符为:“<div class="mod newslist">”,结束字符为:“</div>”。填写以后列车采集器会在这个区域内手动辨识地址链接,我们点击网址采集测试就可以看见我们设置的规则采集到列表页和内容页网址是否正确和完整。

最详尽火车头数据采集系统DedeCMS发布文章攻略

采集交流优采云 发表了文章 • 0 个评论 • 352 次浏览 • 2020-04-18 11:00 • 来自相关话题

  
  
  搜索引擎不喜欢复制的东西更不喜欢数据采集,但有时候碰到一些情况采集器,比如网站由于改版、换数据库、换管理程序等,需要把网路数据采集或网站备份。提醒诸位:
  ①做任何操作之前一定要备份数据库并打包原站;
  ②对排行较好的网站不建议对网站管理系统进行这样大的更改;
  ③对新站不建议采集别人网站的信息,会增加新站特殊权重给分。
  前段时间做一个老网站的改版方案火车头采集文章,由于管理系统和数据库都更换,决定采用对原网站数据采集的解决方案。新手进行网站改版须要把握的建站知识和SEO知识是特别多的,这些经验用来跟你们分享。
  
  网站基本情况
  这个站原先有排行,收录量也比较多,优化也比较好,制作风格和吖七太相像,代码简约,前端大气,标签运用还可以,只是网站优化方式带点黑帽。用的asp程序后台,数据库是access,要换成php,数据库是mysql。
  网站改版用的软件工具
  
-EditPlus或DreamWear(代码编辑器);
-APMServ(本地ASP、PHP环境);
-Fiddler Web汉化版(web数据抓包);
-火车头(LocoySpider)采集7.6(破解稳定版、数据采集);
-DedeCMS V5.7(后台内容管理程序);
-其他辅助工具。
  网站借助火车头采集改版详尽步骤1.本地环境搭建、安装DedeCMS、安装Fiddler Web抓包工具、安装火车头采集7.6等软件
  安装方式很简单,相关文章《本地安装PHP环境 测试织梦CMS》,《如何安装dedecms织梦详解》。
  提供部份软件下载链接: 密码:3n7e
  2.火车头设置(重点内容)
  官方说明较简单火车头采集文章,新手采集网站数据一定要多看多实践。打开火车头采集工具,新建一个任务和分组。 查看全部

  
  
  搜索引擎不喜欢复制的东西更不喜欢数据采集,但有时候碰到一些情况采集器,比如网站由于改版、换数据库、换管理程序等,需要把网路数据采集或网站备份。提醒诸位:
  ①做任何操作之前一定要备份数据库并打包原站;
  ②对排行较好的网站不建议对网站管理系统进行这样大的更改;
  ③对新站不建议采集别人网站的信息,会增加新站特殊权重给分。
  前段时间做一个老网站的改版方案火车头采集文章,由于管理系统和数据库都更换,决定采用对原网站数据采集的解决方案。新手进行网站改版须要把握的建站知识和SEO知识是特别多的,这些经验用来跟你们分享。
  
  网站基本情况
  这个站原先有排行,收录量也比较多,优化也比较好,制作风格和吖七太相像,代码简约,前端大气,标签运用还可以,只是网站优化方式带点黑帽。用的asp程序后台,数据库是access,要换成php,数据库是mysql。
  网站改版用的软件工具
  
-EditPlus或DreamWear(代码编辑器);
-APMServ(本地ASP、PHP环境);
-Fiddler Web汉化版(web数据抓包);
-火车头(LocoySpider)采集7.6(破解稳定版、数据采集);
-DedeCMS V5.7(后台内容管理程序);
-其他辅助工具。
  网站借助火车头采集改版详尽步骤1.本地环境搭建、安装DedeCMS、安装Fiddler Web抓包工具、安装火车头采集7.6等软件
  安装方式很简单,相关文章《本地安装PHP环境 测试织梦CMS》,《如何安装dedecms织梦详解》。
  提供部份软件下载链接: 密码:3n7e
  2.火车头设置(重点内容)
  官方说明较简单火车头采集文章,新手采集网站数据一定要多看多实践。打开火车头采集工具,新建一个任务和分组。

官方客服QQ群

微信人工客服

QQ人工客服


线