火车头采集器教程之网站采集规则编撰
优采云 发布时间: 2020-04-27 11:00我的中心游戏 *敏*感*词*广场 学习资料 师大人家 师大微博 群组 学生门户 QQ群 搜索群组 请输入搜索内容【师大搜索】 群组 网站 采集 火车头采集器 火车头采集器教程之网站采集规则编撰 返回列表 查看:579 复制链接]admin 师大管理员 礼物信息 赠送礼物:4 在线聊天加为好友 个人空间 发表于 2010-5-20 09:39 打印首先,我们先了解一下火车头采集器(LocoySpider)V3的基本功能, 我们明天所用到的火车头的基本功能如下 1、新建站点 2、新建任务 3、数据发布形式之“保存到软件数据库” 当然本教程是围绕“CMS采集规则编撰”这一主题展开的,所以不可能面面俱到的陈表火车头采集器的功能,在此请见谅! 现在我们结合实战来给你们讲解 一、新建站点1、功能:对同一站点具有“相同采集内容规则”的采集任务进行聚合 2、好处: a、分类明确,便于查询、调用; b、在站点下构建的采集任务默认承继站点采集内容规则,避免了重复编撰采集规则的麻烦; 3、实战: 我们以“每日经济新闻”为例进行讲解,首先我们打开其站点 htt ,浏览其中不同栏目的文章发现这个站点的文章模式(模板)几乎是完全一致的 (当然,其中有一点小小的区别,就是有的文章段落是靠段落标记 布局的,那么残余的DIV标记太可能会破坏你原先的布局,此种情况的解决办法我们之后再继续讨论,这里我就不再赘言 好,现在我们有理由相信,我们构建一个站点的“内容规则”,就可以将这个网站的所有栏目囊括了。
点选新建按键,选择新建站点“每日经济新闻” 我们,先进行“标题”规则的编撰 标题标签规则的编撰 注意:标签起始字符串的确认,一定要注意两点,一、唯一性;二、贴身原则,即尽可能紧贴目标采集区域; 开始字符串: 结束字符串: 注意:确认字符串的唯一性:复制字符串,点按快捷键“Ctrl+ F”进行查找,如果字符串为惟一,会有提示信息“找不到XXX”的提 Google冷凝器 数据采集 蒸发器 分配器 找回密码 注册成为 师大人 帐号 UI 用户名/Email 记住密码 密码 登录 火车头采集器教程之网站采集规则编撰 Html 标签排除:我们选择“全选”。 注意:然对于“空格(占位符) ”我们可以有所保留,因为有些站点的“长标题”的分隔不是靠标点或则正宗意义上的空白,而是 靠“占位符 ”进行分隔的,那么这时候我们就要保留“空格(占位符) ”选项。(课后看吧) 此时我们可以以点代面,直接进行“典型页面”的采集测试,测试一下采集效果,满意后,我们接下来进行文章内容的规则编 文章内容标签规则的编撰开始字符串:
iframeHt ml 标签排除:此时我们要保留拿来界定段落的一下常用字符串“ 结束字符串:[ 200 Ht ml 标签排除:我们选择“全选”。(测试) 时间标签编撰规则 要点同上。 开始字符串:
iframeHt ml 标签排除:我们选择“全选”。(测试) 出处标签尺寸的编撰 此值,一般来说,我们默认为我们采集的目标网站,使用“固定格式的数据”进行设置,但是,你若果为了更好的彰显贵网站的 版权意识,那么,你在对目标网站转载的文章进行采集设置的时侯,可以进行相应调整,此处不做赘言。 好了,整个站点的“内容规则”我们设置完毕,下面将进行,采集任务的设置。 二、新建采集任务在刚才构建的采集站点上点击滑鼠右键,选择“从该站点新建任务”,,在弹出的对话框里我们察看一下“内容规则”,结果正如前 边所说“在站点下构建的采集任务默认承继站点采集内容规则”,好了,我们就可以直接编撰“采集网址”的规则了。 “采集网址深度”标签的编撰 为了灵活便捷,此项操作,我们通常都在文章的列表页面进行操作,所以我们可采用其默认值“1”,对于更深度的采集我们以 后的教程中进行探讨,此处不做赘言。 开始采集网址规则的编撰 火车头采集器教程之网站采集规则编撰 点选“向导添加”在弹出的对话框中有三个选项“单页网址”、“批量/多页”、“文本导出”,一般情况火车头采集教程,我们不会用到“文本导出”方 此处仅对前两种采集方式进行探讨。我们先进行“单页网址”的设置,此处我们选择“地产”栏目进行学习。
列表页面网址为 htt 74,复制到文本域中,点选“添加”按钮,并“完成添加”。 回到“新建任务”—“采集网址”出,进行“页面内选取区域采集网址”设置 从:align= 'left 到:class=right_font 测试,结果40页文章页面。。。全部采集测试通过,,满意,,(此处我们不进行采集)继续往下学习。好我们下边学习“批量/ 为了确定列表网址的变量,我们进行如下操作:1、我们在网页中“点选”“下一页”,,发现地址栏网址:htt 74&page= 74& amp;page= 74& page= 58; 4、再将键盘“指向”“首页”发现浏览器左下方状态栏显示地址为http:/ 74& page= 74&page= 74&page= 74&page= 58 http: 74&page= ;”为其列表网址的变量,那么我么可以设定如下:多页类似地址网址方式为:htt 数字变化范围从1到58,间隔倍数为1;点选“添加”按钮,并完成添加。 此处的“页面内选取区域采集网址”设置同“单页网址”“页面内选取区域采集网址”的设置,此处不做赘言。
点选“开始测试网址”,(这个过程太长,我暂停了视频录制) 当然,在实际操作当中,如果数据量大,我们也可以不去测试,直接采集,即便是因为规则的不完全适用性而导致一部分数 据的遗失,我想也是可以忽视的。 此处,我只选择了2页进行采集 测试结果共有80页内容页面。 下一步骤:“数据发布形式”设置 回复引用 举报 返回底部 返回列表 wap CP备09056220号;闽ICP备10028594号 GMT+8,2011-4-6 09:55 0.155204second(s), 27 queries 我们选定方法一:“保存到软件数据库”,同时,选取形式三“Web在线发布到网站”的“使用自定义发布形式”,“自定义分类I D”选择3,给任务命名为“地产”火车头采集教程,,并“保 存,更新”采集任务,鉴于我们教程刚刚开始,就不做深入学习。 回到火车头主界面,在“地产”任务上点击滑鼠右键,选择“开始”,即可完成采集。 采集数据会手动发布到形式三所指向的网站的指定栏目( ,同时保存到:火车头安装目录/ DATA/ 序号- 任务名/ Spi der Resul .mdb的数据库中。 哦,,昨天net 对我的错误提示了我一下,,, 3个小时要写文案,录像,还得采集信息到我的网站,晕倒了N次,,,写的苏州粗了,,完全是凭感觉写的,,让你们云里 雾里的一头雾水,不好意思阿,,请见谅!!!: L,现在更正以下: 这里的方法一、方式三是并列关系的,,可以同时选,也可以任选其二,,,如果你没有在发布模块的话,就直接采集到 本地软件数据库即可。
“本地软件数据库”是谷歌Access的,我们可以打开一下数据库对数据进行一下浏览查验。 至于方法三“Web在线发布到网站”,我会在此后的教程中进行讲解,希望你们就能耐心等待。 好了,,本教程到此为止!下一节课,再见!!! 收藏0 分享0 楼主热帖峰会新帖 中国移动通信集团福建*敏*感*词*德化分公司急聘信息 2011年晋江移动分公司急聘信息(报名截至至3月20日) 2011年长乐市中小学招录师范专业本本科毕业生公告 2011年将乐县教育系统补充班主任公开急聘工作方案 大田县2011年中中学新任班主任公开考试急聘方案 关于2011年建瓯市公开选聘农村中小学班主任进城任教的通知 福建师范大学2011届毕业生信息及辅导员联系方法 4月9日2011年福建省师范专业毕业生供需见面会暨福建师范大学小型校园供需见面会 04月06日 签到记录贴 后期宣传 2011年顺昌县中小学班主任急聘职位简章 2011年武夷山市中小学班主任急聘简章 福建师范大学中学生门户祝全体师生新年快乐!万事如意! 上一主题|下一主题 福建师范大学中学生门户访问统计: 2010广告合作 声明:本站部份内容来自网路,如侵害您版权请与本站联系,即行删掉。 火车头采集器教程之网站采集规则编撰