解决方案:优采云采集器 使用流程说明.ppt 42页

优采云 发布时间: 2022-12-21 03:52

  解决方案:优采云采集器 使用流程说明.ppt 42页

  五、发布内容 1、启动以下两项,点击“定义web在线发布到网站全局设置”。 5.发布内容 2.点击添加,选择php cms 2008新闻发布模块 3.在“网站/ cms根地址”中输入: 4.点击“在有优采云内置浏览器中登录” 5.发布内容 5.在地址栏中输入: 6.输入用户名 php cms密码 php cms 5.发布内容 7.登录 点击“发布成功后确认登录关闭此窗口”关闭此窗口。 获取 5.发布内容 8.登录本地后台(浏览器输入:账号密码 php cms ) 9.在“系统设置”中选择“添加栏目”,点击下一步 5.发布内容 10.输入栏目名称,列目录,点击确定,本地后台会出现对应的列表。 11、点击获取列表后,可以等待对应的ID,为本次采集选择对应的列表。 5.发布内容 12.在配置名称中输入要采集的栏目名称,点击保存配置。 13. 设置完成后,点击保存。 发布内容部分结束 6. 任务采集将刚刚编写的规则保存后,程序会自动跳转到主界面。 右键单击设置任务并选择 Start 采集 。 采集完成后,系统会自动提醒您采集完成。 7、导出数据采集数据在优采云\数据文件中。 双击mdb格式文件,右键选择内容选项,导出为Excel格式。

  

  7.导出数据 建议将所有采集的文档放在一个文件夹中,有利于后续工作。 7、导出数据打开导出的Excel文档,删除ID、采集、发送、缩略图、PageUrl、处理等无关数据,只保留“标题”、“信息内容”、“内容概要”、“信息关键词”、 “元关键词”、“元描述”、“责任编辑”、“信息源”。 ★采集文章在Excel中的最终筛选和修改: 1.删除缺失内容的文章。 2、删除所有标题中带有(图片)(组图)(视频)的文章。 3、查看信息内容中的乱码,发现有错,使用ctrl+F批量替换。 7、导出数据导入数据库 打开后台,点击内容管理→信息管理→批量导入信息。 选择需要导入采集信息的列表名称,将修改后的采集文档上传至数据库,点击导入。 数据导出部分完成。 讲解优采云采集器的使用过程。 目录 1.软件安装 2.新建站点 3.采集URL 4.采集内容 5.发布内容 6.任务采集7.导出数据需要安装软件: (1)WAMP5-v1.7.4 (2)php cms (3) V2009SP4_Buil ( 优采云 采集器 ) 注:每次采集前需要打开wamp5,使用优采云采集。

  一、软件安装 1、wamp5_1.7.4安装完成后,解压php cms ,将php cms 1剪切出来放到D:\wamp\www\目录下,将php cms 1重命名为php cms 。 2、打开WAMP5,在PHP设置栏中启动短开标签。 3.安装PHP并进入。 4.解压V2009SP4_BuilModule下php cms 2008-090109文件下的locoy.php,复制到D:\wamp\www\php cms 。 ? 安装部分完成 1.软件安装 打开优采云软件(.exe)界面如下图: 2.新建站点 第一步:新建站点(如图所示)右) 2.新建站点 Step 2:点击“新建站点”后,出现如下界面。 填写站点名称和站点 URL,然后单击“更新” 3.采集URL 新创建的站点将排列在窗口左侧的“站点和任务列表”中。 右击新建的站点,点击“从该站点新建任务”,出现如下界面。 以这个列表为例: /list/zx_yjdt.shtml 点击向导添加后,会出现如下界面: 批量/多页 3.采集网址 3.采集网址的单个网址选项下: 3. 填写后在采集URL中,点击“完成”。

  

  会出现如下界面: 注意事项: 1、选择目标站点时,最好选择文章更新快、文章质量高(广告、图片、链接、视频、flash等少)、内容丰富的站点内容丰富,行业网站权威。 2.不要采集太迟的文章。 (例:2008年和2009年的文章) 3、在选榜单的过程中,最好以站点为单位,而不是以某一个榜单为单位,这样采集效率会更高。 4、选择目标站时尽量不要选择动态页面,多选择可以用数字或字母(*)代替的静态页面。 5、如果在采集过程中遇到不需要采集的文章,可以通过“不收录”功能过滤掉。 3.采集网址 完成采集网址的步骤后,点击“开始测试网址采集”按钮。 会出现如下界面: 3. 确认采集连接无误后,点击“返回修改设置”,会出现如下界面: 3. 采集采集选择“第2步:采集采集如下图会出现界面。 4.采集内容 4.采集内容 选择“添加标签”后,出现如下界面。 在标签名称中添加“标题”、“信息内容”、“内容概要”、“信息关键词”、“元关键词”、“元描述”、“责任编辑”、“信息来源”,其他删除所需标签名称,出现如下界面。 4.采集内容 下面分别介绍“标题”、“内容概要”、“信息关键词”、“元关键词”、“元描述”、“责任编辑”、“信息来源”、“信息内容”采集标签规则。 4、采集内容采集页面以/2011/06/4.shtml为例。 一、标题查看本页的“源文件”,搜索标题代码,找到文章内容。如下图所示: 注:一般情况下,搜索可以采集到我们需要的标题标签,但是因为文章的代码设计了不确定的其他网站标识和列表分类的信息,所以选择

  解决方案:【智能模式】如何采集需要登录才能查看的网页

  在优采云采集器的智能模式下,如果遇到需要登录才能查看内容的网页,我们可以按照下图所示的步骤进行预登录,然后顺利完成数据采集。

  具体步骤如下:

  第一步:创建智能模式任务(点此查看如何创建任务)

  

  第 2 步:单击预登录按钮

  第三步:输入您的帐号和密码登录网站

  第四步:点击“登录完成”

  如下所示:

  

  温馨提示:

  用户输入的所有信息均存储在本地,优采云采集器不会将用户的任何个人信息上传存储到其他网站。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线