干货教程:优采云采集器采集文章教程

优采云 发布时间: 2022-12-13 21:41

  干货教程:优采云采集器采集文章教程

  有时我们看到一个网站的一个文章,想把这些文章保存下来,一个一个复制保存很麻烦,这时候就需要用到优采云 采集器已保存文章采集。以下是如何使用 优采云采集器采集文章。

  战略目标步骤 1 的细分

  第一步是采集网站,下载优采云采集器后打开,新建一个任务,任务名称可以不填。将需要 采集 的 网站文章 列表页面 URL 添加到起始 URL。从图中可以看出,列表页有34页,每页有N篇文章文章。

  2个

  列表页会有一级URL,添加多级URL得到二级URL(文章页面URL)

  3个

  设置分页获取列表的三个地方:分页源码的前后和中间位置。这一步是用来获取列表页链接的,因为有34个列表页。保存设置。

  4个

  URL获取选项,这一步用于获取列表页上方文章页面的链接,根据自己的需要设置要截取的部分,根据结构设置是否收录某些字符网址。为空表示不限制,设置后保存。

  5个

  设置链接采集规则后,可以测试URL,根据测试结果调整规则。看图可以看到采集链接规则成功采集从最开始的链接到综合列表页再到列表页的文章页面链接。

  6个

  第二步是采集的内容。首先修改标题规则,在页面源代码中找到标题的代码,取标题前后的代码截取标题。节省。

  7

  采集 修改内容的规则与标题规则类似,也是在源码中找到的内容前后的代码。这里的内容中还会有一些其他的html标签,所以要加一个html标签排除的规则。

  

  8个

  完成后,测试看结果,从测试结果调试规则,直到测试结果是你想要的。

  9

  第三步是采集导出。在前面的步骤1和2中设置规则,最后导出文章。先做一个导出的模板。

  10

  然后选择第二种方式,将每一个文章记录成txt文本,选择保存位置,选择刚才制作的导出模板作为模板。保存的文件名以 文章 的标题命名。其他默认,保存。

  11

  勾选 采集URL、采集Content、Publish 3个复选框,然后启动采集。完成后会在刚才保存的文件夹中自动生成文字。

  12

  优采云采集器采集文章教程到此结束,由于每个网站都不一样,所以这里只能用一个网站Demo而已一种思维方式,我采集文章仍然需要灵活。

  结束笔记

  相关下载

  优采云时间表

  优采云门票

  

  优采云时间表

  优采云 门票

  优采云稍后检查

  优采云采集器时间采集

  优采云视频采集规则

  优采云采集器采集视频

  优采云采集器

  优采云采集器如何采集文章

  优采云采集器已发布

  优采云采集器发布采集

  优采云采集器有用吗

  优采云采集器 帮助文件

  解决方案:怎么采集京东商品详情页信息?优采云采集器使用教程

  4、生活服务

  168孔子、百度、58同城、天眼查、携程等平台采集

  5.财务

  东方财富、同花顺、银保监会、雪球、股吧等平台数据及公告采集

  6.房地产

  小猪短租、赶集网、八民网、油天下、58网、房天下等平台的房源数据采集

  2.【京东】商品详情页采集教程

  下面电商运营官就以京东商品详情页为例,为大家带来优采云的使用教程。

  步骤一、打开网页

  在主页输入框中输入网址#crumb-wrap(例如),然后点击【开始采集】,优采云会自动打开网页。

  电商运营官具体解释:

  打开网页后,如果【自动识别】启动,请等待自动识别完成。优采云 支持网页自动识别列表、滚动、翻页。识别成功后,直接启动采集获取数据。如果【自动识别】的结果不是我们需要的,可以点击【取消】关闭智能识别,自行配置采集进程。

  步骤 2. 循环颜色属性并提取相应的文本

  通过以下步骤,点击每个颜色属性,提取对应的文字

  1.循环浏览颜色属性

  2.提取颜色属性的文字

  3.将循环点击颜色属性与提取的颜色文本链接起来

  1.循环浏览颜色属性

  ①选择页面第一个颜色属性

  

  ②在*敏*感*词*操作提示框中,选择【全选】

  ③选择【循环点击每个链接】

  3.将循环点击颜色属性与提取的颜色文本链接起来

  进入【提取数据】设置页面,勾选【当前循环中设置的采集元素】并保存。

  点击【Color】字段后面的按钮,勾选【Relative to XPath in loop】并保存。

  第三步:循环遍历版本属性,提取对应的版本文本

  通过以下步骤,点击各个版本属性,提取对应的文字

  1.循环点击版本属性

  ①选择页面第一个版本属性

  ②在*敏*感*词*操作提示框中,选择【全选】

  ③选择【循环点击每个链接】

  一个。经过以上3个连续的步骤,【循环点击元素】就创建好了。[Cycle]中的项对应页面上的所有版本属性。启动采集后,优采云会循环依次点击各个版本属性。

  2.提取版本属性的文本

  选中页面的版本属性框,在操作提示框中选择【采集此链接文字】,提取版本属性的文字。

  3.将循环点击版本属性与提取的版本文本链接起来

  进入【提取数据】设置页面,勾选【当前循环中设置的采集元素】并保存。

  点击【Version】字段后面的按钮,勾选【Relative to XPath in loop】并保存。

  步骤 4. 提取其他字段

  选中页面上的文字,然后在操作提示框中点击【采集本元素文字】。

  

  可以用这种方式提取文本字段。在示例中,我们提取了产品标题、产品价格、主图链接、产品编号等多个字段。

  特别提示:

  一个。文本、图片、视频、源代码是不同的数据形式,在操作提示框中选择提取方式时略有不同。文字一般是[采集这个元素的文字],图片一般是[采集这个图片的地址。

  步骤 5. 编辑字段

  1.编辑字段

  进入【提取数据1】设置页面,可以删除多余字段、修改字段名称、移动字段顺序等。

  2.格式字段

  对于【产品名称】和【产品编号】这两个字段,默认提取的内容与表头部分相同。如果没问题,你可以跳过这一步。

  如果要去掉内容中多余的部分,可以使用数据格式化功能。

  以【Product Name】格式化为例:点击字段后面的按钮,选择【Format Data】→点击【Add Step】,选择【Replace】,将【Product Name:】替换为【Empty】,输出【Huawei P40Pro ] 并保存。

  第 6 步。开始 采集

  1. 点击【采集】和【启动本地采集】。优采云启动后开始自动采集数据。

  特别提示:

  一个。[本地采集]是使用自己的电脑给采集,[云端采集]是使用优采云提供的云服务器采集,点击即可查看本地采集和云端采集的详细解释。

  2.采集完成后,选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML、数据库等,这里导出为Excel。

  那么以上就是全部内容啦~如果大家在开店过程中遇到问题,可以来电商官网搜索干货,或者点击顶部卖家问答页解你的疑惑~想了解更多电商干货、电商运营工具,记得关注搜索电商运营官哦。

  电商运营官将为您更新最新最实用的电商资讯、电商规则、京东开店、京东新品上架等。想了解更多电商资讯和行业动态,记得关注电商哦!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线