归纳总结:【03】基础:同种网页结构套用采集规则

优采云 发布时间: 2022-10-15 12:11

  归纳总结:【03】基础:同种网页结构套用采集规则

  2019独角兽企业招聘Python工程师标准>>>

  请先安装爬虫软件。爬虫软件安装

  上完教程,你就可以尝到获取数据的乐趣了。

  回顾一下,上个教程主要学习了MS魔首的工作职责——定义采集规则,测试完规则后,点击MS魔首右上角的“爬取数据”,弹出DS电脑,然后看到计数器窗口不停地抓取数据。这两个组件紧密协作。

  在学习将 xml 文件转换为 Excel 之前,先解决一个当前问题?如果我想采集其他博主首页的微博,是不是要重做规则?没有~

  使用MS通过示例URL制定采集规则,由于是示例,可以想象与示例结构相同的网页可以将此规则应用于采集。

  向 采集 规则添加相同结构的 URL 就是向规则添加线索。

  未来使用此规则进行的爬网将运行所有线索,而不仅仅是示例 URL。

  之前的教程采集微博博主的主页以宝宝主页的URL为示例URL,制定采集规则。宝宝之前参加过非常火的《奔跑吧兄弟》,现在想采集兄弟会所有成员的微博页面,把他们的主页网址作为新线索添加到“weibo_blogger主页”我之前做出的“采集规则还可以。

  如何添加线索?

  兄弟会第一季各成员的主页网址如下:

  首先进入吉索克官网。登录后点击右上角的用户名,进入会员中心>爬虫管理>规则管理,点击主题名进入线索管理页面。

  我看到“weibo_blogger主页”下只有示例URL的线索。

  单加

  点击“添加潜在客户”,输入潜在客户 URL 并保存。

  

  批量添加

  在 Excel 中存储潜在客户 URL

  点击“批量导入线索”,添加附件,点击“批量导入”,添加成功!

  新增6条线索,加上原样本网址,一共7条线索,现在都是“待爬取”。

  在此页面,除了添加线索外,您还可以激活、停用和删除线索。

  如何运行线索?

  运行 采集 规则是运行规则中的线索。

  从上图可以看出,现在规则“weibo_blogger首页”有7条线索,全部处于“待抢”状态。要运行这些线索,您必须从 DS 计数器开始。

  打开DS计数器,搜索出要运行的规则,点击“单次搜索”或“采集”,启动DS计数器进行数据采集。

  单搜索:在当前DS窗口采集;集体搜索:弹出新窗口采集。

  点击采集后,输入几条要捕获的线索,点击确定。

  我们看到 DS 计数器立即运行爬网。

  

  如果你不知道要抓取多少线索,请右键单击 DS 计数器并计算线索。

  如何激活线索?

  我刚刚跑了“weibo_bloggers主页”的采集规则,在会员中心看到这7条线索都处于“爬取完成”的状态。

  如果按照上述步骤在 DS 计数器中再次运行规则,会提示没有线索,那是因为刚刚运行了 7 条线索。

  想要夺回这些线索,只要再次激活,这些线索的状态在激活后就会变成“待抢夺”。

  有两种激活方式——

  规则管理激活

  在规则管理中选择要激活的线索后点击“激活”按钮。

  DS 窗口活动

  在这里,我们来看看刚才“weibo_blogger主页”的采集规则的结果文件~

  在下一期中,结果文件将被转换为 Excel。下一期之后,你已经开始了。只要不是复杂的网页,都可以采集。

  转载于:

  归纳总结:写论文同义替换的软件

  写论文同义词替换软件有飞达同义词

  飞达路同义词替换工具最新版是一款可以帮助用户替换同义词的软件。飞达路同义词替换工具正式版可以让你的替换更加DIY,更加个性化,是站长朋友更新网站数据的好帮手。飞达路同义词替换工具最新版界面简洁,操作简单,使用方便,用户可以放心使用。

  

  1.支持伪原创多种文章,输入旧的文章内容,一键生成原创,然后伪原创

  2.支持伪原创的多种方法,包括同义词替换、打乱文章、生成原创

  3.支持多种文章打乱选项,包括清除换行符、清除空格、添加新的关键词

  

  4.支持词库管理,添加新词,替换原词,下载词库

  5.支持批量伪原创,输入批量生成地址和网络提交地址,批量本地源目录或网络下载列表伪原创

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线