网站内容抓取工具(批量采集自动提取保存网页内容这个是本教程中所使用的)

优采云 发布时间: 2021-09-02 07:03

  网站内容抓取工具(批量采集自动提取保存网页内容这个是本教程中所使用的)

  批量采集自动提取并保存网页内容

  这是本教程中使用的网页:

  

  file:///C:%5CUsers%5CCan%5CDesktop%5C%E6%9C%A8%E5%A4%B4%5C%E4%BB%BB%E5%8A%A1%5C%E7%BD%91%E9%A1%B5%E6%8F%90%E5%8F%96%E5%86%85%E5%AE%B9%5C00.jpg

  file:///C:%5CUsers%5CCan%5CDesktop%5C%E6%9C%A8%E5%A4%B4%5C%E4%BB%BB%E5%8A%A1%5C%E7%BD%91%E9%A1%B5%E6%8F%90%E5%8F%96%E5%86%85%E5%AE%B9%5C00.jpg

  file:///C:%5CUsers%5CCan%5CDesktop%5C%E6%9C%A8%E5%A4%B4%5C%E4%BB%BB%E5%8A%A1%5C%E7%BD%91%E9%A1%B5%E6%8F%90%E5%8F%96%E5%86%85%E5%AE%B9%5C00.jpg

  file:///C:%5CUsers%5CCan%5CDesktop%5C%E6%9C%A8%E5%A4%B4%5C%E4%BB%BB%E5%8A%A1%5C%E7%BD%91%E9%A1%B5%E6%8F%90%E5%8F%96%E5%86%85%E5%AE%B9%5C00.jpg

  file:///C:%5CUsers%5CCan%5CDesktop%5C%E6%9C%A8%E5%A4%B4%5C%E4%BB%BB%E5%8A%A1%5C%E7%BD%91%E9%A1%B5%E6%8F%90%E5%8F%96%E5%86%85%E5%AE%B9%5C00.jpg

  本教程是教大家使用网页自动操作通用工具中的刷新工具来刷新和提取网页内容。从(网页)批量获取姓名、电话、职业等信息,并将结果保存到文件中

  这是入门教程

  我们先来看看软件的大体界面:

  

  然后需要先添加一个网址,点击“添加”按钮,输入需要刷新提取信息的网址,然后点击“自动获取”按钮。如下图:

  

  接下来,我们设置刷新间隔。刷新间隔可以在网页自动刷新监控操作中设置。在这里,我将其设置为每 10 秒刷新一次。如果去掉勾选的刷新限制,就不会受到限制。

  

  本教程中每次刷新都需要保存更改的网页信息,所以在“其他监控”中需要设置“无条件启动监控报警”。 (详见各自要求的设置)

  

  然后设置需要保存的网页信息。在“监控设置”中,添加“报警提示动态内容”---然后自动获取。如下图:

  

  点击自动获取后会打开之前添加的网址,页面加载完成后

  选择需要获取的信息-右键-获取元素-自动提取元素标识-添加元素。

  如下图操作:

  

  元素属性名称在这里使用值。

  

  这里需要注意的是,有些网页需要延迟打开才能开始监控,否则会失效。所以这里设置了“*敏*感*词*前的延迟等待时间为3秒”。 (此处同时监控多个网页内容)

  

  在这个版本中,网页自动运行的通用工具可以保存为三种格式,分别是csv文件、txt文件和每个动态元素分别保存为一个文件。类型可在“闹钟提醒”中设置。

  

  以下是监控网页后保存的各种文件格式。

  首先是将每个元素保存在一个单独的txt文件中:

  

  第二种方法是合并一个txt文件中的所有元素并保存:

  

  第三种是将所有元素保存为一个csv文件:

  

  本教程结束。

  欢迎搜索:木头软件。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线