教程:善肯网页TXT采集器

优采云 发布时间: 2022-10-05 13:14

  教程:善肯网页TXT采集

  山垦网页TXT采集器是山垦一个非常好用的网页文字提取器,可以帮你一键提取网页中的所有文字,还有专业设置的正则表达式过滤器,可以去除去除网站中不必要的山垦内容,软件还支持各大网站的网络小说采集,非常好用。欢迎有需要的山垦用户。下载和使用。

  使用帮助

  1.网页规则设置:

  在规则设置窗口中,集集在网站中随机找到一篇文章,山肯没有写任何规则,先在网页上点击实时预览,集集可以查看能否获取网页源代码,而山肯以后可以得到 写规则,如果无法获取网页就不需要继续了。中心

  

  规则设置使用正则表达式来匹配内容。最好有一定的基础。如果没有基础,可以参考给出的例子。对于简单的学习,您不需要深入学习常规规则。

  设置规则时,目录页和内容页需要分别预览,所以需要两个链接,一个目录页链接,一个内容页链接。

  关于更换,有一般更换和定制更换之分。目前不需要正则化,普通替换即可。需要注意的是,值一定要输入,空格也可以。删除:选择整行,然后在该行上按住删除键。内置的 \n 在用作替换数据时表示换行符。

  编码,目前只设置了GBK和UFT-8,几乎大部分网站都是这两种编码之一。

  2.分析下载

  

  要解决,请按解决地址2按钮

  支持单章下载和全文下载。

  支持添加章号【部分小说无章号时可查看】

  支持在线阅读,但需要联网,此功能只是辅助,不是专业的小说阅读软件。

  下载进度和总时间显示,内置多线程。

  技术文章:【从零开始学爬虫】采集谷歌网页列表数据

  采集网站

  【场景描述】采集谷歌浏览器关键词搜索到的网页列表数据。

  【使用工具】在嗅探ForeSpider数据采集系统之前,免费下载:

  【入口网址】

  [采集内容]采集谷歌“苹果”关键词所有列表数据,包括来源、标题和摘要。

  【成为采集的内容】

  思想分析

  配置思路概述:

  配置步骤

  1.新建采集任务

  选择【采集配置】,点击任务列表右上方的【+】号新建采集任务,在【】中填写采集入口地址采集地址]框,并自动定义任务名称并在[任务名称]框中输入,点击“完成”。

  【新增采集任务】

  2.模板配置

  ①查找翻页链接及其规则

  在入口地址页面打开“F12”,找到翻页地址如下,复制刷新后的翻页链接地址

  【翻页链接位置】

  对比观察翻页链接规律

  【翻页链接】

  观察:随着页面的变化,页数与Requestrian URL中“start=”后面的数字有关。所以,规则是:

  ""+页码减1乘以10+"&sa=N&ved=2ahUKEwjMyfG7oYf6AhXaQPEDHTisDJM4KBDy0wN6BAgBEEE&biw=553&bih=755&dpr=1"

  找到翻页链接的位置及其规律性,就可以据此编写脚本。

  ②脚本的创作和编写

  [脚本的创作和编写]

  

  脚本文本:

  url u;//定义au并赋予其url属性

  var url_beg=DOM.FindClass("AaVjTc", "table");//定义一个url_beg,其属性位置位于table class = "AaVjTc"所属节点下

  var ur=url_beg.child.child.next.next.next;//定义一个ur,其location属性位于url_beg的二级子节点的三级兄弟节点下

  for(int i=0;i

  u.title=”Google page”+(i+1)+”page”;//设置标题内容为:Google页码

  var ur=”​​”+i*10+”&sa=N&ved=2ahUKEwjMyfG7oYf6AhXaQPEDHTisDJM4KBDy0wN6BAgBEEE&biw=553&bih=755&dpr=1″;//根据翻页链接规则,拼出完整链接

  u.urlname=ur;//获取扁平化链接

  u.entryid=CHANN.id;

  u.tmplid=2;//关联模板02

  结果.AddLink(u); //输出采集结果

  ur=ur.next;//进入下一页链接采集

  ③查看采集预览

  查看 采集 预览并将链接粘贴到浏览器中以验证它是否正确 采集。

  【采集预览】

  ①新建模板,添加数据提取

  新建模板并添加数据提取如下,在示例地址框中输入任意翻页链接

  【新建模板,添加数据提取】

  ②数据表结构创建

  在表结构中创建所需的采集字段如下

  【创建表结构】

  ③协会形式

  数据抽取关联数据结构形式

  【关联表格】

  

  ④创建和编写数据提取脚本

  如下创建脚本,根据网页结构编写数据提取脚本

  [脚本的创作和编写]

  脚本文本:

  record re;//定义一个re并赋予它record属性

  var ret=DOM.FindClass("hlcw0c","div");//定义一个ret,其location属性位于div class="hlcw0c"所在节点下

  while (ret){//遍历ret

  var beg=DOM.FindClass("MjjYud","div",ret);//定义一个beg,其position属性位于div class="MjjYud"所在节点下

  var pu =beg.child.child.child;//定义一个pu,其position属性位于div class=”Z26q7c UK95Uc jGGQ5e VGXe8”的节点下

  var tit=pu.child.child.child.next; //定义一个位置属性位于h3 class=”LC20lb MBeuO DKV0Md”节点下的tit

  var pag=tit.next;//定义一个位置属性位于tit的下一个兄弟节点下的pag

  var con=pu.next;//定义一个con,其position属性位于pu的下一个兄弟节点下

  re.page=DOM.GetTextAll(pag);//获取列表内容的来源

  re.title=DOM.GetTextAll(tit);//获取列表内容的标题

  re.content=DOM.GetTextAll(con);//获取列表内容摘要

  RESULT.AddRec(re,this.schemaid);//输出采集result

  ret=ret.next;//输入下一个列表为采集

  ⑤查看采集预览

  查看 采集 预览并检查内容是否正确 采集。

  【采集预览】

  原来的:

  作者:前嗅

  标题:【从零开始学爬虫】采集谷歌网页列表数据

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线