教程:善肯网页TXT采集器

优采云发布时间: 2022-10-05 13:14

　　教程:善肯网页TXT采集器

　　山垦网页TXT采集器是山垦一个非常好用的网页文字提取器，可以帮你一键提取网页中的所有文字，还有专业设置的正则表达式过滤器，可以去除去除网站中不必要的山垦内容，软件还支持各大网站的网络小说采集，非常好用。欢迎有需要的山垦用户。下载和使用。

　　使用帮助

　　1.网页规则设置：

　　在规则设置窗口中，集集在网站中随机找到一篇文章，山肯没有写任何规则，先在网页上点击实时预览，集集可以查看能否获取网页源代码，而山肯以后可以得到写规则，如果无法获取网页就不需要继续了。中心

　　规则设置使用正则表达式来匹配内容。最好有一定的基础。如果没有基础，可以参考给出的例子。对于简单的学习，您不需要深入学习常规规则。

　　设置规则时，目录页和内容页需要分别预览，所以需要两个链接，一个目录页链接，一个内容页链接。

　　关于更换，有一般更换和定制更换之分。目前不需要正则化，普通替换即可。需要注意的是，值一定要输入，空格也可以。删除：选择整行，然后在该行上按住删除键。内置的 \n 在用作替换数据时表示换行符。

　　编码，目前只设置了GBK和UFT-8，几乎大部分网站都是这两种编码之一。

　　2.分析下载

　　要解决，请按解决地址2按钮

　　支持单章下载和全文下载。

　　支持添加章号【部分小说无章号时可查看】

　　支持在线阅读，但需要联网，此功能只是辅助，不是专业的小说阅读软件。

　　下载进度和总时间显示，内置多线程。

　　技术文章:【从零开始学爬虫】采集谷歌网页列表数据

　　采集网站

　　【场景描述】采集谷歌浏览器关键词搜索到的网页列表数据。

　　【使用工具】在嗅探ForeSpider数据采集系统之前，免费下载：

　　【入口网址】

　　[采集内容]采集谷歌“苹果”关键词所有列表数据，包括来源、标题和摘要。

　　【成为采集的内容】

　　思想分析

　　配置思路概述：

　　配置步骤

　　1.新建采集任务

　　选择【采集配置】，点击任务列表右上方的【+】号新建采集任务，在【】中填写采集入口地址采集地址]框，并自动定义任务名称并在[任务名称]框中输入，点击“完成”。

　　【新增采集任务】

　　2.模板配置

　　①查找翻页链接及其规则

　　在入口地址页面打开“F12”，找到翻页地址如下，复制刷新后的翻页链接地址

　　【翻页链接位置】

　　对比观察翻页链接规律

　　【翻页链接】

　　观察：随着页面的变化，页数与Requestrian URL中“start=”后面的数字有关。所以，规则是：

　　""+页码减1乘以10+"&sa=N&ved=2ahUKEwjMyfG7oYf6AhXaQPEDHTisDJM4KBDy0wN6BAgBEEE&biw=553&bih=755&dpr=1"

　　找到翻页链接的位置及其规律性，就可以据此编写脚本。

　　②脚本的创作和编写

　　[脚本的创作和编写]

　　脚本文本：

　　url u;//定义au并赋予其url属性

　　var url_beg=DOM.FindClass("AaVjTc", "table");//定义一个url_beg，其属性位置位于table class = "AaVjTc"所属节点下

　　var ur=url_beg.child.child.next.next.next;//定义一个ur，其location属性位于url_beg的二级子节点的三级兄弟节点下

　　for(int i=0;i

　　u.title=”Google page”+(i+1)+”page”;//设置标题内容为：Google页码

　　var ur=””+i*10+”&sa=N&ved=2ahUKEwjMyfG7oYf6AhXaQPEDHTisDJM4KBDy0wN6BAgBEEE&biw=553&bih=755&dpr=1″;//根据翻页链接规则，拼出完整链接

　　u.urlname=ur;//获取扁平化链接

　　u.entryid=CHANN.id;

　　u.tmplid=2;//关联模板02

　　结果.AddLink(u); //输出采集结果

　　ur=ur.next;//进入下一页链接采集

　　③查看采集预览

　　查看采集预览并将链接粘贴到浏览器中以验证它是否正确采集。

　　【采集预览】

　　①新建模板，添加数据提取

　　新建模板并添加数据提取如下，在示例地址框中输入任意翻页链接

　　【新建模板，添加数据提取】

　　②数据表结构创建

　　在表结构中创建所需的采集字段如下

　　【创建表结构】

　　③协会形式

　　数据抽取关联数据结构形式

　　【关联表格】

　　④创建和编写数据提取脚本

　　如下创建脚本，根据网页结构编写数据提取脚本

　　[脚本的创作和编写]

　　脚本文本：

　　record re;//定义一个re并赋予它record属性

　　var ret=DOM.FindClass("hlcw0c","div");//定义一个ret，其location属性位于div class="hlcw0c"所在节点下

　　while (ret){//遍历ret

　　var beg=DOM.FindClass("MjjYud","div",ret);//定义一个beg，其position属性位于div class="MjjYud"所在节点下

　　var pu =beg.child.child.child;//定义一个pu，其position属性位于div class=”Z26q7c UK95Uc jGGQ5e VGXe8”的节点下

　　var tit=pu.child.child.child.next; //定义一个位置属性位于h3 class=”LC20lb MBeuO DKV0Md”节点下的tit

　　var pag=tit.next;//定义一个位置属性位于tit的下一个兄弟节点下的pag

　　var con=pu.next;//定义一个con，其position属性位于pu的下一个兄弟节点下

　　re.page=DOM.GetTextAll(pag);//获取列表内容的来源

　　re.title=DOM.GetTextAll(tit);//获取列表内容的标题

　　re.content=DOM.GetTextAll(con);//获取列表内容摘要

　　RESULT.AddRec(re,this.schemaid);//输出采集result

　　ret=ret.next;//输入下一个列表为采集

　　⑤查看采集预览

　　查看采集预览并检查内容是否正确采集。

　　【采集预览】

　　原来的：

　　作者：前嗅

　　标题：【从零开始学爬虫】采集谷歌网页列表数据

0

2022-10-05

内容采集器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

教程:善肯网页TXT采集器

0 个评论

发起人

AI时代内容工厂

教程:善肯网页TXT采集器

0 个评论

发起人

相关问题