教程:善肯网页TXT采集器
优采云 发布时间: 2022-10-05 13:14教程:善肯网页TXT采集器
山垦网页TXT采集器是山垦一个非常好用的网页文字提取器,可以帮你一键提取网页中的所有文字,还有专业设置的正则表达式过滤器,可以去除去除网站中不必要的山垦内容,软件还支持各大网站的网络小说采集,非常好用。欢迎有需要的山垦用户。下载和使用。
使用帮助
1.网页规则设置:
在规则设置窗口中,集集在网站中随机找到一篇文章,山肯没有写任何规则,先在网页上点击实时预览,集集可以查看能否获取网页源代码,而山肯以后可以得到 写规则,如果无法获取网页就不需要继续了。中心
规则设置使用正则表达式来匹配内容。最好有一定的基础。如果没有基础,可以参考给出的例子。对于简单的学习,您不需要深入学习常规规则。
设置规则时,目录页和内容页需要分别预览,所以需要两个链接,一个目录页链接,一个内容页链接。
关于更换,有一般更换和定制更换之分。目前不需要正则化,普通替换即可。需要注意的是,值一定要输入,空格也可以。删除:选择整行,然后在该行上按住删除键。内置的 \n 在用作替换数据时表示换行符。
编码,目前只设置了GBK和UFT-8,几乎大部分网站都是这两种编码之一。
2.分析下载
要解决,请按解决地址2按钮
支持单章下载和全文下载。
支持添加章号【部分小说无章号时可查看】
支持在线阅读,但需要联网,此功能只是辅助,不是专业的小说阅读软件。
下载进度和总时间显示,内置多线程。
技术文章:【从零开始学爬虫】采集谷歌网页列表数据
采集网站
【场景描述】采集谷歌浏览器关键词搜索到的网页列表数据。
【使用工具】在嗅探ForeSpider数据采集系统之前,免费下载:
【入口网址】
[采集内容]采集谷歌“苹果”关键词所有列表数据,包括来源、标题和摘要。
【成为采集的内容】
思想分析
配置思路概述:
配置步骤
1.新建采集任务
选择【采集配置】,点击任务列表右上方的【+】号新建采集任务,在【】中填写采集入口地址采集地址]框,并自动定义任务名称并在[任务名称]框中输入,点击“完成”。
【新增采集任务】
2.模板配置
①查找翻页链接及其规则
在入口地址页面打开“F12”,找到翻页地址如下,复制刷新后的翻页链接地址
【翻页链接位置】
对比观察翻页链接规律
【翻页链接】
观察:随着页面的变化,页数与Requestrian URL中“start=”后面的数字有关。所以,规则是:
""+页码减1乘以10+"&sa=N&ved=2ahUKEwjMyfG7oYf6AhXaQPEDHTisDJM4KBDy0wN6BAgBEEE&biw=553&bih=755&dpr=1"
找到翻页链接的位置及其规律性,就可以据此编写脚本。
②脚本的创作和编写
[脚本的创作和编写]
脚本文本:
url u;//定义au并赋予其url属性
var url_beg=DOM.FindClass("AaVjTc", "table");//定义一个url_beg,其属性位置位于table class = "AaVjTc"所属节点下
var ur=url_beg.child.child.next.next.next;//定义一个ur,其location属性位于url_beg的二级子节点的三级兄弟节点下
for(int i=0;i
u.title=”Google page”+(i+1)+”page”;//设置标题内容为:Google页码
var ur=””+i*10+”&sa=N&ved=2ahUKEwjMyfG7oYf6AhXaQPEDHTisDJM4KBDy0wN6BAgBEEE&biw=553&bih=755&dpr=1″;//根据翻页链接规则,拼出完整链接
u.urlname=ur;//获取扁平化链接
u.entryid=CHANN.id;
u.tmplid=2;//关联模板02
结果.AddLink(u); //输出采集结果
ur=ur.next;//进入下一页链接采集
③查看采集预览
查看 采集 预览并将链接粘贴到浏览器中以验证它是否正确 采集。
【采集预览】
①新建模板,添加数据提取
新建模板并添加数据提取如下,在示例地址框中输入任意翻页链接
【新建模板,添加数据提取】
②数据表结构创建
在表结构中创建所需的采集字段如下
【创建表结构】
③协会形式
数据抽取关联数据结构形式
【关联表格】
④创建和编写数据提取脚本
如下创建脚本,根据网页结构编写数据提取脚本
[脚本的创作和编写]
脚本文本:
record re;//定义一个re并赋予它record属性
var ret=DOM.FindClass("hlcw0c","div");//定义一个ret,其location属性位于div class="hlcw0c"所在节点下
while (ret){//遍历ret
var beg=DOM.FindClass("MjjYud","div",ret);//定义一个beg,其position属性位于div class="MjjYud"所在节点下
var pu =beg.child.child.child;//定义一个pu,其position属性位于div class=”Z26q7c UK95Uc jGGQ5e VGXe8”的节点下
var tit=pu.child.child.child.next; //定义一个位置属性位于h3 class=”LC20lb MBeuO DKV0Md”节点下的tit
var pag=tit.next;//定义一个位置属性位于tit的下一个兄弟节点下的pag
var con=pu.next;//定义一个con,其position属性位于pu的下一个兄弟节点下
re.page=DOM.GetTextAll(pag);//获取列表内容的来源
re.title=DOM.GetTextAll(tit);//获取列表内容的标题
re.content=DOM.GetTextAll(con);//获取列表内容摘要
RESULT.AddRec(re,this.schemaid);//输出采集result
ret=ret.next;//输入下一个列表为采集
⑤查看采集预览
查看 采集 预览并检查内容是否正确 采集。
【采集预览】
原来的:
作者:前嗅
标题:【从零开始学爬虫】采集谷歌网页列表数据