网页文章采集工具(网页信息收集器的功能特色及特色网站的收集方法)
优采云 发布时间: 2021-12-06 10:07网页文章采集工具(网页信息收集器的功能特色及特色网站的收集方法)
网页信息采集器是一款绿色、小巧、功能齐全的网页信息采集软件,可以方便地采集某个网站的信息内容。如果需要,请下载并使用它!
【特征】
1、执行任务
根据建立的任务信息保存和提取网页,或通过“双击”任务启动此功能
2、创建、复制、修改、删除任务
创建、复制、修改和删除任务信息
3、默认选项
设置默认工作路径(默认为当前程序目录下的WorkDir文件夹)
设置提取测试的默认数量(默认为10)
设置默认文本分隔符(默认为 *)
4、创建和编辑任务信息
任务名称:在默认工作文件夹中生成一个以此命名的文件夹。
登录地址:部分网站需要登录查看网页内容的,填写登录页面地址。执行任务时,软件会打开这个登录页面让你登录这个网站
序数格式类型网页,非序数格式类型网页:
这里的序数格式和非序数格式主要是指提取的地址是否只是一个数字变化。例如,类似于:
① 和属于序数格式
② sum 是无序格式
列表地址:类型为“无序格式类型net”时,列表第一页的链接地址
提取地址:由实际保存的网页地址的公共部分+*组成。
例如,提取:
① 提取地址是*.html 如果和谐
②和声的提取地址为*./*.html
翻页地址:为列表页“下一页”的链接地址,更改部分用*代替。
Pages start:开始抓取的页数
End of pages:停止抓取的页数
当前页码:已提取的页数
Saved pages:保存的页数
任务详细说明: 任务详细说明