内容 采集 软件(如何抓取网页信息?任务启动此功能!(组图) )
优采云 发布时间: 2022-02-09 21:12内容 采集 软件(如何抓取网页信息?任务启动此功能!(组图)
)
网页信息采集器(Webpage Information采集Assistant)是一个非常有用的网页信息采集器。如何抓取网页信息?网页信息采集器(网页信息采集助手)供用户快速采集。网页信息采集器功能强大且易于使用。可以很方便的采集某个网站的信息内容,根据已建立的任务信息保存和提取网页,或者“双击”一个任务启动。这个功能。
特色亮点:
1、执行任务
根据建立的任务信息保存和提取网页,也可以通过“双击”任务来启动此功能
2、创建、复制、修改、删除任务
创建、复制、修改、删除任务信息
3、默认选项
设置默认工作路径(默认为当前程序目录下的WorkDir文件夹)
设置获取测试的默认数量(默认为 10)
设置默认文本分隔符(默认为 *)
4、创建和编辑任务信息
任务名称:在默认工作文件夹下生成一个具有此名称的文件夹。
登录地址:对于一些需要登录才能查看其网页内容的网站,填写登录页面地址。执行任务时,软件会打开这个登录页面,让你登录到网站
序数格式类型网页、非序数格式类型网页:
这里的序数格式和非序数格式主要是指提取的地址是否只是数字的变化。例如:
① Sum 属于序数格式
② sum 属于无序格式
列表地址:类型为“非序格式类型net”时,第一页列表的链接地址
提取地址:由实际保存的网页地址的公共部分+*号组成。
例如提取:
① 然后提取地址为*.html
②然后提取地址为*./*.html
翻页地址:对于列表页的“下一页”链接地址,将更改部分替换为*。
Pages Start:开始提取的页数
Pages Deadline:停止提取的页数
当前页数:目前已提取的页数
已保存页数:已保存页数
任务描述:任务的详细描述