遵天市网页采集器（网页信息采集）v1.0.0.1绿色版

优采云发布时间: 2020-08-07 20:04

　　尽管Internet上有很多类似的网页采集器，但每个采集器都有其自身的优势. 在这里，我将与您分享具有完整功能和快速响应的Zuntian网页采集器. 最重要的是绿色和免费.

　　功能介绍

　　此软件通过Internet采集网页信息. 有两个主要功能:

　　1，您可以在js之后采集动态信息.

　　2，您可以设置要采集的正则表达式.

　　此外，该软件具有内置的多种采集方案，分别对应于静态网页和动态网页.

　　该软件采集了官方网站上的图像（面部）搜索引擎数据，然后对其进行了索引.

　　防止网页采集: 防止采集的第一种方法: 在文章的开头和结尾添加随机和未固定的内容. 网站采集人员通常在进行采集时指定起始位置和结束位置，并在中间截取内容.

　　使用步骤

　　1. 输入URL，正常浏览网页并到达采集目标，单击工具栏上的“查看js之后的源代码”图标，以在执行js后显示网页的内容. 如果看不到相关内容，则可以稍等片刻，然后再次单击以确保执行了js代码. 通过浏览完整的网页源代码，我们可以确定是使用选项1还是使用选项2. 如果可以通过更改URL的页码来导航到下一页，请使用方案1；否则，请使用场景1. 如果您通过脚本动态更新网页的内容，请使用方案2.

　　2，单击工具栏上的“运行采集方案”图标，然后根据步骤1选择方案1或2. 如果已经具有选项1和2生成的downloadtotal.txt文件，则还可以选择选项3 . 填写必要的信息或表达式，单击“开始采集”按钮，系统将自动采集. 单击对话框中的“取消”按钮以关闭对话框，而无需启动采集任务.

　　3. 单击工具栏上的“停止采集方案”图标，系统将终止采集任务.

　　注释

　　1. 不要在正则表达式中保留汉字，请尝试用. + ?;

　　替换汉字

　　2，时间间隔不应设置得太短，如果脚本时间太短，则可能无法执行脚本；

　　3，选项2如果正则表达式不匹配，则可能是由于时间间隔太短所致. 可能会增加时间间隔.

　　4，您可以忽略网页源代码中的换行符，采集器将忽略它.

　　5. 使用*表示网页URL表达式和js表达式中已更改的参数，就像上面示例中的pageid = *一样.

　　6. 当前，正则表达式仅支持. + ?，并且只能处理一个表达式.

　　7，方案1和方案2生成的downloadtotal.txt文件的第一行是. +？正则表达式中收录的信息，即采集的信息项的数量.

　　8. 不要在正则表达式中收录回车符和换行符.

　　9，如果程序提示配置不正确且无法运行，则只需下载并安装Microsoft的vcredist_x86.exe程序即可.

　　如何修改网页信息

　　如果仅更改静态页面，则可以直接打开该页面的源代码. 您可以只更改所需的文本. 如果您不了解，则可以做到.

　　应该为动态的后台管理. 如果涉及数据库，请用所需的内容替换要更改的部分

　　有关网络错误的详细信息

　　页面上错误的一般解决方案:

　　1. 点击“开始”菜单以打开“运行”.

　　2. 输入regsvr32 jscript.dll，然后选择“确定”. 出现提示时，单击“确定”.

　　3. 再次输入regsvr32 vbscript.dll，然后选择“确定”. 再次提示时，确认.

　　4. 在上述两个成功提示之后，这表示IE组件已成功修复，清除了浏览器的cookie和缓存，打开IE浏览器-上部工具-> Internet选项->删除cookie，然后删除临时文件.

　　安美旗网页采集器V2.0绿色中文版

　　类型: 网络相关大小: 123KB语言: 中文时间: 4-16评分: 5.0

　　PC正式版

　　Android官方移动版

　　IOS官方移动版

0

2020-08-07

网站采集工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

遵天市网页采集器（网页信息采集）v1.0.0.1绿色版

0 个评论

发起人

AI时代内容工厂

遵天市网页采集器（网页信息采集）v1.0.0.1绿色版

0 个评论

发起人

相关问题