插入关键字 文章采集器(新节点起一个名字的匹配模式及匹配规则【一】)
优采云 发布时间: 2021-09-12 09:02插入关键字 文章采集器(新节点起一个名字的匹配模式及匹配规则【一】)
节点名称:给新创建的节点起一个名字,这里填写“采集测试(一)”;
目标页面编码:设置采集目标页面的编码格式,包括GB2312、UTF8和BIG5。可以通过在采集目标页面右击选择“查看源文件”获得。
步骤:
(a) 打开采集的目标页面:;
(b) 右击选择“查看源文件”,找到“字符集”,如下图
等号后面的代码是需要的“编码格式”,这里是“gb2312”。
“区域匹配模式”:设置如何匹配所需采集的内容部分,可以是字符串或正则表达式。系统默认模式为字符串。如果您对正则表达式有更多的了解,可以在这里选择正则表达式模式。
“内容导入顺序”:指定文章list导入时的顺序。可以选择“与目标站一致”或“反向到目标站”。
“防盗链模式”:目标站点为采集是否有刷新限制。一开始很难说,你需要测试才能知道。如果是这样,您需要在此处设置“资源下载超时时间”。
“引用网址”:填写任何文章内容页面的网址,即采集。
具体步骤:
(a) 在打开的文章列表页面,点击第一篇文章
标题“”打开文章content页面,如图,
(b)此时浏览器的网址地址栏中显示的网址就是“引用网址”中需要填写的网址,如图(图8),
至此,“节点基本信息”设置完毕。检查无误后,进入下一步。
四、设置获取列表网址的规则
如图所示:
列出网址获取规则
<p>这里是设置采集文章list页面的匹配规则。如果采集的文章列表页面有一定的样式,可以选择“批量生成列表URL”;如果采集的文章列表页面没有规则可循,可以选择“手动指定列表URL”;如果采集站点提供RSS,则可以选择“从RSS获取”。情况,例如:列表页面部分规则,其余部分不规则,您可以在“匹配网址”中填写规则部分,然后在“手动指定网址”中填写不规则部分。