文章采集组合工具(数据集合之优采云采集器的内容和范围)
优采云 发布时间: 2021-09-24 19:12一个典型的例子是一个论坛页面,其中主体内容在前,几个回复内容在后面,或者有几个回复页面。优采云采集器 这些都可以当作一个“对象”,同时完成采集,配置过程也很简单。
轻松合并分页内容
支持多种分页方式,用户只需做两步合并分页内容:点击鼠标确认分页链接,需要合并的字段项勾选“分页合并”项. 如果页面中存在重复的子项,可以在页面中自动搜索重复的子项,隐式自动合并页面内容。
通常,如上面的论坛示例,分页页面中的回复内容可以自动合并。此时,用户只需点击鼠标确认分页链接的位置即可。在某些情况下,主表(main table)的内容也会出现在论坛内容页的分页中。这时候系统会自动判断,不会把主表内容当作重复子项的子表内容。采集。
采集 对象的内容可以分散在多个页面(深度嵌套访问模板页面)
优采云采集器是面向对象的,一个采集对象可以有很多需要采集的子项。这些子项的内容可以分散在不同的页面中,这些页面可以是需要通过几个链接才能到达的页面。
这里所谓的“对象”可以理解为“数据集合(需要采集的数据)。这个数据集的内容和范围由用户根据实际需要确定,有没有具体要求。也可以在“标题列表页”中收录对象类别,这是一种灵活的方法,在此不再赘述。灵活使用面向对象的方法不仅可以实现许多复杂的采集 要求,同时也使 采集 设置过程更容易。
使用cookie模拟登录网站
对于网站(包括Discuz等类型的论坛)需要登录才能访问采集页面的,可以使用账号模拟登录。优采云采集器可以使用动态cookies和网站模拟浏览器机制进行动态cookie会话。一些网站,为了加强数据安全,使用cookies对网页内容数据进行加密,这种情况就需要使用优采云采集器独有的“动态cookies”功能。
支持常见类型的数据库引擎。支持当前版本Panda的FTP上传,支持四种常用的数据库类型:Access/mssql/mysql/Oracle,以后可能会根据需要进行扩展。支持将下载的各类文件和图片同时通过FTP上传到远程服务器。用户可以使用该功能同时将本地计算机上采集的数据更新为自己的网站,丰富栏目内容。其他动态数据发布方式,熊猫将根据用户反馈尽快实施。
无人值守自动定时操作
提供更新采集权限的能力,并自动定期更新运行。无需人工干预,系统自动关闭运行。
“伪原创”修改文本内容。支持修改“伪原创”,提前文章时间提供文本内容。也可以“提前”修改文章时间。文章的发布时间是搜索引擎用来区分文章是否为原创的参考因素。
详情请查看优采云采集器工具软件官方网站(