典型如论坛页面,内容在前,若干个回复存在

优采云 发布时间: 2021-07-13 03:31

  典型如论坛页面,内容在前,若干个回复存在

  通常比如一个论坛页面,正文内容在前,几个回复内容在后面,或者有几个回复页面。 优采云采集器 可以把这些当成一个“对象”,同时完成采集。配置过程也很简单。

  轻松合并分页内容

  支持多种分页模式。用户只需做两步合并分页内容:点击鼠标确认分页链接,选择需要分页合并的字段项,勾选“合并页面”项。 如果页面中存在重复的子项,可以在页面中自动搜索重复的子项,隐式自动合并页面内容。

  通常如上面的论坛示例,分页页面中的回复内容可以自动合并。此时,用户只需点击鼠标确认分页链接的位置即可。在某些情况下,主表(main table)的内容也会出现在论坛内容页的分页中。这时候系统会自动判断,不会把主表内容当作重复子项采集的子表内容。

  采集对象的内容可以分散在多个页面(深度嵌套访问模板页面)

  优采云采集器 是面向对象的。一个采集 对象可以有许多需要采集 的子项。这些子项的内容可以分散在不同的页面中,这些页面可以是需要通过多个链接才能到达的页面。

  这里所谓的“对象”可以理解为“数据采集(需要采集数据)”的意思。本数据集的内容和范围由用户根据实际需要确定,没有具体要求。您也可以在“标题列表页”中收录对象类别,这是一种灵活的方法,在此不再赘述。灵活运用面向对象的方法,不仅可以实现很多复杂的采集需求,也让采集的设置过程变得更加简单。

  使用cookie模拟登录网站

  网站(包括Discuz等类型的论坛)需要登录才能访问采集页面,可以使用账号模拟登录。 优采云采集器可以使用动态cookies和网站模拟浏览器机制进行动态cookie会话。一些网站 使用cookies 来加密网页内容数据以加强数据安全。这种情况需要优采云采集器独有的“动态cookie”功能。

  支持常见类型的数据库引擎。支持当前版本Panda的FTP上传,支持四种常用的数据库类型:Access/mssql/mysql/Oracle,以后可能会根据需要进行扩展。支持将下载的各类文件和图片同时通过FTP上传到远程服务器。用户可以使用该功能将本地电脑采集的数据同时更新为自己的网站,丰富栏目内容。其他动态数据发布方式,熊猫将根据用户反馈尽快实施。

  无人值守自动定时操作

  提供更新采集权限的能力,自动更新并定期运行。无需人工干预,系统自动关闭运行。

  "伪原创" 修改文本内容。支持文章time提前提供文本内容的“伪原创”修改。也可以“提前”修改文章时间。 文章的发表时间是搜索引擎用来区分文章是否为原创的参考因素。

  详情请查看优采云采集器工具软件官方网站(

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线