网页采集器的自动识别算法(大多数概念:完善列表页的智能抽取结果(可选))

优采云 发布时间: 2021-09-20 07:24

  网页采集器的自动识别算法(大多数概念:完善列表页的智能抽取结果(可选))

  一个概念:

  大多数网站以列表页和详细页的层次结构进行组织。例如,当我们进入新浪新闻频道时,有很多标题链接,可以看作是列表页面。单击标题链接进入详细信息页面

  使用data采集工具的一般目的是大量获取详细页面中的特定内容数据,将这些数据用于各种分析,发布自己的网站等

  列表页:指一个列或目录页,通常收录多个标题链接。例如:网站主页或专栏页是列表页。主要功能:您可以通过列表页面获得指向多个详细信息页面的链接

  详细页面:收录特定内容的页面,如网页文章,其中收录:标题、作者、发布日期、正文内容、标签等

  要开始,请登录“优采云console”:

  详细使用步骤:

  步骤1:创建采集任务

  点击左侧菜单按钮“创建采集task”,输入采集task名称和采集的“列表页面”URL,如:/(此处主页为列表页面:内容可收录多个详细页面)。无法填写详细信息页面链接,系统将自动识别该链接

  如下图所示:

  

  输入后点击“下一步”

  步骤2:改进列表页面的智能提取结果(可选)

  系统将首先使用智能算法获取所需的采集详细页面链接(多个),用户可以双击打开检查。如果不需要数据,可以单击“列表提取器”手动指定,只需用鼠标单击可视化界面即可

  智能采集结果如下图所示:

  

  此外,在上述结果中,系统还智能发现了翻页规则,用户可以设置采集翻页多少页。您也可以稍后在任务中的“基本信息和门户地址”-“根据规则生成web地址”项中对其进行配置

  列表提取器打开后,请参见下图:

  

  步骤3:改进细节页面上的智能提取结果(可选)

  在上一步中获得多个详细页面链接后,继续下一步。系统将使用一个详细页面链接智能提取详细页面数据(如标题、作者、发布日期、内容、标签等)

  详细信息页面上的智能提取结果如下:

  

  如果智能提取的内容不是您想要的,则可以打开详细信息提取程序对其进行修改

  如下图所示:

  

  您可以修改、添加或删除左侧的字段

  您还可以对每个字段进行详细设置或数据处理(双击该字段):替换、提取、筛选、设置默认值等

  如下图所示:

  

  步骤4:启动操作

  完成后,即可启动运行,进行数据采集了:

  

  @对于此采集任务的“结果数据与发布”中采集之后的数据结果,您可以在此处修改数据,或直接将其导出到excel或发布您的网站(WordPress@)织梦DEDE、HTTP接口、数据库等)

  

  完成后,数据采集非常简单

  有关其他操作,如将数据发布到网站、数据SEO处理等,请参阅其他章节

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线