分享的内容：采集文章内容

优采云发布时间: 2020-12-15 12:09

　　分享的内容：采集文章内容

　　新闻库中的

　　采集文章内容是全自动的采集

　　系统带有新闻库，该库可以自动同步实时新闻库文章中的更新。购买许可证后需要使用此功能。如果您不购买许可证，建议您编写自己的采集规则以继续采集。

　　如图所示，打开站点列表中的自动填充文章开关以自动填充网站文章（打开该开关后，系统可能需要花费几个小时来准备，请稍等文章自动填充。是）

　　（图片可以点击放大）

　　编写您自己的采集规则采集

　　前序：

采集规则编写对入门有一定难度，只要多尝试上手了后期使用起来会很方便，对今后使用其他采集软件也是多多受益

　　域名构建系统采集工具位于内容管理的网站背景中，单击“内容管理” >>“ 采集管理” >>“添加采集规则”以输入

　　设置采集列表网址

　　列表URL是您要采集的网站的列列表地址

　　如果只是采集列表页面的第一页，只需直接输入列表的URL。采集第一页上的内容的优点是您不需要采集旧新闻，并且可以使用新的更新。采集准时到达。如果需要采集该列的所有内容，则还可以通过设置通配符来匹配所有列表URL规则。

　　匹配URL规则的方法也非常简单。您只需要检查列表页面的差异并添加通配符即可。以人民网技术频道为例：

　　第一页的网址是：

　　第二页的URL是：

　　第三页的URL是：

　　通过观察列表URL的变化，我们可以看到第一页是index1.shtml，第二页是index2.shtml，第三页是index3.shtml。更改后的页码仅是列表。该页面的URL通配符为[起始页面-结束页面]。如果要在采集列中当前显示10页，则列表URL规则为：[1-10] .html。如果您发现差异，则可以从起始页到结束页更改将通配符添加到零件。

　　设置文章 URL区域

　　上面我们已经为采集设置了网站列表URL，但是打开此URL页面时有很多内容，并且程序无法知道采集的文章 URL是什么，因此我们需要在这里设置一个区域规则来告诉它。

　　如图所示，红色框是我们想要的文章采集

　　（图片可以点击放大）

　　如何编写此规则，编写一个规则以告诉它文章 URL的起始位置和结束位置，最后编写代码，其中该规则是[content]结束的代码

　　例如，让我们打开上面的人们网络技术渠道列表的第一页：

　　打开后，右键单击以查看源代码，并通过查看源代码找到我们想要的文章 URL的区域

　　（图片可以点击放大）

　　最后，我们在制定规则前后发现了一段独特的代码，即

　　[内容]

　　设置标题规则

　　标题规则类似于文章 URL区域规则。打开列表中的所有文章文章，并检查源代码以在页面上找到标题

　　例如文章 URL :，源代码截图如下

　　（图片可以点击放大）

　　将标题前后的唯一代码变成规则，

　　[内容]--科技--人民网

　　设置正文规则

　　在上面的页面上，找到文本所在的区域，并在文本前后找到唯一的代码以制定规则

　　如图所示

　　（图片可以点击放大）

　　最终规则可以写为

　　[内容]

　　最后单击测试，如果测试成功，则单击保存采集

0

2020-12-15

采集文章内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

分享的内容：采集文章内容

0 个评论

发起人

AI时代内容工厂

分享的内容：采集文章内容

0 个评论

发起人

相关问题