采集的文章内容不能直接发布(如何获取文章标题、文章作者文章来源、发布时间和文章内容)

优采云发布时间: 2021-12-28 22:05

" target="_blank">采集的文章内容不能直接发布(如何获取文章标题、文章作者文章来源、发布时间和文章内容)

　　前言：本文为《无分页常用

" target="_blank">文章采集

方法》第二部分。在上一节的基础上，对新增采集节点的第二步：“设置字段获取规则”进行详细说明。操作说明。为了与上一篇保持一致，本文将继续使用上一章的标记。

　　继续第一部分。

　　2.1 新建采集节点：第二步设置内容字段获取规则

　　点击“保存信息，进入下一步设置”后，可以进入“添加新采集节点：第二步设置内容字段获取规则”页面，如图（图22）,

　　（本图来源于网络，如有侵权请联系删除！）

　　图22-设置内容字段获取规则

　　在预览网址处，系统会自动指定要采集

的文章内容页的网址（通常是采集

列表页的第一篇文章的网址）作为演示页面。如果文章内容页面收录

分页，则需要设置“内容分页导航所在区域的匹配规则”。对于“固定采集

项目”中的“内容摘要、关键词、缩略图”三部分，系统会自动匹配常规规则，这里只需要配置过滤内容即可。下面主要介绍如何获取“文章标题、文章作者、文章来源、发表时间、文章内容”的采集规则。过滤规则只是简单涉及。

　　2.1.1 获取文章标题的采集

规则

　　首先打开“预览网址”页面，右键，选择“查看源代码”，找到文章标题“在Dreamweaver中为插入的Flash添加透明度”，如图（图23），

　　（本图来源于网络，如有侵权请联系删除！）

　　图23-源码中的文章标题

　　这里的文章标题在“”之间。由于这组标签在本页多次出现，您应该填写“

　　[Content]"作为文章标题的匹配规则，如果文章标题中有相关链接，可以使用过滤规则进行处理，这里不需要设置。填写后，如图在图 24 中，

　　（本图来源于网络，如有侵权请联系删除！）

　　图24-文章标题的采集

规则

　　2.1.2 获取文章作者的采集

规则

　　如上图23所示，在“Author:”这个词之后有一组标签“”，猜测作者的名字会写在这组标签之间。同样，为了保持唯一性，此处应填写“作者：[内容]”作为文章作者的采集

规则。为谨慎起见，请根据文章列表中的其他文章内容页面检查此采集

规则是否正确。无需使用过滤规则。填充后，如图25所示，

　　（本图来源于网络，如有侵权请联系删除！）

　　图 25-文章作者的采集

规则

　　2.1.3 获取文章来源的采集

规则

　　在上面的图23中，你可以在“source:”这个词之后找到一组标签“”，猜测源内容会写在这组标签之间。和2.1.2一样，为了保持唯一性，文章来源的采集

规则应该是“来源：[内容]”。同样，这里也不需要使用过滤规则。填充后，如图26所示，

　　（本图来源于网络，如有侵权请联系删除！）

　　图 26-文章来源的采集

规则

　　2.1.4 获取文章发表时间的采集规则

　　再次回到图23，找到“Published in:”和后面的“2009-09-29 14:21”，与之前获取采集规则的方法相同。此处，应使用“Published in: [Content]”作为发布时间。采集

规则。同样，这里也不需要使用过滤规则。填充后，如图27所示，

　　（本图来源于网络，如有侵权请联系删除！）

　　图27-文章发表时间的采集规则

　　2.1.5 获取文章内容的采集

规则

　　这部分是编写采集

规则的重点和难点。需要特别注意。

　　具体步骤：

　　(A) 回到正在打开的文章内容页面的源码，找到文章内容的开头部分“Dreamweaver升级到8.0.2之后”，如图图 28，

　　（本图来源于网络，如有侵权请联系删除！）

　　图28-文章内容开头

　　注意：这句话在源码中出现了两处。其中，第一句在“

　　在“之后，第二句在”

　　”之后。通过对比文章内容页面和它的源码，不难发现第一个位置其实是一个摘要，第二个位置是文章内容的开头，所以应该选择“

　　“是匹配规则的开始部分。

　　(B) 找到文章内容的结尾部分“同时添加值为”transparent”的“wmode”参数，如图29所示，

　　（本图来源于网络，如有侵权请联系删除！）

　　图29-文章内容结束

　　注意：由于结束部分的最后一个标签是“

　　”，并且这个标签在文章内容中多次出现，所以不能作为集合规则的结束标签。考虑到它应该对应文章内容的开头，经过比较分析，应该在这里被选中。

　　”作为文章内容的结尾，如图30所示，

　　（本图来源于网络，如有侵权请联系删除！）

　　图 30-文章结尾匹配规则

　　(C) 结合(a)和(b)，我们可以看到这里文章内容的匹配规则应该是“

　　[内容]

　　》，填写后，如图31所示，

　　（本图来源于网络，如有侵权请联系删除！）

　　图31-文章内容匹配规则

　　这里不使用过滤规则，过滤规则的介绍和使用将放在单独的章节中。

　　至此，“新增采集节点：第二步设置内容字段获取规则”，设置完成。填写后，如图（图32），

　　（本图来源于网络，如有侵权请联系删除！）

　　图32-设置后新建采集节点：第二步设置内容字段获取规则

　　检查无误后，点击“保存配置并预览”。如果之前的设置正确，点击之后，会进入“新建采集

节点：测试内容字段设置”页面，看到对应的文章内容。如图（图33），

　　（本图来源于网络，如有侵权请联系删除！）

　　图 33-新建采集节点：测试内容字段设置

　　确认无误后，点击“仅保存”，系统会提示“保存配置成功”，返回“采集节点管理”界面；点击“保存并开始采集”，将进入“采集指定节点”界面。否则，单击“返回上一步进行修改”。

　　第二部分的介绍到此结束。现在进入第三部分。. .

　　上一篇：Dedecms织梦模板采集方法教程：不分页的普通文章采集（3)

　　下一篇：Dedecms织梦模板采集方法教程：不分页的常用文章采集（1)

　　免责声明：本站所有文章和图片均由用户分享并采集

于互联网。文章、图片版权归原作者所有。仅供学习和参考。请不要将它们用于商业目的。如果您的权益受到损害，请联系网站客服处理。

　　EyouCms，简单易用的企业网站管理系统，点击了解更多

　　有什么问题可以加入织梦科技QQ群一起交流学习

　　本站VIP会员请加入dede58 VIP②群 PS：加入时请备注用户名或昵称

　　普通注册会员或访客请加入dede58技术交流②群

　　来源：网友投稿关注：时间：2018-10-20 09:23

　　☉首先，只要是我们的VIP会员，所有源代码都可以免费下载，没有任何限制（了解更多）

　　☉本站源代码不会像其他下载站那样植入大量广告。为了更好的用户体验，以后坚持不打印水印

　　☉本站只提供优质织梦的源代码，源代码可用，不多！！希望在这里找到合适的你。

　　☉本站提供的织梦程序全站有资料和演示地址。可以在任意源码详情页查看demo地址

　　☉本站所有资源（包括源代码、模板、素材、特效等）仅供学习参考，请勿用于商业用途。

　　☉如有其他问题，请加网站客服QQ（970003436)）沟通。

0

2021-12-28

采集的文章内容不能直接发布

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

采集的文章内容不能直接发布(如何获取文章标题、文章作者文章来源、发布时间和文章内容)

0 个评论

发起人

AI时代内容工厂

采集的文章内容不能直接发布(如何获取文章标题、文章作者文章来源、发布时间和文章内容)

0 个评论

发起人

相关问题