话题：通配符 - 自动文章采集器-优采云官网

网站怎么采集 wordpress怎样实现手动采集

站长必读 • 优采云发表了文章 • 0 个评论 • 766 次浏览 • 2020-07-18 08:08 • 来自相关话题

　　
　　WordPress是一种使用PHP语言开发的建站程序平台，现在做博客用wp的早已好多了，很多网站制作培训都使用的是wp，特别是在做采集站的时侯wordpress的共能太强悍。下面就给你们介绍怎样实现wp的手动采集功能。
　　安装网站采集插件：WP-AutoPost（插件下载地址：）
　　
　　点击“新建任务”后，输入任务名称，即可创建新任务，创建好新任务以后可以在任务列表中查看到该任务，就可对该任务进行更多设置。（这一部分不需要更改设置，唯一须要改动的就是采集的时间。）文章来源设置。在该选项卡下我们须要设置文章来源的文章列表网址及具体文章的匹配规则。我们以采集”新浪互联网新闻“为例，文章列表网址为，因此在手工指定文章列表网址中输入该网址即可，如下所示：
　　
　　文章网址匹配规则。文章网址匹配规则的设置特别简单，无需复杂设置，提供两种匹配模式，可以使用URL键值匹配，也可以使用CSS选择器进行匹配wordpress 文章采集，通常使用URL键值匹配较为简单，但有时使用CSS选择器更为精确。使用URL键值匹配。通过点击列表网址上的文章，我们可以发觉整篇文章的URL都为如下结构：，因此将URL中变化的数字或字母替换为键值(*)即可，如：(*)/(*).shtml 。重复的网址可以使用301重定向。使用CSS选择器进行匹配。使用CSS选择器进行匹配，我们只须要设置文章网址的CSS选择器即可，通过查看列表网址的源代码即可轻松设置，找到列表网址下文章超链接的代码，如下所示：
　　
　　可以看见，文章的超链接A标签在class为“contList”的标签内部，因此文章网址的CSS选择器只须要设置为.contList a 即可，如下所示：
　　
　　设置完成以后，不知道设置是否正确，可以点击上图中的测试按键wordpress 文章采集，如果设置正确，将列举该列表网址下所有文章名称和对应的网页地址，如下所示：
　　
　　其他的设置可以不用更改。以上采集方法适用于WordPress多站点功能。查看全部

http://p.toutiao.5118.com/imag ... pg.jpg" />
　　WordPress是一种使用PHP语言开发的建站程序平台，现在做博客用wp的早已好多了，很多网站制作培训都使用的是wp，特别是在做采集站的时侯wordpress的共能太强悍。下面就给你们介绍怎样实现wp的手动采集功能。
　　安装网站采集插件：WP-AutoPost（插件下载地址：）
　　

　　点击“新建任务”后，输入任务名称，即可创建新任务，创建好新任务以后可以在任务列表中查看到该任务，就可对该任务进行更多设置。（这一部分不需要更改设置，唯一须要改动的就是采集的时间。）文章来源设置。在该选项卡下我们须要设置文章来源的文章列表网址及具体文章的匹配规则。我们以采集”新浪互联网新闻“为例，文章列表网址为，因此在手工指定文章列表网址中输入该网址即可，如下所示：
　　

　　文章网址匹配规则。文章网址匹配规则的设置特别简单，无需复杂设置，提供两种匹配模式，可以使用URL键值匹配，也可以使用CSS选择器进行匹配wordpress 文章采集，通常使用URL键值匹配较为简单，但有时使用CSS选择器更为精确。使用URL键值匹配。通过点击列表网址上的文章，我们可以发觉整篇文章的URL都为如下结构：，因此将URL中变化的数字或字母替换为键值(*)即可，如：(*)/(*).shtml 。重复的网址可以使用301重定向。使用CSS选择器进行匹配。使用CSS选择器进行匹配，我们只须要设置文章网址的CSS选择器即可，通过查看列表网址的源代码即可轻松设置，找到列表网址下文章超链接的代码，如下所示：
　　

　　可以看见，文章的超链接A标签在class为“contList”的标签内部，因此文章网址的CSS选择器只须要设置为.contList a 即可，如下所示：
　　

　　设置完成以后，不知道设置是否正确，可以点击上图中的测试按键wordpress 文章采集，如果设置正确，将列举该列表网址下所有文章名称和对应的网页地址，如下所示：
　　

　　其他的设置可以不用更改。以上采集方法适用于WordPress多站点功能。

织梦采集侠2.7定向采集设置教程

采集交流 • 优采云发表了文章 • 0 个评论 • 499 次浏览 • 2020-06-11 08:00 • 来自相关话题

　　定向采集是织梦采集侠亮点功能之一，简单配置采集规则即可精确采集到文章标题、作者、来源、内容和分页，通过这篇教程你们可以懂得怎样配置这种采集规则，从而简单便捷的采集内容，熟悉该方式后，您将会抛弃传统复杂的采集方式，采用织梦采集侠的定向采集功能进行采集。和传统的采集方式相比，织梦采集侠的定向采集功能更为简单，不需要编撰复杂的采集规则，可供设置的地方就这么几项，简单配置一下即可采集内容。定向采集规则设置： 1）目标页面编码目标页面编码的设置最为简单，您只须要查看一下您要采集的网站页面所采用的是哪些编码即可，查看方式很简单，打开您要采集的网页，点击滑鼠右键，点击查看网站源码，搜索charset，查看charset 后面紧随的是utf-8 还是gb2312，然后在采集规则设置目标页面编码设置对应的编码即可。 2）列表URL 列表URL 是您要采集网站的列表列表URL 一般是你须要采集的文章的列表页，因为只有列表页才有诸多被采集文章的 URL，通过列表URL 规则和文章URL 规则，可以匹配出该列表页符合文章URL 规则的文章页URL 如果只是单纯采集列表页的第一页，直接输入该列表URL就行，如我要采集站长之家的优化栏目的第一页，那列表URL 就输入：，即可。
　　采集第一页的内容的益处就是可以不用采集老旧的新闻，而且有新更新也可以及时采集到，如果须要采集该栏目的所有内容，那也可以通过设置键值的方法，匹配所有列表URL 匹配URL规则的方式也很简单，你只须要查看列表分页的不同，加个键值即可，如站长之家的优化栏目：，这是首页的，第一页的URL 是：第二页的URL 是：第三页的URL 是：通过观察列表URL 的变化，可以看出第一页就是1.shtml，第二页就是2.shtml，第三页就是3.shtml，变换的就是页脚而已，列表页的URL 通配符是 [开始页-结束页] 如你要采集栏目前二十页的，那么列表URL规则就是： [1-20].shtml，看到其中的区别了吧，就是在变换的部份加入键值采集侠规则，从开始页到结束页即可。 3）文章URL 文章URL 规则和列表URL 规则设置差不多，也是通配变换的部份，只是键值不一样而已，文章URL 使用转义来匹配，有采集规则编撰经验的用户可以很容易理解，通配符可以取代一个或多个真正的字符，通过下边反例愈发直观的了解键值的使用技巧。 :///web/2011/0926/211705.shtml 通配后的URL 就是：(*)/(*)/(*).shtml 也就是说数字部份是变换的部份，可以看得出他的URL 结构是年/月日/文章ID的方式，年月日和文章ID 是会变换的，所以就通配这三部份内容就行。
　　我们可以输入列表URL 规则和文章URL 规则，然后点击测试，会听到右图的测试结果，也就是匹配成功了，已经列举成功匹配的列表URL 和文章URL，测试的时侯只显示前十条结果以供观察是否早已匹配成功。 4）标题规则、作者规则、来源规则、内容规则和分页规则的写法标题、作者、来源、内容和分页规则的写法都是一样的，懂得其中一项的写法，其他几项都懂得了，我如今就一一举例怎么设置，有编撰过传统采集规则的用户，对插件的规则写法会很容易上手，新用户也是很容易理解的。 [规则说明]：”起始无重复HTML[内容]结尾无重复HTML”，简单的说，右键查看文章源码，标题内容用 [内容] 来取代，然后就是紧接着标题内容左右两侧的代码，下面是举例说明，用户可以更直观的了解。比如我要采集站长之家优化栏目上面的文章，打开文章列表中其中一篇， SEO关键字策略规划方法心得分享标题规则打开后，右键查看源码，通过查看源码，我们可以看见标题“SEO 关键字策略规划方法心得分享”出现的地方有2 SEO关键字策略规划方法心得分享按照这两段代码，我们可以写出标题规则为这样的写法就符合插件的规则要求，同[内容]代替要采集的部份，只取其中一个规则即作者规则的写法和标题写法一致，只要找出作者所在位置，和左右两侧的代码就行，用[内容]代替作者，该篇文章中没有显示文章作者，所以在此就不演示了。
　　来源规则浏览网页我们可以看见该篇文章的来源是，同样是查看文章源码，搜索查看“”所在位置，我们可以看见来源: 这段代码中包含了来源，我们采用同样的方式用[内容]对要采集的“来源”进行替换，来源规则则是：来源: [内容] 内容规则内容规则和其他规则的写法一样，只是内容过多，不便捷搜索查找，得自己浏览源码找到内容部份，内容部份占的位置也是比较多的，查找上去也是很容易的。从上两张图中我们可以找出文章开头是“网络上谈SEO 的文章是满天纷飞”，结尾是“转载请提供出处。不胜谢谢。”，包含文章正文的html 分别是
　　只要取一小部份不同的就行，内容规则则是：招分销商
　　[内容]
　　分页规则 “SEO 关键字策略规划方法心得分享”该篇文章没有分页，我就取“电子商务关键数字优化（线上部份，上）（）” 这篇文章给你们做演示。通过查看源码，我们找到分页部份的那段代码，如下图：分页规则的写法则和其他规则的写法也是一样的，将[内容]替换带有分页URL 的地方就行，分页规则是：
　　[内容]
　　写到这儿，我想你们也懂得怎样设置采集规则了，是不是很简单？插件提供测试功能，在使你们测试规则是否有效，如下图般设置好，然后点击测试按键。如果不需要采集作者和来源信息，那只须要设置标题、内容和分页规则即可。将会看见测试结果如下图：可以看出各项内容都可以精确采集了，但在上图中却没有显示分页链接，其实这个并不是规则编撰错误的，而是测试的第一篇文章中没有分页，所以不显示分页链接，不过你们可以单独测试一下分页规则是有效采集侠规则，就是列表URL 和文章URL 不进行通配，直接填入列表 URL 和文章URL，然后设置好分页规则，点击测试即可见到分页链接，如下图：如果不写采集规则，全部设置手动的话，标题和内容是可以采集到的，作者、来源、和分页未必可以挺好的采集到，只有符合插件手动规则的才行。正文部份借助插件的正文提取算法进行提取，如果网页排版形式不够规范的话，可能会提取到有多余，或者提取少了的现象，如果想精确采集，建议还是写上采集规则。无广告弹窗全文字TXT 小说网----去书吧--- 查看全部

网站怎么采集 wordpress怎样实现手动采集

站长必读 • 优采云发表了文章 • 0 个评论 • 766 次浏览 • 2020-07-18 08:08 • 来自相关话题

　　可以看见，文章的超链接A标签在class为“contList”的标签内部，因此文章网址的CSS选择器只须要设置为.contList a 即可，如下所示：
　　

　　其他的设置可以不用更改。以上采集方法适用于WordPress多站点功能。

织梦采集侠2.7定向采集设置教程

采集交流 • 优采云发表了文章 • 0 个评论 • 499 次浏览 • 2020-06-11 08:00 • 来自相关话题

更多...

AI时代内容工厂

通配符

网站怎么采集 wordpress怎样实现手动采集

织梦采集侠2.7定向采集设置教程

网站怎么采集 wordpress怎样实现手动采集

织梦采集侠2.7定向采集设置教程

话题描述

相关话题

1 人关注该话题