采集的文章和关键词不符(Zennoposter老毛子的一款外链工具,网址是:。。)

优采云 发布时间: 2021-10-12 21:24

  采集的文章和关键词不符(Zennoposter老毛子的一款外链工具,网址是:。。)

  Zennoposter是老毛子的外链工具。网址是:。Demo版正式发布:有兴趣的可以下载试玩。在我身边的人中,使用这个软件的大部分都是为了注册和发布。原因是这个软件把一些常用的功能做成了小功能块,比如:判断、循环、正则抽取、ZP44.0中最新的简化变量是结果集,虽然功能是一样的,但一长串代码很不方便)。虽然大部分朋友都是用它来注册发布,交流时讨论模板兼容性等问题,但也有人用ZP做出了一些精彩的脚本。

  现在给大家提供一个脚本思路。和标题一样,我们发布时需要很多文章,对于关键词,最新发布,高质量。解决了上面的问题,我们的思路就完成了60%。

  以谷歌为例,我将解决以上三个问题。

  对于关键词,当然这个可以忽略,不是问题,都是你指定的。

  最新版本在文章 网站上得到了很好的认可,并且有发布日期什么的,但是在Google 中,它不会显示任何发布日期。不过我们可以用同样的思路来完成,一篇文章文章收录时间为你提供过滤。谷歌有一个高级选项。对于那些过滤搜索结果的人,您可以指定在一年、一个月、一周和一天内显示链接。(PS:其实有一些足迹,就可以找到好的资源) 这样,新发布的问题就解决了。

  可能有人会问,最新的收录可能不是最新发布的,可能是很久以前发布的。这个问题和文章的质量问题都可以一个答案解决。首先要明确,各大知名文章站都有严格的审核检查,至少过滤掉了两个缺点。伪原创 不知道有多少次文章,因为采集不正确,文章的内容里有垃圾代码。这两个项目被屏蔽了,即使是很久以前发布的,也是一个高质量的文章。另外,由于是知名的文章站点,google等搜索引擎会频繁访问,自然降低了发布时间较长的文章出现的概率,

  说了这么多,下面开始介绍写脚本的思路和脚本运行中可能出现的问题。整个脚本的思路:

  首先,随机选择站关键词和文章,将它们组合成限时链接。并且还减少翻页次数,这样采集的速度会快很多,Google默认单页显示10条数据,最大可以设置为100条。

  google链接基本特性介绍:

  谷歌搜索网址:参数num=每页显示的结果数

  参数 tbs = 搜索时间范围

  参数q=和oq=就是你要搜索的内容(也就是谷歌搜索框输入的内容)

  使用上面的功能介绍,以婚纱为例,我们可以准确匹配到需要的链接,就像下面链接的格式:

  :w&q=婚纱网站:&oq=婚纱网站:

  &tbs=qdr:w 是一个简单的解释。&连接符qdr下方有y、m、w、d四个值,分别是一年以内、一个月以内、一周以内、一天以内。收录精度。这个值可以根据自己的需要进行调整。如果不经过这种过滤,说不定连98年的抗洪文章都给你刮掉了。

  如果链接组合成功,我们需要打开链接,如下图:

  此页面上可能没有 100 个结果。一周之内收录关键词的结果比较少,一个月内可能会有100多个结果。首先,脚本判断是否有验证码。这是因为你已经多次搜索同一个IP,谷歌才会提示你输入验证码。如果是,直接连接第三方代码进行处理。没有验证码,我们需要获取文章页面链接的正则表达式。刚才根据我们的链接搜索到了一些文章站,找到的可能与关键词标签链接必须准确到文章页面,否则会影响我们的下载文章。

  首先采集整个页面上的链接,这是一个两步的过程,如下图:

  先获取整个页面的源码

  使用常规获取html页面上的链接

  注意:上图的结果不是一个变量,而是一个列表。如果结果超过100条,我们还需要翻页,然后得到第二页和第三页的链接。

  首先将列表保存在一个临时文件中,然后使用常规规则来匹配里面的链接。如果匹配成功,可以直接判断是否已经采集。采集当然不用再去采集。那些没有采集的将它们分别保存在newlist和oldlist文件中。

  高潮来了!!!

  完成以上操作后,我们就要开始我们的下载工作了。这是最重要的,也是我们的最终目标。先提取一个链接,然后获取链接源码,在标题和内容中使用正则表达式,把文章完整采集下来。至于内容中的那些标签,可以使用替换功能进行替换,然后保存到你指定的文件夹中。

  结语:脚本可以结合Zennoposter外部连接修改,我们文章链接的来源不固定。它可以来自谷歌、必应或雅虎等大型搜索引擎。顺便说一下,我们需要开始积累文章站的文章页面的正则表达式和文章的标题内容。分享一份AS文章站,数量还是比较多的,有400多种。

  免费下载:文章站.zip

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线