优采云伪原创插件(用python插件几行代码过滤掉了,我该怎么办? )

优采云 发布时间: 2021-10-29 02:13

  优采云伪原创插件(用python插件几行代码过滤掉了,我该怎么办?

)

  Python确实很强大,优采云处理不了的地方,python可以轻松搞定,因为优采云用了很多年了,我很熟悉,有些地方不是很灵活. 今天讲的是采集信息问题,下面是我的采集新闻和信息的一些常见问题。

  1、列表抓包获取文章页面数据

  很多资讯网站都需要抓取文章页面的url,比如腾讯、搜狐等。这两个站点可以用PC爬取,抓包就可以得到数据。百度新闻和头条新闻,关注专栏采集,这些都是验证参数,算法必须逆向破译,插件生成的验证参数才能顺利采集。在这种情况下,我通常会查看移动终端或应用程序。你能爬吗?

  2、抓包的list url时间问题

  有些网站抓取的数据可能是几天前的数据,也可能是最新的数据。很多朋友不喜欢旧数据,更喜欢使用最新数据。如何过滤掉这些旧数据?其实用的python插件几行代码就可以过滤掉,看看我的案例

  3、搜狐关注作者采集最新数据

  先说说我的想法吧。当然,有很多不同的想法。在代码实现上,我的思路是这样的:

  一种。首先从内容页面获取时间参数。这里只获取年、月和日。如果没有时分秒,用年月日就够了,只用卡当天的数据

  湾 使用插件比较实时时间和采集的时间

  C。如果是同一时间,也就是当天的数据,那么采集标签:Boolean,返回一个1,如果不是当天的数据,则返回一个0给Boolean

  d. 在布尔采集标签中做内容过滤,内容必须收录1。

  这样就过滤掉了当天的数据和旧的数据。如果可以用代码直接删除c中的旧数据也是可以的,因为陶小白对优采云插件的原理不是很熟悉,所以应用了上面的思路。

  4、完整代码在这里

  # 编码:UTF-8

  导入系统,导入库

  导入 urllib

  从 urllib 导入解析

  导入json

  导入日期时间

  如果 len(sys.argv)!= 5:

  打印(len(sys.argv))

  print("命令行参数长度不是5")

  系统退出()

  别的:

  LabelCookie = parse.unquote(sys.argv[1])

  LabelUrl = parse.unquote(sys.argv[2])

  #PageType为List、Content、Pages分别代表列表页、内容页、多页http请求处理,Save代表内容处理

  页面类型=sys.argv[3]

  SerializerStr = parse.unquote(sys.argv[4])

  如果 (SerializerStr[0:2] !='''{"'''):

  file_object = 打开(SerializerStr)

  尝试:

  SerializerStr = file_object.read()

  SerializerStr = parse.unquote(SerializerStr)

  最后:

  file_object.close()

  LabelArray = json.loads(SerializerStr)

  #以下是用户编写的代码区

  如果(页面类型==“保存”):

  a=LabelArray['时间']

  now_time=datetime.datetime.now().strftime('%Y-%m-%d')

  if(a == now_time):

  LabelArray['布尔']='1'

  别的:

  LabelArray['布尔']='0'

  别的:

  LabelArray['Html']='当前页面的URL为:'+LabelUrl+"\r\n页面类型为:"+PageType+"\r\nCookies数据为:"+LabelCookie+"\r\n收到的数据是:“+ LabelArray['Html']

  #上面是用户编写的代码区

  LabelArray = json.dumps(LabelArray)

  打印(标签阵列)

  5、优采云采集设置

  

  

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线