优采云伪原创插件(用python插件几行代码过滤掉了,我该怎么办? )
优采云 发布时间: 2021-10-29 02:13优采云伪原创插件(用python插件几行代码过滤掉了,我该怎么办?
)
Python确实很强大,优采云处理不了的地方,python可以轻松搞定,因为优采云用了很多年了,我很熟悉,有些地方不是很灵活. 今天讲的是采集信息问题,下面是我的采集新闻和信息的一些常见问题。
1、列表抓包获取文章页面数据
很多资讯网站都需要抓取文章页面的url,比如腾讯、搜狐等。这两个站点可以用PC爬取,抓包就可以得到数据。百度新闻和头条新闻,关注专栏采集,这些都是验证参数,算法必须逆向破译,插件生成的验证参数才能顺利采集。在这种情况下,我通常会查看移动终端或应用程序。你能爬吗?
2、抓包的list url时间问题
有些网站抓取的数据可能是几天前的数据,也可能是最新的数据。很多朋友不喜欢旧数据,更喜欢使用最新数据。如何过滤掉这些旧数据?其实用的python插件几行代码就可以过滤掉,看看我的案例
3、搜狐关注作者采集最新数据
先说说我的想法吧。当然,有很多不同的想法。在代码实现上,我的思路是这样的:
一种。首先从内容页面获取时间参数。这里只获取年、月和日。如果没有时分秒,用年月日就够了,只用卡当天的数据
湾 使用插件比较实时时间和采集的时间
C。如果是同一时间,也就是当天的数据,那么采集标签:Boolean,返回一个1,如果不是当天的数据,则返回一个0给Boolean
d. 在布尔采集标签中做内容过滤,内容必须收录1。
这样就过滤掉了当天的数据和旧的数据。如果可以用代码直接删除c中的旧数据也是可以的,因为陶小白对优采云插件的原理不是很熟悉,所以应用了上面的思路。
4、完整代码在这里
# 编码:UTF-8
导入系统,导入库
导入 urllib
从 urllib 导入解析
导入json
导入日期时间
如果 len(sys.argv)!= 5:
打印(len(sys.argv))
print("命令行参数长度不是5")
系统退出()
别的:
LabelCookie = parse.unquote(sys.argv[1])
LabelUrl = parse.unquote(sys.argv[2])
#PageType为List、Content、Pages分别代表列表页、内容页、多页http请求处理,Save代表内容处理
页面类型=sys.argv[3]
SerializerStr = parse.unquote(sys.argv[4])
如果 (SerializerStr[0:2] !='''{"'''):
file_object = 打开(SerializerStr)
尝试:
SerializerStr = file_object.read()
SerializerStr = parse.unquote(SerializerStr)
最后:
file_object.close()
LabelArray = json.loads(SerializerStr)
#以下是用户编写的代码区
如果(页面类型==“保存”):
a=LabelArray['时间']
now_time=datetime.datetime.now().strftime('%Y-%m-%d')
if(a == now_time):
LabelArray['布尔']='1'
别的:
LabelArray['布尔']='0'
别的:
LabelArray['Html']='当前页面的URL为:'+LabelUrl+"\r\n页面类型为:"+PageType+"\r\nCookies数据为:"+LabelCookie+"\r\n收到的数据是:“+ LabelArray['Html']
#上面是用户编写的代码区
LabelArray = json.dumps(LabelArray)
打印(标签阵列)
5、优采云采集设置