解决方案:用 PyQt5 写一个傻瓜式的一键数据采集软件

优采云 发布时间: 2022-11-19 06:53

  解决方案:用 PyQt5 写一个傻瓜式的一键数据采集软件

  数据采集越来越成为互联网从业者的刚需。

  从内部报告到外部市场动态,需要采集大大小小的信息和数据。毫无疑问,爬虫是处理一般数据的 采集 方法中最快和最有效的。但是,写爬虫,必须要有一定的编程基础,谁受得了。市面上也有一些自助数据采集工具,如:优采云、优采云等,确实降低了数据采集和门槛,方便了数据操作采集。然而,这些工具或多或少仍然需要手动定义和选择规则。在周先生的“前期爬虫生涯”中,我遇到了很多业务人员,有一个需求:直接把数据给我就行了。回答是没有,他说:给我一个工具,我点一下数据就出来了。实际上,我们可以使用PyQt5对爬虫程序进行打包打包,实现傻瓜式,一键生成采集软件。这个特别适合网站,人群是普通业务人员,实时性不高,但是需要登录,下面我们就用到采集后台的数据>以微信公众号为例介绍使用PyQt5开发一键式傻瓜式数据采集工具。核心采集代码在这里,我们仅以采集微信公众号后台的“账号全局”数据作为演示:实时性不高,但又需要登录的用户。下面我们以采集微信公众号后台的数据为例,介绍使用PyQt5开发一个-点击傻瓜式数据采集工具。核心采集代码在这里,我们仅以采集微信公众号后台的“账号全局”数据作为演示:实时性不高,但又需要登录的用户。下面我们以采集微信公众号后台的数据为例,介绍使用PyQt5开发一个-点击傻瓜式数据采集工具。核心采集代码在这里,我们仅以采集微信公众号后台的“账号全局”数据作为演示:

  我们使用 requests 库进行 HTTP 请求,使用 BeautifulSoup 进行 HTML 文档解析和数据提取。其核心采集代码如下:

  <p> def check_status(self):

   try:

   print("获取到的Cookie:", self.cookie)

   print("获取到的Token:",self.token)

   # 获取当前登录店铺和用户名

   url = 'https://mp.weixin.qq.com/cgi-bin/home?t=home/index&token={token}&lang=zh_CN'.format(token=self.token)

   wbdata = requests.get(url, headers=self.header, cookies=self.cookie).text

   soup = BeautifulSoup(wbdata,'lxml')

   nickname = soup.select_one("a.weui-desktop-account__nickname").get_text()

   total_cnt = soup.select("em.weui-desktop-data-overview__desc")[2].get_text()

   self.nickname = nickname

   except Exception as e:

   self.nickname = None

   logger.error("获取用户信息出错:{}".format(repr(e)))

   return (self.nickname, self.cookie)</p>

  

  构建图形界面 因为微信公众号需要登录才能使用,所以我们使用PyQt5的QtWebEngineWidgets小部件在程序中嵌入浏览器,直接在程序中实现登录操作。

  可以看到这里我们的图形程序的主界面分为两个选项卡,是通过QTabWidget选项卡组件实现的。在第一个选项卡中,我们放置了一个 QtWebEngineWidgets 的 QWebEngineView 组件,用于显示网页和执行登录操作。在第二个选项卡中,我们放置了按钮组件和文本输入框组件来控制数据采集,显示数据的进度和结果采集。

  采集流程与控制程序的图形界面构建完成后,我们需要对程序的功能进行处理。这些功能包括:网页的cookie是我们获取登录状态的关键,这里通过QtWebEngineWidgets的QWebEngineProfile部分实现了一个浏览器配置文件。QWebEngineProfile有一个Cookie存储,每次请求都会将Cookie写入QWebEngineProfile,我们会从中读取最新的Cookie。通过按钮“检查登录状态”执行数据采集,将按钮点击信号绑定到一个槽函数,在槽函数核心代码中调用QThread在子线程中执行数据采集。结果的输出是通过文本输出框实现的。

  <p> # 在控制台中写入信息

   def outputWritten(self, text=None):

   cursor = self.label_1.textCursor()

   cursor.movePosition(QtGui.QTextCursor.End)

   cursor.insertText(text)

   self.label_1.setTextCursor(cursor)

   self.label_1.ensureCursorVisible()</p>

  

  这样,在按钮的槽函数中,调用outputWritten方法,输出文本框中的采集信息。最终结果最终我们实现的效果是:打开程序,在“登录页面”选项卡扫码登录微信公众号后台;然后切换到“操作页面”,点击“查看登录状态”按钮,程序会自动生成采集数据,最后输出到文本输入框。未登录的影响:

  登录状态下的效果:

  按照同样的逻辑,我们可以在采集网页中实现其他数据,比如文章列表数据、关注列表用户数据等,或者其他网站数据。

  想要呈现为《Python图形界面开发实战视频教程》吗?点击下方“在看”,给它一个上台的机会,给我一个鼓励!

  解决方案:Google seo供应商资源,谷歌seo网站运营

  哪些谷歌搜索引擎优化供应商资源应该优化?

  答案是:做谷歌搜索引擎优化才能找到曙光

  我们都知道有很多公司做谷歌SEO网站运营,尤其是很多,搜索它们时可以捕捉到很多。

  但问题是,谷歌SEO如何判断它是否可靠?如何选择外贸公司?

  如果您还没有与网站构建器合作,则应仔细阅读。

  如果您已经与运营公司合作,您还可以检查我是否正确。

  第一:验证专业水平

  这里所说的专业程度,并不意味着网站做得好不好,服务流程高不高,报告和文件好不好等等

  这是对操作本身技术水平的真实考验

  1. 网站是否使用WordPress开源程序,是否有优化技术框架的能力

  2. 使用PageSpeed Insights来衡量您的Google效果衡量分数是否为70或更高(此决定网站以后排名的空间)。

  3.服务器能否有效防御DDOS或黑客等攻击(不熟练的操作通常是提交工单,这也是很多服务商经常做的事情)。

  以上就是为了测试一家谷歌SEO运营公司的专业性。

  第二:数据是否真实

  这里提到的数据是流量和查询数据

  

  由于这两个数据是可以伪造的,很多服务商没有能力做排名,所以合同上写着要承诺多少流量或者查询。

  所以它开始伪造,因为这个数据伪造很简单,刷一下就行了。

  所以要检查谷歌SEO公司的实力,你看它是否敢承诺关键词排名的数量。

  比如市面上比较靠谱的排名数据,一般承诺20~100个排名(写进合同)。

  当然,事实上,在1年内,网站的排名通常会超过100(首页)。

  因为网站只会越来越好。

  结论:你可以信任敢于承诺排名的运营公司,因为你不能伪造排名。

  第三:域名的所有权和网站源代码它

  必须是你的,它

  必须是你的,它必须是你的

  网站程序必须是开源的,不能自定义

  重要的事情我说了三遍

  举个例子:一个老板找了一家运营公司建网站+谷歌优化,花了8万做了1年没有多大效果,现在想换一家公司继续做,但是有问题。因为网站程序是他们定制的,其他公司没有办法对他们的程序进行二次修改,网站上的内容数据和图片数据无法迁移,也不愿意提供网站程序的完整源代码,这很尴尬,你知道的。

  结论:域名、服务器、程序、源代码必须在你手中,而且程序是开源的,开源意味着每个人都可以修改,源代码是开放的。

  第四:是否有自己的GPB外部链接资源供供应

  

  没错,GPB的外链资源,这很重要,谷歌排名其实就是看谁的外链资源质量好。

  知道了这些,你就会明白外链是极其重要的,而目前谷歌优化运营公司在中国,他们没有外链资源。

  为什么不呢?因为自己的网站做得不好,怎么会有GPB反向链接资源,那么这些公司是怎么运营反向链接的呢?

  答案是:出国找一些便宜的、垃圾的外部链接来补上,成本几百到几千块钱,没寄出你的网站就被谷歌惩罚了。

  GPB外部链接是独立的外部链接,说白了,他们做了一批好网站,发送自己的外部链接,如果没有呢?那只能自己买,买了就觉得

  心疼,你也知道外链很贵,一块5块钱,贵到30块钱,你觉得他们会买吗?

  我告诉你,通常这些公司只会买那种1元或者2元的外链,也就是垃圾外链,帮你做一些拉下来,排名绝对不上去。

  所以他们不会给你一个承诺的排名,他们只会给你一个流量的承诺,因为流量可能是假的。

  为什么会这样呢?

  想想看,现在市场上1年优化的成本是多少,大概5~8万(基本)。

  他们有人工成本,怎么可能花几千甚至几万给你发GPB外链,所以你自己的外贸网站不排名是对的,没有错。

  更何况现在市面上有3万张谷歌优化榜,简直就是割韭菜。没买过GPB的外部链接

  一定不知道,现在都是20~30多个一个,一般外贸站要实现每月流量1000+,至少需要1000个GPB左右的外部链接,也就是说,外部链接的成本都在20000以上,你觉得他们会花那么多钱给你发外部链接吗?

  因此,只需询问他们是否有自己的反向链接网站。

  是的,靠谱,不,你求福,记得沟通外链成本好,6万包一年至少买1万元的外链,这样才有一点保证。

  否则你就是韭菜。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线