python scrapy 爬取金十数据并手动推送到陌陌

优采云 发布时间: 2020-08-14 08:58

  一、背景

  因业务须要获取风险经济风波并采取应对举措,但由于种种缘由又疏漏于每晚去查看财经月历,于是通过爬取金十数据网站并手动推送到陌陌查看。

  二、目标实现

  

  image

  三、环境与工具

  1、pycharm:python开发IDE

  2、windows 窗口句柄获取工具

  四、实现思路

  爬虫获取风险风波,然后python通过句柄定位到陌陌窗口,模拟键鼠操作本机陌陌客户端发给好友(自己),最开始原本使用陌陌itchat库,但是这个是基于微信网页版,登录几次后陌陌提示:为了你的账号安全,此微信号已不容许登入网页陌陌。你可以使用Windows陌陌或Mac。

  五、主要代码

<p>

# -*- coding: utf-8 -*-

import scrapy

from selenium import webdriver

from scrapy import signals

import win32con,win32gui,time,win32api

import win32clipboard as w

import re

from datetime import datetime

hwnd = 394916 #微信窗口句柄,使用句柄工具获取

class JinshiSpider(scrapy.Spider):

name = 'jinshirili'

allowed_domains = ['jinshi.com']

start_urls = ['https://rili.jin10.com/']

@classmethod

def from_crawler(cls, crawler, *args, **kwargs):

spider = super(JinshiSpider, cls).from_crawler(crawler, *args, **kwargs)

options = webdriver.ChromeOptions()

options.add_argument('--headless')

spider.chrome = webdriver.Chrome(chrome_options=options)

crawler.signals.connect(spider.spider_closed, signal=signals.spider_closed)

return spider

def spider_closed(self, spider):

spider.chrome.quit()

print('一次爬取结束-----等待下次循环爬取')

def parse(self, response):

#获取风险事件列表

contents = response.xpath('//div[@class="jin-rili_content J_rili_content"]//tr')

# print(len(contents))

for i,content in enumerate(contents):

searchObj = re.search(r'

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线