自动识别采集内容( 2018年01月16日13:35作者：书包的故事)

优采云发布时间: 2021-11-04 12:23

　　自动识别采集内容(

2018年01月16日13:35作者：书包的故事)

　　Python实现百万答案自动百度搜索答案

　　更新时间：2018年1月16日13:35:35 作者：书包的故事

　　本文文章主要介绍python实现百万答案自动百度搜索答案。有一定的参考价值，感兴趣的朋友可以参考

　　用python搭建百万答题，百度自动搜索答案。

　　使用平台

　　windows7

　　蟒蛇3.6

　　MIX2 手机

　　代码原理

　　将手机屏幕内容同步到PC端

　　对问题进行截图

　　截图文字分析

　　使用浏览器自动搜索文本

　　使用教程

　　1、使用Airdroid在电脑屏幕上显示手机屏幕。也可以使用360手机助手来实现。不涉及代码。效果如图：

　　2、出现问题时，运行python程序，对有问题的部分进行截图。

　　这里使用了两个函数：

　　get_point() #采集截图坐标和图片高宽

　　window_capture() #截图

def get_point():

'''''采集坐标，并返回w,h,x,y。作为window_capture() 函数使用'''

try:

print('正在采集坐标1，请将鼠标移动到该点')

# print(3)

# time.sleep(1)

print(2)

time.sleep(1)

print(1)

time.sleep(1)

x1,y1 = pag.position() #返回鼠标的坐标

print('采集成功，坐标为：',(x1,y1))

print('')

# time.sleep(2)

print('正在采集坐标2，请将鼠标移动到该点')

print(3)

time.sleep(1)

print(2)

time.sleep(1)

print(1)

time.sleep(1)

x2, y2 = pag.position() # 返回鼠标的坐标

print('采集成功，坐标为：',(x2,y2))

#os.system('cls')#清除屏幕

w = abs(x1 - x2)

h = abs(y1 - y2)

x = min(x1, x2)

y = min(y1, y2)

return (w,h,x,y)

except KeyboardInterrupt:

print('获取失败')

def window_capture(result,filename):

'''''获取截图'''

#宽度w

#高度h

#左上角截图的坐标x,y

w,h,x,y=result

hwnd = 0

hwndDC = win32gui.GetWindowDC(hwnd)

mfcDC = win32ui.CreateDCFromHandle(hwndDC)

saveDC = mfcDC.CreateCompatibleDC()

saveBitMap = win32ui.CreateBitmap()

MoniterDev = win32api.EnumDisplayMonitors(None,None)

#w = MoniterDev[0][2][2]

# #h = MoniterDev[0][2][3]

# w = 516

# h = 514

saveBitMap.CreateCompatibleBitmap(mfcDC,w,h)

saveDC.SelectObject(saveBitMap)

saveDC.BitBlt((0,0),(w,h),mfcDC,(x,y),win32con.SRCCOPY)

saveBitMap.SaveBitmapFile(saveDC,filename)

　　运行后截图如下

　　3.图片文本的分析与提取

　　参考链接：*图片转文字*配置方法

　　代码部分：

def orc_pic():

#识别中文

text=pytesseract.image_to_string(Image.open('jietu.jpg'),lang='chi_sim')

#识别英文

# text=pytesseract.image_to_string(Image.open('jietu.jpg'))

text = ''.join(text.split())

return text

　　4.搜索文本

#浏览器搜索

url = 'http://www.baidu.com/s?wd=%s' % text

webbrowser.open(url)

　　所有代码如下：

#coding:'utf-8'

import win32gui, win32ui, win32con, win32api

from PIL import Image

import pytesseract

import webbrowser

#先下载pyautogui库，pip install pyautogui

import os,time

import pyautogui as pag

#获取sdk http://ai.baidu.com/。

#获取aip pip install git+https://github.com/Baidu-AIP/python-sdk.git@master

from aip import AipOcr

import json

status=0

""" 你的 APPID AK SK """

APP_ID = '****'

API_KEY = '***'

SECRET_KEY = '***'

client = AipOcr(APP_ID, API_KEY, SECRET_KEY)

""" 读取图片 """

def get_question(path):

'''百度识别图片文字'''

with open(path, 'rb') as fp:

image=fp.read()

res = client.basicGeneral(image)

words = res['words_result']

lines = [item['words'] for item in words]

question = ''.join(lines)

if question[1] == '.':

question = question[2:]

elif question[2] == '.':

question = question[3:]

return question.replace('?', ' ')

#采集坐标

def get_point():

'''采集坐标，并返回w,h,x,y。作为window_capture() 函数使用'''

try:

print('正在采集坐标1，请将鼠标移动到该点')

# print(3)

# time.sleep(1)

print(2)

time.sleep(1)

print(1)

time.sleep(1)

x1,y1 = pag.position() #返回鼠标的坐标

print('采集成功，坐标为：',(x1,y1))

print('')

# time.sleep(2)

print('正在采集坐标2，请将鼠标移动到该点')

print(3)

time.sleep(1)

print(2)

time.sleep(1)

print(1)

time.sleep(1)

x2, y2 = pag.position() # 返回鼠标的坐标

print('采集成功，坐标为：',(x2,y2))

#os.system('cls')#清除屏幕

w = abs(x1 - x2)

h = abs(y1 - y2)

x = min(x1, x2)

y = min(y1, y2)

return (w,h,x,y)

except KeyboardInterrupt:

print('获取失败')

#获取截图

def window_capture(result,filename):

'''获取截图'''

#宽度w

#高度h

#左上角截图的坐标x,y

w,h,x,y=result

hwnd = 0

hwndDC = win32gui.GetWindowDC(hwnd)

mfcDC = win32ui.CreateDCFromHandle(hwndDC)

saveDC = mfcDC.CreateCompatibleDC()

saveBitMap = win32ui.CreateBitmap()

MoniterDev = win32api.EnumDisplayMonitors(None,None)

#w = MoniterDev[0][2][2]

# #h = MoniterDev[0][2][3]

# w = 516

# h = 514

saveBitMap.CreateCompatibleBitmap(mfcDC,w,h)

saveDC.SelectObject(saveBitMap)

saveDC.BitBlt((0,0),(w,h),mfcDC,(x,y),win32con.SRCCOPY)

saveBitMap.SaveBitmapFile(saveDC,filename)

def get_point_txt(status):

#如果status=y,则重新获取坐标

'''如果存在point.txt，则询问是否重新采集，删除point.txt;如果不存在txt,则直接采集。'''

if not os.path.isfile('point.txt') :

result = get_point()

with open('point.txt', 'w') as f:

f.write(str(result))

return result

else:

if status=='y':

result = get_point()

with open('point.txt', 'w') as f:

f.write(str(result))

return result

else:

with open('point.txt', 'r') as f:

result = f.readline()

result = eval(result)

return result

def orc_pic():

#识别中文

text=pytesseract.image_to_string(Image.open('jietu.jpg'),lang='chi_sim')

#识别英文

# text=pytesseract.image_to_string(Image.open('jietu.jpg'))

text = ''.join(text.split())

return text

#百度识别

def orc_baidu():

text=get_question('jietu.jpg')

return text

status='y'

start = time.time()

result=get_point_txt(status)

for i in range(10):

window_capture(result,'jietu.jpg')

# text=orc_baidu()

text=orc_pic()

print(text)

#浏览器搜索

url = 'http://www.baidu.com/s?wd=%s' % text

webbrowser.open(url)

# url2='https://www.google.com/search?q=%s' % text

# webbrowser.open(url2)

end = time.time()

time=end-start

print('此次耗时%.1f秒' % time)

　　以上是本文的全部内容。希望对大家的学习有所帮助，也希望大家多多支持Scripthome。

0

2021-11-04

自动识别采集内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

自动识别采集内容( 2018年01月16日13:35作者：书包的故事)

0 个评论

发起人

AI时代内容工厂

自动识别采集内容( 2018年01月16日13:35作者：书包的故事)

0 个评论

发起人

相关问题