自动采集编写(2017年Python网站采集敏感信息的解决方案(一))

优采云 发布时间: 2021-09-23 05:23

  自动采集编写(2017年Python网站采集敏感信息的解决方案(一))

  前言

  我过去没有学过,最近有需求。我必须从网站@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ @@@采集@@采集@,决定使用c#winform和python来解决这个事件。

  整个解决方案不复杂:uvkxlprltc#写入winform形式,执行数据分析和采集,python最初不想使用,没有找到c#woff字体到XML方案,并且有很多在线python所以添加一个python项目,虽然是1脚本。

  

  一、几个步骤:

  首先要模拟登录,登录进入resume 采集,然后模拟下载,您可以在下载后看到求职者的呼叫。

  这个电话号码是一个动态生成的base64字体,所以直接提取文本不能成功。

  1、第一个将base64转换为woff字体,这可以用c#(这个ISO-8859-1代码是一个坑,一般使用默认的惊喜):

  

SetMainStatus("正在生成WOFF...");

byte[] fontBytes = Convert.FromBase64String(CurFont);

string fontStr = Encoding.GetEncoding("iso-8859-1").GetString(fontBytes).TrimEnd('\0');

StreamWriter sw2 = new StreamWriter(@"R58.woff", false, Encoding.GetEncoding("isuVKXLPrlto-8859-1"));

sw2.Write(fontStr);

sw2.Close();

  2、将转动已生成的XML的窗口(Woffdec.exe是我用Python打包的exe,实际上,对于这个转换,有一个时间,有一个整个c #低于好)

  

//调用python exe 生成xml文件

ProcessStartInfo info = new Procewww.cppcns.comssStartInfo

{

FileNam编程客栈e = "WoffDec.exe",

WindowStyle = ProcessWindowStyle.Hidden

};

Process.Start(info).WaitForExit(2000);//在2秒内等待返回

  整个woffdec.py的代码是3行:

  

from fontTools.ttLib import TTFont

font = TTFont('R12.woff')

font.saveXML('R12.xml')

  这个包装有点意思,首先尝试py2exe,不成功,更改pyinstaller,变成11m,甚至exe,不是很大。

  在本地下载或下载它,或直接在VS2017 Python环境中搜索pyinstaller。

  右键单击使用“在此处打开命令提示符”;将pyinstaller /path/to/yourscript.py输入到exe文件中。当调用WinForm应用程序时,应在整个文件夹中复制整个文件夹。

  3、 xml文件已,上面的woff文件准备存储数据字典(这个地方有点左右,首先找到一个网站将woff作为文本和编码,然后基于编码XML查找它的字体定位点,我采取x和y形成一个唯一的值(x,y代表一个字),当然,更多;

  

internal static readonly Dictionary DicChar = new Dictionary()

{

{"91,744","0" },

{"570,0","1"},

{"853,1143","2" },

{"143,259","3" },

。。。。。。

};

  4、上述步骤是花一些时间。参考词典可用后,您可以根据每个生成的XML文件匹配真实文本。

  5、真文本取简繁资料繁简简义数码数据数据数码上数码上数码上/ p>

  二、使用场景

  下班后,打开采集服务即即不理解,下载繁简简牌繁简简义繁简简义繁简简义繁简简简短繁简牌只要有新人发布求职信息,系统会立即向他发送邀请才能抓住人民。

  btw:网络仿真操作使用的Cefsharp将打开另一章。

  摘要

  上面是这个文章的全内容,我希望本文对每个人的学习或工作都有一定的参考价值,谢谢您的支持。

  标题:使用c#cefsharp python 采集 网站简历自动发送邀请sms方法

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线