最新版本:使用C# CefSharp Python采集某网站简历并且自动发送邀请短信的方法

优采云 发布时间: 2022-11-20 22:17

  最新版本:使用C# CefSharp Python采集某网站简历并且自动发送邀请短信的方法

  前言

  过去我没有对爬虫做过太多研究。最近,我需要从某个网站采集

敏感信息。稍微考虑了一下,决定用c#winform和python来解决这个事件。

  整个解决方案并不复杂:c#写了一个winform窗体,用于数据分析和采集。一开始不想用python,后来没找到c#下woff字体转xml的解决方案。网上有很多python,所以我加了一个python项目,虽然只有一个脚本。

  1.几个步骤:

  首先,您需要模拟登录。登录后进入简历采集

,然后模拟下载。下载完成后,可以看到求职者的电话号码。

  这个电话号码使用了动态生成的base64字体,所以直接提取文字是无法成功的。

  1.先把base64转成woff字体,用c#就可以搞定(iso-8859-1编码是个坑,一般用default会有惊喜):

  

setmainstatus("正在生成woff...");

byte[] fontbytes = convert.frombase64string(curfont);

string fontstr = encoding.getencoding("iso-8859-1").getstring(fontbytes).trimend('\0');

streamwriter sw2 = new streamwriter(@"r58.woff", false, encoding.getencoding("iso-8859-1"));

sw2.write(fontstr);

sw2.close();

  2.然后将生成的woff转成xml(woffdec.exe是我用python打包的exe,其实有点小题大做了,我专门为这个转换做了一个包,有时间的话还是用下面的整个 c#)

  

" />

  

//调用python exe 生成xml文件

processstartinfo info = new processstartinfo

{

filename = "woffdec.exe",

windowstyle = processwindowstyle.hidden

};

process.start(info).waitforexit(2000);//在2秒内等待返回

  整个 woffdec.py 代码只有 3 行:

  

from fonttools.ttlib import ttfont

font = ttfont('r12.woff')

font.savexml('r12.xml')

  这个包装有点意思。我先尝试了py2exe,但是没有成功。我改成pyinstaller,成功了。连exe都是11m,不是很大。

  下载或者,或者在vs2017 python环境下搜索pyinstaller直接安装。

  右键单击并使用“在此处打开命令提示符”;输入pyinstaller /path/to/yourscript.py 打包成exe文件。当调用 winform 应用程序时,应复制整个文件夹。

  3.xml文件有了之后,准备根据上面的woff文件存为数据字典(这个地方有点乱,先找个网站把woff显示成文字和代码,然后在里面搜索它的字体根据代码xml中的锚点,我取的x和y形成一个唯一值(x,y代表一个词),当然可以取更多;

  

" />

  

internal static readonly dictionary dicchar = new dictionary()

{

{"91,744","0" },

{"570,0","1"},

{"853,1143","2" },

{"143,259","3" },

。。。。。。

};

  4.以上步骤需要一些时间。有了benchmark dictionary之后,就可以根据每次生成的xml文件来匹配真实的文本了。

  5、很容易把真文拿出来,直接采集到数据库,然后连接短信发送服务,就可以自动分组发送了。

  2.使用场景

  下班后开启代收服务后,就不用再操心了。系统会定时自动下载简历并自动推送面试邀请短信。新人只要发布相应的求职信息,系统就会立即向他发出邀请,真是抢人利器。

  btw:网页模拟操作使用的cefsharp另开一章。

  总结

  以上就是本文的全部内容。希望本文的内容对您的学习或工作有一定的参考价值。谢谢您的支持。

  最新版本:WMCMS小说系统采集插件-WMCMS小说系统采集器下载

  WMCMS小说系统采集

插件,WMCMS小说系统如何实现自动采集

和自动伪原创发布。今天给大家分享一款免费的WMCMS小说系统自动收录伪原创出版软件。同时还支持各大网站自动采集

伪原创发布。

  很多人都发现,去百度看一些打不开的网站,此时WMCMS小说系统采集

可以通过百度快照获取该网站的内容。这可以大大改善搜索用户的服务体验。即使难以打开网站,仍可获取本网站的内容知识。但是在选择百度快照解决这个问题的时候,会出现一些问题。

  比如很多人会比较关注百度快照的更新。WMCMS小说系统采集

如果采集

夹中的某些网站没有更新,用户会怀疑是不是出了什么问题。其实百度快照更新跟自己的网站有很大关系。毕竟有些网站打不开的时候都是通过百度快照解决的,自然百度快照的更新也会和网站有很大的关系。

  例如,如果网站本身不停止更新,则WMCMS小说系统采集

的百度快照将不会更新。此外,网站名称由相关管理人员更改。百度快照在短期内无法获取本站的相关文字信息,因此这也使得百度快照无法停止更新。此外,网站内容变动过多,也会影响百度快照的更新。

  

" />

  上述原因只是网站的原因会严重影响百度快照的更新,WMCMS小说系统合集等诸多因素实际上都会影响百度快照的更新。例如,服务器不稳定往往会影响百度快照的更新状态,网站中的外链、友情链接等其他方面也会影响更新状态。

  内容建设是SEO优化人员的基础工作,如何通过WMCMS小说系统采集为网站生成大量优质内容也是一个落伍的问题。事实上,在百度看来,网站的内容包括但不限于文字、图片、链接、多媒体信息等。这里,我们重点谈谈百度对优质文字内容的鉴别的几个维度。

  内容建设是SEO优化人员的基础工作,如何通过WMCMS小说系统采集为网站生成大量优质内容也是一个落伍的问题。事实上,在百度看来,网站的内容包括但不限于文字、图片、链接、多媒体信息等。这里,我们重点谈谈百度对优质文字内容的鉴别的几个维度。

  从更广的角度来看,即使是高质量的内容,WMCMS小说系统合集也不足以达到理想的SEO效果。必须上升到页面质量的高度来讨论“高质量的文字内容”。将优质的文字内容作为网站优化的要素之一,从全局的角度把控整个网站的优化方向,网站才能走得更远更顺。

  维度一:有效内容产出比。

  有参加过seo培训的同学和我讨论过。为了有一个排名,WMCMS小说系统采集

我们必须增加容量。为了收录,我们使用采集软件采集大量与网站主题无关的内容并进行收录。实际上,这里忽略了有效内容输出比的一个要素。我们在制作网站内容时,首先要考虑的是有多少人搜索该内容,受众是否庞大;即使内容有很好的排名,流量也是准确的。几乎每个网站都有自己固定的细分用户。我们做内容的时候要考虑内容被搜索的概率,还有主题。

  

" />

  维度 2:相关性。

  在前面的维度中,主题,相关性问题,已经大致解释过了。相关性是标题和内容之间的一一对应。标题是对内容的集中提炼,WMCMS小说系统收录的内容是对标题的详解。每个内容都应该有一个唯一的标题。另一方面,假设内容页有排名,但标题与内容无关,客户通过搜索进入,找不到自己需要的结果,会导致跳出率偏高,不利于网站的SEO优化,其影响是负面的。

  维度三:网站内容页面加载速度。

  严格来说,这不是优质内容的维度,为什么要拿出来呢?问题出在网站运营上。SEO优化是一个整体,是众多要素的汇合。WMCMS小说系统仅仅采集优质内容是不够的,还要考虑页面质量的因素。

  对于普通用户来说,打开优质页面需要等待的时间比较长,增加了获取信息的成本。有一种说法,如果一个网站打开的速度超过 4 秒,它就是一个垃圾页面。这种说法有些偏激,但也从侧面说明WMCMS小说系统采集

网站打开速度快,有利于用户体验。

  对于搜索引擎来说,需要在同一时间段内抓取更多的网页资源,这也是由程序的性质决定的。假设你的网站加载速度是1000毫秒,另一个网站加载时间是100毫秒,百度搜索引擎蜘蛛抓取10个人的网页内容,WMCMS小说系统收录这里你只能抓取1个网页内容。为了提高效率,它会将其他人的爬行优先于您的爬行。长此以往,搜索引擎会降低你网站的抓取频率,进一步降低你网站的搜索量和搜索率。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线