
vba抓取网页数据
vba抓取网页数据可以用代码写死多个html,比如写一个简单的列表
网站优化 • 优采云 发表了文章 • 0 个评论 • 217 次浏览 • 2022-09-14 06:01
vba抓取网页数据可以用代码写死多个html,比如用以下代码写一个简单的列表,根据你自己喜好postdata表到对应链接:[{"name":"aichuan","age":25,"job":"it","education":"chiefcontroller","contact":"","address":["北京","上海","广州","深圳","杭州","武汉","西安","厦门","南京","哈尔滨","南宁","长沙","三亚","重庆","宁波","成都","杭州","北京","安徽","福州","山东","广西","湖南","辽宁","四川","河南","山西","吉林","陕西","湖北","内蒙古","新疆","海南","黑龙江","宁夏"}]]里面的信息可以在post里面输入,最多可以写500个。
可以看一下学习一下。有很多比较好的,根据自己的需求定。我之前写过python里面抓取淘宝数据,是github上搜索到的。
通过excel,导入到mysql数据库中,可以用oracle,sqlserver数据库;导入数据库后,使用python可以读取数据库中的数据,这方面的可以学一下;希望可以帮到你。
你百度数据库表操作,包括关系型数据库,字符串,列表,日期,日志等等。回到你的需求,建议可以针对销售员表建一个字典查询,不要在mysql中放数据。这样更加简单易行。 查看全部
vba抓取网页数据可以用代码写死多个html,比如写一个简单的列表
vba抓取网页数据可以用代码写死多个html,比如用以下代码写一个简单的列表,根据你自己喜好postdata表到对应链接:[{"name":"aichuan","age":25,"job":"it","education":"chiefcontroller","contact":"","address":["北京","上海","广州","深圳","杭州","武汉","西安","厦门","南京","哈尔滨","南宁","长沙","三亚","重庆","宁波","成都","杭州","北京","安徽","福州","山东","广西","湖南","辽宁","四川","河南","山西","吉林","陕西","湖北","内蒙古","新疆","海南","黑龙江","宁夏"}]]里面的信息可以在post里面输入,最多可以写500个。

可以看一下学习一下。有很多比较好的,根据自己的需求定。我之前写过python里面抓取淘宝数据,是github上搜索到的。

通过excel,导入到mysql数据库中,可以用oracle,sqlserver数据库;导入数据库后,使用python可以读取数据库中的数据,这方面的可以学一下;希望可以帮到你。
你百度数据库表操作,包括关系型数据库,字符串,列表,日期,日志等等。回到你的需求,建议可以针对销售员表建一个字典查询,不要在mysql中放数据。这样更加简单易行。
vba抓取网页数据并显示成excel这个要分两步
网站优化 • 优采云 发表了文章 • 0 个评论 • 404 次浏览 • 2022-09-12 02:05
vba抓取网页数据并显示成excel这个要分两步,第一步你要在vba中设置如何去爬取你要抓取的数据,
vba中利用循环进行数据抓取,可以完成基本的数据采集。
建议先学好vba这门语言,然后基本上能让你一目了然的抓取网页资源,同时vba的框架搭建也是必须熟练掌握的。至于网页抓取的内容,不外乎要爬虫、页面解析以及显示设置,
很多网站都有免费的可抓取网页,都是浏览器浏览器就可以抓取的,然后数据可以进行相关分析,最后做好总结汇总。
网页中包含数据要分类进行抓取。抓取地址分为url、header和cookie来进行抓取。如果是抓取图片的话,还需要request协议进行抓取。segmentfault/gh-wfn-any回答过一个抓取图片的小例子,你可以参考下,很简单也很精简,重点就是说需要爬取的资源url、header、cookie、图片的url以及cookie。
1、https协议的源代码是保存在服务器端的,除非你提供可以下载的网页或者分享链接地址。
2、图片上传的话,这需要将图片保存到本地,再上传到服务器。
3、访问一个链接进行解析后,将解析后的html代码放到浏览器打开即可。然后进行过滤、分析、画成excel文件即可。
我简单说下我做过的,分享下。我做过的:1.在小的网站采集,大量都是页面简单html页面,根据url反爬虫基本没有2.主流网站,基本都是java采集的工具,抓包开发对高级语言要求并不高,反爬虫的抓取难度也不大。可以说只要java程序员水平高或者稍加练习就可以3.公司平台,tiomg、飞猪这类公司有大量http内容采集工具可以用。
还有的公司用的是php我用得最多的是:1.采集效率高(采集速度快,比如经常采集500m以内的单页链接采集个10个单页基本够用)2.分析效率高(就像采集热门信息,可以分析出哪个网站/域名上信息最丰富)3.采集逻辑简单(换头换尾什么的很容易搞定)。 查看全部
vba抓取网页数据并显示成excel这个要分两步
vba抓取网页数据并显示成excel这个要分两步,第一步你要在vba中设置如何去爬取你要抓取的数据,
vba中利用循环进行数据抓取,可以完成基本的数据采集。
建议先学好vba这门语言,然后基本上能让你一目了然的抓取网页资源,同时vba的框架搭建也是必须熟练掌握的。至于网页抓取的内容,不外乎要爬虫、页面解析以及显示设置,

很多网站都有免费的可抓取网页,都是浏览器浏览器就可以抓取的,然后数据可以进行相关分析,最后做好总结汇总。
网页中包含数据要分类进行抓取。抓取地址分为url、header和cookie来进行抓取。如果是抓取图片的话,还需要request协议进行抓取。segmentfault/gh-wfn-any回答过一个抓取图片的小例子,你可以参考下,很简单也很精简,重点就是说需要爬取的资源url、header、cookie、图片的url以及cookie。
1、https协议的源代码是保存在服务器端的,除非你提供可以下载的网页或者分享链接地址。

2、图片上传的话,这需要将图片保存到本地,再上传到服务器。
3、访问一个链接进行解析后,将解析后的html代码放到浏览器打开即可。然后进行过滤、分析、画成excel文件即可。
我简单说下我做过的,分享下。我做过的:1.在小的网站采集,大量都是页面简单html页面,根据url反爬虫基本没有2.主流网站,基本都是java采集的工具,抓包开发对高级语言要求并不高,反爬虫的抓取难度也不大。可以说只要java程序员水平高或者稍加练习就可以3.公司平台,tiomg、飞猪这类公司有大量http内容采集工具可以用。
还有的公司用的是php我用得最多的是:1.采集效率高(采集速度快,比如经常采集500m以内的单页链接采集个10个单页基本够用)2.分析效率高(就像采集热门信息,可以分析出哪个网站/域名上信息最丰富)3.采集逻辑简单(换头换尾什么的很容易搞定)。
美团sp包怎么设计,目的是什么?怎么做?
网站优化 • 优采云 发表了文章 • 0 个评论 • 94 次浏览 • 2022-07-31 17:05
vba抓取网页数据,得到源代码之后,
当然没有,时间分析或者趋势分析的话基本上用statistics.powerpivot,别听hp那帮人瞎忽悠,他们自己工资都没数。
说实话,这个只是他们有两三年从业经验的人随便写写的话,确实有难度。但是现在也不是有很大难度,据我所知,美团在几年前,实习生包括外包都不要求写sql写excel就可以干活了,甚至公司要求都不需要。我想这个大概能说明这个包可以用,但不需要他们亲自去做这个事情。一般的公司想查个数据不外乎用bdp,最新sql查询免费,excel基本可以支持这数据量。
上边不一定都是真公司,同样公司用这个的也不一定是真产品。sp包需要说明一下,包具体怎么设计,目的是什么?并不是一个包所有功能,而且多产品共用一个包。关键看产品定位。如果你不是每个产品都一样,建议直接找相关产品,了解其数据服务的目的,看看其具体包里面有没有你需要的数据服务,还有就是不要人云亦云,什么包名字都说是什么,例如用友,我相信在很多数据公司都会有单独的用友sp包,不管是体量,用途各方面都是有差异的。
有些具体用包了解即可。最好能有数据需求目标,如你要查询某个区域某个时间某个商品在某商品详情页面的转化率,直接问问你的业务需求,然后有针对性的寻找,看看能不能找到能满足需求的包。至于前途,除非一线。 查看全部
美团sp包怎么设计,目的是什么?怎么做?
vba抓取网页数据,得到源代码之后,

当然没有,时间分析或者趋势分析的话基本上用statistics.powerpivot,别听hp那帮人瞎忽悠,他们自己工资都没数。
说实话,这个只是他们有两三年从业经验的人随便写写的话,确实有难度。但是现在也不是有很大难度,据我所知,美团在几年前,实习生包括外包都不要求写sql写excel就可以干活了,甚至公司要求都不需要。我想这个大概能说明这个包可以用,但不需要他们亲自去做这个事情。一般的公司想查个数据不外乎用bdp,最新sql查询免费,excel基本可以支持这数据量。

上边不一定都是真公司,同样公司用这个的也不一定是真产品。sp包需要说明一下,包具体怎么设计,目的是什么?并不是一个包所有功能,而且多产品共用一个包。关键看产品定位。如果你不是每个产品都一样,建议直接找相关产品,了解其数据服务的目的,看看其具体包里面有没有你需要的数据服务,还有就是不要人云亦云,什么包名字都说是什么,例如用友,我相信在很多数据公司都会有单独的用友sp包,不管是体量,用途各方面都是有差异的。
有些具体用包了解即可。最好能有数据需求目标,如你要查询某个区域某个时间某个商品在某商品详情页面的转化率,直接问问你的业务需求,然后有针对性的寻找,看看能不能找到能满足需求的包。至于前途,除非一线。
Weekly Issue 3 | VBA与宏在Excel中的应用举例
网站优化 • 优采云 发表了文章 • 0 个评论 • 189 次浏览 • 2022-07-24 03:28
VBA与宏在Excel当中的应用举例-从Yahoo finance网站自动抓取股价数据
Visual Basic for Applications(VBA)作为Visual Basic的一种宏语言,是由微软发布,用于在其桌面应用程序中执行通用自动化(OLE)任务的编程语言。VB/VBA作为一种自动化语言于上世纪90年代就已被开发出来。因为我们工作生活依然离不开微软Office软件,而利用VBA可以大幅提高使用效率,所以其重要性依然不可被低估。本期的《实用技能》栏目关注的是VBA在获取xls格式的股票交易数据方面的应用。相信大家在工作或学习当中经常需要提取股票交易数据进行分析。例如,在对一个包含大量股票组合的交易策略进行历史数据测试时,我们需要在网站上对标的股票逐个查找,选定时间区间及时间间隔进行数据下载。而下载后还需要将大量的Excel数据进行并表,十分繁琐。而如果我们学会使用Excel当中简单的VBA及宏操作,就能轻松实现数据提取。
准备工作
大家在准备进行VBA及宏操作之前,需要确认一下在Excel的选项卡中是否将“开发工具”一栏调出。如果没有,可以在(以office2013为例)“文件—选项—自定义功能区中”进行勾选:
确定完毕之后,我们便能在工具栏中找到VisualBasic与宏的相关按钮。
录制宏—股票交易数据导入为了实现我们的目的,我们需要借助Excel中的宏工具。宏相当于是一个操作录制工具,可以将用户的一连串操作记录下来,便于之后实现一键再现的操作。由于这一录制过程能够通过代码进行体现,对于并不太熟悉VBA的用户来说,宏也是一个学习VBA代码撰写的利器。我们今天的主要逻辑亦为:首先对我们需要的操作进行录制以获取代码,再在基本框架上进行简单的修改,从而实现获取特定股票交易数据的简易化。具体步骤如下:点击“录制宏”,命名为“数据获取”,并单击“确定”:
从Yahoo Finance网站中任意查找一支股票的历史股价(以沃尔玛 ticker: WMT为例),并任意选取起始时间及时间间隔(之后在代码中都可以进行调整):
拖至网页最下方,找到
后,单击右键选择“复制链接地址”。
回到Excel,找到“数据”选项卡中的“自文本”。将刚刚复制的链接粘贴至最下方的“文件名”处,并选择“打开”:
进入弹出的文件导入向导。第1步选择默认的“分隔符号”。第2步在额外勾选“逗号”后,会发现Excel成功依据我们所需要的形式将数据分割为了若干列。继续单击下一步:
进入第3步后,我们需要确保第一列的日期按照Yahoo所提供的格式进行排列(如本例中的YMD, Year-Month-Day)。当然,如果我们认为其中某一列数据并不必要,我们可以选择对其“不导入此列(跳过)”(这在之后的代码中同样可以进行调整)。最后单击“完成”:
在表格的$A$1位置确定导入。
利用VBA对代码进行修改
至此,我们获得了沃尔玛在指定时间区间内的股价。接下来我们需要做的是对通过录制获取的代码进行修改,步骤如下:
在“开发工具—宏”中,对我们刚刚录制的宏“数据获取”选择“编辑”:
弹出Visual Basic Editor界面(该界面也可以通过快捷键Alt+F11打开)。由此我们获得了刚刚录制一连串操作所得的代码:
由于此处不需要从头对代码进行撰写,且受篇幅所限,我们就不逐行对VBA语言进行详细的介绍。有兴趣的同学可以在互联网上搜索相关资源自行学习(例如等的视频学习教程)。
对输入项进行定义。因为我们希望最后只需要通过输入股票对应的ticker及起止日期就能获得对应股票交易信息,所以我们需要对这些输入项进行定义。在VBA中,定义是由“dim“完成的,经常使用定义的包括三种:整数型变量(Interger, %) 长整型变量(Long, &) 字符串变量(String, $)。由于ticker的内容代指一个含有多位字母的字符串,起止年/月/日都是多位数字,我们采取以下定义(只要该行代码没有出现错误,回车后首字母会自动大写,颜色也会相应产生改变):
每次输入数据前,需要程序将A-G列进行清空,代码如下:
对ticker及起止日期定位,并用range分别表示其值。单元格K1对应ticker,K2对应起始日期,K3对应结束日期。Day/Month/Year()函数分别表示取日期中的年月日相应部分:
值得注意的是,在Yahoo Finance当中,一月用数字0表示;而在Excel当中,一月的表示方式为数字1。所以在代码中我们需要在月份后面加上“-1”以实现从Excel输入数据到Yahoo Finance提取数据的转换。
对URL进行修改。由于打开Yahoo Finance时,所查股票ticker及起止日期在地址栏中存在对应的指代部分,我们可以通过将刚刚定义的可变变量插入下方表示URL的代码当中,修改方式如下:
删除CommanType = 0整行
Array后的“5”表示该列采用的是YMD的时间数据,“1”表示该列为普通数据。如果不需要导出某列,只需要按顺序将该列设置为“9”即可
如果只需要导入数据的若干列,只需找到代码的这一行:TextFileColumnDataTypes = Array(5, 1, 1, 1, 1, 1, 1)
实现一键操作完成以上步骤并检查完毕后,在ticker处输入“GOOGL”,并调整起止日期。这时便可以点击上方工具栏的运行子过程(快捷键F5)来运行这一程序:
如果遇到程序报错,可以通过“视图”打开“本地窗口”,用F8对代码进行逐步检测从而发现具体问题来源。
于是我们轻松导入了谷歌在2016年前三个月的股票交易信息:
通过“开发工具—插入—按钮(窗体控件)”绘制按钮,并命名为“获取历史股价”。此处按住Alt键可以确保按钮能够与单元格分界线对齐。选择已录制并修改的宏,单击“确定”。同时,我们还可以根据需要加上平均单日回报,收盘价标准差等等(注意:由于导入数据的时长可能发生变动,每期数据样本量会产生差异,这些附加的公式内都应直接选取整列,如=AVERAGE(H:H)
美股直接输入ticker即可(如WMT, GOOGL),而港股及沪深股市只需要在数字后分别加上”.HK”,”.SS”,”.SZ”即可(如0001.HK,600000.SS)。这样我们便能在Excel输入目标股票的ticker及起止日期后,实现一键获取股票交易相关数据。
希望这次的《实用技能》栏目能够为大家平时的数据查找过程提供一条捷径。笔者也希望能够透过这一案例,使得大家对于VBA与宏在相关professional service当中的重要地位有一个初步了解。
供稿 | 王主丰 许晓琛编辑 | 白书豪 唐轶一 查看全部
Weekly Issue 3 | VBA与宏在Excel中的应用举例
VBA与宏在Excel当中的应用举例-从Yahoo finance网站自动抓取股价数据
Visual Basic for Applications(VBA)作为Visual Basic的一种宏语言,是由微软发布,用于在其桌面应用程序中执行通用自动化(OLE)任务的编程语言。VB/VBA作为一种自动化语言于上世纪90年代就已被开发出来。因为我们工作生活依然离不开微软Office软件,而利用VBA可以大幅提高使用效率,所以其重要性依然不可被低估。本期的《实用技能》栏目关注的是VBA在获取xls格式的股票交易数据方面的应用。相信大家在工作或学习当中经常需要提取股票交易数据进行分析。例如,在对一个包含大量股票组合的交易策略进行历史数据测试时,我们需要在网站上对标的股票逐个查找,选定时间区间及时间间隔进行数据下载。而下载后还需要将大量的Excel数据进行并表,十分繁琐。而如果我们学会使用Excel当中简单的VBA及宏操作,就能轻松实现数据提取。
准备工作
大家在准备进行VBA及宏操作之前,需要确认一下在Excel的选项卡中是否将“开发工具”一栏调出。如果没有,可以在(以office2013为例)“文件—选项—自定义功能区中”进行勾选:
确定完毕之后,我们便能在工具栏中找到VisualBasic与宏的相关按钮。
录制宏—股票交易数据导入为了实现我们的目的,我们需要借助Excel中的宏工具。宏相当于是一个操作录制工具,可以将用户的一连串操作记录下来,便于之后实现一键再现的操作。由于这一录制过程能够通过代码进行体现,对于并不太熟悉VBA的用户来说,宏也是一个学习VBA代码撰写的利器。我们今天的主要逻辑亦为:首先对我们需要的操作进行录制以获取代码,再在基本框架上进行简单的修改,从而实现获取特定股票交易数据的简易化。具体步骤如下:点击“录制宏”,命名为“数据获取”,并单击“确定”:
从Yahoo Finance网站中任意查找一支股票的历史股价(以沃尔玛 ticker: WMT为例),并任意选取起始时间及时间间隔(之后在代码中都可以进行调整):
拖至网页最下方,找到
后,单击右键选择“复制链接地址”。
回到Excel,找到“数据”选项卡中的“自文本”。将刚刚复制的链接粘贴至最下方的“文件名”处,并选择“打开”:

进入弹出的文件导入向导。第1步选择默认的“分隔符号”。第2步在额外勾选“逗号”后,会发现Excel成功依据我们所需要的形式将数据分割为了若干列。继续单击下一步:
进入第3步后,我们需要确保第一列的日期按照Yahoo所提供的格式进行排列(如本例中的YMD, Year-Month-Day)。当然,如果我们认为其中某一列数据并不必要,我们可以选择对其“不导入此列(跳过)”(这在之后的代码中同样可以进行调整)。最后单击“完成”:
在表格的$A$1位置确定导入。
利用VBA对代码进行修改
至此,我们获得了沃尔玛在指定时间区间内的股价。接下来我们需要做的是对通过录制获取的代码进行修改,步骤如下:
在“开发工具—宏”中,对我们刚刚录制的宏“数据获取”选择“编辑”:
弹出Visual Basic Editor界面(该界面也可以通过快捷键Alt+F11打开)。由此我们获得了刚刚录制一连串操作所得的代码:
由于此处不需要从头对代码进行撰写,且受篇幅所限,我们就不逐行对VBA语言进行详细的介绍。有兴趣的同学可以在互联网上搜索相关资源自行学习(例如等的视频学习教程)。
对输入项进行定义。因为我们希望最后只需要通过输入股票对应的ticker及起止日期就能获得对应股票交易信息,所以我们需要对这些输入项进行定义。在VBA中,定义是由“dim“完成的,经常使用定义的包括三种:整数型变量(Interger, %) 长整型变量(Long, &) 字符串变量(String, $)。由于ticker的内容代指一个含有多位字母的字符串,起止年/月/日都是多位数字,我们采取以下定义(只要该行代码没有出现错误,回车后首字母会自动大写,颜色也会相应产生改变):
每次输入数据前,需要程序将A-G列进行清空,代码如下:

对ticker及起止日期定位,并用range分别表示其值。单元格K1对应ticker,K2对应起始日期,K3对应结束日期。Day/Month/Year()函数分别表示取日期中的年月日相应部分:
值得注意的是,在Yahoo Finance当中,一月用数字0表示;而在Excel当中,一月的表示方式为数字1。所以在代码中我们需要在月份后面加上“-1”以实现从Excel输入数据到Yahoo Finance提取数据的转换。
对URL进行修改。由于打开Yahoo Finance时,所查股票ticker及起止日期在地址栏中存在对应的指代部分,我们可以通过将刚刚定义的可变变量插入下方表示URL的代码当中,修改方式如下:
删除CommanType = 0整行
Array后的“5”表示该列采用的是YMD的时间数据,“1”表示该列为普通数据。如果不需要导出某列,只需要按顺序将该列设置为“9”即可
如果只需要导入数据的若干列,只需找到代码的这一行:TextFileColumnDataTypes = Array(5, 1, 1, 1, 1, 1, 1)
实现一键操作完成以上步骤并检查完毕后,在ticker处输入“GOOGL”,并调整起止日期。这时便可以点击上方工具栏的运行子过程(快捷键F5)来运行这一程序:
如果遇到程序报错,可以通过“视图”打开“本地窗口”,用F8对代码进行逐步检测从而发现具体问题来源。
于是我们轻松导入了谷歌在2016年前三个月的股票交易信息:
通过“开发工具—插入—按钮(窗体控件)”绘制按钮,并命名为“获取历史股价”。此处按住Alt键可以确保按钮能够与单元格分界线对齐。选择已录制并修改的宏,单击“确定”。同时,我们还可以根据需要加上平均单日回报,收盘价标准差等等(注意:由于导入数据的时长可能发生变动,每期数据样本量会产生差异,这些附加的公式内都应直接选取整列,如=AVERAGE(H:H)
美股直接输入ticker即可(如WMT, GOOGL),而港股及沪深股市只需要在数字后分别加上”.HK”,”.SS”,”.SZ”即可(如0001.HK,600000.SS)。这样我们便能在Excel输入目标股票的ticker及起止日期后,实现一键获取股票交易相关数据。
希望这次的《实用技能》栏目能够为大家平时的数据查找过程提供一条捷径。笔者也希望能够透过这一案例,使得大家对于VBA与宏在相关professional service当中的重要地位有一个初步了解。
供稿 | 王主丰 许晓琛编辑 | 白书豪 唐轶一
mysql>抓取网页数据,提取数据从网页批量转换格式
网站优化 • 优采云 发表了文章 • 0 个评论 • 208 次浏览 • 2022-07-20 20:01
vba抓取网页数据,提取数据,从网页批量提取数据,openxlsx提取数据,网页批量转换格式,抓取ff数据,从网页批量提取数据,xlsx数据的预处理等.下面的vba代码进行了在全文中的关键操作,希望可以帮助你学习到更多工作中的知识。mysql>select*fromworldwhereconnectname='tcp_ping_data';更多关于world网页抓取方面,内容可以关注微信公众号——world都会持续更新的,欢迎关注和参与。
参考博文:1.html5webformstransformationwithtocadandxml2.world网页爬虫webpagebasedscrapingbasedscrapinginhtml5editors3.xmlparser-world'sxmleditoronline.4.xmlwebextractiontools.希望可以帮助到你。
这个问题应该是根据需求吧,要是像大部分的网站都可以单独抓起来,可以看看这个叫何雪清的老师提供的教程。不是一步到位的效果(需要数据是postparams,作者没有用过),不过还是很受用的,基本能达到作者要求的效果。或者不是针对小网站,针对web平台的有用的爬虫也都是有用的,
爬虫可以分为中间地带和前端地带。中间地带:比如scrap,爬虫就是一个发送数据的中间库,用数据库存储数据,前端地带:比如爬虫可以认为是爬虫的一个前端展示的东西,可以认为是所有页面的数据获取。 查看全部
mysql>抓取网页数据,提取数据从网页批量转换格式
vba抓取网页数据,提取数据,从网页批量提取数据,openxlsx提取数据,网页批量转换格式,抓取ff数据,从网页批量提取数据,xlsx数据的预处理等.下面的vba代码进行了在全文中的关键操作,希望可以帮助你学习到更多工作中的知识。mysql>select*fromworldwhereconnectname='tcp_ping_data';更多关于world网页抓取方面,内容可以关注微信公众号——world都会持续更新的,欢迎关注和参与。

参考博文:1.html5webformstransformationwithtocadandxml2.world网页爬虫webpagebasedscrapingbasedscrapinginhtml5editors3.xmlparser-world'sxmleditoronline.4.xmlwebextractiontools.希望可以帮助到你。

这个问题应该是根据需求吧,要是像大部分的网站都可以单独抓起来,可以看看这个叫何雪清的老师提供的教程。不是一步到位的效果(需要数据是postparams,作者没有用过),不过还是很受用的,基本能达到作者要求的效果。或者不是针对小网站,针对web平台的有用的爬虫也都是有用的,
爬虫可以分为中间地带和前端地带。中间地带:比如scrap,爬虫就是一个发送数据的中间库,用数据库存储数据,前端地带:比如爬虫可以认为是爬虫的一个前端展示的东西,可以认为是所有页面的数据获取。
HTML文档常用元素汇总
网站优化 • 优采云 发表了文章 • 0 个评论 • 62 次浏览 • 2022-07-06 18:47
【分享成果,随喜正能量】人可以无知,但不可以无趣。在自己的心上种一颗快乐的种子,坚定、快乐的做自己的事,更让大家不那么无趣。《VBA信息获取与处理》教程是我推出第六套教程,目前已经是第一版修订了。这套教程定位于最高级,是学完初级,中级后的教程。这部教程给大家讲解的内容有:跨应用程序信息获得、随机信息的利用、电子邮件的发送、VBA互联网数据抓取、VBA延时操作,剪贴板应用、Split函数扩展、工作表信息与其他应用交互,FSO对象的利用、工作表及文件夹信息的获取、图形信息的获取以及定制工作表信息函数等等内容。程序文件通过32位和64位两种OFFICE系统测试。是非常抽象的,更具研究的价值。教程共两册,八十四讲。今日的内容是专题八“VBA与HTML文档”的第二节上半部分:HTML文档常用元素汇总
第二节 HTML文档的元素分析之一3)HTML 注释 注释标签 用于在 HTML 插入注释。可以将注释插入 HTML 代码中,这样可以提高其可读性,使代码更易被人理解。浏览器会忽略注释,也不会显示它们。开始括号之后(左边的括号)需要紧跟一个叹号,结束括号之前(右边的括号)不需要。注释可以按下面的格式写:
4)段落
段落是通过标签定义的。浏览器会自动地在段落的前后添加空行。(是块级元素)在上面的例子中我们已经用到了表述段落的符号,我们如果提取网页小说的数据,新闻等页面的消息,文本都是一段一段的,这样的页面,我们就可以通过标签实现。当运用ie/webbrowser方式提取这类网页的时候,历遍所有段落p元素即可。使用空的段落标记
去插入一个空行是个坏习惯。可以用
标签代替它!(但是不要用
标签去创建列表。)
5)超链接
使用 标签在 HTML 中创建链接。超链接可以是一个字,一个词,或者一组词,也可以是一幅图像,您可以点击这些内容来跳转到新的文档或者当前文档中的某个部分。当您把鼠标指针移动到网页中的某个链接上时,箭头会变为一只小手。有两种使用 标签的方式:通过使用 href 属性 - 创建指向另一个文档的链接也可以通过使用 name 属性 - 创建文档内的书签。超链接是我们最常见的页面元素,基本的门户网站都有他,点了以后,可以跳转到另一个页面。一般语法格式:显示的超链接文本Target属性,表示的是当我们点击超链接,是在原页面进行跳转(_self)还是新建页面进行跳转(_blank)。为了说明这种超链接,我们更正一下“HTML基础学习-1.html”的内容: 学习VBA语言
为了更好的掌握VBA的各个知识点,您可以先参考我的第一套教程:VBA代码解决方案
显示学习的网页
讲上述代码另存为“HTML基础学习-2.html”内容截图:
打开这个文件:
点击链接:
查看一下源码:
3 本节介绍的HTML文档常用元素汇总 1)标题-
2)水平线
3)注释 4)段落
5)超链接
以上各个元素我们要熟练的掌握,才能在分析网页的时候可以随心所欲。下一讲我们继续讲解HTML网页的元素构成。
本节知识点回向:
什么是HTML文档的框架结构是怎样的?说出以下个元素的标签:标题,水平线,注释,段落,超链接 。
本节参考文件:HTML基础学习-1.html;HTML基础学习-2.html
我20多年的VBA实践经验,全部浓缩在下面的各个教程中,教程学习顺序:
【分享成果,随喜正能量】人生在世,会遇到一些好事,还会遇上些坏事。好事我承受得起,坏事也承受得住。就这样坦荡荡做个寻常人也不坏。 查看全部
HTML文档常用元素汇总
【分享成果,随喜正能量】人可以无知,但不可以无趣。在自己的心上种一颗快乐的种子,坚定、快乐的做自己的事,更让大家不那么无趣。《VBA信息获取与处理》教程是我推出第六套教程,目前已经是第一版修订了。这套教程定位于最高级,是学完初级,中级后的教程。这部教程给大家讲解的内容有:跨应用程序信息获得、随机信息的利用、电子邮件的发送、VBA互联网数据抓取、VBA延时操作,剪贴板应用、Split函数扩展、工作表信息与其他应用交互,FSO对象的利用、工作表及文件夹信息的获取、图形信息的获取以及定制工作表信息函数等等内容。程序文件通过32位和64位两种OFFICE系统测试。是非常抽象的,更具研究的价值。教程共两册,八十四讲。今日的内容是专题八“VBA与HTML文档”的第二节上半部分:HTML文档常用元素汇总
第二节 HTML文档的元素分析之一3)HTML 注释 注释标签 用于在 HTML 插入注释。可以将注释插入 HTML 代码中,这样可以提高其可读性,使代码更易被人理解。浏览器会忽略注释,也不会显示它们。开始括号之后(左边的括号)需要紧跟一个叹号,结束括号之前(右边的括号)不需要。注释可以按下面的格式写:
4)段落
段落是通过标签定义的。浏览器会自动地在段落的前后添加空行。(是块级元素)在上面的例子中我们已经用到了表述段落的符号,我们如果提取网页小说的数据,新闻等页面的消息,文本都是一段一段的,这样的页面,我们就可以通过标签实现。当运用ie/webbrowser方式提取这类网页的时候,历遍所有段落p元素即可。使用空的段落标记
去插入一个空行是个坏习惯。可以用
标签代替它!(但是不要用
标签去创建列表。)
5)超链接
使用 标签在 HTML 中创建链接。超链接可以是一个字,一个词,或者一组词,也可以是一幅图像,您可以点击这些内容来跳转到新的文档或者当前文档中的某个部分。当您把鼠标指针移动到网页中的某个链接上时,箭头会变为一只小手。有两种使用 标签的方式:通过使用 href 属性 - 创建指向另一个文档的链接也可以通过使用 name 属性 - 创建文档内的书签。超链接是我们最常见的页面元素,基本的门户网站都有他,点了以后,可以跳转到另一个页面。一般语法格式:显示的超链接文本Target属性,表示的是当我们点击超链接,是在原页面进行跳转(_self)还是新建页面进行跳转(_blank)。为了说明这种超链接,我们更正一下“HTML基础学习-1.html”的内容: 学习VBA语言

为了更好的掌握VBA的各个知识点,您可以先参考我的第一套教程:VBA代码解决方案
显示学习的网页
讲上述代码另存为“HTML基础学习-2.html”内容截图:
打开这个文件:
点击链接:
查看一下源码:
3 本节介绍的HTML文档常用元素汇总 1)标题-

2)水平线
3)注释 4)段落
5)超链接
以上各个元素我们要熟练的掌握,才能在分析网页的时候可以随心所欲。下一讲我们继续讲解HTML网页的元素构成。
本节知识点回向:
什么是HTML文档的框架结构是怎样的?说出以下个元素的标签:标题,水平线,注释,段落,超链接 。
本节参考文件:HTML基础学习-1.html;HTML基础学习-2.html
我20多年的VBA实践经验,全部浓缩在下面的各个教程中,教程学习顺序:
【分享成果,随喜正能量】人生在世,会遇到一些好事,还会遇上些坏事。好事我承受得起,坏事也承受得住。就这样坦荡荡做个寻常人也不坏。
Power Query之数据获取
网站优化 • 优采云 发表了文章 • 0 个评论 • 253 次浏览 • 2022-07-06 14:03
最近在学习power query,见识到power query的强大,在利用PowerBI做出酷炫的可视化报告之前,power query在获取数据阶段是功不可没的!
(以下简称PQ) PQ可以获取文件型、数据库型、power Platform、Azure、联机服务、其他等几种大类别数据,细分到具体的数据类型多达150+种,实际比较常用的数据源为Excel工作簿、文件夹、X数据库、Web等,以上几种基本能涵盖90%以上的数据需求啦~以下内容会重点分享从Excel工作簿导入、从文件夹导入和从WEB导入三种场景!
一、从Excel工作簿导入
选择从excel工作簿导入数据后,可以看到要导入的工作簿里的所有工作表,可以勾选需要导入的工作表后,选择【加载】或【转换数据】,两者的区别是:如果选择【加载】可直接传到powerBI数据表中等待使用,如果选择【转换数据】则会启动PQ编辑器,对要导入的数据进行初步调整,如“将第一行用作标题”、“调整数据类型”、“删除空白值或重复值”、“删除某些列”等等,所以如果要导入的数据不需要做什么清洗的可以直接选择【加载】
二、从文件夹导入
这种数据导入场景往往是需要将多个工作簿的数据汇总到一个工作表中,除了用复制粘贴或VBA方法外,也可以借助PQ实现数据汇总。(PQ不仅在powerBI中,在Excel中调用也可以
)如果要汇总北京、广州、杭州三个城市不同月份的销售数据,首先把三个城市by month的数据各自打包放在一个文件夹里
在PowerBI中选择从文件夹中获取数据,浏览要导入的数据文件夹填好文件路径点击【确定】
确认后出现如下界面,点击【转换数据】进入PQ编辑器。
点击【添加列】选项卡,选择【自定义列】
填写自定义列公式=Excel.Workbook([Content]),点击【确定】
确定后会出现一个自定义列如下:
点击自[定义列]右上角的双箭头展开数据,出现这个窗口,直接点击【确定】
继续点击[自定义.Data]列的右上角的双箭头,然后还是直接点确认,数据就全部出来了。
选择【删除其他列】,再将【第一行用作标题】就大功告成啦!
最后一步是去掉(null)及原表格中标题的勾选,选择【关闭并应用】即可完成上载!
三、从WEB导入
从WEB导入的应用场景是可以抓取网页数据,比如批量获取X网站招聘岗位信息、获取豆瓣TOPN 电影、书单list、获取基金股票信息等等,选择从Web获取后输入需要获取信息的网页网址,如果是爬取一页的数据选择默认的【基本】模式,如果要批量爬取多页数据需要选择【高级】模式进行网页解析,通过页码参数设置自定义函数,最终实现批量调用。
以上是三种非常常用的数据获取方式,除此之外PQ在数据整理、数据丰富中也有非常强大的优势,相比excel更简单高效,而且没有数据量的限制,有了PQ加持,提前下班不是梦! 查看全部
Power Query之数据获取
最近在学习power query,见识到power query的强大,在利用PowerBI做出酷炫的可视化报告之前,power query在获取数据阶段是功不可没的!
(以下简称PQ) PQ可以获取文件型、数据库型、power Platform、Azure、联机服务、其他等几种大类别数据,细分到具体的数据类型多达150+种,实际比较常用的数据源为Excel工作簿、文件夹、X数据库、Web等,以上几种基本能涵盖90%以上的数据需求啦~以下内容会重点分享从Excel工作簿导入、从文件夹导入和从WEB导入三种场景!
一、从Excel工作簿导入
选择从excel工作簿导入数据后,可以看到要导入的工作簿里的所有工作表,可以勾选需要导入的工作表后,选择【加载】或【转换数据】,两者的区别是:如果选择【加载】可直接传到powerBI数据表中等待使用,如果选择【转换数据】则会启动PQ编辑器,对要导入的数据进行初步调整,如“将第一行用作标题”、“调整数据类型”、“删除空白值或重复值”、“删除某些列”等等,所以如果要导入的数据不需要做什么清洗的可以直接选择【加载】
二、从文件夹导入
这种数据导入场景往往是需要将多个工作簿的数据汇总到一个工作表中,除了用复制粘贴或VBA方法外,也可以借助PQ实现数据汇总。(PQ不仅在powerBI中,在Excel中调用也可以

)如果要汇总北京、广州、杭州三个城市不同月份的销售数据,首先把三个城市by month的数据各自打包放在一个文件夹里
在PowerBI中选择从文件夹中获取数据,浏览要导入的数据文件夹填好文件路径点击【确定】
确认后出现如下界面,点击【转换数据】进入PQ编辑器。
点击【添加列】选项卡,选择【自定义列】
填写自定义列公式=Excel.Workbook([Content]),点击【确定】
确定后会出现一个自定义列如下:
点击自[定义列]右上角的双箭头展开数据,出现这个窗口,直接点击【确定】

继续点击[自定义.Data]列的右上角的双箭头,然后还是直接点确认,数据就全部出来了。
选择【删除其他列】,再将【第一行用作标题】就大功告成啦!
最后一步是去掉(null)及原表格中标题的勾选,选择【关闭并应用】即可完成上载!
三、从WEB导入
从WEB导入的应用场景是可以抓取网页数据,比如批量获取X网站招聘岗位信息、获取豆瓣TOPN 电影、书单list、获取基金股票信息等等,选择从Web获取后输入需要获取信息的网页网址,如果是爬取一页的数据选择默认的【基本】模式,如果要批量爬取多页数据需要选择【高级】模式进行网页解析,通过页码参数设置自定义函数,最终实现批量调用。
以上是三种非常常用的数据获取方式,除此之外PQ在数据整理、数据丰富中也有非常强大的优势,相比excel更简单高效,而且没有数据量的限制,有了PQ加持,提前下班不是梦!
如何用google、webpage和html5标签去提取页面数据?
网站优化 • 优采云 发表了文章 • 0 个评论 • 66 次浏览 • 2022-07-06 02:05
vba抓取网页数据,想了解如何用bs4、webpage和html5标签去提取页面数据。不求数据实时同步,数据准确与否一目了然即可。sci-hub或者book7.5的电子版目录,此乃必备,也可以根据自己的需求定制。一个简单的方法就是,访问“ebook7.5”查看官方网站。继续我们的学习之旅:如何用google浏览器翻译该ebook的中文网站;如何用https提取页面指定部分(eipcode)内容;如何用book7.5定制新“内容源”名称(plaintext);如何正确打开microsoftexcel;如何用errorin如何查看浏览器错误,如何修改错误..本教程为翻译&教学视频教程,供大家学习使用。
今天我们学习如何去抓取标题和目录页面。双击text.json()中的字段值,可以直接跳转到下一页面。对于快速定制“页面数据源”(chunk)和其他level5(提取目录数据)工具。该教程的目的是:你学会如何使用google翻译book7.5官方目录和电子版目录提取本地目录内容。我们以word2010为例,初始设置如下:我们现在抓取一个页面的epub书籍链接,如下图所示,标题为“thispdfshouldincludenootherclosebooknumber,pagenumbersandchapters,listofsimpletextsnippetsataconstraintonthevolumeinsizeofsearchresults.”。
抓取完毕后,如下图所示:至此,抓取书籍标题和目录页面定制与详细方法一致。视频教程步骤如下:-打开浏览器,访问/,找到抓取book7.5页面链接。(其他翻译工具也是如此抓取,只是优化了抓取方式)-在浏览器地址栏中输入,回车即可。-你可以通过分号分隔开;任何页面都可以。也可以不分号,直接按ctrl+x快捷键打开chrome浏览器。
-上图中示范的是word2010浏览器。我也见过windows系统中不分号的视频教程。-进入book7.5官方页面后,回车即可看到大量pdf,你可以选择任何页面,快速点击其右边的目录链接。你也可以左右滑动鼠标,去快速定制对应页面。如果我的无效,你可以再问我(知乎不常在,不要问我了)。欢迎大家提出bug:如果我是做错了,你可以用powerquery和lookupnewhtml方法提出(如下图所示)。
这里word2010使用该工具抓取所有页面内容,现在只抓取中文标题、目录页面和内容源页面。你可以很快看到结果,点击右边的箭头,可以看到目录数据源和内容源页面。它会显示所有页面标题和页面内容源页面和目录。请看下图:接下来我们把任何页面访问地址复制一下在后面可以用此打开打开book7.5网站:即可提取内容源。学到一个方法。 查看全部
如何用google、webpage和html5标签去提取页面数据?
vba抓取网页数据,想了解如何用bs4、webpage和html5标签去提取页面数据。不求数据实时同步,数据准确与否一目了然即可。sci-hub或者book7.5的电子版目录,此乃必备,也可以根据自己的需求定制。一个简单的方法就是,访问“ebook7.5”查看官方网站。继续我们的学习之旅:如何用google浏览器翻译该ebook的中文网站;如何用https提取页面指定部分(eipcode)内容;如何用book7.5定制新“内容源”名称(plaintext);如何正确打开microsoftexcel;如何用errorin如何查看浏览器错误,如何修改错误..本教程为翻译&教学视频教程,供大家学习使用。

今天我们学习如何去抓取标题和目录页面。双击text.json()中的字段值,可以直接跳转到下一页面。对于快速定制“页面数据源”(chunk)和其他level5(提取目录数据)工具。该教程的目的是:你学会如何使用google翻译book7.5官方目录和电子版目录提取本地目录内容。我们以word2010为例,初始设置如下:我们现在抓取一个页面的epub书籍链接,如下图所示,标题为“thispdfshouldincludenootherclosebooknumber,pagenumbersandchapters,listofsimpletextsnippetsataconstraintonthevolumeinsizeofsearchresults.”。
抓取完毕后,如下图所示:至此,抓取书籍标题和目录页面定制与详细方法一致。视频教程步骤如下:-打开浏览器,访问/,找到抓取book7.5页面链接。(其他翻译工具也是如此抓取,只是优化了抓取方式)-在浏览器地址栏中输入,回车即可。-你可以通过分号分隔开;任何页面都可以。也可以不分号,直接按ctrl+x快捷键打开chrome浏览器。

-上图中示范的是word2010浏览器。我也见过windows系统中不分号的视频教程。-进入book7.5官方页面后,回车即可看到大量pdf,你可以选择任何页面,快速点击其右边的目录链接。你也可以左右滑动鼠标,去快速定制对应页面。如果我的无效,你可以再问我(知乎不常在,不要问我了)。欢迎大家提出bug:如果我是做错了,你可以用powerquery和lookupnewhtml方法提出(如下图所示)。
这里word2010使用该工具抓取所有页面内容,现在只抓取中文标题、目录页面和内容源页面。你可以很快看到结果,点击右边的箭头,可以看到目录数据源和内容源页面。它会显示所有页面标题和页面内容源页面和目录。请看下图:接下来我们把任何页面访问地址复制一下在后面可以用此打开打开book7.5网站:即可提取内容源。学到一个方法。
VBA中QueryTables提取在售理财项目数据
网站优化 • 优采云 发表了文章 • 0 个评论 • 57 次浏览 • 2022-06-23 11:37
【分享成果,随喜正能量】有一天,当你尝尽了,社会的无情,经济的压力,爱情的不堪,人心的丑恶;你终究会领悟到,放下执念,善待自己,用心读书,努力赚钱,才是一个成年人最好的修养,前者使人不惑,后者使人不屈!记住,天上下雨地上滑,自己摔倒自己爬。《VBA信息获取与处理》教程是我推出第六套教程,目前已经是第一版修订了。这套教程定位于最高级,是学完初级,中级后的教程。这部教程给大家讲解的内容有:跨应用程序信息获得、随机信息的利用、电子邮件的发送、VBA互联网数据抓取、VBA延时操作,剪贴板应用、Split函数扩展、工作表信息与其他应用交互,FSO对象的利用、工作表及文件夹信息的获取、图形信息的获取以及定制工作表信息函数等等内容。程序文件通过32位和64位两种OFFICE系统测试。是非常抽象的,更具研究的价值。教程共两册,八十四讲。今日的内容是专题十:“利用QueryTables抓取网络数据”:VBA中QueryTables提取在售理财项目数据
第二节 利用QueryTables提取在售理财项目网页数据大家好,这讲讲解的是利用QueryTables实现抓取网页数据的具体应用,有了上一讲的基础讲解,我们就直接利用这些方法就可以达到我们的目的。
实用场景:利用QueryTables,抓取和讯网的在售理财项目的数据,网址是:。现在的社会,无论是股票还是理财产品,关注的人都非常多,也希望在资本的市场运作中分得一杯羹,但钱生钱的投资大家还是要小心谨慎,不要被高利所诱惑,我这里只能提供给大家基础数据积累,没有丝毫操作的经验。1 利用QueryTables实现抓取在售理财项目数据的思路分析为了实现上述的场景,我们先看一看上述提供网址提供网页的信息:
上述的网页中,我要提取的是红色框框起来表的数据,我们进行一下思路的分析:首先清空一下回填数据的区域,然后用QueryTables.Add方法,在网页上提取第三个表的数据即可。提取表数据的时候可以选择一下格式的填充。2 利用QueryTables实现抓取在售理财项目数据的代码实现为了实现上述的思路,我给出了下面的代码:
Sub myNZ() 'QueryTable法提取在售理财项目网页数据 Sheets("sheet1").Select Cells.ClearContents WithActiveSheet.QueryTables.Add("url;", Range("a1")) .WebFormatting= xlWebFormattingNone '不包含格式 .WebSelectionType= xlSpecifiedTables '指定table模式 .WebTables= "3" '第3张table .RefreshFalse EndWith MsgBox("OK")End Sub代码截图:
代码的讲解:
1) Sheets("sheet1").SelectCells.ClearContents以上代码清空数据的回填区域。
2)With ActiveSheet.QueryTables.Add("url;", Range("a1"))上述代码指定加载网址,的数据 ,Range("a1")是回填给工作表区域的左上角的单元格。3).WebFormatting = xlWebFormattingNone '不包含格式WebFormatting 是对将要导入的工作表格式的设置,具体值如下:xlWebFormattingAll 1 导入所有格式。xlWebFormattingNone 2 不导入任何格式。xlWebFormattingRTF 3 导入格式文本格式兼容的格式。
4) .WebSelectionType = xlSpecifiedTables '指定table模式WebSelectionType是对指定是整个网页、网页上的所有表还是只导入到查询表中的特定表的数据进行设置。它的具体值如下:
xlAllTables 2 所有表xlEntirePage 1 整页xlSpecifiedTables 3 指定表
5).Refresh False 使用QueryTable对象的Refresh方法可更新外部数据区域(QueryTable)。选择的参数False,则在所有数据被取回到工作表之后,将控制返回给过程
通过上述的代码,就可以完成我们的思路。3 利用QueryTables实现抓取在售理财项目数据的实现效果当我们点击运行按钮,如图的箭头所示,程序就会开始运行,抓取网页数据到工作表中。当然在实际的应用中,用户可以根据自己的实际需要完成抓取工作到指定的位置。
从而验证了我们思路的正确。从代码到实现的过程,非常的简洁,代码理解也非常的容易,这给我们的学习和利用带来了方便。
本节知识点回向:如何利用QueryTables在网页中抓取数据?
本节内容参考:010工作表.xlsm
我20多年的VBA实践经验,全部浓缩在下面的各个教程中,教程学习顺序:
【分享成果,随喜正能量】其实每个人都有惰性,当生活比较顺利又没有什么压力的时候,可怕的惰性就会翻天覆地地侵蚀人的创造力,想象力和积极性。所以呢,人最好还是有点压力的生活,不要想着什么路都顺顺畅畅为自己铺好了,自己什么都可以不努力。。 查看全部
VBA中QueryTables提取在售理财项目数据
【分享成果,随喜正能量】有一天,当你尝尽了,社会的无情,经济的压力,爱情的不堪,人心的丑恶;你终究会领悟到,放下执念,善待自己,用心读书,努力赚钱,才是一个成年人最好的修养,前者使人不惑,后者使人不屈!记住,天上下雨地上滑,自己摔倒自己爬。《VBA信息获取与处理》教程是我推出第六套教程,目前已经是第一版修订了。这套教程定位于最高级,是学完初级,中级后的教程。这部教程给大家讲解的内容有:跨应用程序信息获得、随机信息的利用、电子邮件的发送、VBA互联网数据抓取、VBA延时操作,剪贴板应用、Split函数扩展、工作表信息与其他应用交互,FSO对象的利用、工作表及文件夹信息的获取、图形信息的获取以及定制工作表信息函数等等内容。程序文件通过32位和64位两种OFFICE系统测试。是非常抽象的,更具研究的价值。教程共两册,八十四讲。今日的内容是专题十:“利用QueryTables抓取网络数据”:VBA中QueryTables提取在售理财项目数据
第二节 利用QueryTables提取在售理财项目网页数据大家好,这讲讲解的是利用QueryTables实现抓取网页数据的具体应用,有了上一讲的基础讲解,我们就直接利用这些方法就可以达到我们的目的。
实用场景:利用QueryTables,抓取和讯网的在售理财项目的数据,网址是:。现在的社会,无论是股票还是理财产品,关注的人都非常多,也希望在资本的市场运作中分得一杯羹,但钱生钱的投资大家还是要小心谨慎,不要被高利所诱惑,我这里只能提供给大家基础数据积累,没有丝毫操作的经验。1 利用QueryTables实现抓取在售理财项目数据的思路分析为了实现上述的场景,我们先看一看上述提供网址提供网页的信息:
上述的网页中,我要提取的是红色框框起来表的数据,我们进行一下思路的分析:首先清空一下回填数据的区域,然后用QueryTables.Add方法,在网页上提取第三个表的数据即可。提取表数据的时候可以选择一下格式的填充。2 利用QueryTables实现抓取在售理财项目数据的代码实现为了实现上述的思路,我给出了下面的代码:
Sub myNZ() 'QueryTable法提取在售理财项目网页数据 Sheets("sheet1").Select Cells.ClearContents WithActiveSheet.QueryTables.Add("url;", Range("a1")) .WebFormatting= xlWebFormattingNone '不包含格式 .WebSelectionType= xlSpecifiedTables '指定table模式 .WebTables= "3" '第3张table .RefreshFalse EndWith MsgBox("OK")End Sub代码截图:
代码的讲解:
1) Sheets("sheet1").SelectCells.ClearContents以上代码清空数据的回填区域。
2)With ActiveSheet.QueryTables.Add("url;", Range("a1"))上述代码指定加载网址,的数据 ,Range("a1")是回填给工作表区域的左上角的单元格。3).WebFormatting = xlWebFormattingNone '不包含格式WebFormatting 是对将要导入的工作表格式的设置,具体值如下:xlWebFormattingAll 1 导入所有格式。xlWebFormattingNone 2 不导入任何格式。xlWebFormattingRTF 3 导入格式文本格式兼容的格式。
4) .WebSelectionType = xlSpecifiedTables '指定table模式WebSelectionType是对指定是整个网页、网页上的所有表还是只导入到查询表中的特定表的数据进行设置。它的具体值如下:
xlAllTables 2 所有表xlEntirePage 1 整页xlSpecifiedTables 3 指定表
5).Refresh False 使用QueryTable对象的Refresh方法可更新外部数据区域(QueryTable)。选择的参数False,则在所有数据被取回到工作表之后,将控制返回给过程
通过上述的代码,就可以完成我们的思路。3 利用QueryTables实现抓取在售理财项目数据的实现效果当我们点击运行按钮,如图的箭头所示,程序就会开始运行,抓取网页数据到工作表中。当然在实际的应用中,用户可以根据自己的实际需要完成抓取工作到指定的位置。
从而验证了我们思路的正确。从代码到实现的过程,非常的简洁,代码理解也非常的容易,这给我们的学习和利用带来了方便。
本节知识点回向:如何利用QueryTables在网页中抓取数据?
本节内容参考:010工作表.xlsm
我20多年的VBA实践经验,全部浓缩在下面的各个教程中,教程学习顺序:
【分享成果,随喜正能量】其实每个人都有惰性,当生活比较顺利又没有什么压力的时候,可怕的惰性就会翻天覆地地侵蚀人的创造力,想象力和积极性。所以呢,人最好还是有点压力的生活,不要想着什么路都顺顺畅畅为自己铺好了,自己什么都可以不努力。。
vba抓取网页数据用过任何代码抓取数据的同学都应该非常了解什么是pageview
网站优化 • 优采云 发表了文章 • 0 个评论 • 67 次浏览 • 2022-06-02 22:07
vba抓取网页数据用过任何代码抓取网页数据的同学都应该非常了解什么是pageview。可以想象过程抓取+循环一定是要多么痛苦。我最常用的有两种方法,一种是for循环,一种是利用itemset参数初始化两次,抓取不同页面的网页数据。这就涉及到pageview数据的正则,和根据不同页面抓取不同抓取条件来自定义抓取条件。
先从最基础的代码抓取数据开始讲起,openxlsx这个中间的步骤,让我们找到正则的思路。首先看正则该怎么写。很明显不简单,一个是not语句,一个是groupstring这个简单问题,实现难度特别大。所以我们需要一个简单的案例来实现。首先创建一个内容htmlheaderx=['^html5','^html5x','^html4','^html5x','^html2','^html3','^html4','^html4x','^html3x','^html3','^html4','^html5','^html2','^html2x','^html2','^html4','^html5','^html3','^html4','^html4','^html2x','^html5','^html2','^html5','^html5','^html3','^html4','^html4','^html3','^html3','^html4','^html4','^html5','^html5','^html4','^html4','^html4','^html5','^html4','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5',。 查看全部
vba抓取网页数据用过任何代码抓取数据的同学都应该非常了解什么是pageview
vba抓取网页数据用过任何代码抓取网页数据的同学都应该非常了解什么是pageview。可以想象过程抓取+循环一定是要多么痛苦。我最常用的有两种方法,一种是for循环,一种是利用itemset参数初始化两次,抓取不同页面的网页数据。这就涉及到pageview数据的正则,和根据不同页面抓取不同抓取条件来自定义抓取条件。
先从最基础的代码抓取数据开始讲起,openxlsx这个中间的步骤,让我们找到正则的思路。首先看正则该怎么写。很明显不简单,一个是not语句,一个是groupstring这个简单问题,实现难度特别大。所以我们需要一个简单的案例来实现。首先创建一个内容htmlheaderx=['^html5','^html5x','^html4','^html5x','^html2','^html3','^html4','^html4x','^html3x','^html3','^html4','^html5','^html2','^html2x','^html2','^html4','^html5','^html3','^html4','^html4','^html2x','^html5','^html2','^html5','^html5','^html3','^html4','^html4','^html3','^html3','^html4','^html4','^html5','^html5','^html4','^html4','^html4','^html5','^html4','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5',。
赶紧收藏!咨询必备的数据技巧!
网站优化 • 优采云 发表了文章 • 0 个评论 • 65 次浏览 • 2022-05-14 12:15
数据的三大法宝
现在祭出三大法宝:Excel、VBA 以及爬虫。要想把数据做好,不仅仅是要找到数据,还要把数据清洗好和分析好。
Excel是迄今为止最简单最便捷得处理数据的方式,下至四则运算,上至各类统计分析、矩阵运算及线性规划都可以搞定,所以一定要熟练掌握。网上资料很多,在此就不赘述了。但是Excel深不可测,基本没有天花板,千万不要以为会了 VLookup 及一些快捷键就可以耀武扬威了。至少需要把矩阵乘法、向量乘法、Offset / Cells / Row / Range 等函数用到极致,这样大多数 Financial Model 会做得非常灵活,而且各种数据查询及匹配工作会达到部分 SQL 的处理水平。
VBA会让 Office 的能力提升一个档次,除了完成函数不能完成的一些任务,最有价值的是能够在 Office 的各套软件之间实现信息同步。许多软件都是基于 VBA 完成的,最重要的没有版权问题。
爬虫我需要细说一下和重点说一下。因为这是解决题主多次提到的数据找不到的问题。所谓爬虫当然不是下图的虫子。
而是这样的虫子,其实就是一套自动读取网页和解析网页的程序而已。用 Python 或者 Go 等程序语言写出爬虫程序来自动抓取网络数据,利用正则表达式等技术手段将脏数据清洗并结构化放入到数据库或者 Excel,然后作分析以及长期监控。
网络上的数据越来越多,越来越能代表生活中的真实现象。通过爬虫加正则这种自动化的工具,能够耗很少的人工就可以将数据和信息采集并结构化,后续通过更多的分析工具完成许多有商业价值的分析并获取所谓的 Insight(将信息转化为知识和洞察)。
亲眼所见一个知名对冲基金的研究员,一页一页得手工翻看搜房的网站,并用 Ctrl C+Ctrl V 记录搜房所有自有经纪人的信息到Excel,并统计他们当前的成交量。然后每周做一次,查看每个经纪人的成交量增量。通过这样的数据分析来判断搜房转型到自由经纪人业务之后,模式是否成功。因为工作量实在巨大,后来只好请了一票实习生来做。
然而其实这就是一个程序员用 Python 做好爬虫、结构化数据和最后分析的简单事情,于是出手相助才有了如下的分析。轻松将搜房在各个城市的经纪人数量及单产搞清楚并按时监督,计算搜房在自有经纪人业务线的产出不是问题。
另外,还有基金在投资挂号网之前,让着帮忙做些数据统计和调研,下面的图表结合了从挂号网抓取的数据以及宏观数据。
当然,给基金干活,数据的可视化很重要,于是用了文图,将图表画得很炫,逼格顿时提高。并不觉得比顶级咨询公司的PPT差到哪里。即使比他们差了,用他们的格式在网上实现一遍也就可以了,然后还可以共享给大家。
一些炫目图标的效果如下。下图是关于世界各国的智商分布
另外,还可做许多比较酷的事情,获取真正的 Insight 。技术方面,Python 写爬虫非常方便,调试正则这个网站很不错Online regex tester and debugger: JavaScript, Python, PHP, and PCRE。
等待改变的Professional Service行业
咨询、投行、投资、审计、律师等等,笼统得被称之为 Professional Service,一直是以高大上形象出现的,往往瞧不上屌丝草根居多的技术行业。然而时代在变化,技术的力量在不断崛起,并摧毁和变革越来越多的行业。然而,Professional Service 除了在上个世纪用上 Office、互联网以及手机之后,整个行业并没有引入太多的技术,特别是在数据获取、分析及可视化方面。
所以我一直希望将技术引入到这个我曾经工作多年的行业,做出些改变。让所有从业人员的工作更轻松,让所有从业人员为客户带来更大的价值。
第一款:选址应用
选址是现在许多公司头疼的难题,以前完全是拍脑袋。因此我们开发出这样一套工具,帮助公司能够更理性更多维度得选址。
下图,我们抓取多个数据源并完成拼接,根据用户的快递地址,勾画出某时尚品牌用户的住址,帮助其选址在北京开门店。
下图,我们抓取多个数据源并完成拼接,根据大型超市及便利店与某类型餐馆在广州地区的重合情况,帮助某饮料品牌选定最应该进入的零售店面。
第二款:数据可视化
我们在工作中也深刻觉得以前制作图表和展示数据的方式太low、太繁琐,我们希望去改变这个现状,于是开发了一套基于Web来制作图表的工具文图。远有 Excel / Powerpoint 对标,近有 Tableau 对标。
下图是文图丰富的案例库及模板库。
下图是简单的使用界面及丰富的图表类型。
下一步的工作:
最后,希望有一天它能部分替代已经在江湖上混迹二三十年的 PowerPoint 及 Excel 。 查看全部
赶紧收藏!咨询必备的数据技巧!
数据的三大法宝
现在祭出三大法宝:Excel、VBA 以及爬虫。要想把数据做好,不仅仅是要找到数据,还要把数据清洗好和分析好。
Excel是迄今为止最简单最便捷得处理数据的方式,下至四则运算,上至各类统计分析、矩阵运算及线性规划都可以搞定,所以一定要熟练掌握。网上资料很多,在此就不赘述了。但是Excel深不可测,基本没有天花板,千万不要以为会了 VLookup 及一些快捷键就可以耀武扬威了。至少需要把矩阵乘法、向量乘法、Offset / Cells / Row / Range 等函数用到极致,这样大多数 Financial Model 会做得非常灵活,而且各种数据查询及匹配工作会达到部分 SQL 的处理水平。
VBA会让 Office 的能力提升一个档次,除了完成函数不能完成的一些任务,最有价值的是能够在 Office 的各套软件之间实现信息同步。许多软件都是基于 VBA 完成的,最重要的没有版权问题。
爬虫我需要细说一下和重点说一下。因为这是解决题主多次提到的数据找不到的问题。所谓爬虫当然不是下图的虫子。
而是这样的虫子,其实就是一套自动读取网页和解析网页的程序而已。用 Python 或者 Go 等程序语言写出爬虫程序来自动抓取网络数据,利用正则表达式等技术手段将脏数据清洗并结构化放入到数据库或者 Excel,然后作分析以及长期监控。
网络上的数据越来越多,越来越能代表生活中的真实现象。通过爬虫加正则这种自动化的工具,能够耗很少的人工就可以将数据和信息采集并结构化,后续通过更多的分析工具完成许多有商业价值的分析并获取所谓的 Insight(将信息转化为知识和洞察)。
亲眼所见一个知名对冲基金的研究员,一页一页得手工翻看搜房的网站,并用 Ctrl C+Ctrl V 记录搜房所有自有经纪人的信息到Excel,并统计他们当前的成交量。然后每周做一次,查看每个经纪人的成交量增量。通过这样的数据分析来判断搜房转型到自由经纪人业务之后,模式是否成功。因为工作量实在巨大,后来只好请了一票实习生来做。
然而其实这就是一个程序员用 Python 做好爬虫、结构化数据和最后分析的简单事情,于是出手相助才有了如下的分析。轻松将搜房在各个城市的经纪人数量及单产搞清楚并按时监督,计算搜房在自有经纪人业务线的产出不是问题。
另外,还有基金在投资挂号网之前,让着帮忙做些数据统计和调研,下面的图表结合了从挂号网抓取的数据以及宏观数据。
当然,给基金干活,数据的可视化很重要,于是用了文图,将图表画得很炫,逼格顿时提高。并不觉得比顶级咨询公司的PPT差到哪里。即使比他们差了,用他们的格式在网上实现一遍也就可以了,然后还可以共享给大家。
一些炫目图标的效果如下。下图是关于世界各国的智商分布
另外,还可做许多比较酷的事情,获取真正的 Insight 。技术方面,Python 写爬虫非常方便,调试正则这个网站很不错Online regex tester and debugger: JavaScript, Python, PHP, and PCRE。
等待改变的Professional Service行业
咨询、投行、投资、审计、律师等等,笼统得被称之为 Professional Service,一直是以高大上形象出现的,往往瞧不上屌丝草根居多的技术行业。然而时代在变化,技术的力量在不断崛起,并摧毁和变革越来越多的行业。然而,Professional Service 除了在上个世纪用上 Office、互联网以及手机之后,整个行业并没有引入太多的技术,特别是在数据获取、分析及可视化方面。
所以我一直希望将技术引入到这个我曾经工作多年的行业,做出些改变。让所有从业人员的工作更轻松,让所有从业人员为客户带来更大的价值。
第一款:选址应用
选址是现在许多公司头疼的难题,以前完全是拍脑袋。因此我们开发出这样一套工具,帮助公司能够更理性更多维度得选址。
下图,我们抓取多个数据源并完成拼接,根据用户的快递地址,勾画出某时尚品牌用户的住址,帮助其选址在北京开门店。
下图,我们抓取多个数据源并完成拼接,根据大型超市及便利店与某类型餐馆在广州地区的重合情况,帮助某饮料品牌选定最应该进入的零售店面。
第二款:数据可视化
我们在工作中也深刻觉得以前制作图表和展示数据的方式太low、太繁琐,我们希望去改变这个现状,于是开发了一套基于Web来制作图表的工具文图。远有 Excel / Powerpoint 对标,近有 Tableau 对标。
下图是文图丰富的案例库及模板库。
下图是简单的使用界面及丰富的图表类型。
下一步的工作:
最后,希望有一天它能部分替代已经在江湖上混迹二三十年的 PowerPoint 及 Excel 。
Excel VBA实例(37) - 快速提取手机号及归属地
网站优化 • 优采云 发表了文章 • 0 个评论 • 159 次浏览 • 2022-05-12 04:56
将永恒君的百宝箱设为星标精品文章第一时间读背景需求
永恒君最近处理资料,碰到一个这样的问题,如下图:
联系人的手机号码夹杂在各种不规则的、混乱的字符串当中,需要一个一个的提取出来,并查询到该手机号的归属地。
过程分析及效果
两个需求一个一个来说。
1、提取手机号码。
如上图可以看到,每个手机号所在单元格的位置不一样,基本上没有啥规律可言,自然就无法用left、right、mid之类的函数了。永恒君首先想到的就是使用正则表达式来提取。
关于正则表达式,永恒君之前写过不少相关文章和实例:
这里永恒君设置一个自定义的函数phone,提取的结果就是手机号,代码如下:
Function phone(i As String) As String<br /> Dim a As Object<br /> Set a = CreateObject("VBSCRIPT.REGEXP")<br /> a.Pattern = "[1][0-9]{10}"<br /> a.Global = True<br /> phone = a.Execute(i)(0)<br /> Set a = Nothing<br />End Function<br />
其中的核心就是 [1][0-9]{10}。
我国大陆的手机号都是1开头的11位数字,这个就表示要匹配寻找11位字符串,这个字符串以1开头,后面10位分别为0-9中任意一个。
把上面的代码粘贴到VBE编辑器里面,这样就可以直接使用phone函数了,
2、获取手机归属地
网上有很多在线的工具可以查询到手机号的归属地,但是要批量的查询的话,现成的工具还是不好找,要么付费、要么限制挺多。
所以,只好自己动手来制作一个爬虫,将手机号传递到在线工具,然后抓取返回结果。
这里经过测试之后,永恒君使用的是这个网站:
接着,只要在Excel中写了一个自定义函数phone_reg_loc,用来查询手机号归属地的。批量查询的话,只需要向下拖动即可实现了。
这个代码有点多,就不贴了,效果演示如下:
当然啦,如果你不想用函数的方式,希望直接一键点击获取结果,稍微修改也是可以的。
如果你对上面这些感兴趣的话,可以在公号内回复「手机号」获取vba文件进行试用吧~~
你可能还会想看:
欢迎交流!
查看全部
Excel VBA实例(37) - 快速提取手机号及归属地
将永恒君的百宝箱设为星标精品文章第一时间读背景需求
永恒君最近处理资料,碰到一个这样的问题,如下图:
联系人的手机号码夹杂在各种不规则的、混乱的字符串当中,需要一个一个的提取出来,并查询到该手机号的归属地。
过程分析及效果
两个需求一个一个来说。
1、提取手机号码。
如上图可以看到,每个手机号所在单元格的位置不一样,基本上没有啥规律可言,自然就无法用left、right、mid之类的函数了。永恒君首先想到的就是使用正则表达式来提取。
关于正则表达式,永恒君之前写过不少相关文章和实例:
这里永恒君设置一个自定义的函数phone,提取的结果就是手机号,代码如下:
Function phone(i As String) As String<br /> Dim a As Object<br /> Set a = CreateObject("VBSCRIPT.REGEXP")<br /> a.Pattern = "[1][0-9]{10}"<br /> a.Global = True<br /> phone = a.Execute(i)(0)<br /> Set a = Nothing<br />End Function<br />
其中的核心就是 [1][0-9]{10}。
我国大陆的手机号都是1开头的11位数字,这个就表示要匹配寻找11位字符串,这个字符串以1开头,后面10位分别为0-9中任意一个。
把上面的代码粘贴到VBE编辑器里面,这样就可以直接使用phone函数了,
2、获取手机归属地
网上有很多在线的工具可以查询到手机号的归属地,但是要批量的查询的话,现成的工具还是不好找,要么付费、要么限制挺多。
所以,只好自己动手来制作一个爬虫,将手机号传递到在线工具,然后抓取返回结果。
这里经过测试之后,永恒君使用的是这个网站:
接着,只要在Excel中写了一个自定义函数phone_reg_loc,用来查询手机号归属地的。批量查询的话,只需要向下拖动即可实现了。
这个代码有点多,就不贴了,效果演示如下:
当然啦,如果你不想用函数的方式,希望直接一键点击获取结果,稍微修改也是可以的。
如果你对上面这些感兴趣的话,可以在公号内回复「手机号」获取vba文件进行试用吧~~
你可能还会想看:
欢迎交流!
《实战篇》专题九第二回——用VBA下载12306车票数据
网站优化 • 优采云 发表了文章 • 0 个评论 • 59 次浏览 • 2022-05-05 14:14
大家好,本周我们终于回到“网络技术”专题,发布了第二回“数据源层层隐藏难得见,嗅探器抽丝剥茧觅真身”,为大家讲解怎样使用Fiddler这种HTTP监听软件挖掘隐藏在网页中的URL,以及怎样使用正则表达式解读数据。而本节课使用的案例是从12306网站上下载当前剩余优采云票数据,相信正在筹划暑期出行的朋友也会很感兴趣。
从知识角度看,本节课的内容并不很难,所用到的无非是《提高篇》中讲过的XMLHTTP对象,以及正则表达式的这位老朋友。唯一的新知识就是一个网页嗅探软件的基本用法,大家跟随视频就可以轻松掌握。
但是要想真正掌握本节课程介绍的下载技能却并不简单,因为这其中涉及到以下两个方面的经验与技巧,各位必须亲自动手、积极尝试,才能逐渐掌握:
(1) 猜测数据包。如课程中所讲,使用Fiddler可以截获所有进出浏览器的网页数据,但若想知道哪一个数据包中含有我们真正需要的数据,则需要运用我们的经验与直觉。本节案例的数据包相对简单,以便大家能够看懂杨老师的分析过程。而对于更加复杂的需求,则要各位自己开动脑筋,多想多试。
(2)设计正则式。只要明确了数据包的URL,就能够用XMLHTTP直接下载过来(不考虑HTTPS、登录可见等情况),而接下来的重点就与普通网页抓取无异,即怎样用正则表达式提取出所需信息。尽管已经在《提高篇》和《实战篇》中比较系统的讲解过正则表达式,本节课程中我们还是用了半节课的篇幅,像大家演示了为本案例设计正则表达式的思考过程,希望各位能够再次认识正则表达式的重要价值。
最后为同学们提出一个思考题:本节课程的代码只能下载5月31日从北京到上海的优采云票数据。如果我们想下载任意日期和区段的余票信息,应该怎样修改程序呢?提示:观察该网站URL的格式,用构造字符串的方法任意修改URL,使其包含指定的日期与区段。 查看全部
《实战篇》专题九第二回——用VBA下载12306车票数据
大家好,本周我们终于回到“网络技术”专题,发布了第二回“数据源层层隐藏难得见,嗅探器抽丝剥茧觅真身”,为大家讲解怎样使用Fiddler这种HTTP监听软件挖掘隐藏在网页中的URL,以及怎样使用正则表达式解读数据。而本节课使用的案例是从12306网站上下载当前剩余优采云票数据,相信正在筹划暑期出行的朋友也会很感兴趣。
从知识角度看,本节课的内容并不很难,所用到的无非是《提高篇》中讲过的XMLHTTP对象,以及正则表达式的这位老朋友。唯一的新知识就是一个网页嗅探软件的基本用法,大家跟随视频就可以轻松掌握。
但是要想真正掌握本节课程介绍的下载技能却并不简单,因为这其中涉及到以下两个方面的经验与技巧,各位必须亲自动手、积极尝试,才能逐渐掌握:
(1) 猜测数据包。如课程中所讲,使用Fiddler可以截获所有进出浏览器的网页数据,但若想知道哪一个数据包中含有我们真正需要的数据,则需要运用我们的经验与直觉。本节案例的数据包相对简单,以便大家能够看懂杨老师的分析过程。而对于更加复杂的需求,则要各位自己开动脑筋,多想多试。
(2)设计正则式。只要明确了数据包的URL,就能够用XMLHTTP直接下载过来(不考虑HTTPS、登录可见等情况),而接下来的重点就与普通网页抓取无异,即怎样用正则表达式提取出所需信息。尽管已经在《提高篇》和《实战篇》中比较系统的讲解过正则表达式,本节课程中我们还是用了半节课的篇幅,像大家演示了为本案例设计正则表达式的思考过程,希望各位能够再次认识正则表达式的重要价值。
最后为同学们提出一个思考题:本节课程的代码只能下载5月31日从北京到上海的优采云票数据。如果我们想下载任意日期和区段的余票信息,应该怎样修改程序呢?提示:观察该网站URL的格式,用构造字符串的方法任意修改URL,使其包含指定的日期与区段。
利用IE,抓取资金主力流入的股票
网站优化 • 优采云 发表了文章 • 0 个评论 • 61 次浏览 • 2022-05-05 14:13
上述代码在IE中加载"" 网址,即东风财富网资金主力流入情况。
4) Do Until .readystate = 4 '检查网页是否加载完毕(4表示完全加载)
DoEvents '循环中交回工作权限给系统,以免"软死机"
Loop
这段代码是让网页加载完成,以便后续提取网页的数据
5)Set dmt = .document '将IE浏览器加载的页面文档,赋予dmt变量,这里的DMT是一个对象变量。
6) Set tb = dmt.all.tags("table")(5) '通过索引号捕捉表格对象 这里的序号是我们分析网页得来,也可以利用工具进行网页的页面分析。
7)For i = 2 To tb.Rows.Length - 1 '历遍其每个行
Forj = 0 To tb.Rows(i).Cells.Length - 1 '历遍每行的每个单元格
Cells(i+ 1, j + 1) = "'" & tb.Rows(i).Cells(j).innertext '将其innertext写入单元格
Next
Next
提取表的数据,这里tb.Rows.Length – 1 是行数;tb.Rows(i).Cells(j).innertext 是单元格的内容。
3 应用IE实现资金主力流入数据抓取的实现效果
我们点击页面的运行按钮,实现下面的数据抓取:
从实现的效果看,完全达到了我们场景需求。
本节知识点回向:如何在页面文档中提取表的数据?
本节内容参考:009工作表.xlsm
积木编程的思路内涵:
在我的系列书籍中一直在强调“搭积木”的编程思路,这也是学习利用VBA的主要方法,特别是职场人员,更是要采用这种方案。其主要的内涵:
1 代码不要自己全部的录入。你要做的是把积木放在合适的位置然后去修正代码,一定要拷贝,从你的积木库中去拷贝,然后修正代码,把时间利用到高效的思考上。
2 建立自己的“积木库”。平时在学习过程中,把自己认为有用的代码放在一起,多积累,在用到的时候,可以随时拿来。你的积木库资料越多,你做程序的思路就会越广。
VBA的应用界定
VBA是利用Office实现个人小型办公自动化的有效手段(工具)。这是我对VBA的应用界定。在取代OFFICE新的办公软件没有到来之前,谁能在数据处理方面做到极致,谁就是王者。其中登峰至极的技能非VBA莫属!
我记得20年前自己初学VBA时,那时的资料甚少,只能看源码自己琢磨,真的很难。20年过去了,为了不让学习VBA的朋友重复我之前的经历,我根据自己多年VBA实际利用经验,推出了六部VBA专门教程:
第一套:VBA代码解决方案是VBA中各个知识点的讲解,教程共147讲,覆盖绝大多数的VBA知识点,初学必备;
第二套:VBA数据库解决方案 数据库是数据处理的专业利器,教程中详细介绍了利用ADO连接ACCDB和EXCEL的方法和实例操作,适合中级人员的学习。
第三套:VBA数组与字典解决方案 数组和字典是VBA的精华,字典是VBA代码水平提高的有效手段,值得深入的学习,是初级及中级人员代码精进的手段。
第四套:VBA代码解决方案之视频是专门面向初学者的视频讲解,可以快速入门,更快的掌握这门技能。这套教程是第一套教程的视频讲解,听元音更易接受。
第五套:VBA中类的解读和利用 这是一部高级教程,讲解类的虚无与肉身的度化,类的利用虽然较少,但仔细的学习可以促进自己VBA理论的提高。这套教程的领会主要是读者的领悟了,领悟一种佛学的哲理。
第六套教程:《VBA信息获取与处理》,这是一部高级教程,涉及范围更广,实用性更强,面向中高级人员。教程共二十个专题,包括:跨应用程序信息获得、随机信息的利用、电子邮件的发送、VBA互联网数据抓取、VBA延时操作,剪切板应用、Split函数扩展、工作表信息与其他应用交互,FSO对象的利用、工作表及文件夹信息的获取、图形信息的获取以及定制工作表信息函数等等内容。
大家可以根据以上资料1→3→2→6→5或者是4→3→2→6→5的顺序逐渐深入的逐渐学习。教程提供讲解的同时提供了大量的积木,如需要可以WeChat: NZ9668
学习VBA是个过程,也需要经历一种枯燥的感觉
如太白诗云:众鸟高飞尽,孤云独去闲。相看两不厌,只有敬亭山。学习的过程也是修心的过程,修一个平静的心。在代码的世界中,心平静了,心情好了,身体自然而然就好。心静则正,内心里没有那么多邪知邪见,也就没有那么多妄想。利人就是利己。这些教程也是为帮助大家起航,助上我自己之力,我的上述教程是我多的经验的传递,
“水善利万物而不争”,绵绵密密,微则无声,巨则汹涌。学习亦如此,知道什么是自己所需要的,不要蜷缩在一小块自认为天堂的世界里,待到暮年时再去做自欺欺人的言论。要努力提高自己,用一颗充满生机的心灵,把握现在,这才是进取。越是有意义的事情,困难会越多。愿力决定始终,智慧决定成败。不管遇到什么,都是风景。看淡纷争,看轻得失。茶,满也好,少也好,不要计较;浓也好,淡也好,其中自有值得品的味道。去感悟真实的时间,静下心,多学习,积累福报。而不是天天混日子,也不是天天熬日子。在后疫情更加严峻的存量残杀世界中,为自己的生存进行知识的储备,特别是新知识的储备。学习时微而无声,利用时则巨则汹涌。
每一分收获都是成长的记录,怎无凭,正是这种执着,成就了朝霞的灿烂。最后将一阙词送给致力于VBA学习的朋友,让大家感受一下学习过程的枯燥与执着:
浮云掠过,暗语无声,
唯有清风,惊了梦中啼莺。
望星,疏移北斗,
奈将往事雁同行。
阡陌人,昏灯明暗,
忍顾长亭。
多少VBA人,
暗夜中,悄声寻梦,盼却天明。
怎无凭!
回向学习利用VBA的历历往事,不胜感慨,谨以这些文字给大家,分享我多年工作实际经验的成果,随喜这些有用的东西,给确实需要利用VBA的同路人。 查看全部
利用IE,抓取资金主力流入的股票
上述代码在IE中加载"" 网址,即东风财富网资金主力流入情况。
4) Do Until .readystate = 4 '检查网页是否加载完毕(4表示完全加载)
DoEvents '循环中交回工作权限给系统,以免"软死机"
Loop
这段代码是让网页加载完成,以便后续提取网页的数据
5)Set dmt = .document '将IE浏览器加载的页面文档,赋予dmt变量,这里的DMT是一个对象变量。
6) Set tb = dmt.all.tags("table")(5) '通过索引号捕捉表格对象 这里的序号是我们分析网页得来,也可以利用工具进行网页的页面分析。
7)For i = 2 To tb.Rows.Length - 1 '历遍其每个行
Forj = 0 To tb.Rows(i).Cells.Length - 1 '历遍每行的每个单元格
Cells(i+ 1, j + 1) = "'" & tb.Rows(i).Cells(j).innertext '将其innertext写入单元格
Next
Next
提取表的数据,这里tb.Rows.Length – 1 是行数;tb.Rows(i).Cells(j).innertext 是单元格的内容。
3 应用IE实现资金主力流入数据抓取的实现效果
我们点击页面的运行按钮,实现下面的数据抓取:
从实现的效果看,完全达到了我们场景需求。
本节知识点回向:如何在页面文档中提取表的数据?
本节内容参考:009工作表.xlsm
积木编程的思路内涵:
在我的系列书籍中一直在强调“搭积木”的编程思路,这也是学习利用VBA的主要方法,特别是职场人员,更是要采用这种方案。其主要的内涵:
1 代码不要自己全部的录入。你要做的是把积木放在合适的位置然后去修正代码,一定要拷贝,从你的积木库中去拷贝,然后修正代码,把时间利用到高效的思考上。
2 建立自己的“积木库”。平时在学习过程中,把自己认为有用的代码放在一起,多积累,在用到的时候,可以随时拿来。你的积木库资料越多,你做程序的思路就会越广。
VBA的应用界定
VBA是利用Office实现个人小型办公自动化的有效手段(工具)。这是我对VBA的应用界定。在取代OFFICE新的办公软件没有到来之前,谁能在数据处理方面做到极致,谁就是王者。其中登峰至极的技能非VBA莫属!
我记得20年前自己初学VBA时,那时的资料甚少,只能看源码自己琢磨,真的很难。20年过去了,为了不让学习VBA的朋友重复我之前的经历,我根据自己多年VBA实际利用经验,推出了六部VBA专门教程:
第一套:VBA代码解决方案是VBA中各个知识点的讲解,教程共147讲,覆盖绝大多数的VBA知识点,初学必备;
第二套:VBA数据库解决方案 数据库是数据处理的专业利器,教程中详细介绍了利用ADO连接ACCDB和EXCEL的方法和实例操作,适合中级人员的学习。
第三套:VBA数组与字典解决方案 数组和字典是VBA的精华,字典是VBA代码水平提高的有效手段,值得深入的学习,是初级及中级人员代码精进的手段。
第四套:VBA代码解决方案之视频是专门面向初学者的视频讲解,可以快速入门,更快的掌握这门技能。这套教程是第一套教程的视频讲解,听元音更易接受。
第五套:VBA中类的解读和利用 这是一部高级教程,讲解类的虚无与肉身的度化,类的利用虽然较少,但仔细的学习可以促进自己VBA理论的提高。这套教程的领会主要是读者的领悟了,领悟一种佛学的哲理。
第六套教程:《VBA信息获取与处理》,这是一部高级教程,涉及范围更广,实用性更强,面向中高级人员。教程共二十个专题,包括:跨应用程序信息获得、随机信息的利用、电子邮件的发送、VBA互联网数据抓取、VBA延时操作,剪切板应用、Split函数扩展、工作表信息与其他应用交互,FSO对象的利用、工作表及文件夹信息的获取、图形信息的获取以及定制工作表信息函数等等内容。
大家可以根据以上资料1→3→2→6→5或者是4→3→2→6→5的顺序逐渐深入的逐渐学习。教程提供讲解的同时提供了大量的积木,如需要可以WeChat: NZ9668
学习VBA是个过程,也需要经历一种枯燥的感觉
如太白诗云:众鸟高飞尽,孤云独去闲。相看两不厌,只有敬亭山。学习的过程也是修心的过程,修一个平静的心。在代码的世界中,心平静了,心情好了,身体自然而然就好。心静则正,内心里没有那么多邪知邪见,也就没有那么多妄想。利人就是利己。这些教程也是为帮助大家起航,助上我自己之力,我的上述教程是我多的经验的传递,
“水善利万物而不争”,绵绵密密,微则无声,巨则汹涌。学习亦如此,知道什么是自己所需要的,不要蜷缩在一小块自认为天堂的世界里,待到暮年时再去做自欺欺人的言论。要努力提高自己,用一颗充满生机的心灵,把握现在,这才是进取。越是有意义的事情,困难会越多。愿力决定始终,智慧决定成败。不管遇到什么,都是风景。看淡纷争,看轻得失。茶,满也好,少也好,不要计较;浓也好,淡也好,其中自有值得品的味道。去感悟真实的时间,静下心,多学习,积累福报。而不是天天混日子,也不是天天熬日子。在后疫情更加严峻的存量残杀世界中,为自己的生存进行知识的储备,特别是新知识的储备。学习时微而无声,利用时则巨则汹涌。
每一分收获都是成长的记录,怎无凭,正是这种执着,成就了朝霞的灿烂。最后将一阙词送给致力于VBA学习的朋友,让大家感受一下学习过程的枯燥与执着:
浮云掠过,暗语无声,
唯有清风,惊了梦中啼莺。
望星,疏移北斗,
奈将往事雁同行。
阡陌人,昏灯明暗,
忍顾长亭。
多少VBA人,
暗夜中,悄声寻梦,盼却天明。
怎无凭!
回向学习利用VBA的历历往事,不胜感慨,谨以这些文字给大家,分享我多年工作实际经验的成果,随喜这些有用的东西,给确实需要利用VBA的同路人。
酷6网可以用战旗直播把每天看各种新闻看到不好看的直接弃百度
网站优化 • 优采云 发表了文章 • 0 个评论 • 49 次浏览 • 2022-05-04 13:01
vba抓取网页数据,
你可以搜索一下simulationhome,做程序脚本的,最新版是office2013,里面有一个人人影视,每天更新一个片段,免费看,用python编写的,不知道你可不可以用。很方便。
又不是免费的。
淘宝
搜狐视频
我基本每天会收到几十条视频的推送,我又看不完,这时候发现有个视频列表,就点开一个看,注意下标题,用以判断是否还有后续的视频,这个应该比较管用吧,顺便再收藏一下。
当然首推360手机卫士啦
搜狐视频站
其实微博上很多英语演讲啦资料啦翻译啦包括我国的一些大事在上面都有,感觉很方便,可以试试。
乐趣网,
蜂鸟网站,就是专门做视频采集的站点。
酷6网
可以用战旗直播把
每天看各种新闻看到不好看的直接弃
百度关键词看看收视率高的就行了
p2p理财,,类似蚂蚁金服吧之类的
你自己作为产品经理,就这么懒?任何公司都有主流产品,可以发布个招聘的网站,根据历史数据选择一下了。其他就得靠你自己了,
国内目前还没有,
googleimages,facebooksearch
每天的新闻已经包含网站名字,视频什么都有了。可以下载下来看,也可以用pip安装,很多下载工具都有提供免费版下载。portal能按照url记录抓取。 查看全部
酷6网可以用战旗直播把每天看各种新闻看到不好看的直接弃百度
vba抓取网页数据,
你可以搜索一下simulationhome,做程序脚本的,最新版是office2013,里面有一个人人影视,每天更新一个片段,免费看,用python编写的,不知道你可不可以用。很方便。
又不是免费的。
淘宝
搜狐视频
我基本每天会收到几十条视频的推送,我又看不完,这时候发现有个视频列表,就点开一个看,注意下标题,用以判断是否还有后续的视频,这个应该比较管用吧,顺便再收藏一下。
当然首推360手机卫士啦
搜狐视频站
其实微博上很多英语演讲啦资料啦翻译啦包括我国的一些大事在上面都有,感觉很方便,可以试试。
乐趣网,
蜂鸟网站,就是专门做视频采集的站点。
酷6网
可以用战旗直播把
每天看各种新闻看到不好看的直接弃
百度关键词看看收视率高的就行了
p2p理财,,类似蚂蚁金服吧之类的
你自己作为产品经理,就这么懒?任何公司都有主流产品,可以发布个招聘的网站,根据历史数据选择一下了。其他就得靠你自己了,
国内目前还没有,
googleimages,facebooksearch
每天的新闻已经包含网站名字,视频什么都有了。可以下载下来看,也可以用pip安装,很多下载工具都有提供免费版下载。portal能按照url记录抓取。
vba抓取网页数据功能简单的vba代码可以实现。
网站优化 • 优采云 发表了文章 • 0 个评论 • 103 次浏览 • 2022-05-03 05:01
<p>vba抓取网页数据功能简单的vba代码可以实现。结构化网页内容functionstringtoanspicker(str){vba.replaceall("",str);}vba.replaceall("",""); 查看全部
vba抓取网页数据功能简单的vba代码可以实现。
<p>vba抓取网页数据功能简单的vba代码可以实现。结构化网页内容functionstringtoanspicker(str){vba.replaceall("",str);}vba.replaceall("","");
破解vba网页数据抓取的四大标准:支持xml格式的数据转化
网站优化 • 优采云 发表了文章 • 0 个评论 • 118 次浏览 • 2022-04-30 23:00
vba抓取网页数据是一个比较常用的功能,甚至有些浏览器还提供了web地址抓取工具,如safari、ie。并且现在还有微信公众号文章留言抓取、搜索定位抓取、公众号页面上线、短信息追踪工具、定位页面热点、群发消息抓取、网站自定义二维码(自动识别二维码)等等,可谓是满足了不同用户对抓取的不同需求。不过使用vba抓取网页数据的时候,遇到各种问题也是难免的,因此选择一款好用的破解vba网页数据抓取,就显得极为必要。本人对好用的破解vba网页数据抓取总结了以下四大标准:。
一、强大的vba代码抓取功能,尽量避免框架。
二、完整的lib文件接口,
三、支持javascript等html编程语言
四、支持xml格式的数据转化
一、强大的vba代码抓取功能,
1)减少vba文件的数量。强大的vba文件可以不需要超过5个。一般来说,普通文件用10个就可以,microsoft自带的powerword可以说是基础配置,sql、msjavascript、microsoftxml等多数vba文件。一些比较基础的,比如加减乘除、日期转换、数学运算、逻辑运算都可以放在vba这个lib接口中。
对于大型网站来说,可以增加microsoftxmlopenfile这个接口。要加多几个lib接口,推荐用libgeometry/system32/guides这个命令,具体用法请参考我的另一篇文章janesky:深入研究vba代码框架及性能影响时-为什么用vba而不是c#?。
二、完整的lib文件接口,包括简单的sql查询一般来说,vba文件必须有完整的sql接口。一般不一定要有sql语句,有的只要把sql语句写到csv或者其他xml格式中,直接对着解析即可。对于vba可以用javascript和webdriver对着解析即可,如sumifs、index、countifs等。
三、支持javascript等html编程语言vba编程语言本身有javascript支持,但是这里还有两点不太利于javascript的支持。vba代码编写中,有相当多的vbe代码。尽管这些代码可以转化为xml文件并传给javascript解析器进行二次解析,但是对于数据抓取这种完整性要求比较高的,还是需要了解一下javascript的语法再传入到vba。
这里推荐jetopa/vba-html,vba官方搭建了一个网站,专门提供javascript语法和基本语法解析的教程和文章。
四、支持xml格式的数据转化对于ie来说,相对比较麻烦,vba必须获取xml格式的数据才能编程和使用。所以用xml格式转化可以大大减少对xml格式的操作。推荐intellijidea,基本上所有的mybatis都支持转换格式,也有xml格式转换等插件。最后, 查看全部
破解vba网页数据抓取的四大标准:支持xml格式的数据转化
vba抓取网页数据是一个比较常用的功能,甚至有些浏览器还提供了web地址抓取工具,如safari、ie。并且现在还有微信公众号文章留言抓取、搜索定位抓取、公众号页面上线、短信息追踪工具、定位页面热点、群发消息抓取、网站自定义二维码(自动识别二维码)等等,可谓是满足了不同用户对抓取的不同需求。不过使用vba抓取网页数据的时候,遇到各种问题也是难免的,因此选择一款好用的破解vba网页数据抓取,就显得极为必要。本人对好用的破解vba网页数据抓取总结了以下四大标准:。
一、强大的vba代码抓取功能,尽量避免框架。
二、完整的lib文件接口,
三、支持javascript等html编程语言
四、支持xml格式的数据转化
一、强大的vba代码抓取功能,
1)减少vba文件的数量。强大的vba文件可以不需要超过5个。一般来说,普通文件用10个就可以,microsoft自带的powerword可以说是基础配置,sql、msjavascript、microsoftxml等多数vba文件。一些比较基础的,比如加减乘除、日期转换、数学运算、逻辑运算都可以放在vba这个lib接口中。
对于大型网站来说,可以增加microsoftxmlopenfile这个接口。要加多几个lib接口,推荐用libgeometry/system32/guides这个命令,具体用法请参考我的另一篇文章janesky:深入研究vba代码框架及性能影响时-为什么用vba而不是c#?。
二、完整的lib文件接口,包括简单的sql查询一般来说,vba文件必须有完整的sql接口。一般不一定要有sql语句,有的只要把sql语句写到csv或者其他xml格式中,直接对着解析即可。对于vba可以用javascript和webdriver对着解析即可,如sumifs、index、countifs等。
三、支持javascript等html编程语言vba编程语言本身有javascript支持,但是这里还有两点不太利于javascript的支持。vba代码编写中,有相当多的vbe代码。尽管这些代码可以转化为xml文件并传给javascript解析器进行二次解析,但是对于数据抓取这种完整性要求比较高的,还是需要了解一下javascript的语法再传入到vba。
这里推荐jetopa/vba-html,vba官方搭建了一个网站,专门提供javascript语法和基本语法解析的教程和文章。
四、支持xml格式的数据转化对于ie来说,相对比较麻烦,vba必须获取xml格式的数据才能编程和使用。所以用xml格式转化可以大大减少对xml格式的操作。推荐intellijidea,基本上所有的mybatis都支持转换格式,也有xml格式转换等插件。最后,
vba抓取网页数据(源代码抓取京东小米8手机的配置信息有64行 )
网站优化 • 优采云 发表了文章 • 0 个评论 • 57 次浏览 • 2022-04-10 02:31
)
以下代码是用python抓取京东小米8手机的配置信息
首先找到小米8产品的链接:
然后找到它的配置信息的标签,我们找到它的配置信息的标签为
然后分析其配置信息页面的规则,我们发现dl收录dt和dd,一个dt对应一个dd,dt对应一个参数,dd对应参数的具体值
p>
以下是源码
import requests<br />from bs4 import BeautifulSoup<br />from pandas import Series<br />from pandas import DataFrame<br /><br /><br />response=requests.get("https://item.jd.com/7437788.html")<br />html=response.text<br /><br />soup=BeautifulSoup(html,"html.parser")<br />divSoup=soup.find("div",attrs={"class","Ptable"}) ##找到其配置信息的标签<br /><br />data=DataFrame(columns=["参数","值"]) #定义一个二元的DataFrame<br />dls=divSoup.find_all("dl")<br /><br />for dl in dls:<br /> dts=dl.find_all("dt")<br /> dds=dl.find_all("dd")<br /> if len(dts)==len(dds):<br /> for i in range(len(dts)):<br /> f=dts[i].getText();<br /> p=dds[i].getText();<br /> data=data.append(Series([f,p],index=["参数","值"]),ignore_index=True);<br />print(data)
这是捕获的最终配置信息。一共64行,这里就不一一列举了
查看全部
vba抓取网页数据(源代码抓取京东小米8手机的配置信息有64行
)
以下代码是用python抓取京东小米8手机的配置信息
首先找到小米8产品的链接:
然后找到它的配置信息的标签,我们找到它的配置信息的标签为

然后分析其配置信息页面的规则,我们发现dl收录dt和dd,一个dt对应一个dd,dt对应一个参数,dd对应参数的具体值
p>

以下是源码
import requests<br />from bs4 import BeautifulSoup<br />from pandas import Series<br />from pandas import DataFrame<br /><br /><br />response=requests.get("https://item.jd.com/7437788.html")<br />html=response.text<br /><br />soup=BeautifulSoup(html,"html.parser")<br />divSoup=soup.find("div",attrs={"class","Ptable"}) ##找到其配置信息的标签<br /><br />data=DataFrame(columns=["参数","值"]) #定义一个二元的DataFrame<br />dls=divSoup.find_all("dl")<br /><br />for dl in dls:<br /> dts=dl.find_all("dt")<br /> dds=dl.find_all("dd")<br /> if len(dts)==len(dds):<br /> for i in range(len(dts)):<br /> f=dts[i].getText();<br /> p=dds[i].getText();<br /> data=data.append(Series([f,p],index=["参数","值"]),ignore_index=True);<br />print(data)
这是捕获的最终配置信息。一共64行,这里就不一一列举了

vba抓取网页数据(百度搜索引擎是免费服务,其实背后赚钱来源是付费推广)
网站优化 • 优采云 发表了文章 • 0 个评论 • 53 次浏览 • 2022-04-08 02:05
vba抓取网页数据
搜索引擎需要花钱买站,但是你可以通过定位,让搜索引擎分析你的用户行为,实现精准的投放广告。例如:百度里面推广a产品,百度会根据你一年在网上浏览习惯,对你定位投放适合a产品的广告。而百度搜索引擎虽然是免费服务,其实背后赚钱来源是付费推广。
下载谷歌浏览器app后,关注自己想要的网站,并且可以在里面上传自己的链接,这样你就可以免费在上面推广自己的网站。
百度,知乎,
百度、知乎、百度知道、谷歌
推广其他网站
也可以用和百度一样的wordpress写程序来定位站点,也可以尝试在百度里面做站长,赚钱定位更精准。
和百度、google一样的功能就好啦
在百度知道找软文投放,在百度文库投放软文,在第三方平台上找需要的资源。
就是上面的,打广告,
用户都已经是大海捞针,用户推广自己的网站也并不是什么难事。
发布软文,定位好目标网站定位后,根据用户行为等多方面来分析用户,感觉自己被“伪装”了,并不是网站用户的话就针对提出建议等等。反正,有打广告目的的,肯定是要去合理利用网站功能才能推广自己的。
软文推广渠道主要有两个:1.软文收稿(可以实现精准定位,避免职位招聘类软文的歧义。2.互联网病毒传播。其实你提问的问题的答案就已经出来了。 查看全部
vba抓取网页数据(百度搜索引擎是免费服务,其实背后赚钱来源是付费推广)
vba抓取网页数据
搜索引擎需要花钱买站,但是你可以通过定位,让搜索引擎分析你的用户行为,实现精准的投放广告。例如:百度里面推广a产品,百度会根据你一年在网上浏览习惯,对你定位投放适合a产品的广告。而百度搜索引擎虽然是免费服务,其实背后赚钱来源是付费推广。
下载谷歌浏览器app后,关注自己想要的网站,并且可以在里面上传自己的链接,这样你就可以免费在上面推广自己的网站。
百度,知乎,
百度、知乎、百度知道、谷歌
推广其他网站
也可以用和百度一样的wordpress写程序来定位站点,也可以尝试在百度里面做站长,赚钱定位更精准。
和百度、google一样的功能就好啦
在百度知道找软文投放,在百度文库投放软文,在第三方平台上找需要的资源。
就是上面的,打广告,
用户都已经是大海捞针,用户推广自己的网站也并不是什么难事。
发布软文,定位好目标网站定位后,根据用户行为等多方面来分析用户,感觉自己被“伪装”了,并不是网站用户的话就针对提出建议等等。反正,有打广告目的的,肯定是要去合理利用网站功能才能推广自己的。
软文推广渠道主要有两个:1.软文收稿(可以实现精准定位,避免职位招聘类软文的歧义。2.互联网病毒传播。其实你提问的问题的答案就已经出来了。
vba抓取网页数据([复制链接]uranus1997165主题好友261积分幼儿园大班金币1704个积分)
网站优化 • 优采云 发表了文章 • 0 个评论 • 53 次浏览 • 2022-04-07 18:02
用VBA提取网页数据的四种方法 更多2012-7-51042 编辑 嗯,这是398部长给我的一个小练习,分享给大家,然后等398部长讲解。一共做了4个方法,在此感谢August Sleepwalking的帮助和建议。题目是在如下网页中提取店铺名称和地址:(我没做多页,我懒了)searchsearchstore.htmloption.cityname=%CE%C2%D6%DD&option.category=4&option.distance= 2000&pageNo=1 XMLHTTP对象,速度不错,受网页源代码变化影响,但处理网页源文件最方便自由。InternetExplorer 对象,速度一般,受网页源代码改动影响,需要激活IE,不喜欢。QueryTables 对象的平均速度最快,基本不受网页源代码变化的影响。想获取多页数据的时候比较麻烦,还有一个额外的网页查询区需要删除。
WebBrowser对象,先是速度不如XMLHTTP,然后很快,受网页源代码变化的影响,原理和InternetExplorer一样,就是多出来的控件不好看工作表,并且只能通过缩小控件来隐藏。每种方法都有自己的优缺点,要根据实际情况来选择合适的方法。个人觉得从网页中提取数据是没有技巧的。归根结底,其原理基本上是提取网页的源代码,然后对其进行分析处理。在 VBA 中,使用字符串处理可能更容易理解。其实也可以使用获取网页元素的方法。例如,使用了一些这样的技术,但是因为对网页的元素不熟悉,如果想要方便的方法还需要多了解网页的结构和代码。PS:记得看我鼠标写的火狐浏览器脚本。看来只能列举不同网页源码的共同点来写了。似乎很难认为 100% 通用。第一个附件:8yEsMVej.rar (25.12 KB,下载次数1318)由于网页源代码变了,08-7-14重新编辑上传。 [本帖已被作者于2008-7-14 22817编辑] jKtC2df0.rar 24.33 KB,下载1420次 [分享] VBA提取网页数据(4种方法)0JQmXNaH。 rar 25.@ >44 KB, 下载次数1660 [分享] VBA提取网页数据(4种方法) 第一种方法不对,是什么原因?可能是Object变量传递的问题,所以试试 Sub test() Dim StringDim arr Dim LongDim LongDim t1 LongDim t2 GetSource("") arr Filter(Split(s,""), "Address", True) UBound( arr)t1 InStr(1,arr(i), InStr(t1,arr(i), Mid( arr(i), t1, t2 t1)
. . . 请参阅我的第二个附件,它解决了问题,它应该。. . . . 我试过的感觉是XML速度第一,QueryTables第二,差不多一点点;WebBrowser 第三;IE 是最慢的,它会打开网页。哈哈,我明白了,他的原理是通过Msxml2.XMLHTTP提取网页内容,相当于我们点击ie时从源文件中提取txt文档的内容。然后使用字符串处理函数split找到我们想要的信息,放入数组中。之后,将数组中的内容写入到excel分页和详情页的URL中,可以找到。理论上,网页上显示的所有内容都可以提取出来 :) 我希望我能把它搞定:) 相当于提取了对方在互联网上发布的信息。数据库内容。然后就可以灵活使用数据库分析工具更改 Private Sub CommandButton4_Click() Dim doc ObjectDim txt1 StringDim IntegerDim WebBrowser1.Navigate"" Do Until WebBrowser1.ReadyState READYSTATE_COMPLETEDoEvents Loop Set doc ErrorResume Next ReDim arr(1 doc.all.Lengthtxt1 txt1End WebBrowser1.Navigate"about:blank" End Sub 查看全部
vba抓取网页数据([复制链接]uranus1997165主题好友261积分幼儿园大班金币1704个积分)
用VBA提取网页数据的四种方法 更多2012-7-51042 编辑 嗯,这是398部长给我的一个小练习,分享给大家,然后等398部长讲解。一共做了4个方法,在此感谢August Sleepwalking的帮助和建议。题目是在如下网页中提取店铺名称和地址:(我没做多页,我懒了)searchsearchstore.htmloption.cityname=%CE%C2%D6%DD&option.category=4&option.distance= 2000&pageNo=1 XMLHTTP对象,速度不错,受网页源代码变化影响,但处理网页源文件最方便自由。InternetExplorer 对象,速度一般,受网页源代码改动影响,需要激活IE,不喜欢。QueryTables 对象的平均速度最快,基本不受网页源代码变化的影响。想获取多页数据的时候比较麻烦,还有一个额外的网页查询区需要删除。
WebBrowser对象,先是速度不如XMLHTTP,然后很快,受网页源代码变化的影响,原理和InternetExplorer一样,就是多出来的控件不好看工作表,并且只能通过缩小控件来隐藏。每种方法都有自己的优缺点,要根据实际情况来选择合适的方法。个人觉得从网页中提取数据是没有技巧的。归根结底,其原理基本上是提取网页的源代码,然后对其进行分析处理。在 VBA 中,使用字符串处理可能更容易理解。其实也可以使用获取网页元素的方法。例如,使用了一些这样的技术,但是因为对网页的元素不熟悉,如果想要方便的方法还需要多了解网页的结构和代码。PS:记得看我鼠标写的火狐浏览器脚本。看来只能列举不同网页源码的共同点来写了。似乎很难认为 100% 通用。第一个附件:8yEsMVej.rar (25.12 KB,下载次数1318)由于网页源代码变了,08-7-14重新编辑上传。 [本帖已被作者于2008-7-14 22817编辑] jKtC2df0.rar 24.33 KB,下载1420次 [分享] VBA提取网页数据(4种方法)0JQmXNaH。 rar 25.@ >44 KB, 下载次数1660 [分享] VBA提取网页数据(4种方法) 第一种方法不对,是什么原因?可能是Object变量传递的问题,所以试试 Sub test() Dim StringDim arr Dim LongDim LongDim t1 LongDim t2 GetSource("") arr Filter(Split(s,""), "Address", True) UBound( arr)t1 InStr(1,arr(i), InStr(t1,arr(i), Mid( arr(i), t1, t2 t1)
. . . 请参阅我的第二个附件,它解决了问题,它应该。. . . . 我试过的感觉是XML速度第一,QueryTables第二,差不多一点点;WebBrowser 第三;IE 是最慢的,它会打开网页。哈哈,我明白了,他的原理是通过Msxml2.XMLHTTP提取网页内容,相当于我们点击ie时从源文件中提取txt文档的内容。然后使用字符串处理函数split找到我们想要的信息,放入数组中。之后,将数组中的内容写入到excel分页和详情页的URL中,可以找到。理论上,网页上显示的所有内容都可以提取出来 :) 我希望我能把它搞定:) 相当于提取了对方在互联网上发布的信息。数据库内容。然后就可以灵活使用数据库分析工具更改 Private Sub CommandButton4_Click() Dim doc ObjectDim txt1 StringDim IntegerDim WebBrowser1.Navigate"" Do Until WebBrowser1.ReadyState READYSTATE_COMPLETEDoEvents Loop Set doc ErrorResume Next ReDim arr(1 doc.all.Lengthtxt1 txt1End WebBrowser1.Navigate"about:blank" End Sub
vba抓取网页数据可以用代码写死多个html,比如写一个简单的列表
网站优化 • 优采云 发表了文章 • 0 个评论 • 217 次浏览 • 2022-09-14 06:01
vba抓取网页数据可以用代码写死多个html,比如用以下代码写一个简单的列表,根据你自己喜好postdata表到对应链接:[{"name":"aichuan","age":25,"job":"it","education":"chiefcontroller","contact":"","address":["北京","上海","广州","深圳","杭州","武汉","西安","厦门","南京","哈尔滨","南宁","长沙","三亚","重庆","宁波","成都","杭州","北京","安徽","福州","山东","广西","湖南","辽宁","四川","河南","山西","吉林","陕西","湖北","内蒙古","新疆","海南","黑龙江","宁夏"}]]里面的信息可以在post里面输入,最多可以写500个。
可以看一下学习一下。有很多比较好的,根据自己的需求定。我之前写过python里面抓取淘宝数据,是github上搜索到的。
通过excel,导入到mysql数据库中,可以用oracle,sqlserver数据库;导入数据库后,使用python可以读取数据库中的数据,这方面的可以学一下;希望可以帮到你。
你百度数据库表操作,包括关系型数据库,字符串,列表,日期,日志等等。回到你的需求,建议可以针对销售员表建一个字典查询,不要在mysql中放数据。这样更加简单易行。 查看全部
vba抓取网页数据可以用代码写死多个html,比如写一个简单的列表
vba抓取网页数据可以用代码写死多个html,比如用以下代码写一个简单的列表,根据你自己喜好postdata表到对应链接:[{"name":"aichuan","age":25,"job":"it","education":"chiefcontroller","contact":"","address":["北京","上海","广州","深圳","杭州","武汉","西安","厦门","南京","哈尔滨","南宁","长沙","三亚","重庆","宁波","成都","杭州","北京","安徽","福州","山东","广西","湖南","辽宁","四川","河南","山西","吉林","陕西","湖北","内蒙古","新疆","海南","黑龙江","宁夏"}]]里面的信息可以在post里面输入,最多可以写500个。

可以看一下学习一下。有很多比较好的,根据自己的需求定。我之前写过python里面抓取淘宝数据,是github上搜索到的。

通过excel,导入到mysql数据库中,可以用oracle,sqlserver数据库;导入数据库后,使用python可以读取数据库中的数据,这方面的可以学一下;希望可以帮到你。
你百度数据库表操作,包括关系型数据库,字符串,列表,日期,日志等等。回到你的需求,建议可以针对销售员表建一个字典查询,不要在mysql中放数据。这样更加简单易行。
vba抓取网页数据并显示成excel这个要分两步
网站优化 • 优采云 发表了文章 • 0 个评论 • 404 次浏览 • 2022-09-12 02:05
vba抓取网页数据并显示成excel这个要分两步,第一步你要在vba中设置如何去爬取你要抓取的数据,
vba中利用循环进行数据抓取,可以完成基本的数据采集。
建议先学好vba这门语言,然后基本上能让你一目了然的抓取网页资源,同时vba的框架搭建也是必须熟练掌握的。至于网页抓取的内容,不外乎要爬虫、页面解析以及显示设置,
很多网站都有免费的可抓取网页,都是浏览器浏览器就可以抓取的,然后数据可以进行相关分析,最后做好总结汇总。
网页中包含数据要分类进行抓取。抓取地址分为url、header和cookie来进行抓取。如果是抓取图片的话,还需要request协议进行抓取。segmentfault/gh-wfn-any回答过一个抓取图片的小例子,你可以参考下,很简单也很精简,重点就是说需要爬取的资源url、header、cookie、图片的url以及cookie。
1、https协议的源代码是保存在服务器端的,除非你提供可以下载的网页或者分享链接地址。
2、图片上传的话,这需要将图片保存到本地,再上传到服务器。
3、访问一个链接进行解析后,将解析后的html代码放到浏览器打开即可。然后进行过滤、分析、画成excel文件即可。
我简单说下我做过的,分享下。我做过的:1.在小的网站采集,大量都是页面简单html页面,根据url反爬虫基本没有2.主流网站,基本都是java采集的工具,抓包开发对高级语言要求并不高,反爬虫的抓取难度也不大。可以说只要java程序员水平高或者稍加练习就可以3.公司平台,tiomg、飞猪这类公司有大量http内容采集工具可以用。
还有的公司用的是php我用得最多的是:1.采集效率高(采集速度快,比如经常采集500m以内的单页链接采集个10个单页基本够用)2.分析效率高(就像采集热门信息,可以分析出哪个网站/域名上信息最丰富)3.采集逻辑简单(换头换尾什么的很容易搞定)。 查看全部
vba抓取网页数据并显示成excel这个要分两步
vba抓取网页数据并显示成excel这个要分两步,第一步你要在vba中设置如何去爬取你要抓取的数据,
vba中利用循环进行数据抓取,可以完成基本的数据采集。
建议先学好vba这门语言,然后基本上能让你一目了然的抓取网页资源,同时vba的框架搭建也是必须熟练掌握的。至于网页抓取的内容,不外乎要爬虫、页面解析以及显示设置,

很多网站都有免费的可抓取网页,都是浏览器浏览器就可以抓取的,然后数据可以进行相关分析,最后做好总结汇总。
网页中包含数据要分类进行抓取。抓取地址分为url、header和cookie来进行抓取。如果是抓取图片的话,还需要request协议进行抓取。segmentfault/gh-wfn-any回答过一个抓取图片的小例子,你可以参考下,很简单也很精简,重点就是说需要爬取的资源url、header、cookie、图片的url以及cookie。
1、https协议的源代码是保存在服务器端的,除非你提供可以下载的网页或者分享链接地址。

2、图片上传的话,这需要将图片保存到本地,再上传到服务器。
3、访问一个链接进行解析后,将解析后的html代码放到浏览器打开即可。然后进行过滤、分析、画成excel文件即可。
我简单说下我做过的,分享下。我做过的:1.在小的网站采集,大量都是页面简单html页面,根据url反爬虫基本没有2.主流网站,基本都是java采集的工具,抓包开发对高级语言要求并不高,反爬虫的抓取难度也不大。可以说只要java程序员水平高或者稍加练习就可以3.公司平台,tiomg、飞猪这类公司有大量http内容采集工具可以用。
还有的公司用的是php我用得最多的是:1.采集效率高(采集速度快,比如经常采集500m以内的单页链接采集个10个单页基本够用)2.分析效率高(就像采集热门信息,可以分析出哪个网站/域名上信息最丰富)3.采集逻辑简单(换头换尾什么的很容易搞定)。
美团sp包怎么设计,目的是什么?怎么做?
网站优化 • 优采云 发表了文章 • 0 个评论 • 94 次浏览 • 2022-07-31 17:05
vba抓取网页数据,得到源代码之后,
当然没有,时间分析或者趋势分析的话基本上用statistics.powerpivot,别听hp那帮人瞎忽悠,他们自己工资都没数。
说实话,这个只是他们有两三年从业经验的人随便写写的话,确实有难度。但是现在也不是有很大难度,据我所知,美团在几年前,实习生包括外包都不要求写sql写excel就可以干活了,甚至公司要求都不需要。我想这个大概能说明这个包可以用,但不需要他们亲自去做这个事情。一般的公司想查个数据不外乎用bdp,最新sql查询免费,excel基本可以支持这数据量。
上边不一定都是真公司,同样公司用这个的也不一定是真产品。sp包需要说明一下,包具体怎么设计,目的是什么?并不是一个包所有功能,而且多产品共用一个包。关键看产品定位。如果你不是每个产品都一样,建议直接找相关产品,了解其数据服务的目的,看看其具体包里面有没有你需要的数据服务,还有就是不要人云亦云,什么包名字都说是什么,例如用友,我相信在很多数据公司都会有单独的用友sp包,不管是体量,用途各方面都是有差异的。
有些具体用包了解即可。最好能有数据需求目标,如你要查询某个区域某个时间某个商品在某商品详情页面的转化率,直接问问你的业务需求,然后有针对性的寻找,看看能不能找到能满足需求的包。至于前途,除非一线。 查看全部
美团sp包怎么设计,目的是什么?怎么做?
vba抓取网页数据,得到源代码之后,

当然没有,时间分析或者趋势分析的话基本上用statistics.powerpivot,别听hp那帮人瞎忽悠,他们自己工资都没数。
说实话,这个只是他们有两三年从业经验的人随便写写的话,确实有难度。但是现在也不是有很大难度,据我所知,美团在几年前,实习生包括外包都不要求写sql写excel就可以干活了,甚至公司要求都不需要。我想这个大概能说明这个包可以用,但不需要他们亲自去做这个事情。一般的公司想查个数据不外乎用bdp,最新sql查询免费,excel基本可以支持这数据量。

上边不一定都是真公司,同样公司用这个的也不一定是真产品。sp包需要说明一下,包具体怎么设计,目的是什么?并不是一个包所有功能,而且多产品共用一个包。关键看产品定位。如果你不是每个产品都一样,建议直接找相关产品,了解其数据服务的目的,看看其具体包里面有没有你需要的数据服务,还有就是不要人云亦云,什么包名字都说是什么,例如用友,我相信在很多数据公司都会有单独的用友sp包,不管是体量,用途各方面都是有差异的。
有些具体用包了解即可。最好能有数据需求目标,如你要查询某个区域某个时间某个商品在某商品详情页面的转化率,直接问问你的业务需求,然后有针对性的寻找,看看能不能找到能满足需求的包。至于前途,除非一线。
Weekly Issue 3 | VBA与宏在Excel中的应用举例
网站优化 • 优采云 发表了文章 • 0 个评论 • 189 次浏览 • 2022-07-24 03:28
VBA与宏在Excel当中的应用举例-从Yahoo finance网站自动抓取股价数据
Visual Basic for Applications(VBA)作为Visual Basic的一种宏语言,是由微软发布,用于在其桌面应用程序中执行通用自动化(OLE)任务的编程语言。VB/VBA作为一种自动化语言于上世纪90年代就已被开发出来。因为我们工作生活依然离不开微软Office软件,而利用VBA可以大幅提高使用效率,所以其重要性依然不可被低估。本期的《实用技能》栏目关注的是VBA在获取xls格式的股票交易数据方面的应用。相信大家在工作或学习当中经常需要提取股票交易数据进行分析。例如,在对一个包含大量股票组合的交易策略进行历史数据测试时,我们需要在网站上对标的股票逐个查找,选定时间区间及时间间隔进行数据下载。而下载后还需要将大量的Excel数据进行并表,十分繁琐。而如果我们学会使用Excel当中简单的VBA及宏操作,就能轻松实现数据提取。
准备工作
大家在准备进行VBA及宏操作之前,需要确认一下在Excel的选项卡中是否将“开发工具”一栏调出。如果没有,可以在(以office2013为例)“文件—选项—自定义功能区中”进行勾选:
确定完毕之后,我们便能在工具栏中找到VisualBasic与宏的相关按钮。
录制宏—股票交易数据导入为了实现我们的目的,我们需要借助Excel中的宏工具。宏相当于是一个操作录制工具,可以将用户的一连串操作记录下来,便于之后实现一键再现的操作。由于这一录制过程能够通过代码进行体现,对于并不太熟悉VBA的用户来说,宏也是一个学习VBA代码撰写的利器。我们今天的主要逻辑亦为:首先对我们需要的操作进行录制以获取代码,再在基本框架上进行简单的修改,从而实现获取特定股票交易数据的简易化。具体步骤如下:点击“录制宏”,命名为“数据获取”,并单击“确定”:
从Yahoo Finance网站中任意查找一支股票的历史股价(以沃尔玛 ticker: WMT为例),并任意选取起始时间及时间间隔(之后在代码中都可以进行调整):
拖至网页最下方,找到
后,单击右键选择“复制链接地址”。
回到Excel,找到“数据”选项卡中的“自文本”。将刚刚复制的链接粘贴至最下方的“文件名”处,并选择“打开”:
进入弹出的文件导入向导。第1步选择默认的“分隔符号”。第2步在额外勾选“逗号”后,会发现Excel成功依据我们所需要的形式将数据分割为了若干列。继续单击下一步:
进入第3步后,我们需要确保第一列的日期按照Yahoo所提供的格式进行排列(如本例中的YMD, Year-Month-Day)。当然,如果我们认为其中某一列数据并不必要,我们可以选择对其“不导入此列(跳过)”(这在之后的代码中同样可以进行调整)。最后单击“完成”:
在表格的$A$1位置确定导入。
利用VBA对代码进行修改
至此,我们获得了沃尔玛在指定时间区间内的股价。接下来我们需要做的是对通过录制获取的代码进行修改,步骤如下:
在“开发工具—宏”中,对我们刚刚录制的宏“数据获取”选择“编辑”:
弹出Visual Basic Editor界面(该界面也可以通过快捷键Alt+F11打开)。由此我们获得了刚刚录制一连串操作所得的代码:
由于此处不需要从头对代码进行撰写,且受篇幅所限,我们就不逐行对VBA语言进行详细的介绍。有兴趣的同学可以在互联网上搜索相关资源自行学习(例如等的视频学习教程)。
对输入项进行定义。因为我们希望最后只需要通过输入股票对应的ticker及起止日期就能获得对应股票交易信息,所以我们需要对这些输入项进行定义。在VBA中,定义是由“dim“完成的,经常使用定义的包括三种:整数型变量(Interger, %) 长整型变量(Long, &) 字符串变量(String, $)。由于ticker的内容代指一个含有多位字母的字符串,起止年/月/日都是多位数字,我们采取以下定义(只要该行代码没有出现错误,回车后首字母会自动大写,颜色也会相应产生改变):
每次输入数据前,需要程序将A-G列进行清空,代码如下:
对ticker及起止日期定位,并用range分别表示其值。单元格K1对应ticker,K2对应起始日期,K3对应结束日期。Day/Month/Year()函数分别表示取日期中的年月日相应部分:
值得注意的是,在Yahoo Finance当中,一月用数字0表示;而在Excel当中,一月的表示方式为数字1。所以在代码中我们需要在月份后面加上“-1”以实现从Excel输入数据到Yahoo Finance提取数据的转换。
对URL进行修改。由于打开Yahoo Finance时,所查股票ticker及起止日期在地址栏中存在对应的指代部分,我们可以通过将刚刚定义的可变变量插入下方表示URL的代码当中,修改方式如下:
删除CommanType = 0整行
Array后的“5”表示该列采用的是YMD的时间数据,“1”表示该列为普通数据。如果不需要导出某列,只需要按顺序将该列设置为“9”即可
如果只需要导入数据的若干列,只需找到代码的这一行:TextFileColumnDataTypes = Array(5, 1, 1, 1, 1, 1, 1)
实现一键操作完成以上步骤并检查完毕后,在ticker处输入“GOOGL”,并调整起止日期。这时便可以点击上方工具栏的运行子过程(快捷键F5)来运行这一程序:
如果遇到程序报错,可以通过“视图”打开“本地窗口”,用F8对代码进行逐步检测从而发现具体问题来源。
于是我们轻松导入了谷歌在2016年前三个月的股票交易信息:
通过“开发工具—插入—按钮(窗体控件)”绘制按钮,并命名为“获取历史股价”。此处按住Alt键可以确保按钮能够与单元格分界线对齐。选择已录制并修改的宏,单击“确定”。同时,我们还可以根据需要加上平均单日回报,收盘价标准差等等(注意:由于导入数据的时长可能发生变动,每期数据样本量会产生差异,这些附加的公式内都应直接选取整列,如=AVERAGE(H:H)
美股直接输入ticker即可(如WMT, GOOGL),而港股及沪深股市只需要在数字后分别加上”.HK”,”.SS”,”.SZ”即可(如0001.HK,600000.SS)。这样我们便能在Excel输入目标股票的ticker及起止日期后,实现一键获取股票交易相关数据。
希望这次的《实用技能》栏目能够为大家平时的数据查找过程提供一条捷径。笔者也希望能够透过这一案例,使得大家对于VBA与宏在相关professional service当中的重要地位有一个初步了解。
供稿 | 王主丰 许晓琛编辑 | 白书豪 唐轶一 查看全部
Weekly Issue 3 | VBA与宏在Excel中的应用举例
VBA与宏在Excel当中的应用举例-从Yahoo finance网站自动抓取股价数据
Visual Basic for Applications(VBA)作为Visual Basic的一种宏语言,是由微软发布,用于在其桌面应用程序中执行通用自动化(OLE)任务的编程语言。VB/VBA作为一种自动化语言于上世纪90年代就已被开发出来。因为我们工作生活依然离不开微软Office软件,而利用VBA可以大幅提高使用效率,所以其重要性依然不可被低估。本期的《实用技能》栏目关注的是VBA在获取xls格式的股票交易数据方面的应用。相信大家在工作或学习当中经常需要提取股票交易数据进行分析。例如,在对一个包含大量股票组合的交易策略进行历史数据测试时,我们需要在网站上对标的股票逐个查找,选定时间区间及时间间隔进行数据下载。而下载后还需要将大量的Excel数据进行并表,十分繁琐。而如果我们学会使用Excel当中简单的VBA及宏操作,就能轻松实现数据提取。
准备工作
大家在准备进行VBA及宏操作之前,需要确认一下在Excel的选项卡中是否将“开发工具”一栏调出。如果没有,可以在(以office2013为例)“文件—选项—自定义功能区中”进行勾选:
确定完毕之后,我们便能在工具栏中找到VisualBasic与宏的相关按钮。
录制宏—股票交易数据导入为了实现我们的目的,我们需要借助Excel中的宏工具。宏相当于是一个操作录制工具,可以将用户的一连串操作记录下来,便于之后实现一键再现的操作。由于这一录制过程能够通过代码进行体现,对于并不太熟悉VBA的用户来说,宏也是一个学习VBA代码撰写的利器。我们今天的主要逻辑亦为:首先对我们需要的操作进行录制以获取代码,再在基本框架上进行简单的修改,从而实现获取特定股票交易数据的简易化。具体步骤如下:点击“录制宏”,命名为“数据获取”,并单击“确定”:
从Yahoo Finance网站中任意查找一支股票的历史股价(以沃尔玛 ticker: WMT为例),并任意选取起始时间及时间间隔(之后在代码中都可以进行调整):
拖至网页最下方,找到
后,单击右键选择“复制链接地址”。
回到Excel,找到“数据”选项卡中的“自文本”。将刚刚复制的链接粘贴至最下方的“文件名”处,并选择“打开”:

进入弹出的文件导入向导。第1步选择默认的“分隔符号”。第2步在额外勾选“逗号”后,会发现Excel成功依据我们所需要的形式将数据分割为了若干列。继续单击下一步:
进入第3步后,我们需要确保第一列的日期按照Yahoo所提供的格式进行排列(如本例中的YMD, Year-Month-Day)。当然,如果我们认为其中某一列数据并不必要,我们可以选择对其“不导入此列(跳过)”(这在之后的代码中同样可以进行调整)。最后单击“完成”:
在表格的$A$1位置确定导入。
利用VBA对代码进行修改
至此,我们获得了沃尔玛在指定时间区间内的股价。接下来我们需要做的是对通过录制获取的代码进行修改,步骤如下:
在“开发工具—宏”中,对我们刚刚录制的宏“数据获取”选择“编辑”:
弹出Visual Basic Editor界面(该界面也可以通过快捷键Alt+F11打开)。由此我们获得了刚刚录制一连串操作所得的代码:
由于此处不需要从头对代码进行撰写,且受篇幅所限,我们就不逐行对VBA语言进行详细的介绍。有兴趣的同学可以在互联网上搜索相关资源自行学习(例如等的视频学习教程)。
对输入项进行定义。因为我们希望最后只需要通过输入股票对应的ticker及起止日期就能获得对应股票交易信息,所以我们需要对这些输入项进行定义。在VBA中,定义是由“dim“完成的,经常使用定义的包括三种:整数型变量(Interger, %) 长整型变量(Long, &) 字符串变量(String, $)。由于ticker的内容代指一个含有多位字母的字符串,起止年/月/日都是多位数字,我们采取以下定义(只要该行代码没有出现错误,回车后首字母会自动大写,颜色也会相应产生改变):
每次输入数据前,需要程序将A-G列进行清空,代码如下:

对ticker及起止日期定位,并用range分别表示其值。单元格K1对应ticker,K2对应起始日期,K3对应结束日期。Day/Month/Year()函数分别表示取日期中的年月日相应部分:
值得注意的是,在Yahoo Finance当中,一月用数字0表示;而在Excel当中,一月的表示方式为数字1。所以在代码中我们需要在月份后面加上“-1”以实现从Excel输入数据到Yahoo Finance提取数据的转换。
对URL进行修改。由于打开Yahoo Finance时,所查股票ticker及起止日期在地址栏中存在对应的指代部分,我们可以通过将刚刚定义的可变变量插入下方表示URL的代码当中,修改方式如下:
删除CommanType = 0整行
Array后的“5”表示该列采用的是YMD的时间数据,“1”表示该列为普通数据。如果不需要导出某列,只需要按顺序将该列设置为“9”即可
如果只需要导入数据的若干列,只需找到代码的这一行:TextFileColumnDataTypes = Array(5, 1, 1, 1, 1, 1, 1)
实现一键操作完成以上步骤并检查完毕后,在ticker处输入“GOOGL”,并调整起止日期。这时便可以点击上方工具栏的运行子过程(快捷键F5)来运行这一程序:
如果遇到程序报错,可以通过“视图”打开“本地窗口”,用F8对代码进行逐步检测从而发现具体问题来源。
于是我们轻松导入了谷歌在2016年前三个月的股票交易信息:
通过“开发工具—插入—按钮(窗体控件)”绘制按钮,并命名为“获取历史股价”。此处按住Alt键可以确保按钮能够与单元格分界线对齐。选择已录制并修改的宏,单击“确定”。同时,我们还可以根据需要加上平均单日回报,收盘价标准差等等(注意:由于导入数据的时长可能发生变动,每期数据样本量会产生差异,这些附加的公式内都应直接选取整列,如=AVERAGE(H:H)
美股直接输入ticker即可(如WMT, GOOGL),而港股及沪深股市只需要在数字后分别加上”.HK”,”.SS”,”.SZ”即可(如0001.HK,600000.SS)。这样我们便能在Excel输入目标股票的ticker及起止日期后,实现一键获取股票交易相关数据。
希望这次的《实用技能》栏目能够为大家平时的数据查找过程提供一条捷径。笔者也希望能够透过这一案例,使得大家对于VBA与宏在相关professional service当中的重要地位有一个初步了解。
供稿 | 王主丰 许晓琛编辑 | 白书豪 唐轶一
mysql>抓取网页数据,提取数据从网页批量转换格式
网站优化 • 优采云 发表了文章 • 0 个评论 • 208 次浏览 • 2022-07-20 20:01
vba抓取网页数据,提取数据,从网页批量提取数据,openxlsx提取数据,网页批量转换格式,抓取ff数据,从网页批量提取数据,xlsx数据的预处理等.下面的vba代码进行了在全文中的关键操作,希望可以帮助你学习到更多工作中的知识。mysql>select*fromworldwhereconnectname='tcp_ping_data';更多关于world网页抓取方面,内容可以关注微信公众号——world都会持续更新的,欢迎关注和参与。
参考博文:1.html5webformstransformationwithtocadandxml2.world网页爬虫webpagebasedscrapingbasedscrapinginhtml5editors3.xmlparser-world'sxmleditoronline.4.xmlwebextractiontools.希望可以帮助到你。
这个问题应该是根据需求吧,要是像大部分的网站都可以单独抓起来,可以看看这个叫何雪清的老师提供的教程。不是一步到位的效果(需要数据是postparams,作者没有用过),不过还是很受用的,基本能达到作者要求的效果。或者不是针对小网站,针对web平台的有用的爬虫也都是有用的,
爬虫可以分为中间地带和前端地带。中间地带:比如scrap,爬虫就是一个发送数据的中间库,用数据库存储数据,前端地带:比如爬虫可以认为是爬虫的一个前端展示的东西,可以认为是所有页面的数据获取。 查看全部
mysql>抓取网页数据,提取数据从网页批量转换格式
vba抓取网页数据,提取数据,从网页批量提取数据,openxlsx提取数据,网页批量转换格式,抓取ff数据,从网页批量提取数据,xlsx数据的预处理等.下面的vba代码进行了在全文中的关键操作,希望可以帮助你学习到更多工作中的知识。mysql>select*fromworldwhereconnectname='tcp_ping_data';更多关于world网页抓取方面,内容可以关注微信公众号——world都会持续更新的,欢迎关注和参与。

参考博文:1.html5webformstransformationwithtocadandxml2.world网页爬虫webpagebasedscrapingbasedscrapinginhtml5editors3.xmlparser-world'sxmleditoronline.4.xmlwebextractiontools.希望可以帮助到你。

这个问题应该是根据需求吧,要是像大部分的网站都可以单独抓起来,可以看看这个叫何雪清的老师提供的教程。不是一步到位的效果(需要数据是postparams,作者没有用过),不过还是很受用的,基本能达到作者要求的效果。或者不是针对小网站,针对web平台的有用的爬虫也都是有用的,
爬虫可以分为中间地带和前端地带。中间地带:比如scrap,爬虫就是一个发送数据的中间库,用数据库存储数据,前端地带:比如爬虫可以认为是爬虫的一个前端展示的东西,可以认为是所有页面的数据获取。
HTML文档常用元素汇总
网站优化 • 优采云 发表了文章 • 0 个评论 • 62 次浏览 • 2022-07-06 18:47
【分享成果,随喜正能量】人可以无知,但不可以无趣。在自己的心上种一颗快乐的种子,坚定、快乐的做自己的事,更让大家不那么无趣。《VBA信息获取与处理》教程是我推出第六套教程,目前已经是第一版修订了。这套教程定位于最高级,是学完初级,中级后的教程。这部教程给大家讲解的内容有:跨应用程序信息获得、随机信息的利用、电子邮件的发送、VBA互联网数据抓取、VBA延时操作,剪贴板应用、Split函数扩展、工作表信息与其他应用交互,FSO对象的利用、工作表及文件夹信息的获取、图形信息的获取以及定制工作表信息函数等等内容。程序文件通过32位和64位两种OFFICE系统测试。是非常抽象的,更具研究的价值。教程共两册,八十四讲。今日的内容是专题八“VBA与HTML文档”的第二节上半部分:HTML文档常用元素汇总
第二节 HTML文档的元素分析之一3)HTML 注释 注释标签 用于在 HTML 插入注释。可以将注释插入 HTML 代码中,这样可以提高其可读性,使代码更易被人理解。浏览器会忽略注释,也不会显示它们。开始括号之后(左边的括号)需要紧跟一个叹号,结束括号之前(右边的括号)不需要。注释可以按下面的格式写:
4)段落
段落是通过标签定义的。浏览器会自动地在段落的前后添加空行。(是块级元素)在上面的例子中我们已经用到了表述段落的符号,我们如果提取网页小说的数据,新闻等页面的消息,文本都是一段一段的,这样的页面,我们就可以通过标签实现。当运用ie/webbrowser方式提取这类网页的时候,历遍所有段落p元素即可。使用空的段落标记
去插入一个空行是个坏习惯。可以用
标签代替它!(但是不要用
标签去创建列表。)
5)超链接
使用 标签在 HTML 中创建链接。超链接可以是一个字,一个词,或者一组词,也可以是一幅图像,您可以点击这些内容来跳转到新的文档或者当前文档中的某个部分。当您把鼠标指针移动到网页中的某个链接上时,箭头会变为一只小手。有两种使用 标签的方式:通过使用 href 属性 - 创建指向另一个文档的链接也可以通过使用 name 属性 - 创建文档内的书签。超链接是我们最常见的页面元素,基本的门户网站都有他,点了以后,可以跳转到另一个页面。一般语法格式:显示的超链接文本Target属性,表示的是当我们点击超链接,是在原页面进行跳转(_self)还是新建页面进行跳转(_blank)。为了说明这种超链接,我们更正一下“HTML基础学习-1.html”的内容: 学习VBA语言
为了更好的掌握VBA的各个知识点,您可以先参考我的第一套教程:VBA代码解决方案
显示学习的网页
讲上述代码另存为“HTML基础学习-2.html”内容截图:
打开这个文件:
点击链接:
查看一下源码:
3 本节介绍的HTML文档常用元素汇总 1)标题-
2)水平线
3)注释 4)段落
5)超链接
以上各个元素我们要熟练的掌握,才能在分析网页的时候可以随心所欲。下一讲我们继续讲解HTML网页的元素构成。
本节知识点回向:
什么是HTML文档的框架结构是怎样的?说出以下个元素的标签:标题,水平线,注释,段落,超链接 。
本节参考文件:HTML基础学习-1.html;HTML基础学习-2.html
我20多年的VBA实践经验,全部浓缩在下面的各个教程中,教程学习顺序:
【分享成果,随喜正能量】人生在世,会遇到一些好事,还会遇上些坏事。好事我承受得起,坏事也承受得住。就这样坦荡荡做个寻常人也不坏。 查看全部
HTML文档常用元素汇总
【分享成果,随喜正能量】人可以无知,但不可以无趣。在自己的心上种一颗快乐的种子,坚定、快乐的做自己的事,更让大家不那么无趣。《VBA信息获取与处理》教程是我推出第六套教程,目前已经是第一版修订了。这套教程定位于最高级,是学完初级,中级后的教程。这部教程给大家讲解的内容有:跨应用程序信息获得、随机信息的利用、电子邮件的发送、VBA互联网数据抓取、VBA延时操作,剪贴板应用、Split函数扩展、工作表信息与其他应用交互,FSO对象的利用、工作表及文件夹信息的获取、图形信息的获取以及定制工作表信息函数等等内容。程序文件通过32位和64位两种OFFICE系统测试。是非常抽象的,更具研究的价值。教程共两册,八十四讲。今日的内容是专题八“VBA与HTML文档”的第二节上半部分:HTML文档常用元素汇总
第二节 HTML文档的元素分析之一3)HTML 注释 注释标签 用于在 HTML 插入注释。可以将注释插入 HTML 代码中,这样可以提高其可读性,使代码更易被人理解。浏览器会忽略注释,也不会显示它们。开始括号之后(左边的括号)需要紧跟一个叹号,结束括号之前(右边的括号)不需要。注释可以按下面的格式写:
4)段落
段落是通过标签定义的。浏览器会自动地在段落的前后添加空行。(是块级元素)在上面的例子中我们已经用到了表述段落的符号,我们如果提取网页小说的数据,新闻等页面的消息,文本都是一段一段的,这样的页面,我们就可以通过标签实现。当运用ie/webbrowser方式提取这类网页的时候,历遍所有段落p元素即可。使用空的段落标记
去插入一个空行是个坏习惯。可以用
标签代替它!(但是不要用
标签去创建列表。)
5)超链接
使用 标签在 HTML 中创建链接。超链接可以是一个字,一个词,或者一组词,也可以是一幅图像,您可以点击这些内容来跳转到新的文档或者当前文档中的某个部分。当您把鼠标指针移动到网页中的某个链接上时,箭头会变为一只小手。有两种使用 标签的方式:通过使用 href 属性 - 创建指向另一个文档的链接也可以通过使用 name 属性 - 创建文档内的书签。超链接是我们最常见的页面元素,基本的门户网站都有他,点了以后,可以跳转到另一个页面。一般语法格式:显示的超链接文本Target属性,表示的是当我们点击超链接,是在原页面进行跳转(_self)还是新建页面进行跳转(_blank)。为了说明这种超链接,我们更正一下“HTML基础学习-1.html”的内容: 学习VBA语言

为了更好的掌握VBA的各个知识点,您可以先参考我的第一套教程:VBA代码解决方案
显示学习的网页
讲上述代码另存为“HTML基础学习-2.html”内容截图:
打开这个文件:
点击链接:
查看一下源码:
3 本节介绍的HTML文档常用元素汇总 1)标题-

2)水平线
3)注释 4)段落
5)超链接
以上各个元素我们要熟练的掌握,才能在分析网页的时候可以随心所欲。下一讲我们继续讲解HTML网页的元素构成。
本节知识点回向:
什么是HTML文档的框架结构是怎样的?说出以下个元素的标签:标题,水平线,注释,段落,超链接 。
本节参考文件:HTML基础学习-1.html;HTML基础学习-2.html
我20多年的VBA实践经验,全部浓缩在下面的各个教程中,教程学习顺序:
【分享成果,随喜正能量】人生在世,会遇到一些好事,还会遇上些坏事。好事我承受得起,坏事也承受得住。就这样坦荡荡做个寻常人也不坏。
Power Query之数据获取
网站优化 • 优采云 发表了文章 • 0 个评论 • 253 次浏览 • 2022-07-06 14:03
最近在学习power query,见识到power query的强大,在利用PowerBI做出酷炫的可视化报告之前,power query在获取数据阶段是功不可没的!
(以下简称PQ) PQ可以获取文件型、数据库型、power Platform、Azure、联机服务、其他等几种大类别数据,细分到具体的数据类型多达150+种,实际比较常用的数据源为Excel工作簿、文件夹、X数据库、Web等,以上几种基本能涵盖90%以上的数据需求啦~以下内容会重点分享从Excel工作簿导入、从文件夹导入和从WEB导入三种场景!
一、从Excel工作簿导入
选择从excel工作簿导入数据后,可以看到要导入的工作簿里的所有工作表,可以勾选需要导入的工作表后,选择【加载】或【转换数据】,两者的区别是:如果选择【加载】可直接传到powerBI数据表中等待使用,如果选择【转换数据】则会启动PQ编辑器,对要导入的数据进行初步调整,如“将第一行用作标题”、“调整数据类型”、“删除空白值或重复值”、“删除某些列”等等,所以如果要导入的数据不需要做什么清洗的可以直接选择【加载】
二、从文件夹导入
这种数据导入场景往往是需要将多个工作簿的数据汇总到一个工作表中,除了用复制粘贴或VBA方法外,也可以借助PQ实现数据汇总。(PQ不仅在powerBI中,在Excel中调用也可以
)如果要汇总北京、广州、杭州三个城市不同月份的销售数据,首先把三个城市by month的数据各自打包放在一个文件夹里
在PowerBI中选择从文件夹中获取数据,浏览要导入的数据文件夹填好文件路径点击【确定】
确认后出现如下界面,点击【转换数据】进入PQ编辑器。
点击【添加列】选项卡,选择【自定义列】
填写自定义列公式=Excel.Workbook([Content]),点击【确定】
确定后会出现一个自定义列如下:
点击自[定义列]右上角的双箭头展开数据,出现这个窗口,直接点击【确定】
继续点击[自定义.Data]列的右上角的双箭头,然后还是直接点确认,数据就全部出来了。
选择【删除其他列】,再将【第一行用作标题】就大功告成啦!
最后一步是去掉(null)及原表格中标题的勾选,选择【关闭并应用】即可完成上载!
三、从WEB导入
从WEB导入的应用场景是可以抓取网页数据,比如批量获取X网站招聘岗位信息、获取豆瓣TOPN 电影、书单list、获取基金股票信息等等,选择从Web获取后输入需要获取信息的网页网址,如果是爬取一页的数据选择默认的【基本】模式,如果要批量爬取多页数据需要选择【高级】模式进行网页解析,通过页码参数设置自定义函数,最终实现批量调用。
以上是三种非常常用的数据获取方式,除此之外PQ在数据整理、数据丰富中也有非常强大的优势,相比excel更简单高效,而且没有数据量的限制,有了PQ加持,提前下班不是梦! 查看全部
Power Query之数据获取
最近在学习power query,见识到power query的强大,在利用PowerBI做出酷炫的可视化报告之前,power query在获取数据阶段是功不可没的!
(以下简称PQ) PQ可以获取文件型、数据库型、power Platform、Azure、联机服务、其他等几种大类别数据,细分到具体的数据类型多达150+种,实际比较常用的数据源为Excel工作簿、文件夹、X数据库、Web等,以上几种基本能涵盖90%以上的数据需求啦~以下内容会重点分享从Excel工作簿导入、从文件夹导入和从WEB导入三种场景!
一、从Excel工作簿导入
选择从excel工作簿导入数据后,可以看到要导入的工作簿里的所有工作表,可以勾选需要导入的工作表后,选择【加载】或【转换数据】,两者的区别是:如果选择【加载】可直接传到powerBI数据表中等待使用,如果选择【转换数据】则会启动PQ编辑器,对要导入的数据进行初步调整,如“将第一行用作标题”、“调整数据类型”、“删除空白值或重复值”、“删除某些列”等等,所以如果要导入的数据不需要做什么清洗的可以直接选择【加载】
二、从文件夹导入
这种数据导入场景往往是需要将多个工作簿的数据汇总到一个工作表中,除了用复制粘贴或VBA方法外,也可以借助PQ实现数据汇总。(PQ不仅在powerBI中,在Excel中调用也可以

)如果要汇总北京、广州、杭州三个城市不同月份的销售数据,首先把三个城市by month的数据各自打包放在一个文件夹里
在PowerBI中选择从文件夹中获取数据,浏览要导入的数据文件夹填好文件路径点击【确定】
确认后出现如下界面,点击【转换数据】进入PQ编辑器。
点击【添加列】选项卡,选择【自定义列】
填写自定义列公式=Excel.Workbook([Content]),点击【确定】
确定后会出现一个自定义列如下:
点击自[定义列]右上角的双箭头展开数据,出现这个窗口,直接点击【确定】

继续点击[自定义.Data]列的右上角的双箭头,然后还是直接点确认,数据就全部出来了。
选择【删除其他列】,再将【第一行用作标题】就大功告成啦!
最后一步是去掉(null)及原表格中标题的勾选,选择【关闭并应用】即可完成上载!
三、从WEB导入
从WEB导入的应用场景是可以抓取网页数据,比如批量获取X网站招聘岗位信息、获取豆瓣TOPN 电影、书单list、获取基金股票信息等等,选择从Web获取后输入需要获取信息的网页网址,如果是爬取一页的数据选择默认的【基本】模式,如果要批量爬取多页数据需要选择【高级】模式进行网页解析,通过页码参数设置自定义函数,最终实现批量调用。
以上是三种非常常用的数据获取方式,除此之外PQ在数据整理、数据丰富中也有非常强大的优势,相比excel更简单高效,而且没有数据量的限制,有了PQ加持,提前下班不是梦!
如何用google、webpage和html5标签去提取页面数据?
网站优化 • 优采云 发表了文章 • 0 个评论 • 66 次浏览 • 2022-07-06 02:05
vba抓取网页数据,想了解如何用bs4、webpage和html5标签去提取页面数据。不求数据实时同步,数据准确与否一目了然即可。sci-hub或者book7.5的电子版目录,此乃必备,也可以根据自己的需求定制。一个简单的方法就是,访问“ebook7.5”查看官方网站。继续我们的学习之旅:如何用google浏览器翻译该ebook的中文网站;如何用https提取页面指定部分(eipcode)内容;如何用book7.5定制新“内容源”名称(plaintext);如何正确打开microsoftexcel;如何用errorin如何查看浏览器错误,如何修改错误..本教程为翻译&教学视频教程,供大家学习使用。
今天我们学习如何去抓取标题和目录页面。双击text.json()中的字段值,可以直接跳转到下一页面。对于快速定制“页面数据源”(chunk)和其他level5(提取目录数据)工具。该教程的目的是:你学会如何使用google翻译book7.5官方目录和电子版目录提取本地目录内容。我们以word2010为例,初始设置如下:我们现在抓取一个页面的epub书籍链接,如下图所示,标题为“thispdfshouldincludenootherclosebooknumber,pagenumbersandchapters,listofsimpletextsnippetsataconstraintonthevolumeinsizeofsearchresults.”。
抓取完毕后,如下图所示:至此,抓取书籍标题和目录页面定制与详细方法一致。视频教程步骤如下:-打开浏览器,访问/,找到抓取book7.5页面链接。(其他翻译工具也是如此抓取,只是优化了抓取方式)-在浏览器地址栏中输入,回车即可。-你可以通过分号分隔开;任何页面都可以。也可以不分号,直接按ctrl+x快捷键打开chrome浏览器。
-上图中示范的是word2010浏览器。我也见过windows系统中不分号的视频教程。-进入book7.5官方页面后,回车即可看到大量pdf,你可以选择任何页面,快速点击其右边的目录链接。你也可以左右滑动鼠标,去快速定制对应页面。如果我的无效,你可以再问我(知乎不常在,不要问我了)。欢迎大家提出bug:如果我是做错了,你可以用powerquery和lookupnewhtml方法提出(如下图所示)。
这里word2010使用该工具抓取所有页面内容,现在只抓取中文标题、目录页面和内容源页面。你可以很快看到结果,点击右边的箭头,可以看到目录数据源和内容源页面。它会显示所有页面标题和页面内容源页面和目录。请看下图:接下来我们把任何页面访问地址复制一下在后面可以用此打开打开book7.5网站:即可提取内容源。学到一个方法。 查看全部
如何用google、webpage和html5标签去提取页面数据?
vba抓取网页数据,想了解如何用bs4、webpage和html5标签去提取页面数据。不求数据实时同步,数据准确与否一目了然即可。sci-hub或者book7.5的电子版目录,此乃必备,也可以根据自己的需求定制。一个简单的方法就是,访问“ebook7.5”查看官方网站。继续我们的学习之旅:如何用google浏览器翻译该ebook的中文网站;如何用https提取页面指定部分(eipcode)内容;如何用book7.5定制新“内容源”名称(plaintext);如何正确打开microsoftexcel;如何用errorin如何查看浏览器错误,如何修改错误..本教程为翻译&教学视频教程,供大家学习使用。

今天我们学习如何去抓取标题和目录页面。双击text.json()中的字段值,可以直接跳转到下一页面。对于快速定制“页面数据源”(chunk)和其他level5(提取目录数据)工具。该教程的目的是:你学会如何使用google翻译book7.5官方目录和电子版目录提取本地目录内容。我们以word2010为例,初始设置如下:我们现在抓取一个页面的epub书籍链接,如下图所示,标题为“thispdfshouldincludenootherclosebooknumber,pagenumbersandchapters,listofsimpletextsnippetsataconstraintonthevolumeinsizeofsearchresults.”。
抓取完毕后,如下图所示:至此,抓取书籍标题和目录页面定制与详细方法一致。视频教程步骤如下:-打开浏览器,访问/,找到抓取book7.5页面链接。(其他翻译工具也是如此抓取,只是优化了抓取方式)-在浏览器地址栏中输入,回车即可。-你可以通过分号分隔开;任何页面都可以。也可以不分号,直接按ctrl+x快捷键打开chrome浏览器。

-上图中示范的是word2010浏览器。我也见过windows系统中不分号的视频教程。-进入book7.5官方页面后,回车即可看到大量pdf,你可以选择任何页面,快速点击其右边的目录链接。你也可以左右滑动鼠标,去快速定制对应页面。如果我的无效,你可以再问我(知乎不常在,不要问我了)。欢迎大家提出bug:如果我是做错了,你可以用powerquery和lookupnewhtml方法提出(如下图所示)。
这里word2010使用该工具抓取所有页面内容,现在只抓取中文标题、目录页面和内容源页面。你可以很快看到结果,点击右边的箭头,可以看到目录数据源和内容源页面。它会显示所有页面标题和页面内容源页面和目录。请看下图:接下来我们把任何页面访问地址复制一下在后面可以用此打开打开book7.5网站:即可提取内容源。学到一个方法。
VBA中QueryTables提取在售理财项目数据
网站优化 • 优采云 发表了文章 • 0 个评论 • 57 次浏览 • 2022-06-23 11:37
【分享成果,随喜正能量】有一天,当你尝尽了,社会的无情,经济的压力,爱情的不堪,人心的丑恶;你终究会领悟到,放下执念,善待自己,用心读书,努力赚钱,才是一个成年人最好的修养,前者使人不惑,后者使人不屈!记住,天上下雨地上滑,自己摔倒自己爬。《VBA信息获取与处理》教程是我推出第六套教程,目前已经是第一版修订了。这套教程定位于最高级,是学完初级,中级后的教程。这部教程给大家讲解的内容有:跨应用程序信息获得、随机信息的利用、电子邮件的发送、VBA互联网数据抓取、VBA延时操作,剪贴板应用、Split函数扩展、工作表信息与其他应用交互,FSO对象的利用、工作表及文件夹信息的获取、图形信息的获取以及定制工作表信息函数等等内容。程序文件通过32位和64位两种OFFICE系统测试。是非常抽象的,更具研究的价值。教程共两册,八十四讲。今日的内容是专题十:“利用QueryTables抓取网络数据”:VBA中QueryTables提取在售理财项目数据
第二节 利用QueryTables提取在售理财项目网页数据大家好,这讲讲解的是利用QueryTables实现抓取网页数据的具体应用,有了上一讲的基础讲解,我们就直接利用这些方法就可以达到我们的目的。
实用场景:利用QueryTables,抓取和讯网的在售理财项目的数据,网址是:。现在的社会,无论是股票还是理财产品,关注的人都非常多,也希望在资本的市场运作中分得一杯羹,但钱生钱的投资大家还是要小心谨慎,不要被高利所诱惑,我这里只能提供给大家基础数据积累,没有丝毫操作的经验。1 利用QueryTables实现抓取在售理财项目数据的思路分析为了实现上述的场景,我们先看一看上述提供网址提供网页的信息:
上述的网页中,我要提取的是红色框框起来表的数据,我们进行一下思路的分析:首先清空一下回填数据的区域,然后用QueryTables.Add方法,在网页上提取第三个表的数据即可。提取表数据的时候可以选择一下格式的填充。2 利用QueryTables实现抓取在售理财项目数据的代码实现为了实现上述的思路,我给出了下面的代码:
Sub myNZ() 'QueryTable法提取在售理财项目网页数据 Sheets("sheet1").Select Cells.ClearContents WithActiveSheet.QueryTables.Add("url;", Range("a1")) .WebFormatting= xlWebFormattingNone '不包含格式 .WebSelectionType= xlSpecifiedTables '指定table模式 .WebTables= "3" '第3张table .RefreshFalse EndWith MsgBox("OK")End Sub代码截图:
代码的讲解:
1) Sheets("sheet1").SelectCells.ClearContents以上代码清空数据的回填区域。
2)With ActiveSheet.QueryTables.Add("url;", Range("a1"))上述代码指定加载网址,的数据 ,Range("a1")是回填给工作表区域的左上角的单元格。3).WebFormatting = xlWebFormattingNone '不包含格式WebFormatting 是对将要导入的工作表格式的设置,具体值如下:xlWebFormattingAll 1 导入所有格式。xlWebFormattingNone 2 不导入任何格式。xlWebFormattingRTF 3 导入格式文本格式兼容的格式。
4) .WebSelectionType = xlSpecifiedTables '指定table模式WebSelectionType是对指定是整个网页、网页上的所有表还是只导入到查询表中的特定表的数据进行设置。它的具体值如下:
xlAllTables 2 所有表xlEntirePage 1 整页xlSpecifiedTables 3 指定表
5).Refresh False 使用QueryTable对象的Refresh方法可更新外部数据区域(QueryTable)。选择的参数False,则在所有数据被取回到工作表之后,将控制返回给过程
通过上述的代码,就可以完成我们的思路。3 利用QueryTables实现抓取在售理财项目数据的实现效果当我们点击运行按钮,如图的箭头所示,程序就会开始运行,抓取网页数据到工作表中。当然在实际的应用中,用户可以根据自己的实际需要完成抓取工作到指定的位置。
从而验证了我们思路的正确。从代码到实现的过程,非常的简洁,代码理解也非常的容易,这给我们的学习和利用带来了方便。
本节知识点回向:如何利用QueryTables在网页中抓取数据?
本节内容参考:010工作表.xlsm
我20多年的VBA实践经验,全部浓缩在下面的各个教程中,教程学习顺序:
【分享成果,随喜正能量】其实每个人都有惰性,当生活比较顺利又没有什么压力的时候,可怕的惰性就会翻天覆地地侵蚀人的创造力,想象力和积极性。所以呢,人最好还是有点压力的生活,不要想着什么路都顺顺畅畅为自己铺好了,自己什么都可以不努力。。 查看全部
VBA中QueryTables提取在售理财项目数据
【分享成果,随喜正能量】有一天,当你尝尽了,社会的无情,经济的压力,爱情的不堪,人心的丑恶;你终究会领悟到,放下执念,善待自己,用心读书,努力赚钱,才是一个成年人最好的修养,前者使人不惑,后者使人不屈!记住,天上下雨地上滑,自己摔倒自己爬。《VBA信息获取与处理》教程是我推出第六套教程,目前已经是第一版修订了。这套教程定位于最高级,是学完初级,中级后的教程。这部教程给大家讲解的内容有:跨应用程序信息获得、随机信息的利用、电子邮件的发送、VBA互联网数据抓取、VBA延时操作,剪贴板应用、Split函数扩展、工作表信息与其他应用交互,FSO对象的利用、工作表及文件夹信息的获取、图形信息的获取以及定制工作表信息函数等等内容。程序文件通过32位和64位两种OFFICE系统测试。是非常抽象的,更具研究的价值。教程共两册,八十四讲。今日的内容是专题十:“利用QueryTables抓取网络数据”:VBA中QueryTables提取在售理财项目数据
第二节 利用QueryTables提取在售理财项目网页数据大家好,这讲讲解的是利用QueryTables实现抓取网页数据的具体应用,有了上一讲的基础讲解,我们就直接利用这些方法就可以达到我们的目的。
实用场景:利用QueryTables,抓取和讯网的在售理财项目的数据,网址是:。现在的社会,无论是股票还是理财产品,关注的人都非常多,也希望在资本的市场运作中分得一杯羹,但钱生钱的投资大家还是要小心谨慎,不要被高利所诱惑,我这里只能提供给大家基础数据积累,没有丝毫操作的经验。1 利用QueryTables实现抓取在售理财项目数据的思路分析为了实现上述的场景,我们先看一看上述提供网址提供网页的信息:
上述的网页中,我要提取的是红色框框起来表的数据,我们进行一下思路的分析:首先清空一下回填数据的区域,然后用QueryTables.Add方法,在网页上提取第三个表的数据即可。提取表数据的时候可以选择一下格式的填充。2 利用QueryTables实现抓取在售理财项目数据的代码实现为了实现上述的思路,我给出了下面的代码:
Sub myNZ() 'QueryTable法提取在售理财项目网页数据 Sheets("sheet1").Select Cells.ClearContents WithActiveSheet.QueryTables.Add("url;", Range("a1")) .WebFormatting= xlWebFormattingNone '不包含格式 .WebSelectionType= xlSpecifiedTables '指定table模式 .WebTables= "3" '第3张table .RefreshFalse EndWith MsgBox("OK")End Sub代码截图:
代码的讲解:
1) Sheets("sheet1").SelectCells.ClearContents以上代码清空数据的回填区域。
2)With ActiveSheet.QueryTables.Add("url;", Range("a1"))上述代码指定加载网址,的数据 ,Range("a1")是回填给工作表区域的左上角的单元格。3).WebFormatting = xlWebFormattingNone '不包含格式WebFormatting 是对将要导入的工作表格式的设置,具体值如下:xlWebFormattingAll 1 导入所有格式。xlWebFormattingNone 2 不导入任何格式。xlWebFormattingRTF 3 导入格式文本格式兼容的格式。
4) .WebSelectionType = xlSpecifiedTables '指定table模式WebSelectionType是对指定是整个网页、网页上的所有表还是只导入到查询表中的特定表的数据进行设置。它的具体值如下:
xlAllTables 2 所有表xlEntirePage 1 整页xlSpecifiedTables 3 指定表
5).Refresh False 使用QueryTable对象的Refresh方法可更新外部数据区域(QueryTable)。选择的参数False,则在所有数据被取回到工作表之后,将控制返回给过程
通过上述的代码,就可以完成我们的思路。3 利用QueryTables实现抓取在售理财项目数据的实现效果当我们点击运行按钮,如图的箭头所示,程序就会开始运行,抓取网页数据到工作表中。当然在实际的应用中,用户可以根据自己的实际需要完成抓取工作到指定的位置。
从而验证了我们思路的正确。从代码到实现的过程,非常的简洁,代码理解也非常的容易,这给我们的学习和利用带来了方便。
本节知识点回向:如何利用QueryTables在网页中抓取数据?
本节内容参考:010工作表.xlsm
我20多年的VBA实践经验,全部浓缩在下面的各个教程中,教程学习顺序:
【分享成果,随喜正能量】其实每个人都有惰性,当生活比较顺利又没有什么压力的时候,可怕的惰性就会翻天覆地地侵蚀人的创造力,想象力和积极性。所以呢,人最好还是有点压力的生活,不要想着什么路都顺顺畅畅为自己铺好了,自己什么都可以不努力。。
vba抓取网页数据用过任何代码抓取数据的同学都应该非常了解什么是pageview
网站优化 • 优采云 发表了文章 • 0 个评论 • 67 次浏览 • 2022-06-02 22:07
vba抓取网页数据用过任何代码抓取网页数据的同学都应该非常了解什么是pageview。可以想象过程抓取+循环一定是要多么痛苦。我最常用的有两种方法,一种是for循环,一种是利用itemset参数初始化两次,抓取不同页面的网页数据。这就涉及到pageview数据的正则,和根据不同页面抓取不同抓取条件来自定义抓取条件。
先从最基础的代码抓取数据开始讲起,openxlsx这个中间的步骤,让我们找到正则的思路。首先看正则该怎么写。很明显不简单,一个是not语句,一个是groupstring这个简单问题,实现难度特别大。所以我们需要一个简单的案例来实现。首先创建一个内容htmlheaderx=['^html5','^html5x','^html4','^html5x','^html2','^html3','^html4','^html4x','^html3x','^html3','^html4','^html5','^html2','^html2x','^html2','^html4','^html5','^html3','^html4','^html4','^html2x','^html5','^html2','^html5','^html5','^html3','^html4','^html4','^html3','^html3','^html4','^html4','^html5','^html5','^html4','^html4','^html4','^html5','^html4','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5',。 查看全部
vba抓取网页数据用过任何代码抓取数据的同学都应该非常了解什么是pageview
vba抓取网页数据用过任何代码抓取网页数据的同学都应该非常了解什么是pageview。可以想象过程抓取+循环一定是要多么痛苦。我最常用的有两种方法,一种是for循环,一种是利用itemset参数初始化两次,抓取不同页面的网页数据。这就涉及到pageview数据的正则,和根据不同页面抓取不同抓取条件来自定义抓取条件。
先从最基础的代码抓取数据开始讲起,openxlsx这个中间的步骤,让我们找到正则的思路。首先看正则该怎么写。很明显不简单,一个是not语句,一个是groupstring这个简单问题,实现难度特别大。所以我们需要一个简单的案例来实现。首先创建一个内容htmlheaderx=['^html5','^html5x','^html4','^html5x','^html2','^html3','^html4','^html4x','^html3x','^html3','^html4','^html5','^html2','^html2x','^html2','^html4','^html5','^html3','^html4','^html4','^html2x','^html5','^html2','^html5','^html5','^html3','^html4','^html4','^html3','^html3','^html4','^html4','^html5','^html5','^html4','^html4','^html4','^html5','^html4','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5','^html5',。
赶紧收藏!咨询必备的数据技巧!
网站优化 • 优采云 发表了文章 • 0 个评论 • 65 次浏览 • 2022-05-14 12:15
数据的三大法宝
现在祭出三大法宝:Excel、VBA 以及爬虫。要想把数据做好,不仅仅是要找到数据,还要把数据清洗好和分析好。
Excel是迄今为止最简单最便捷得处理数据的方式,下至四则运算,上至各类统计分析、矩阵运算及线性规划都可以搞定,所以一定要熟练掌握。网上资料很多,在此就不赘述了。但是Excel深不可测,基本没有天花板,千万不要以为会了 VLookup 及一些快捷键就可以耀武扬威了。至少需要把矩阵乘法、向量乘法、Offset / Cells / Row / Range 等函数用到极致,这样大多数 Financial Model 会做得非常灵活,而且各种数据查询及匹配工作会达到部分 SQL 的处理水平。
VBA会让 Office 的能力提升一个档次,除了完成函数不能完成的一些任务,最有价值的是能够在 Office 的各套软件之间实现信息同步。许多软件都是基于 VBA 完成的,最重要的没有版权问题。
爬虫我需要细说一下和重点说一下。因为这是解决题主多次提到的数据找不到的问题。所谓爬虫当然不是下图的虫子。
而是这样的虫子,其实就是一套自动读取网页和解析网页的程序而已。用 Python 或者 Go 等程序语言写出爬虫程序来自动抓取网络数据,利用正则表达式等技术手段将脏数据清洗并结构化放入到数据库或者 Excel,然后作分析以及长期监控。
网络上的数据越来越多,越来越能代表生活中的真实现象。通过爬虫加正则这种自动化的工具,能够耗很少的人工就可以将数据和信息采集并结构化,后续通过更多的分析工具完成许多有商业价值的分析并获取所谓的 Insight(将信息转化为知识和洞察)。
亲眼所见一个知名对冲基金的研究员,一页一页得手工翻看搜房的网站,并用 Ctrl C+Ctrl V 记录搜房所有自有经纪人的信息到Excel,并统计他们当前的成交量。然后每周做一次,查看每个经纪人的成交量增量。通过这样的数据分析来判断搜房转型到自由经纪人业务之后,模式是否成功。因为工作量实在巨大,后来只好请了一票实习生来做。
然而其实这就是一个程序员用 Python 做好爬虫、结构化数据和最后分析的简单事情,于是出手相助才有了如下的分析。轻松将搜房在各个城市的经纪人数量及单产搞清楚并按时监督,计算搜房在自有经纪人业务线的产出不是问题。
另外,还有基金在投资挂号网之前,让着帮忙做些数据统计和调研,下面的图表结合了从挂号网抓取的数据以及宏观数据。
当然,给基金干活,数据的可视化很重要,于是用了文图,将图表画得很炫,逼格顿时提高。并不觉得比顶级咨询公司的PPT差到哪里。即使比他们差了,用他们的格式在网上实现一遍也就可以了,然后还可以共享给大家。
一些炫目图标的效果如下。下图是关于世界各国的智商分布
另外,还可做许多比较酷的事情,获取真正的 Insight 。技术方面,Python 写爬虫非常方便,调试正则这个网站很不错Online regex tester and debugger: JavaScript, Python, PHP, and PCRE。
等待改变的Professional Service行业
咨询、投行、投资、审计、律师等等,笼统得被称之为 Professional Service,一直是以高大上形象出现的,往往瞧不上屌丝草根居多的技术行业。然而时代在变化,技术的力量在不断崛起,并摧毁和变革越来越多的行业。然而,Professional Service 除了在上个世纪用上 Office、互联网以及手机之后,整个行业并没有引入太多的技术,特别是在数据获取、分析及可视化方面。
所以我一直希望将技术引入到这个我曾经工作多年的行业,做出些改变。让所有从业人员的工作更轻松,让所有从业人员为客户带来更大的价值。
第一款:选址应用
选址是现在许多公司头疼的难题,以前完全是拍脑袋。因此我们开发出这样一套工具,帮助公司能够更理性更多维度得选址。
下图,我们抓取多个数据源并完成拼接,根据用户的快递地址,勾画出某时尚品牌用户的住址,帮助其选址在北京开门店。
下图,我们抓取多个数据源并完成拼接,根据大型超市及便利店与某类型餐馆在广州地区的重合情况,帮助某饮料品牌选定最应该进入的零售店面。
第二款:数据可视化
我们在工作中也深刻觉得以前制作图表和展示数据的方式太low、太繁琐,我们希望去改变这个现状,于是开发了一套基于Web来制作图表的工具文图。远有 Excel / Powerpoint 对标,近有 Tableau 对标。
下图是文图丰富的案例库及模板库。
下图是简单的使用界面及丰富的图表类型。
下一步的工作:
最后,希望有一天它能部分替代已经在江湖上混迹二三十年的 PowerPoint 及 Excel 。 查看全部
赶紧收藏!咨询必备的数据技巧!
数据的三大法宝
现在祭出三大法宝:Excel、VBA 以及爬虫。要想把数据做好,不仅仅是要找到数据,还要把数据清洗好和分析好。
Excel是迄今为止最简单最便捷得处理数据的方式,下至四则运算,上至各类统计分析、矩阵运算及线性规划都可以搞定,所以一定要熟练掌握。网上资料很多,在此就不赘述了。但是Excel深不可测,基本没有天花板,千万不要以为会了 VLookup 及一些快捷键就可以耀武扬威了。至少需要把矩阵乘法、向量乘法、Offset / Cells / Row / Range 等函数用到极致,这样大多数 Financial Model 会做得非常灵活,而且各种数据查询及匹配工作会达到部分 SQL 的处理水平。
VBA会让 Office 的能力提升一个档次,除了完成函数不能完成的一些任务,最有价值的是能够在 Office 的各套软件之间实现信息同步。许多软件都是基于 VBA 完成的,最重要的没有版权问题。
爬虫我需要细说一下和重点说一下。因为这是解决题主多次提到的数据找不到的问题。所谓爬虫当然不是下图的虫子。
而是这样的虫子,其实就是一套自动读取网页和解析网页的程序而已。用 Python 或者 Go 等程序语言写出爬虫程序来自动抓取网络数据,利用正则表达式等技术手段将脏数据清洗并结构化放入到数据库或者 Excel,然后作分析以及长期监控。
网络上的数据越来越多,越来越能代表生活中的真实现象。通过爬虫加正则这种自动化的工具,能够耗很少的人工就可以将数据和信息采集并结构化,后续通过更多的分析工具完成许多有商业价值的分析并获取所谓的 Insight(将信息转化为知识和洞察)。
亲眼所见一个知名对冲基金的研究员,一页一页得手工翻看搜房的网站,并用 Ctrl C+Ctrl V 记录搜房所有自有经纪人的信息到Excel,并统计他们当前的成交量。然后每周做一次,查看每个经纪人的成交量增量。通过这样的数据分析来判断搜房转型到自由经纪人业务之后,模式是否成功。因为工作量实在巨大,后来只好请了一票实习生来做。
然而其实这就是一个程序员用 Python 做好爬虫、结构化数据和最后分析的简单事情,于是出手相助才有了如下的分析。轻松将搜房在各个城市的经纪人数量及单产搞清楚并按时监督,计算搜房在自有经纪人业务线的产出不是问题。
另外,还有基金在投资挂号网之前,让着帮忙做些数据统计和调研,下面的图表结合了从挂号网抓取的数据以及宏观数据。
当然,给基金干活,数据的可视化很重要,于是用了文图,将图表画得很炫,逼格顿时提高。并不觉得比顶级咨询公司的PPT差到哪里。即使比他们差了,用他们的格式在网上实现一遍也就可以了,然后还可以共享给大家。
一些炫目图标的效果如下。下图是关于世界各国的智商分布
另外,还可做许多比较酷的事情,获取真正的 Insight 。技术方面,Python 写爬虫非常方便,调试正则这个网站很不错Online regex tester and debugger: JavaScript, Python, PHP, and PCRE。
等待改变的Professional Service行业
咨询、投行、投资、审计、律师等等,笼统得被称之为 Professional Service,一直是以高大上形象出现的,往往瞧不上屌丝草根居多的技术行业。然而时代在变化,技术的力量在不断崛起,并摧毁和变革越来越多的行业。然而,Professional Service 除了在上个世纪用上 Office、互联网以及手机之后,整个行业并没有引入太多的技术,特别是在数据获取、分析及可视化方面。
所以我一直希望将技术引入到这个我曾经工作多年的行业,做出些改变。让所有从业人员的工作更轻松,让所有从业人员为客户带来更大的价值。
第一款:选址应用
选址是现在许多公司头疼的难题,以前完全是拍脑袋。因此我们开发出这样一套工具,帮助公司能够更理性更多维度得选址。
下图,我们抓取多个数据源并完成拼接,根据用户的快递地址,勾画出某时尚品牌用户的住址,帮助其选址在北京开门店。
下图,我们抓取多个数据源并完成拼接,根据大型超市及便利店与某类型餐馆在广州地区的重合情况,帮助某饮料品牌选定最应该进入的零售店面。
第二款:数据可视化
我们在工作中也深刻觉得以前制作图表和展示数据的方式太low、太繁琐,我们希望去改变这个现状,于是开发了一套基于Web来制作图表的工具文图。远有 Excel / Powerpoint 对标,近有 Tableau 对标。
下图是文图丰富的案例库及模板库。
下图是简单的使用界面及丰富的图表类型。
下一步的工作:
最后,希望有一天它能部分替代已经在江湖上混迹二三十年的 PowerPoint 及 Excel 。
Excel VBA实例(37) - 快速提取手机号及归属地
网站优化 • 优采云 发表了文章 • 0 个评论 • 159 次浏览 • 2022-05-12 04:56
将永恒君的百宝箱设为星标精品文章第一时间读背景需求
永恒君最近处理资料,碰到一个这样的问题,如下图:
联系人的手机号码夹杂在各种不规则的、混乱的字符串当中,需要一个一个的提取出来,并查询到该手机号的归属地。
过程分析及效果
两个需求一个一个来说。
1、提取手机号码。
如上图可以看到,每个手机号所在单元格的位置不一样,基本上没有啥规律可言,自然就无法用left、right、mid之类的函数了。永恒君首先想到的就是使用正则表达式来提取。
关于正则表达式,永恒君之前写过不少相关文章和实例:
这里永恒君设置一个自定义的函数phone,提取的结果就是手机号,代码如下:
Function phone(i As String) As String<br /> Dim a As Object<br /> Set a = CreateObject("VBSCRIPT.REGEXP")<br /> a.Pattern = "[1][0-9]{10}"<br /> a.Global = True<br /> phone = a.Execute(i)(0)<br /> Set a = Nothing<br />End Function<br />
其中的核心就是 [1][0-9]{10}。
我国大陆的手机号都是1开头的11位数字,这个就表示要匹配寻找11位字符串,这个字符串以1开头,后面10位分别为0-9中任意一个。
把上面的代码粘贴到VBE编辑器里面,这样就可以直接使用phone函数了,
2、获取手机归属地
网上有很多在线的工具可以查询到手机号的归属地,但是要批量的查询的话,现成的工具还是不好找,要么付费、要么限制挺多。
所以,只好自己动手来制作一个爬虫,将手机号传递到在线工具,然后抓取返回结果。
这里经过测试之后,永恒君使用的是这个网站:
接着,只要在Excel中写了一个自定义函数phone_reg_loc,用来查询手机号归属地的。批量查询的话,只需要向下拖动即可实现了。
这个代码有点多,就不贴了,效果演示如下:
当然啦,如果你不想用函数的方式,希望直接一键点击获取结果,稍微修改也是可以的。
如果你对上面这些感兴趣的话,可以在公号内回复「手机号」获取vba文件进行试用吧~~
你可能还会想看:
欢迎交流!
查看全部
Excel VBA实例(37) - 快速提取手机号及归属地
将永恒君的百宝箱设为星标精品文章第一时间读背景需求
永恒君最近处理资料,碰到一个这样的问题,如下图:
联系人的手机号码夹杂在各种不规则的、混乱的字符串当中,需要一个一个的提取出来,并查询到该手机号的归属地。
过程分析及效果
两个需求一个一个来说。
1、提取手机号码。
如上图可以看到,每个手机号所在单元格的位置不一样,基本上没有啥规律可言,自然就无法用left、right、mid之类的函数了。永恒君首先想到的就是使用正则表达式来提取。
关于正则表达式,永恒君之前写过不少相关文章和实例:
这里永恒君设置一个自定义的函数phone,提取的结果就是手机号,代码如下:
Function phone(i As String) As String<br /> Dim a As Object<br /> Set a = CreateObject("VBSCRIPT.REGEXP")<br /> a.Pattern = "[1][0-9]{10}"<br /> a.Global = True<br /> phone = a.Execute(i)(0)<br /> Set a = Nothing<br />End Function<br />
其中的核心就是 [1][0-9]{10}。
我国大陆的手机号都是1开头的11位数字,这个就表示要匹配寻找11位字符串,这个字符串以1开头,后面10位分别为0-9中任意一个。
把上面的代码粘贴到VBE编辑器里面,这样就可以直接使用phone函数了,
2、获取手机归属地
网上有很多在线的工具可以查询到手机号的归属地,但是要批量的查询的话,现成的工具还是不好找,要么付费、要么限制挺多。
所以,只好自己动手来制作一个爬虫,将手机号传递到在线工具,然后抓取返回结果。
这里经过测试之后,永恒君使用的是这个网站:
接着,只要在Excel中写了一个自定义函数phone_reg_loc,用来查询手机号归属地的。批量查询的话,只需要向下拖动即可实现了。
这个代码有点多,就不贴了,效果演示如下:
当然啦,如果你不想用函数的方式,希望直接一键点击获取结果,稍微修改也是可以的。
如果你对上面这些感兴趣的话,可以在公号内回复「手机号」获取vba文件进行试用吧~~
你可能还会想看:
欢迎交流!
《实战篇》专题九第二回——用VBA下载12306车票数据
网站优化 • 优采云 发表了文章 • 0 个评论 • 59 次浏览 • 2022-05-05 14:14
大家好,本周我们终于回到“网络技术”专题,发布了第二回“数据源层层隐藏难得见,嗅探器抽丝剥茧觅真身”,为大家讲解怎样使用Fiddler这种HTTP监听软件挖掘隐藏在网页中的URL,以及怎样使用正则表达式解读数据。而本节课使用的案例是从12306网站上下载当前剩余优采云票数据,相信正在筹划暑期出行的朋友也会很感兴趣。
从知识角度看,本节课的内容并不很难,所用到的无非是《提高篇》中讲过的XMLHTTP对象,以及正则表达式的这位老朋友。唯一的新知识就是一个网页嗅探软件的基本用法,大家跟随视频就可以轻松掌握。
但是要想真正掌握本节课程介绍的下载技能却并不简单,因为这其中涉及到以下两个方面的经验与技巧,各位必须亲自动手、积极尝试,才能逐渐掌握:
(1) 猜测数据包。如课程中所讲,使用Fiddler可以截获所有进出浏览器的网页数据,但若想知道哪一个数据包中含有我们真正需要的数据,则需要运用我们的经验与直觉。本节案例的数据包相对简单,以便大家能够看懂杨老师的分析过程。而对于更加复杂的需求,则要各位自己开动脑筋,多想多试。
(2)设计正则式。只要明确了数据包的URL,就能够用XMLHTTP直接下载过来(不考虑HTTPS、登录可见等情况),而接下来的重点就与普通网页抓取无异,即怎样用正则表达式提取出所需信息。尽管已经在《提高篇》和《实战篇》中比较系统的讲解过正则表达式,本节课程中我们还是用了半节课的篇幅,像大家演示了为本案例设计正则表达式的思考过程,希望各位能够再次认识正则表达式的重要价值。
最后为同学们提出一个思考题:本节课程的代码只能下载5月31日从北京到上海的优采云票数据。如果我们想下载任意日期和区段的余票信息,应该怎样修改程序呢?提示:观察该网站URL的格式,用构造字符串的方法任意修改URL,使其包含指定的日期与区段。 查看全部
《实战篇》专题九第二回——用VBA下载12306车票数据
大家好,本周我们终于回到“网络技术”专题,发布了第二回“数据源层层隐藏难得见,嗅探器抽丝剥茧觅真身”,为大家讲解怎样使用Fiddler这种HTTP监听软件挖掘隐藏在网页中的URL,以及怎样使用正则表达式解读数据。而本节课使用的案例是从12306网站上下载当前剩余优采云票数据,相信正在筹划暑期出行的朋友也会很感兴趣。
从知识角度看,本节课的内容并不很难,所用到的无非是《提高篇》中讲过的XMLHTTP对象,以及正则表达式的这位老朋友。唯一的新知识就是一个网页嗅探软件的基本用法,大家跟随视频就可以轻松掌握。
但是要想真正掌握本节课程介绍的下载技能却并不简单,因为这其中涉及到以下两个方面的经验与技巧,各位必须亲自动手、积极尝试,才能逐渐掌握:
(1) 猜测数据包。如课程中所讲,使用Fiddler可以截获所有进出浏览器的网页数据,但若想知道哪一个数据包中含有我们真正需要的数据,则需要运用我们的经验与直觉。本节案例的数据包相对简单,以便大家能够看懂杨老师的分析过程。而对于更加复杂的需求,则要各位自己开动脑筋,多想多试。
(2)设计正则式。只要明确了数据包的URL,就能够用XMLHTTP直接下载过来(不考虑HTTPS、登录可见等情况),而接下来的重点就与普通网页抓取无异,即怎样用正则表达式提取出所需信息。尽管已经在《提高篇》和《实战篇》中比较系统的讲解过正则表达式,本节课程中我们还是用了半节课的篇幅,像大家演示了为本案例设计正则表达式的思考过程,希望各位能够再次认识正则表达式的重要价值。
最后为同学们提出一个思考题:本节课程的代码只能下载5月31日从北京到上海的优采云票数据。如果我们想下载任意日期和区段的余票信息,应该怎样修改程序呢?提示:观察该网站URL的格式,用构造字符串的方法任意修改URL,使其包含指定的日期与区段。
利用IE,抓取资金主力流入的股票
网站优化 • 优采云 发表了文章 • 0 个评论 • 61 次浏览 • 2022-05-05 14:13
上述代码在IE中加载"" 网址,即东风财富网资金主力流入情况。
4) Do Until .readystate = 4 '检查网页是否加载完毕(4表示完全加载)
DoEvents '循环中交回工作权限给系统,以免"软死机"
Loop
这段代码是让网页加载完成,以便后续提取网页的数据
5)Set dmt = .document '将IE浏览器加载的页面文档,赋予dmt变量,这里的DMT是一个对象变量。
6) Set tb = dmt.all.tags("table")(5) '通过索引号捕捉表格对象 这里的序号是我们分析网页得来,也可以利用工具进行网页的页面分析。
7)For i = 2 To tb.Rows.Length - 1 '历遍其每个行
Forj = 0 To tb.Rows(i).Cells.Length - 1 '历遍每行的每个单元格
Cells(i+ 1, j + 1) = "'" & tb.Rows(i).Cells(j).innertext '将其innertext写入单元格
Next
Next
提取表的数据,这里tb.Rows.Length – 1 是行数;tb.Rows(i).Cells(j).innertext 是单元格的内容。
3 应用IE实现资金主力流入数据抓取的实现效果
我们点击页面的运行按钮,实现下面的数据抓取:
从实现的效果看,完全达到了我们场景需求。
本节知识点回向:如何在页面文档中提取表的数据?
本节内容参考:009工作表.xlsm
积木编程的思路内涵:
在我的系列书籍中一直在强调“搭积木”的编程思路,这也是学习利用VBA的主要方法,特别是职场人员,更是要采用这种方案。其主要的内涵:
1 代码不要自己全部的录入。你要做的是把积木放在合适的位置然后去修正代码,一定要拷贝,从你的积木库中去拷贝,然后修正代码,把时间利用到高效的思考上。
2 建立自己的“积木库”。平时在学习过程中,把自己认为有用的代码放在一起,多积累,在用到的时候,可以随时拿来。你的积木库资料越多,你做程序的思路就会越广。
VBA的应用界定
VBA是利用Office实现个人小型办公自动化的有效手段(工具)。这是我对VBA的应用界定。在取代OFFICE新的办公软件没有到来之前,谁能在数据处理方面做到极致,谁就是王者。其中登峰至极的技能非VBA莫属!
我记得20年前自己初学VBA时,那时的资料甚少,只能看源码自己琢磨,真的很难。20年过去了,为了不让学习VBA的朋友重复我之前的经历,我根据自己多年VBA实际利用经验,推出了六部VBA专门教程:
第一套:VBA代码解决方案是VBA中各个知识点的讲解,教程共147讲,覆盖绝大多数的VBA知识点,初学必备;
第二套:VBA数据库解决方案 数据库是数据处理的专业利器,教程中详细介绍了利用ADO连接ACCDB和EXCEL的方法和实例操作,适合中级人员的学习。
第三套:VBA数组与字典解决方案 数组和字典是VBA的精华,字典是VBA代码水平提高的有效手段,值得深入的学习,是初级及中级人员代码精进的手段。
第四套:VBA代码解决方案之视频是专门面向初学者的视频讲解,可以快速入门,更快的掌握这门技能。这套教程是第一套教程的视频讲解,听元音更易接受。
第五套:VBA中类的解读和利用 这是一部高级教程,讲解类的虚无与肉身的度化,类的利用虽然较少,但仔细的学习可以促进自己VBA理论的提高。这套教程的领会主要是读者的领悟了,领悟一种佛学的哲理。
第六套教程:《VBA信息获取与处理》,这是一部高级教程,涉及范围更广,实用性更强,面向中高级人员。教程共二十个专题,包括:跨应用程序信息获得、随机信息的利用、电子邮件的发送、VBA互联网数据抓取、VBA延时操作,剪切板应用、Split函数扩展、工作表信息与其他应用交互,FSO对象的利用、工作表及文件夹信息的获取、图形信息的获取以及定制工作表信息函数等等内容。
大家可以根据以上资料1→3→2→6→5或者是4→3→2→6→5的顺序逐渐深入的逐渐学习。教程提供讲解的同时提供了大量的积木,如需要可以WeChat: NZ9668
学习VBA是个过程,也需要经历一种枯燥的感觉
如太白诗云:众鸟高飞尽,孤云独去闲。相看两不厌,只有敬亭山。学习的过程也是修心的过程,修一个平静的心。在代码的世界中,心平静了,心情好了,身体自然而然就好。心静则正,内心里没有那么多邪知邪见,也就没有那么多妄想。利人就是利己。这些教程也是为帮助大家起航,助上我自己之力,我的上述教程是我多的经验的传递,
“水善利万物而不争”,绵绵密密,微则无声,巨则汹涌。学习亦如此,知道什么是自己所需要的,不要蜷缩在一小块自认为天堂的世界里,待到暮年时再去做自欺欺人的言论。要努力提高自己,用一颗充满生机的心灵,把握现在,这才是进取。越是有意义的事情,困难会越多。愿力决定始终,智慧决定成败。不管遇到什么,都是风景。看淡纷争,看轻得失。茶,满也好,少也好,不要计较;浓也好,淡也好,其中自有值得品的味道。去感悟真实的时间,静下心,多学习,积累福报。而不是天天混日子,也不是天天熬日子。在后疫情更加严峻的存量残杀世界中,为自己的生存进行知识的储备,特别是新知识的储备。学习时微而无声,利用时则巨则汹涌。
每一分收获都是成长的记录,怎无凭,正是这种执着,成就了朝霞的灿烂。最后将一阙词送给致力于VBA学习的朋友,让大家感受一下学习过程的枯燥与执着:
浮云掠过,暗语无声,
唯有清风,惊了梦中啼莺。
望星,疏移北斗,
奈将往事雁同行。
阡陌人,昏灯明暗,
忍顾长亭。
多少VBA人,
暗夜中,悄声寻梦,盼却天明。
怎无凭!
回向学习利用VBA的历历往事,不胜感慨,谨以这些文字给大家,分享我多年工作实际经验的成果,随喜这些有用的东西,给确实需要利用VBA的同路人。 查看全部
利用IE,抓取资金主力流入的股票
上述代码在IE中加载"" 网址,即东风财富网资金主力流入情况。
4) Do Until .readystate = 4 '检查网页是否加载完毕(4表示完全加载)
DoEvents '循环中交回工作权限给系统,以免"软死机"
Loop
这段代码是让网页加载完成,以便后续提取网页的数据
5)Set dmt = .document '将IE浏览器加载的页面文档,赋予dmt变量,这里的DMT是一个对象变量。
6) Set tb = dmt.all.tags("table")(5) '通过索引号捕捉表格对象 这里的序号是我们分析网页得来,也可以利用工具进行网页的页面分析。
7)For i = 2 To tb.Rows.Length - 1 '历遍其每个行
Forj = 0 To tb.Rows(i).Cells.Length - 1 '历遍每行的每个单元格
Cells(i+ 1, j + 1) = "'" & tb.Rows(i).Cells(j).innertext '将其innertext写入单元格
Next
Next
提取表的数据,这里tb.Rows.Length – 1 是行数;tb.Rows(i).Cells(j).innertext 是单元格的内容。
3 应用IE实现资金主力流入数据抓取的实现效果
我们点击页面的运行按钮,实现下面的数据抓取:
从实现的效果看,完全达到了我们场景需求。
本节知识点回向:如何在页面文档中提取表的数据?
本节内容参考:009工作表.xlsm
积木编程的思路内涵:
在我的系列书籍中一直在强调“搭积木”的编程思路,这也是学习利用VBA的主要方法,特别是职场人员,更是要采用这种方案。其主要的内涵:
1 代码不要自己全部的录入。你要做的是把积木放在合适的位置然后去修正代码,一定要拷贝,从你的积木库中去拷贝,然后修正代码,把时间利用到高效的思考上。
2 建立自己的“积木库”。平时在学习过程中,把自己认为有用的代码放在一起,多积累,在用到的时候,可以随时拿来。你的积木库资料越多,你做程序的思路就会越广。
VBA的应用界定
VBA是利用Office实现个人小型办公自动化的有效手段(工具)。这是我对VBA的应用界定。在取代OFFICE新的办公软件没有到来之前,谁能在数据处理方面做到极致,谁就是王者。其中登峰至极的技能非VBA莫属!
我记得20年前自己初学VBA时,那时的资料甚少,只能看源码自己琢磨,真的很难。20年过去了,为了不让学习VBA的朋友重复我之前的经历,我根据自己多年VBA实际利用经验,推出了六部VBA专门教程:
第一套:VBA代码解决方案是VBA中各个知识点的讲解,教程共147讲,覆盖绝大多数的VBA知识点,初学必备;
第二套:VBA数据库解决方案 数据库是数据处理的专业利器,教程中详细介绍了利用ADO连接ACCDB和EXCEL的方法和实例操作,适合中级人员的学习。
第三套:VBA数组与字典解决方案 数组和字典是VBA的精华,字典是VBA代码水平提高的有效手段,值得深入的学习,是初级及中级人员代码精进的手段。
第四套:VBA代码解决方案之视频是专门面向初学者的视频讲解,可以快速入门,更快的掌握这门技能。这套教程是第一套教程的视频讲解,听元音更易接受。
第五套:VBA中类的解读和利用 这是一部高级教程,讲解类的虚无与肉身的度化,类的利用虽然较少,但仔细的学习可以促进自己VBA理论的提高。这套教程的领会主要是读者的领悟了,领悟一种佛学的哲理。
第六套教程:《VBA信息获取与处理》,这是一部高级教程,涉及范围更广,实用性更强,面向中高级人员。教程共二十个专题,包括:跨应用程序信息获得、随机信息的利用、电子邮件的发送、VBA互联网数据抓取、VBA延时操作,剪切板应用、Split函数扩展、工作表信息与其他应用交互,FSO对象的利用、工作表及文件夹信息的获取、图形信息的获取以及定制工作表信息函数等等内容。
大家可以根据以上资料1→3→2→6→5或者是4→3→2→6→5的顺序逐渐深入的逐渐学习。教程提供讲解的同时提供了大量的积木,如需要可以WeChat: NZ9668
学习VBA是个过程,也需要经历一种枯燥的感觉
如太白诗云:众鸟高飞尽,孤云独去闲。相看两不厌,只有敬亭山。学习的过程也是修心的过程,修一个平静的心。在代码的世界中,心平静了,心情好了,身体自然而然就好。心静则正,内心里没有那么多邪知邪见,也就没有那么多妄想。利人就是利己。这些教程也是为帮助大家起航,助上我自己之力,我的上述教程是我多的经验的传递,
“水善利万物而不争”,绵绵密密,微则无声,巨则汹涌。学习亦如此,知道什么是自己所需要的,不要蜷缩在一小块自认为天堂的世界里,待到暮年时再去做自欺欺人的言论。要努力提高自己,用一颗充满生机的心灵,把握现在,这才是进取。越是有意义的事情,困难会越多。愿力决定始终,智慧决定成败。不管遇到什么,都是风景。看淡纷争,看轻得失。茶,满也好,少也好,不要计较;浓也好,淡也好,其中自有值得品的味道。去感悟真实的时间,静下心,多学习,积累福报。而不是天天混日子,也不是天天熬日子。在后疫情更加严峻的存量残杀世界中,为自己的生存进行知识的储备,特别是新知识的储备。学习时微而无声,利用时则巨则汹涌。
每一分收获都是成长的记录,怎无凭,正是这种执着,成就了朝霞的灿烂。最后将一阙词送给致力于VBA学习的朋友,让大家感受一下学习过程的枯燥与执着:
浮云掠过,暗语无声,
唯有清风,惊了梦中啼莺。
望星,疏移北斗,
奈将往事雁同行。
阡陌人,昏灯明暗,
忍顾长亭。
多少VBA人,
暗夜中,悄声寻梦,盼却天明。
怎无凭!
回向学习利用VBA的历历往事,不胜感慨,谨以这些文字给大家,分享我多年工作实际经验的成果,随喜这些有用的东西,给确实需要利用VBA的同路人。
酷6网可以用战旗直播把每天看各种新闻看到不好看的直接弃百度
网站优化 • 优采云 发表了文章 • 0 个评论 • 49 次浏览 • 2022-05-04 13:01
vba抓取网页数据,
你可以搜索一下simulationhome,做程序脚本的,最新版是office2013,里面有一个人人影视,每天更新一个片段,免费看,用python编写的,不知道你可不可以用。很方便。
又不是免费的。
淘宝
搜狐视频
我基本每天会收到几十条视频的推送,我又看不完,这时候发现有个视频列表,就点开一个看,注意下标题,用以判断是否还有后续的视频,这个应该比较管用吧,顺便再收藏一下。
当然首推360手机卫士啦
搜狐视频站
其实微博上很多英语演讲啦资料啦翻译啦包括我国的一些大事在上面都有,感觉很方便,可以试试。
乐趣网,
蜂鸟网站,就是专门做视频采集的站点。
酷6网
可以用战旗直播把
每天看各种新闻看到不好看的直接弃
百度关键词看看收视率高的就行了
p2p理财,,类似蚂蚁金服吧之类的
你自己作为产品经理,就这么懒?任何公司都有主流产品,可以发布个招聘的网站,根据历史数据选择一下了。其他就得靠你自己了,
国内目前还没有,
googleimages,facebooksearch
每天的新闻已经包含网站名字,视频什么都有了。可以下载下来看,也可以用pip安装,很多下载工具都有提供免费版下载。portal能按照url记录抓取。 查看全部
酷6网可以用战旗直播把每天看各种新闻看到不好看的直接弃百度
vba抓取网页数据,
你可以搜索一下simulationhome,做程序脚本的,最新版是office2013,里面有一个人人影视,每天更新一个片段,免费看,用python编写的,不知道你可不可以用。很方便。
又不是免费的。
淘宝
搜狐视频
我基本每天会收到几十条视频的推送,我又看不完,这时候发现有个视频列表,就点开一个看,注意下标题,用以判断是否还有后续的视频,这个应该比较管用吧,顺便再收藏一下。
当然首推360手机卫士啦
搜狐视频站
其实微博上很多英语演讲啦资料啦翻译啦包括我国的一些大事在上面都有,感觉很方便,可以试试。
乐趣网,
蜂鸟网站,就是专门做视频采集的站点。
酷6网
可以用战旗直播把
每天看各种新闻看到不好看的直接弃
百度关键词看看收视率高的就行了
p2p理财,,类似蚂蚁金服吧之类的
你自己作为产品经理,就这么懒?任何公司都有主流产品,可以发布个招聘的网站,根据历史数据选择一下了。其他就得靠你自己了,
国内目前还没有,
googleimages,facebooksearch
每天的新闻已经包含网站名字,视频什么都有了。可以下载下来看,也可以用pip安装,很多下载工具都有提供免费版下载。portal能按照url记录抓取。
vba抓取网页数据功能简单的vba代码可以实现。
网站优化 • 优采云 发表了文章 • 0 个评论 • 103 次浏览 • 2022-05-03 05:01
<p>vba抓取网页数据功能简单的vba代码可以实现。结构化网页内容functionstringtoanspicker(str){vba.replaceall("",str);}vba.replaceall("",""); 查看全部
vba抓取网页数据功能简单的vba代码可以实现。
<p>vba抓取网页数据功能简单的vba代码可以实现。结构化网页内容functionstringtoanspicker(str){vba.replaceall("",str);}vba.replaceall("","");
破解vba网页数据抓取的四大标准:支持xml格式的数据转化
网站优化 • 优采云 发表了文章 • 0 个评论 • 118 次浏览 • 2022-04-30 23:00
vba抓取网页数据是一个比较常用的功能,甚至有些浏览器还提供了web地址抓取工具,如safari、ie。并且现在还有微信公众号文章留言抓取、搜索定位抓取、公众号页面上线、短信息追踪工具、定位页面热点、群发消息抓取、网站自定义二维码(自动识别二维码)等等,可谓是满足了不同用户对抓取的不同需求。不过使用vba抓取网页数据的时候,遇到各种问题也是难免的,因此选择一款好用的破解vba网页数据抓取,就显得极为必要。本人对好用的破解vba网页数据抓取总结了以下四大标准:。
一、强大的vba代码抓取功能,尽量避免框架。
二、完整的lib文件接口,
三、支持javascript等html编程语言
四、支持xml格式的数据转化
一、强大的vba代码抓取功能,
1)减少vba文件的数量。强大的vba文件可以不需要超过5个。一般来说,普通文件用10个就可以,microsoft自带的powerword可以说是基础配置,sql、msjavascript、microsoftxml等多数vba文件。一些比较基础的,比如加减乘除、日期转换、数学运算、逻辑运算都可以放在vba这个lib接口中。
对于大型网站来说,可以增加microsoftxmlopenfile这个接口。要加多几个lib接口,推荐用libgeometry/system32/guides这个命令,具体用法请参考我的另一篇文章janesky:深入研究vba代码框架及性能影响时-为什么用vba而不是c#?。
二、完整的lib文件接口,包括简单的sql查询一般来说,vba文件必须有完整的sql接口。一般不一定要有sql语句,有的只要把sql语句写到csv或者其他xml格式中,直接对着解析即可。对于vba可以用javascript和webdriver对着解析即可,如sumifs、index、countifs等。
三、支持javascript等html编程语言vba编程语言本身有javascript支持,但是这里还有两点不太利于javascript的支持。vba代码编写中,有相当多的vbe代码。尽管这些代码可以转化为xml文件并传给javascript解析器进行二次解析,但是对于数据抓取这种完整性要求比较高的,还是需要了解一下javascript的语法再传入到vba。
这里推荐jetopa/vba-html,vba官方搭建了一个网站,专门提供javascript语法和基本语法解析的教程和文章。
四、支持xml格式的数据转化对于ie来说,相对比较麻烦,vba必须获取xml格式的数据才能编程和使用。所以用xml格式转化可以大大减少对xml格式的操作。推荐intellijidea,基本上所有的mybatis都支持转换格式,也有xml格式转换等插件。最后, 查看全部
破解vba网页数据抓取的四大标准:支持xml格式的数据转化
vba抓取网页数据是一个比较常用的功能,甚至有些浏览器还提供了web地址抓取工具,如safari、ie。并且现在还有微信公众号文章留言抓取、搜索定位抓取、公众号页面上线、短信息追踪工具、定位页面热点、群发消息抓取、网站自定义二维码(自动识别二维码)等等,可谓是满足了不同用户对抓取的不同需求。不过使用vba抓取网页数据的时候,遇到各种问题也是难免的,因此选择一款好用的破解vba网页数据抓取,就显得极为必要。本人对好用的破解vba网页数据抓取总结了以下四大标准:。
一、强大的vba代码抓取功能,尽量避免框架。
二、完整的lib文件接口,
三、支持javascript等html编程语言
四、支持xml格式的数据转化
一、强大的vba代码抓取功能,
1)减少vba文件的数量。强大的vba文件可以不需要超过5个。一般来说,普通文件用10个就可以,microsoft自带的powerword可以说是基础配置,sql、msjavascript、microsoftxml等多数vba文件。一些比较基础的,比如加减乘除、日期转换、数学运算、逻辑运算都可以放在vba这个lib接口中。
对于大型网站来说,可以增加microsoftxmlopenfile这个接口。要加多几个lib接口,推荐用libgeometry/system32/guides这个命令,具体用法请参考我的另一篇文章janesky:深入研究vba代码框架及性能影响时-为什么用vba而不是c#?。
二、完整的lib文件接口,包括简单的sql查询一般来说,vba文件必须有完整的sql接口。一般不一定要有sql语句,有的只要把sql语句写到csv或者其他xml格式中,直接对着解析即可。对于vba可以用javascript和webdriver对着解析即可,如sumifs、index、countifs等。
三、支持javascript等html编程语言vba编程语言本身有javascript支持,但是这里还有两点不太利于javascript的支持。vba代码编写中,有相当多的vbe代码。尽管这些代码可以转化为xml文件并传给javascript解析器进行二次解析,但是对于数据抓取这种完整性要求比较高的,还是需要了解一下javascript的语法再传入到vba。
这里推荐jetopa/vba-html,vba官方搭建了一个网站,专门提供javascript语法和基本语法解析的教程和文章。
四、支持xml格式的数据转化对于ie来说,相对比较麻烦,vba必须获取xml格式的数据才能编程和使用。所以用xml格式转化可以大大减少对xml格式的操作。推荐intellijidea,基本上所有的mybatis都支持转换格式,也有xml格式转换等插件。最后,
vba抓取网页数据(源代码抓取京东小米8手机的配置信息有64行 )
网站优化 • 优采云 发表了文章 • 0 个评论 • 57 次浏览 • 2022-04-10 02:31
)
以下代码是用python抓取京东小米8手机的配置信息
首先找到小米8产品的链接:
然后找到它的配置信息的标签,我们找到它的配置信息的标签为
然后分析其配置信息页面的规则,我们发现dl收录dt和dd,一个dt对应一个dd,dt对应一个参数,dd对应参数的具体值
p>
以下是源码
import requests<br />from bs4 import BeautifulSoup<br />from pandas import Series<br />from pandas import DataFrame<br /><br /><br />response=requests.get("https://item.jd.com/7437788.html")<br />html=response.text<br /><br />soup=BeautifulSoup(html,"html.parser")<br />divSoup=soup.find("div",attrs={"class","Ptable"}) ##找到其配置信息的标签<br /><br />data=DataFrame(columns=["参数","值"]) #定义一个二元的DataFrame<br />dls=divSoup.find_all("dl")<br /><br />for dl in dls:<br /> dts=dl.find_all("dt")<br /> dds=dl.find_all("dd")<br /> if len(dts)==len(dds):<br /> for i in range(len(dts)):<br /> f=dts[i].getText();<br /> p=dds[i].getText();<br /> data=data.append(Series([f,p],index=["参数","值"]),ignore_index=True);<br />print(data)
这是捕获的最终配置信息。一共64行,这里就不一一列举了
查看全部
vba抓取网页数据(源代码抓取京东小米8手机的配置信息有64行
)
以下代码是用python抓取京东小米8手机的配置信息
首先找到小米8产品的链接:
然后找到它的配置信息的标签,我们找到它的配置信息的标签为

然后分析其配置信息页面的规则,我们发现dl收录dt和dd,一个dt对应一个dd,dt对应一个参数,dd对应参数的具体值
p>

以下是源码
import requests<br />from bs4 import BeautifulSoup<br />from pandas import Series<br />from pandas import DataFrame<br /><br /><br />response=requests.get("https://item.jd.com/7437788.html")<br />html=response.text<br /><br />soup=BeautifulSoup(html,"html.parser")<br />divSoup=soup.find("div",attrs={"class","Ptable"}) ##找到其配置信息的标签<br /><br />data=DataFrame(columns=["参数","值"]) #定义一个二元的DataFrame<br />dls=divSoup.find_all("dl")<br /><br />for dl in dls:<br /> dts=dl.find_all("dt")<br /> dds=dl.find_all("dd")<br /> if len(dts)==len(dds):<br /> for i in range(len(dts)):<br /> f=dts[i].getText();<br /> p=dds[i].getText();<br /> data=data.append(Series([f,p],index=["参数","值"]),ignore_index=True);<br />print(data)
这是捕获的最终配置信息。一共64行,这里就不一一列举了

vba抓取网页数据(百度搜索引擎是免费服务,其实背后赚钱来源是付费推广)
网站优化 • 优采云 发表了文章 • 0 个评论 • 53 次浏览 • 2022-04-08 02:05
vba抓取网页数据
搜索引擎需要花钱买站,但是你可以通过定位,让搜索引擎分析你的用户行为,实现精准的投放广告。例如:百度里面推广a产品,百度会根据你一年在网上浏览习惯,对你定位投放适合a产品的广告。而百度搜索引擎虽然是免费服务,其实背后赚钱来源是付费推广。
下载谷歌浏览器app后,关注自己想要的网站,并且可以在里面上传自己的链接,这样你就可以免费在上面推广自己的网站。
百度,知乎,
百度、知乎、百度知道、谷歌
推广其他网站
也可以用和百度一样的wordpress写程序来定位站点,也可以尝试在百度里面做站长,赚钱定位更精准。
和百度、google一样的功能就好啦
在百度知道找软文投放,在百度文库投放软文,在第三方平台上找需要的资源。
就是上面的,打广告,
用户都已经是大海捞针,用户推广自己的网站也并不是什么难事。
发布软文,定位好目标网站定位后,根据用户行为等多方面来分析用户,感觉自己被“伪装”了,并不是网站用户的话就针对提出建议等等。反正,有打广告目的的,肯定是要去合理利用网站功能才能推广自己的。
软文推广渠道主要有两个:1.软文收稿(可以实现精准定位,避免职位招聘类软文的歧义。2.互联网病毒传播。其实你提问的问题的答案就已经出来了。 查看全部
vba抓取网页数据(百度搜索引擎是免费服务,其实背后赚钱来源是付费推广)
vba抓取网页数据
搜索引擎需要花钱买站,但是你可以通过定位,让搜索引擎分析你的用户行为,实现精准的投放广告。例如:百度里面推广a产品,百度会根据你一年在网上浏览习惯,对你定位投放适合a产品的广告。而百度搜索引擎虽然是免费服务,其实背后赚钱来源是付费推广。
下载谷歌浏览器app后,关注自己想要的网站,并且可以在里面上传自己的链接,这样你就可以免费在上面推广自己的网站。
百度,知乎,
百度、知乎、百度知道、谷歌
推广其他网站
也可以用和百度一样的wordpress写程序来定位站点,也可以尝试在百度里面做站长,赚钱定位更精准。
和百度、google一样的功能就好啦
在百度知道找软文投放,在百度文库投放软文,在第三方平台上找需要的资源。
就是上面的,打广告,
用户都已经是大海捞针,用户推广自己的网站也并不是什么难事。
发布软文,定位好目标网站定位后,根据用户行为等多方面来分析用户,感觉自己被“伪装”了,并不是网站用户的话就针对提出建议等等。反正,有打广告目的的,肯定是要去合理利用网站功能才能推广自己的。
软文推广渠道主要有两个:1.软文收稿(可以实现精准定位,避免职位招聘类软文的歧义。2.互联网病毒传播。其实你提问的问题的答案就已经出来了。
vba抓取网页数据([复制链接]uranus1997165主题好友261积分幼儿园大班金币1704个积分)
网站优化 • 优采云 发表了文章 • 0 个评论 • 53 次浏览 • 2022-04-07 18:02
用VBA提取网页数据的四种方法 更多2012-7-51042 编辑 嗯,这是398部长给我的一个小练习,分享给大家,然后等398部长讲解。一共做了4个方法,在此感谢August Sleepwalking的帮助和建议。题目是在如下网页中提取店铺名称和地址:(我没做多页,我懒了)searchsearchstore.htmloption.cityname=%CE%C2%D6%DD&option.category=4&option.distance= 2000&pageNo=1 XMLHTTP对象,速度不错,受网页源代码变化影响,但处理网页源文件最方便自由。InternetExplorer 对象,速度一般,受网页源代码改动影响,需要激活IE,不喜欢。QueryTables 对象的平均速度最快,基本不受网页源代码变化的影响。想获取多页数据的时候比较麻烦,还有一个额外的网页查询区需要删除。
WebBrowser对象,先是速度不如XMLHTTP,然后很快,受网页源代码变化的影响,原理和InternetExplorer一样,就是多出来的控件不好看工作表,并且只能通过缩小控件来隐藏。每种方法都有自己的优缺点,要根据实际情况来选择合适的方法。个人觉得从网页中提取数据是没有技巧的。归根结底,其原理基本上是提取网页的源代码,然后对其进行分析处理。在 VBA 中,使用字符串处理可能更容易理解。其实也可以使用获取网页元素的方法。例如,使用了一些这样的技术,但是因为对网页的元素不熟悉,如果想要方便的方法还需要多了解网页的结构和代码。PS:记得看我鼠标写的火狐浏览器脚本。看来只能列举不同网页源码的共同点来写了。似乎很难认为 100% 通用。第一个附件:8yEsMVej.rar (25.12 KB,下载次数1318)由于网页源代码变了,08-7-14重新编辑上传。 [本帖已被作者于2008-7-14 22817编辑] jKtC2df0.rar 24.33 KB,下载1420次 [分享] VBA提取网页数据(4种方法)0JQmXNaH。 rar 25.@ >44 KB, 下载次数1660 [分享] VBA提取网页数据(4种方法) 第一种方法不对,是什么原因?可能是Object变量传递的问题,所以试试 Sub test() Dim StringDim arr Dim LongDim LongDim t1 LongDim t2 GetSource("") arr Filter(Split(s,""), "Address", True) UBound( arr)t1 InStr(1,arr(i), InStr(t1,arr(i), Mid( arr(i), t1, t2 t1)
. . . 请参阅我的第二个附件,它解决了问题,它应该。. . . . 我试过的感觉是XML速度第一,QueryTables第二,差不多一点点;WebBrowser 第三;IE 是最慢的,它会打开网页。哈哈,我明白了,他的原理是通过Msxml2.XMLHTTP提取网页内容,相当于我们点击ie时从源文件中提取txt文档的内容。然后使用字符串处理函数split找到我们想要的信息,放入数组中。之后,将数组中的内容写入到excel分页和详情页的URL中,可以找到。理论上,网页上显示的所有内容都可以提取出来 :) 我希望我能把它搞定:) 相当于提取了对方在互联网上发布的信息。数据库内容。然后就可以灵活使用数据库分析工具更改 Private Sub CommandButton4_Click() Dim doc ObjectDim txt1 StringDim IntegerDim WebBrowser1.Navigate"" Do Until WebBrowser1.ReadyState READYSTATE_COMPLETEDoEvents Loop Set doc ErrorResume Next ReDim arr(1 doc.all.Lengthtxt1 txt1End WebBrowser1.Navigate"about:blank" End Sub 查看全部
vba抓取网页数据([复制链接]uranus1997165主题好友261积分幼儿园大班金币1704个积分)
用VBA提取网页数据的四种方法 更多2012-7-51042 编辑 嗯,这是398部长给我的一个小练习,分享给大家,然后等398部长讲解。一共做了4个方法,在此感谢August Sleepwalking的帮助和建议。题目是在如下网页中提取店铺名称和地址:(我没做多页,我懒了)searchsearchstore.htmloption.cityname=%CE%C2%D6%DD&option.category=4&option.distance= 2000&pageNo=1 XMLHTTP对象,速度不错,受网页源代码变化影响,但处理网页源文件最方便自由。InternetExplorer 对象,速度一般,受网页源代码改动影响,需要激活IE,不喜欢。QueryTables 对象的平均速度最快,基本不受网页源代码变化的影响。想获取多页数据的时候比较麻烦,还有一个额外的网页查询区需要删除。
WebBrowser对象,先是速度不如XMLHTTP,然后很快,受网页源代码变化的影响,原理和InternetExplorer一样,就是多出来的控件不好看工作表,并且只能通过缩小控件来隐藏。每种方法都有自己的优缺点,要根据实际情况来选择合适的方法。个人觉得从网页中提取数据是没有技巧的。归根结底,其原理基本上是提取网页的源代码,然后对其进行分析处理。在 VBA 中,使用字符串处理可能更容易理解。其实也可以使用获取网页元素的方法。例如,使用了一些这样的技术,但是因为对网页的元素不熟悉,如果想要方便的方法还需要多了解网页的结构和代码。PS:记得看我鼠标写的火狐浏览器脚本。看来只能列举不同网页源码的共同点来写了。似乎很难认为 100% 通用。第一个附件:8yEsMVej.rar (25.12 KB,下载次数1318)由于网页源代码变了,08-7-14重新编辑上传。 [本帖已被作者于2008-7-14 22817编辑] jKtC2df0.rar 24.33 KB,下载1420次 [分享] VBA提取网页数据(4种方法)0JQmXNaH。 rar 25.@ >44 KB, 下载次数1660 [分享] VBA提取网页数据(4种方法) 第一种方法不对,是什么原因?可能是Object变量传递的问题,所以试试 Sub test() Dim StringDim arr Dim LongDim LongDim t1 LongDim t2 GetSource("") arr Filter(Split(s,""), "Address", True) UBound( arr)t1 InStr(1,arr(i), InStr(t1,arr(i), Mid( arr(i), t1, t2 t1)
. . . 请参阅我的第二个附件,它解决了问题,它应该。. . . . 我试过的感觉是XML速度第一,QueryTables第二,差不多一点点;WebBrowser 第三;IE 是最慢的,它会打开网页。哈哈,我明白了,他的原理是通过Msxml2.XMLHTTP提取网页内容,相当于我们点击ie时从源文件中提取txt文档的内容。然后使用字符串处理函数split找到我们想要的信息,放入数组中。之后,将数组中的内容写入到excel分页和详情页的URL中,可以找到。理论上,网页上显示的所有内容都可以提取出来 :) 我希望我能把它搞定:) 相当于提取了对方在互联网上发布的信息。数据库内容。然后就可以灵活使用数据库分析工具更改 Private Sub CommandButton4_Click() Dim doc ObjectDim txt1 StringDim IntegerDim WebBrowser1.Navigate"" Do Until WebBrowser1.ReadyState READYSTATE_COMPLETEDoEvents Loop Set doc ErrorResume Next ReDim arr(1 doc.all.Lengthtxt1 txt1End WebBrowser1.Navigate"about:blank" End Sub