数据分析|爬虫抓取东方财富网股吧帖子

优采云发布时间: 2022-06-24 23:39

　　数据分析|爬虫抓取东方财富网股吧帖子

　　1前言

　　量化交易策略的研究主要涵盖了微观和宏观这两个方面，微观方面更多地是从市场价格和成交持仓这些基础信息为研究对象，通过算法计算出技术指标，再从技术指标的变化上构建交易模型。宏观方面则是基于更多的市场资讯开发交易模型，比如从CPI、PPI、货币发行量这些宏观经济指标为研究对象构建交易模型；或者是利用数据挖掘技术从新闻事件中挖掘出可能造成市场异常波动的事件，从而获得交易的时机。

　　我们知道知名股票论坛有点金投资家园、股天下、东方财富网股吧、和讯股吧、创幻论坛、MACD股市等等，笔者用的比较多的是东方财富网股吧。在课程《构建基于股票的量化交易系统》中我们以爬取东方财富网行业板块当日的行情数据为案例，介绍了网络爬虫的原理和方法，本节我们再介绍下如何爬取东方财富网股吧帖子的内容。

　　2

　　解析股吧帖子URL

　　首先通过浏览器访问伟星新材的股吧，查看该网页的URL为：

　　,002372.html，网页内容如下图所示：

　　当我们点击第2页、第3页后，查看下当前的URL分别为：

　　http://guba.eastmoney.com/list,002372_2.htmlhttp://guba.eastmoney.com/list,002372_3.html

　　因此得到了个股股吧URL的规律为：

　　, 002372_%d.html形式表示，

　　其中的规律比较直白，%d为论坛第几页，不过这个形式是按评论时间排列的网址，如果按发帖时间的排列网址是：

　　,002372,f_%d.html。

　　股吧的帖子由两部分组成，一部分为“财经评论”或“东方财富网”发布的公告或官方消息，另一部分为散户发布的讨论帖子，如下图所示：

　　前者的帖子URL为：

　　,cjpl,902659513.html，

　　后者的帖子URL为：

　　,002372,902629178.html

　　两者的URL都可在当前该股股吧HTML文件内容中搜寻到，如下所示：

　　因此“财经评论”、“东方财富网”或者散户发布的帖子，主要的特征为/news，在实现上我们可以先爬取到股吧HTML内容，然后通过正则表达式来筛选得到帖子的URL。

　　关于读取网页HTML内容的关键代码我们已经在课程《爬虫方式获取行业板块数据》一节中具体介绍过。需要注意的是Python2的urllib、urllib2和urlparse，已经在Python3中全部被整合到了urllib中，其中Python2的urllib和urllib2中的内容整合为urllib.request模块，urlparse整合为urllib.parse模块。

　　获取到HTML代码部分内容如下：

　　正则表达式筛选帖子URL，采用了pile和re.findall，实现代码如下：

　　其中正则表达式的\S+表示匹配多次非空白字符，然后使用findall函数找到匹配的所有字符串，并把它们作为一个列表返回。

　　然后是使用urljoin方法把整个url拼接好用于爬取单个帖子的标题内容，关键代码如下所示：

　　3创建爬虫URL队列

　　接下来我们把所有需要爬取的股吧页以及每页中的帖子的URL以队列的方式进行管理。Python中存储序列的类型有list、tuple、dict和set，它们之间的区别和特点简单的说：tuple不能修改其中的元素；set是无序集合，会自动去除重复元素；list是有序的集合；dict是一组key和value的组合。此次我们选择list作为队列的存储类型。

　　创建target_url_manager类，该类包含以下几个方法：

　　创建队列形式如下所示：

　　完整代码可见课程《加推篇！爬虫抓取东方财富网股吧帖子》。

　　4

　　解析股吧帖子内容

　　单个帖子爬取的内容包括三部分，帖子发表时间、作者及帖子标题，如下所示：

　　我们可以通过正则表达式进行提取，其中在组合正则表达式时，需要考虑到HTML代码中是否有重复的匹配关键字。作者和帖子标题正则代码如下，mainbody、zwcontentmain这些关键字在文本中仅出现一次，匹配程度较高。由于网站HTML代码的改动，表达式需要经常调整。

　　关键代码如下所示：

　　com_cont = re.compile(r'.*?zwconttbn.*?(.*?).*?social clearfix',re.DOTALL)

　　发布时间正则代码如下，分两步逐渐明晰的去提取时间，由于search是扫描字符串找到这个RE 匹配的位置，因此增加group()返回匹配字符串。

　　pub_elems = re.search('.*?',html_cont2).group()#发表于 2020-02-11 09:54:48 东方财富Android版<br />pub_time = re.search('\d\d\d\d-\d\d-\d\d',pub_elems).group()#2020-02-06

　　<br />

　　另外，论坛帖子与当前的股价走势有时间联系，太早的帖子对现在无参考作用，因此需要删选近期的帖子。我们可以对时间进行判断，只有一个月之内发布的帖子才进行爬取并存储。获取今天的日期使用datetime.now().date()，然后与爬取的帖子时间日期比较，timedelta可在日期上做天days时间计算，但需要将时间转换为时间形式。

　　实现部分关键代码如下所示：