汇总:织梦发布管理让网站快速收录与关键词排名

　　织梦发布插件工具如何使用？我可以批量向网站发布内容吗？让网站通过织梦发布自动更新内容，还需要注意什么才能让网站快速被关键词收录和排名？今天给大家分享一款可以批量管理网站的织梦发布工具。无论您有成百上千个不同的织梦CMS网站还是其他网站，都可以实现统一管理。一个人维护成百上千篇网站文章更新不是问题。

　　一、织梦发布

　　1、批量监控管理不同CMS网站数据（无论你的网站是帝国、易游、ZBLOG、知梦、WP、云游CMS、人人站CMS、小旋风、站群、PB、Apple、米拓、搜外等各大CMS、工具可以同时管理和批量发布）

　　2.设置批量发布次数（可设置发布间隔/每天发布总数）

　　3.不同的关键词文章可以设置发布不同的栏目

　　4.伪原创保留字（文章原创时设置核心词不伪原创）

　　5、软件直接监控已发布、待发布、是否为假原创、发布状态、URL、程序、发布时间等。

　　6.通过软件可以直接查看每日蜘蛛、合集、网站权重

　　2.Dreamweaving批量发布设置-涵盖SEO功能

　　本次织梦发布还搭载了很多SEO功能，不仅通过织梦发布实现了伪原创发布的采集

，还有很多SEO功能。可以提高关键词的密度，也可以提高页面的原创性，增加用户体验，实现优质内容。

　　1.设置标题的后缀和后缀（最好收录

标题的区分）

　　2.内容关键词插入（合理增加关键词密度）

　　3、随机插入图片（文章无图片可随机插入相关图片）

　　4、搜索引擎推送（文章发布成功后，主动将文章推送至搜索引擎，确保新链接能及时被搜索引擎收录）

　　5.随机点赞-随机阅读-随机作者（提高页面原创性）

　　6.内容与标题一致（使内容与标题一致）

　　7、自动内链（在执行发布任务时，在文章内容中自动生成内链，有助于引导页面蜘蛛爬行，增加页面权重）

　　8、定期发布（定期发布网站内容，让搜索引擎养成定期抓取网页的习惯，从而提高网站的收录率）

　　3.梦想集

　　1.通过织梦采集

填充内容，根据关键词采集

文章。（织梦采集

插件还自带关键词采集

功能和无关词屏蔽功能）

" />

　　2.自动过滤其他网站推广信息/支持其他网站信息替换

　　3.支持多源采集（覆盖所有行业新闻源，拥有海量内容库，每天都有新内容，采集新内容）

　　4.支持图片本地化或存储到其他平台

　　5、全自动批量挂机采集假冒原创并自动发布推送至搜索引擎

　　4.帝国采集

　　1.查看收款平台

　　2.采集

　　3. 采集

　　4.查看采集

到的内容

　　5.采集

后查看内容

　　通过上面的织梦发布我们可以很好的管理一个网站，剩下的就是我们对网站SEO的搜索引擎优化诊断和分析了。如果我们要对网站进行详细的搜索引擎优化诊断和分析，需要考虑的点有很多。

　　1、分析网站根目录下的robots协议是否正确。

　　网站上线后，蜘蛛抓取的文件是网站的robots文件，而不是其他文件，因此正确设置robots文件协议尤为重要。一般来说，正确的设置原则有几点：

　　1：不想被蜘蛛索引的文件被拦截。

　　2：根据网站的安全考虑，还需要屏蔽一些敏感文件。

　　3：xml格式的地图可以放在文件中。

　　2、网站是否设置了基于搜索引擎的xml格式站点地图。

　　站点地图对搜索引擎来说是和谐的。它可以将网站的整体结构呈现给搜索引擎，使搜索引擎能够高效地对网站进行索引。关于制作站点地图的教程很多，织梦发布工具中也有相应的插件，这里不再赘述。

　　3、网站是否设置了正确的404页面。

　　早些年，404页面并不是一个优化点。随着搜索引擎算法的不断演进，很多点都可以归纳为优化点。需要在网站上设置一个404页面，告诉用户页面是否被删除不能访问，告诉搜索引擎某个页面的状态。另外不建议404页面自动跳转到首页或者某个页面，用户可以选择自动。

　　4.分析网站链接

　　很多时候，一个网站的一个页面可以同时被多个页面访问，不利于关键链接的权重。一般操作就是将关键词设置为空！一个比较重要的url给搜索引擎，其他链接通过301重定向指向这个url，其他的可以通过canonical标签进行处理。

" />

　　5、用ip站点确认站点状态。

　　古有联座，即一人犯法，身边关系密切的人共同承担责任。其实搜索引擎也有这种做法。同一个ip的站点很多，假设其他站点或多或少不健康，很可能会涉及到你自己的站点，这个关键词是空的！这种情况就需要确认同ip站点是否有问题。

　　6、分析诊断网站的友情链接情况。

　　高相关友情链接是优质外链，企业网站传播的优质友情链接是搜索引擎优化的核心运营点。合适的友情链接可以有效提高网站目标关键词排名，提升网站既然友情链接是最重要的，就要经常分析自己网站友情链接的创建情况，比如对方是否党采用作弊手段，让用户看到，搜索引擎却看不到，即有关键词为由 null！作弊链接状态；对方网站是否掉电、被K或长期不更新；对方网站是否设置了友链跳转，或者添加了nofollow标签。

　　2.代码优化

　　代码优化是SEO过程的重要组成部分。简化代码可以加快蜘蛛的爬行速度，提高网站加载和打开的速度。它对搜索引擎和访问者都很友好。既然代码优化如此重要，那么在SEO优化中代码优化需要注意哪些细节呢？

　　1.设计好网站导航

　　网站的导航在整个站点中是通用的，这一点非常重要。尝试使用文本而不是图片和 flash 进行导航。如果一定要用图片，请加上alt属性。尽可能避免使用 Flash。Flash效果很好，但是加载很慢，搜索引擎无法读取Flash文件。

　　2.网页布局结构

　　面包屑导航，树状扁平结构。在首页点击三下即可到达网站的每一页，在每一页都可以快速返回到想要的页面。文章的内容显示在其他部分之前。设置上一篇和下一篇文章，根据文章的关键词设置“相关文章”。如果文章内容分几页显示，需要保留每页的页标题和文章。内容都是不同的，以避免重复的内容问题。

　　3.适当使用标题标签

　　合理使用h1-h6标签，它的存在就是告诉搜索引擎哪些是重要的，哪些是次要的。使用标签作为页面的主题。使用标签来指示内容级别并描述相似的内容区域。但是不要在一个页面上使用多个标签。

　　4、简化代码，合理布局。

　　遵守web2.0标准，使用p+css设计网页，合理布局标签，尽量减少p层，使用description标签，简明扼要的描述你的网页网络销售培训，网站重点内容尽可能靠近经常更新的内容代码。页数不应超过 125K。清理垃圾代码，需要在代码编辑环境中删除键盘上按空格键产生的符号；一些具有默认属性的代码不会影响显示的代码；如果注释语句对代码的可读性影响不大，清理掉这些垃圾代码会减少很多篇幅。

　　5.避免页面重复

　　每个页面应该不同，包括标题、描述和关键字。需要注意的是，很多设计师会做一个通用的模板，使用时忘记修改。标题必须是唯一的！

　　6.写作格式的标准化

　　写 HTML 时，必须有缩进。请使用“tab”键缩进，不要使用“space space space space”，并对代码块进行必要的注释。避免 HTML 中的空行。

　　在开始优化工作的时候，你还没有明确优化的内容和目的，很容易陷入误区。从一开始，你就应该清楚地了解你想要达到的效果，以及其他各种与优化相关的问题。这些目标需要明确说明，然后您需要在整个优化过程中坚持这些目标。

　　看完这篇文章，如果您觉得不错，不妨采集

或发送给需要的朋友和同事。跟着博主每天带你了解各种SEO经验，打通你的二脉！

　　干货内容:【万字干货】以虎嗅网4W+文章的文本挖掘为例，展现数据分析的一整套流程

　　本文作者将结合自身经验，以实际案例的形式呈现，涉及从数据采集、数据清洗、数据分析到数据可视化的一整套流程分析，力求清晰地展示外部数据分析的力量！

　　8月，作者

　　曾经写过一篇关于外部数据分析的文章，有读者看完这篇文章后，向笔者反映，表示对外部数据的分析跳出来，原来只针对企业的内部数据分析（用户数据、销售数据、流量数据等），在数据资源不足或企业自身质量差的情况下，往往能给产品、运营、营销带来意想不到的启示，为数据驱动的业务增长......

　　由于笔者目前从事社交媒体大数据挖掘，难免涉及大数据语义分析的诸多实际应用场景。因此，笔者以实际案例的形式呈现作品中的一些经验，涉及从数据采集、数据清洗、数据分析到数据可视化的一整套过程分析，力求清晰地展示外部数据分析的强大力量。以下是撰写本文的框架：

　　.分析背景 1.1 分析原理：为什么选择分析虎嗅

　　在当今数据爆炸、信息质量参差不齐的互联网时代，我们始终处于互联网社交媒体的“信息洪流”中，因此难免会被其上的信息洪流“包裹”，也就是说社交媒体上的信息对现实世界中的每个人都有重大影响，社交媒体是我们间接了解真实客观世界和主观世界的窗口，我们一直受到它的影响。有关“社交媒体”的详细信息，请参阅如何|使用社交聆听从社交媒体中“提炼”有价值的信息？，以下也摘自文章：

　　结合以上两类情况，可以得出结论，通过社交媒体，我们可以观察现实世界：

　　因此，社交媒体是真实主客观世界的一面镜子，它会进一步影响人们的行为，如果我们分析该领域优质媒体发布的信息，除了了解该领域的发展过程和现状外，还可以在一定程度上预测该领域人群的行为。

　　针对这种情况，笔者作为互联网从业者，想分析一下互联网行业的一些现状，第一步是找到对互联网行业有重要影响力的媒体，最后的分析是“人人都是产品经理”（请看《干货|作为一个合格的“成长黑客”，你还要注意对外部数据的分析！“），这次作者想到了老虎嗅探网。

　　虎嗅成立于2012年5月，是一个汇集优质创新信息和人群的新媒体平台。平台专注于贡献原创、深入、犀利、优质的商业信息，对创新创业进行分析交流。虎嗅的核心是关注互联网与传统产业的融合，一系列明星企业（包括上市公司和创业型企业）的兴衰轨迹，以及产业潮流的动态和趋势。

　　因此，对平台上发布内容的分析，对于研究互联网的发展历程和现状具有一定的实用价值。

　　1.2 本文档的分析目的

　　笔者对本项目的分析主要有四个目的：

　　（1）对虎嗅网内容运营的几点分析，主要是对帖子数量、采集

、评论等的描述性分析;

　　（2）通过文字分析，对互联网行业的一些人、企业和细分市场进行有趣的分析;

　　（3）展示文本挖掘在数据分析领域的实用价值;

　　（4）将混沌的结构化和非结构化数据可视化，展现数据的美感。

　　1.3 分析方法：分析工具和分析类型

　　在本文中，我使用以下数据分析工具：

　　使用上述数据分析工具，

　　笔者将进行两类数据分析：第一种是比较传统的统计分析，在数值数据的描述下，比如时间维度的阅读和采集

分布;另一类是本文的亮点---深入的文本挖掘，包括关键词提取、文章内容的LDA主题模型分析、词向量/关联词分析、ATM模型、词法分散图和词聚类分析。

　　2. 数据采集和文本预处理2.1 数据采集

　　笔者使用爬虫从虎嗅网首页采集

文章（不是全部文章，但首页展示的信息是主编精心挑选的，很有代表性），数据采集

的时间范围为2012.05~2017.11，共41121篇文章。采集的字段为文章标题、发布时间、采集

、评论数、正文内容、作者姓名、作者自我介绍、作者发帖量，然后作者人工提取四个特征，主要是时间特征（时间点和星期几）和内容长度特征（标题字数和文章字数），最终得到的数据如下图所示

　　2.2 数据预处理

　　数据分析/挖掘领域有一条黄金法则：“垃圾进，垃圾出”，良好的数据预处理对于获得理想的分析结果至关重要。本文的数据梳理主要是清理文本数据，处理的项目如下：

　　（1）文字分词

　　分词是文本挖掘最关键的一步，直接影响后续的分析结果。笔者使用jieba对文本进行分词处理，分词模式有3种类型，即全模、精准模式、搜索引擎模式：

　　以“定位理论认为营销的终极战场在于消费者心智”为例，三种分词模式的结果如下：

　　为了避免歧义和剪掉符合预期效果的单词，作者采用了精确（分词）模式。

　　（2）去掉停用词

　　这里的去止字包括以下三类：

　　（3）去掉高频词、生僻词，数双语谱高频

　　词和生僻词的去除用于后续主题模型（LDA、ATM），主要排除对分隔主题意义不大的词，最终获得类似于停用词的效果。

　　双词是自动检测文本中的新词，基于词之间的共现关系---如果两个词经常并排出现，那么这两个词可以组合成一个新词，比如“data”、“产品经理”经常在不同的段落中一起出现，那么“data_product经理”就是两者合成的新词，但两者收录

下划线。

　　3. 描述性分析

　　在这一部分中，笔者主要对数值数据进行描述性统计分析，这是比较常规的数据分析，可以揭示一些问题，要实话实说，关于数据分析的4类，请参考《干货|作为一名合格的“成长黑客”，你还必须注意对外部数据的分析！本书的第一部分。

　　3.1 帖子、评论和采集

数量的变化

　　从下图可以看出，2012.05~2017.11期间，首页的帖子数量季度波动不大，在平均值1800附近波动，进入2016年后，帖子数量大幅增加。

　　此外，一个头（2012年第二季度）和一个尾部（2017年第四季度）很小，因为它们没有完全计算在内。

　　下图显示了这段时间采集

和评论数量的变化，

　　评论数量的变化并不火爆，起伏不大，但采集

一直在攀升，尤其是2017年第二季度。一定程度上，采集

体现了文章的枯燥程度和价值，读者认为有价值的文章会被保留和采集

，反复阅读，包括英翠华，这说明虎嗅的文章质量在不断提高，或者读者数量在增长。

　　3.2 出版时间规律分析

　　笔者从时间维度提取了“周”和“期间”的信息，即提取”

　　人工特征“在开篇题目中提到，现在对”周“和”小时“上的文章分布数进行交叉分析，得到下图：

　　上图是热图，颜色的颜色表示值从大到小的变化。很明显，中间有一个色彩很丰富的区域，即围绕“6点~19点”和“周一~周五”的矩形，即发布时间主要集中在工作日的白天。另外，周一到周五，6~7点的时间段是发帖高峰期，说明虎嗅的内容运营人员倾向于在工作日的凌晨发文章，这也符合其人群定位--- TMT现场从业者、创业者、投资人，很多人都有早上看书的习惯，喜欢在赶地铁、坐公交车的过程中看虎嗅消息。还有一个高峰期9点到11点，以提前应对午休期间读者的阅读，17~18点提前处理读者下班后的阅读。

　　3.3 相关性分析

　　笔者一直很好奇，评论数、采集

数、标题字数与文章中字数之间是否存在统计学上的显著相关性。基于此，笔者绘制了两张可以反映上述变量之间关系的图。

　　首先，笔者在标题中的字数、字数之间做了一个气泡图

　　文章中的字数和评论数（圆形气泡被六角星取代，但它本质上是一个气泡图）。

　　上图中，横轴是文章中的字数，

　　纵轴是标题中的字数，评论数的大小由六角星的大小和颜色来反映，颜色越暖，值越大，越大

　　五角星，值越大。从这个图中可以看出，大多数文章评论较多的文章都分布在一个由6000字和标题20字组成的区域。虎嗅互联网上的商业信息文章大多具有原创性和深度的特点，文章长度中等，这意味着事情背后的来龙去脉可以一目了然，标题必须能够吸引人，引发读者的大量阅读，而标题的适当长度和正文长度可以做到这一点。接下来，作者将文中的采集

数、评论数和标题字数、字数

　　绘制成三维三维地图，X轴和Y轴分别是标题字数和正字数，而

　　Z轴是由集合和评论的数量组成的平面，通过旋转这个三维的Surface地图，我们可以发现集合的数量，评论的数量与标题单词的数量和文章中的单词数量之间的相关性。

　　注意，上图的数字表示与

　　前面的图相同，颜色从暖到冷表示值由大到小，通过旋转每个维度的横截面，可以看到在5000字的正字数内，题目数和字数约15字的集合和评论量形成的部分出现“华山式”陡峭的高峰，所以这里的采集

和评论量是最大的。

　　3.4 城市提及分析

　　在此，作者通过构建收录

我国1~5个线城市的词汇表，提取预处理文本中的城市名称，根据提及频率的大小绘制反映城市提及频率的地理分布图，进而间接了解每个城市互联网的发展情况（一般城市的提及与互联网行业有联系，产品及岗位信息，能在一定程度上反映我市互联网行业发展趋势）。

　　上图反映的结果比较符合常识，北京、上海、深圳、广州、杭州等一线城市被提及最多，是互联网产业发展的重要城市。值得注意的是，长三角地区大片区域（长三角城市群，包括上海、南京、无锡、常州、苏州、南通、盐城、扬州、镇江、江苏台州、杭州、宁波、嘉兴、湖州、绍兴、金华、舟山、浙江台州，合肥、芜湖、马鞍山、铜陵、安庆、滁州、池州、宣城）表现出较高的人气价值，这直接表明，这些城市在虎嗅网的各种信息文章中被提及的频率更高。结合国家政策和区域因素，地图中反映的这个事实可以这样理解：

　　长江

　　三角洲城市群是“一带一路”与长江经济带的重要交汇点，在我国国家现代化建设和全面开放的大局中具有举足轻重的战略地位。是参与国际竞争的重要平台，经济社会发展的重要引擎，长江经济带龙头开发区，我国城镇化基础最好的地区之一。

　　接下来，笔者将提取文中城市之间的共现关系，即两个频率城市

　　间同时发生，在一定程度上反映了城市之间在经济、文化、政策等方面的相关关系，共发生频率越高，两者的紧密程度越高，提取结果如下表所示

　　将上述结果绘制为以下动态流向图：

　　由于虎嗅网站上的文章大多涉及创业、政策、商业，城市间的共生关系反映了城市之间在资源、人员或产业方面的关系，而这张动态地图主要反映了北京、上海、广州、深圳、杭州（网络中的枢纽节点）之间的相互流动关系，以及这些一线城市向中西部城市的单向流动。高流量、密集交错的区域无疑是中国和其他几个新兴城市群最发达的三个城市群：

　　以上数据分析是基于对数值数据的描述性分析，接下来笔者将进行更深入的文本挖掘。

　　4. 文本挖掘

　　数据挖掘是从结构化数据库中识别有效、新颖、潜在有用且最终可理解的模式;文本挖掘（也称为文本数据挖掘或文本数据库中的知识发现）是从大量非结构化数据（即有用的信息或知识）中提取模式的*敏*感*词*化过程。有关文本挖掘的详细信息，请参阅数据操作|数据分析，文本分析远比数值分析重要！为什么文本分析在操作中比数值分析更重要？一个实际案例，五点分析（下）”。

　　本文的文本挖掘部分主要涉及高频词统计/关键词提取/关键词云、文章标题聚类、文章内容聚类、文章内容LDA主题模型分析、词向量/关联词分析、ATM模型、词汇分散图和词聚类分析。

　　4.1 关键词提取

" />

　　对于关键词提取，作者没有采用词频统计的方法，因为词频统计的逻辑是：一个词在文章中出现的次数越多，它就越重要。因此，作者使用了TF-IDF（术语频率-反向文档频率）的关键词提取方法。

　　它用于评估单词/单词对其中一个文档中的重要性

　　文档集或语料库，单词/单词的重要性与它在文档中出现的次数成比例增加，但同时与它在语料库中出现的频率成反比。

　　可以看出，在提取某段文本的关键信息时，关键词提取比词频统计更可取，可以提取对某一段文本具有重要意义的关键词。

　　以下是笔者使用jieba从近400MB预处理的语料库中提取的TOP100关键词。

　　从

　　宏观角度来看，从上面可以清楚地识别出3种关键词：从

　　微观角度看，第一位置是“用户”，互联网从业者把“用户为王”、“用户至上”和”

　　以用户为中心“，然后是”平台“和”企业”。

　　笔者选择了TOP500关键词来画关键词云。因为虎嗅的名字来源于英国当代诗人齐格弗里德·沙逊的著名诗歌《在我身上，老虎嗅玫瑰》，词云是以“老虎嗅玫瑰”为主，找不到老虎嗅玫瑰的画面，所以换成了它的近亲猫，词云如下：

　　4.2 LDA主题模型分析

　　刚才对关键词的分类比较粗糙，人为的划分难免有偏差，无法达到综合效果。因此，作者采用LDA主题模型来发现该语料库中的潜在主题。LDA主题模型的相关原则请参考《【干货】利用大数据文本挖掘洞察“共享单车”的行业现状和趋势》第4部分。

　　一般情况下，笔者将主题数设置为10个，运行几个小时后，结果如下：

　　获得：

　　可以看出，文本预处理后的语料比较纯粹，通过每个主题下的“主题词”，很容易从这10个集群中识别出几个主题，但是其中3个主题是混合的（每个主题收录

2个主题），但这并不影响作者的后续分析，主题分类如下表所示：

　　电子商务

　　和O2O：此主题收录

2个部分，即主要电子商务平台（淘宝，等）的零售;O2O（线上线店线下消费），商家免费开设网店，向消费者展示商家信息、产品信息等，消费者线上筛选服务，以及支付、线下消费验证和消费体验。

　　巨人战略：主要是国内三家BAT公司的营收、融资、并购，以及进入互联网新领域的信息。用户和

　　社交：主要与用户和社交媒体（微博、QQ、微信、直播平台等）相关的信息。创业：涉及创业者、

　　创新模式、创业公司等所有与创业相关的话题，作者印象最深的就是创业的难度。

　　人工智能：进入移动互联网时代，各种在线数据的不断积累和快速发展

　　硬件技术的发展，大数据时代已经到来，随之而来的是人工智能，这一领域是*敏*感*词*IT巨头竞争的焦点。智能手机：智能手机的

　　普及是移动互联网时代崛起的催化剂之一，自2012年以来，“东风（国内智能手机公司）”逐渐压倒“西风（国外智能手机公司）”，国产智能手机品牌整体崛起，苹果、小米和锤子的每一次手机发布会总能在互联网社区引发热议。

　　影视

　　娱乐：影视文化产业作为一个政策支持力度大、利润丰厚的行业，吸引了无数资本的关注。金融资本与电影产业碰撞的背后，是中国影视消费市场的快速崛起。国外好莱坞大片的不断引进和票房创下新高，直接刺激了国内影视从业者提升自身编剧和制作水平，导致近三年诞生了一大批影视佳作，如《夏洛特烦恼》《湄公河行动》《战狼2》。

　　互联网金融互联网金融

　　（ITFIN）是指传统金融机构和互联网企业利用互联网技术和信息通信技术实*敏*感*词*融商业模式。2011年以来，互联网金融经历了金融业务突飞猛进发展的实质性阶段，国内互联网金融呈现出多种商业模式和运行机制。从2014年底贾跃亭宣布乐视“SEE计划”到2017年10月中旬，乐视网亏损16亿元，贾跃亭财富在不到3年的时间里缩水400亿元

　　无人驾驶：无人驾驶是通过人工智能系统实现无人驾驶的智能汽车，在本世纪呈现出接近实际使用的趋势，尤其是近5年，比如谷歌自动驾驶汽车在2012年5月获得了美国首个自动驾驶汽车牌照，现在特斯拉的无人驾驶汽车已经上市。随着技术和硬件的不断进步，越来越成熟，成为国内互联网巨头想要夺冠的王冠。游戏

　　与IP：网络游戏据说是互联网金融之外黄金指数最强的互联网行业，这从近期引爆《王者荣耀》成都主创团队的年终颁奖活动就可以看出来，更何况当下的流行语“吃鸡”;同时，随着互联网IP产业的不断深入和发展，体育、娱乐、文学等领域越来越重视版权和IP，在当前互联网+时代，IP呈现出多元化发展态势。

　　以下是

　　以上话题在这些4W多4W的文章中，可以明显看到，虎嗅首页的文章报道的更多是互联网行业各大巨头的行业动态，其次是影视娱乐的崛起，除了无人驾驶的报道较少，其他话题的报道量相差不大，而且它更加平衡。

　　同样，关于每个主题的文章数量随着时间的推移而变化：

　　在上图中，我们可以清楚地看到，“巨人战略”话题的头版帖子数量一直保持在较高水平，其次是“人工智能”话题，在虎嗅网首页2013年第一季度出*敏*感*词*融”报出量较大，由此可知，这一阶段互联网金融正处于爆发阶段，这一时期互金行业的重大事件有：小米投资积木盒进军互联网金融（9.10），发布消费金融战略（9.24），蚂蚁金服集团成立（10.16），2014年全年是“众筹元年”，P2P进入洗牌季，央行密集下令直接监管互联网金融，这些事件或政策足以引发互联网行业的热议，引发这一时期话语权骤然上升。

　　4.3 情感分析与LDA主题模型交叉分析

　　结合以上LDA主题模型分析结果，笔者采用基于深度学习的情绪语义分析模型（该模型有6种情绪，即喜怒、悲伤、惊讶、恐惧和中立）对这些文章的标题进行分析，得到每篇文章的情绪标签，处理结果如下表所示。

　　交叉分析主题和情绪维度，得到下图：

　　从上图可以看出，每个主题下的标题情绪以中性为主，突出了作者和官方客观中立的态度，但在

　　时代当今标题方猖獗，全民口味沉重，对提议的标题过于中立也意味着平淡无奇，难以触发读者的阅读行为，所谓“品牌有品，营销有情”，能成功挑起读者情绪的作者绝对是高手，所以，除了上图中的中性情绪，第二位是愤怒，疯狂撕扯，点燃读者情绪;再次有悲伤，在现实生活中，悲伤总是唤起同情和共鸣。

　　4.4 ATM型号

　　在这一部分，笔者想了解虎嗅网各位作家的写作主题，分析一些牛X作家喜欢写什么样的文章（如“行业洞察”、“爆款营销”、“新媒体运营”等），以及有哪些作者有相似的写作主题。

　　出于这个原因，作者使用ATM模型

　　进行分析，注意这不是ATM的缩写，而是作者主题模型：ATM模型（作者-主题模型）

　　也是“概率主题模型”家族的一员，是LDA主题模型（潜在狄利克雷分配）的延伸，可以分析语料库中作者的写作主题，找出作家的写作主题倾向，找到具有相同写作倾向的作家，是一种新颖的主题探索方式。

　　首先，作者删除了一些作者，其中包括

　　发表文章1篇，然后从文本中“提取”出多个主题，因为删除了文本数量，所以与之前的主题划分不一致。根据每个主题下主题词的特点，笔者将这10个主题总结为：“行业新闻”、“智能手机”、“创业与投融资”、“互联网金融”、“新媒体与营销”、“影视娱乐”、“人工智能”、“社交媒体”、“投融资与并购”、“电子商务零售”。

　　接下来，笔者将对自己感兴趣的一些作者及其相关作者的写作主题进行一定的分析。

　　第一位是锤子科技创始人罗永浩，笔者一直觉得他是个怪人，我看到他之前在虎嗅网上签过文章，就想看看他在虎嗅网上写了什么：

　　从老罗的写作题材及其概率分布来看，他更倾向于写创业、融资、智能手机和新媒体营销的文章，这更符合大众认知，因为擅长打情感牌的老罗喜欢谈创业和他对手机的理解，而且由于他鲜明的个性和犀利的语言，他经常为他的锤子品牌说话。

　　根据文档ID，作者找到了他发表的文章：

　　单看标题，ATM模型相当巧妙，可以从老罗的文章中了解他写作的主题。

　　接下来是虎的作者，他们写的话题与老罗相似，发表文章数量大于3篇：

　　接下来是虎嗅自己的媒体，首页有超过10，000篇文章，涵盖“行业新闻”，“智能手机”和“新媒体与营销”等主题

　　除了一些个人自媒体人，类似主题的作者还包括一些媒体，如环球网、财富华人、彭博商业周刊等。从前面的分析可以推断，他们在上述三个话题上也发了比较大的发帖。

　　在这10189篇文章中，作者按文档ID随机选取了几篇文章的标题，并粗略地进行了核实。然后，将这些标题绘制为独角兽形状的词云。

　　从上面的标题及其关键词云来看，预测的话题还是相当合理的。

　　让我们来看看另外两家我比较感兴趣的自媒体---混沌大学和21世纪经济报道。

　　从以上两张图可以看出，混沌大学对“创业与投融资”和“新媒体与营销”等主题的关注偏向于为创业者提供创业相关技能;《21世纪经济报道》偏爱“投融资并购”、“行业新闻”“智能手机”等话题，更符合媒体的报道风格---分析国际形态，洞察中国经济，观察行业动态，引导良性发展，有效反映世界经济格局和变化，跟踪报道中国工商界动态和发展。

　　4.5 词法色散图

　　接下来，

　　笔者想了解虎嗅网首页4W+文章中一些单词在2012.05~2017.11之间的定量分布及其位置信息（单词在文本中的位置），那么可以使用词法离散图（词法离散图）分析，可以揭示一个词在文本中的分布（Producea图显示单词在文本中的分布）。

　　作者首先按时间顺序排列待分析的文本，然后在分词后进行词汇离散图分析。因此，文本中字数的累积增加与时间积极流逝的方向相吻合。图中的纵轴代表词汇量，横轴是文本中的字数，是累积的;蓝色竖线表示该单词在文本中被提及一次，横轴可以看到其位置的信息，空白表示未提及。蓝色垂直线的密度和起源表示该词在某个阶段被提及的频率和年份。

　　从以上关键词和主题标题中，笔者选取了14个字进行分析，结果如下：

　　从上图可以看出，“智能手机”、“移动支付”、“O2O”和“云计算”四个词在过去6年中一直很受欢迎，被提及非常频繁，几乎饱和在酒吧。相比之下，“互联网教育”、“3D打印”、“网络直播”，虎嗅网络上的这些报道并不多，从头到尾只有零星提及。值得注意的是，后期“共享单车

" />

　　”的提及次数明显增加，呈爆炸性外观，与共享单车的出现更加吻合，对于共享单车的数据分析，请参考《【干货】利用大数据文本挖掘洞察'共享单车'行业的现状和趋势》。

　　4.6 词向量/联想词分析---当我们谈论XX时，我们在说什么

　　深

　　基于神经网络的词向量可以从大量未标记的普通文本数据中学习无监督的词向量，这些数据收录

单词之间的语义关系，就像单词可以由它们保留的公司定义一样。

　　原则上，word2vec，基于单词的嵌入是指将一个高维空间，将所有单词数量嵌入到一个维度低得多的连续向量空间中，并且每个单词或短语被映射为实数域上的向量。将每个单词变成向量的目的还是为了便于计算，比如“找到单词A的同义词”，这可以通过“在cos的距离上找到与单词A最相似的向量”来完成。

　　接下来，笔者通过Word2vec，找到了我感兴趣的几个词的相关词，从而在虎嗅网独特的语境下进行解读。

　　因此，

　　笔者依次分析了“百度”、“人工智能”、“楚世坚”和“罗振宇”关键词的相关词汇。

　　出来的都是与百度有关的词，而不是百度的产品、公司，或者百度的CEO和经理，“搜索”这个词变相出现了很多次，是百度启动的一大法宝。

　　与“AI”相关的词汇，也是对人工智能细分和目前比较流行的几个应用场景的一个很好的解释。

　　和楚世坚一样，相关词中的前几位名人（牛根生、胡雪岩、陆冠秋、王永清、宗庆侯）也是著名的商界精英，“老头子”、“楚老”“橙王”都是外界对外界的尊称。有意思的是，楚老还有一些政治人物（毛主席、蒋介石主席）的英雄气概，有“东方没了，桑玉也不迟”和“等从零开始，清理老山老河”的豁达精神和乐观主义！

　　然后是资深媒体人、传播专家、“知识货币化”践行者罗振宇，他的很多见解都能颠覆大众原有的观念。与罗发类似的有沈音（网络真人秀《怪异杰》创始人兼策划人，罗振宇的创业伙伴）、吴晓波（吴晓波频道和社区创始人）、Papi酱（知名搞笑网红）、马东（现《怪语》主持人）、李湘（APP上“李湘商业内参考”创作者）、纪世三（创始人）、李笑来（著名的财务自由传道者）、吴伯凡（文字不完整，《21世纪商业评论》出版，著作有《东吴相对论》《百日记》等）....

　　4.7 互联网百强企业品牌的词聚类与词分类

　　2016年，互联网百强企业互联网业务收入总规模达到1.07万亿元，首次突破万亿大关，同比增长46.8%，带动信息消费增长8.73%。数据显示，互联网领域的龙头企业效应越来越明显，他们的研究分析可以帮助我们更好地了解中国互联网产业的发展和未来方向。

　　笔者在此选取2016年入选的互联网百强企业，名单如下：

　　针对以上百强互联网公司的品牌目录，笔者使用上面训练的词向量模型进行如下的词聚类和词分类。

　　4.7.1 词聚类

　　利用基于Word2Vec（词向量）的K-Means聚类，充分考虑词与词之间的语义关系，将余弦角值小的词聚集在一起形成聚类群。下图是压缩到二维空间的高维词向量的可视化表示：

　　作者将词向量模型中收录

的所有单词分为 300 个类别，以了解品牌聚类在此设置下的效果如何。分析结果和正则化如下：

　　从上面的结果中，有些分类比较容易理解，比如土峰（网）和驴母旅游网，都是搞旅游的，人人贷、陆金所和拍拍贷都是搞互金的，这些词多出现在“行业语境”中，基于同义关系聚集成在一起，同行业。但这些集群大多不是按行业来的，而是出现在其他语境中，请看下面两段：第一波人口

　　红利始于 2011 年，而这波人口最初就是 3 亿重度网民的核心，或者简单地说，就是那个时代购买小米手机和 iPhone 的用户浪潮，包括三星。他们是一二线城市的年轻人口。所以大家看，包括我们自己投资的美图、知乎、今日头条、小米都在跟着这波人群走。

　　第二波人口

　　从2013年开始，2014年，这波人口是什么？这波人口潮其实是移动互联网向三四线城市下沉带来的人口红利，是二三四线城市相对年轻的人群。我们简单想想购买OPPO和ViVO手机的人。这波红利带来了包括快手、盈科在内的一系列涨势，包括微博的二次崛起。

　　虽然上面粗黑的品牌不属于同一个行业，但它们都出现在“移动互联网的人口红利”的背景下，所以单从这个语境来看，它们就可以归为一个类别。

　　因此，

　　以上聚类可能是由于各种词在不同语境中的出现，如果深入挖掘，可能会发现一些有趣的线索。篇幅有限，所以留给好奇的读者吧。

　　4.7.2 词的分类

　　在这里，作者仍然使用之前训练的词向量，根据CNN（卷积神经网络，卷积神经网络）对文本进行分类进行预测。CNN的具体原理过于复杂，笔者这里就不赘述了，有兴趣的伙伴可以参考以下参考资料。

　　由于文本分类

　　和上述文本聚类在机器学习中是不同的任务，前者是监督学习（所有训练数据都有标签），后者是无监督学习（数据没有标签），因此，在正式文本分类任务开始之前，笔者首先使用标注语料库对模型进行训练，然后预测后续的未知文本。

　　在这里，笔者按照互联网公司细分的不同分为17个类别，每个类别只有少量的标注语料参与培训，也就是寥寥数语。是的，你没看错，借助外部语义信息（之前训练的词向量模型已经收录

了很多语义信息），你只需要一点标记的语料库就可以完成分类模型的训练。

　　接下来，

　　作者用之前训练语料中没有出现的词来检验效果，结果是品类标签及其对应的概率，概率值较大的品类就是品牌最有可能所属的细分市场。结果如下图所示：

　　以上结果符合大家的基本认知，在小规模测试下，准确率还算可以接受，最后还有一个难度更大的，笔者从来不知道的国外互联网公司：

　　通过谷歌，我了解到Waze是一家以色列技术公司，制作众包导航地图。前段时间，它着火了，被谷歌以10亿美元收购。虽然它的产品不受谷歌地图等强大卫星图像的支持，但它可以向用户社区提供有关交通状况、交通事故和测速区域的实时信息（地图弹幕是可视化的）。“众包”和“实时信息”分别对应“共享经济”和“即时通讯”，更符合预测标签的内涵，可以在一定程度上预测企业的业务属性。

　　4.8 互联网百强企业共现分析

　　上面做的互联网百强公司的聚类分析和分类分析，似乎是一个“黑匣子”，其内在机制让我们不容易理解。接下来，笔者将做基于“图论”的品牌共现分析，从网络视角分析前100大企业品牌之间的关联关系。

　　提取上述百强企业品牌的共生关系，形成如下社会网络图：

　　在上图中，每个节点代表一个人，线条粗细代表品牌之间的强弱环节，相同颜色的节点表示它们（在一定条件下）属于同一类别。节点的大小和字体表明了品牌在网络中的影响力，这就是“中介中心性”，学术上说是“两个非连续成员之间的交互取决于网络的其他成员，特别是那些位于两个成员之间路径上的成员，他们对两个非相邻成员之间的交互有一定的控制和约束。也就是说，更大的影响力意味着品牌链接更多的合作机会和资源，拥有更多的互联网接入。

　　先看前10名网红，其次是腾讯、微信、百度、QQ、阿里巴巴、淘宝、、小米、网易和新浪微博，“腾讯部”占据前10名3席，实力强势可见一斑。

　　让我们看一下按颜色区分的 6 个集群：

　　以上分类大多通俗易懂，浅绿色系统（乐居、房天下）从事房地产，亮*敏*感*词*系统（人人贷、帕泰贷款）从事互联网P2P金融，黄橙色系列（汽车之家、易车、易派）是互联网汽车领域的品牌。值得注意的是，小米的深绿色系列，多看、MIUI、天一阅读，

　　以小米为中心MIUI是小米的产品，更多的看（reading）已经被小米收购，天一阅读曾经是小米捆绑的阅读软件，不过，蜗牛游戏与之前的不同，有一篇文章的标题是这样的： “蜗牛发布手机攻略，石海：不做小米第二”，是小米在手游领域的对手。

　　此外，品牌与品牌的关系

　　浅蓝色（腾讯、微信、百度、QQ、网易、搜狐等）和洋红色（阿里巴巴、淘宝、、新浪微博、天猫等）两个集群更为复杂，次母公司、兄弟品牌、跨界合作、竞争关系、跨界竞争、融资兼并的关系可能在这两类集群中结合。

　　结论

　　在本文的文本挖掘部分，人工智能/AI的实际应用其实已经涉及到---关键词提取、LDA主题模型、ATM模型属于机器学习、情感分析、词向量、词聚类和词分类都涉及深度学习知识，这些都是AI在数据分析中的真实应用场景。

　　此外，本文是

　　一篇探索性的数据分析干货文章，不是数据分析报告，重点是启发思路，授人以鱼，得出具体结论不是本文的目的，分析结果分散在各个部分，“结论控制在文章末尾”不喜欢喷。

　　引用：

　　1. 数据来源：虎嗅官网，2012.05-2017.11

　　2. 苏格兰折叠喵，“数据操作|在数据分析中，文本分析远比数值分析重要！（第一部分）”

　　3. 苏格兰折喵，为什么文本分析在操作中比数值分析更重要？一个实际案例，五点分析（下）。

　　4. 苏格兰折叠喵，干货|如何使用社交列表从社交媒体上“提炼”有价值的信息？

　　5.苏格兰折叠喵喵，“干货|作为一名合格的“成长黑客”，你还要注意对外部数据的分析！》

　　6.苏格兰折喵，“以《大秦帝国崛起》为例，再说大数据舆情分析和文本挖掘”

　　7. 苏格兰折叠喵，《【干货】利用大数据文本挖掘洞察'共享单车'行业现状与趋势》

　　8.Word2vec 维基百科条目，/wiki/Word2vec

　　9、《工业和信息化部发布2016中国互联网百强企业榜单》

　　10. 宗承庆，“自然语言理解：（06）词法分析与词性标注”，中国科学院

　　11.理解NLP卷积神经网络

　　12.Yoon Kim，用于句子分类的卷积神经网络

　　13. 霍夫曼、布莱、巴赫。2010. 潜在狄利克雷分配的在线学习

　　14.托马斯·米科洛夫、陈凯、格雷格·科拉多和杰弗里·迪恩。向量空间中单词表示的有效估计。ICLR研讨会论文集，2013年。

　　15.托马斯·米科洛夫、伊利亚·苏茨克弗、陈凯、格雷格·科拉多和杰弗里·迪恩。单词和短语的分布式表示及其组合性。NIPS论文集，2013年。

AI时代内容工厂

汇总:织梦发布管理让网站快速收录与关键词排名

0 个评论

发起人

AI时代内容工厂

汇总:织梦发布管理让网站快速收录与关键词排名

0 个评论

发起人

相关问题