官方数据:你要的所有数据源都在这里了!
优采云 发布时间: 2022-11-23 06:32官方数据:你要的所有数据源都在这里了!
作为一名数据分析师,经常需要查询一些数据来完善程序逻辑和分析结果,所以整理了一些常用的数据网站分享给大家。
1. 常用数据源
1.1 全国数据链接:(全国数据)数据来自中国国家统计局,包括我国经济和民生各方面的数据,涵盖月度、季度、年度。比较全面和权威。对社会科学研究有用,帮助不大。最重要的是网站简洁美观,还有专门的视觉阅读资料。1.2 CEIC链接:(Global Economic Data, Indicators, Charts & Forecasts)最完整的超过128个国家的经济数据集,可以准确找到GPD、CPI、进出口、外商直接投资、零售额、销售额、以及国际利率和其他深度数据。其中,“中国经济数据库”收录了300多条,000时间序列数据,数据内容涵盖宏观经济数据、行业经济数据和区域经济数据。1.3 Wind资讯链接:(Wind资讯--中国领先的金融数据和分析工具服务商)Wind号称中国的彭博社。它在金融行业拥有全面的数据覆盖。财务数据的类别更新非常快。深受国内商业分析师和投资者青睐。1.4 搜书链接:(新版搜书-中国信息专线)载入搜书统计数据7874条,涵盖统计表1761009个,统计数据364580479条,是中国信息专线自1992年以来采集
的所有统计数据和调查数据,并提供多种搜索功能。1.5 中国统计信息网链接:(中国统计信息网)国家统计局官方网站,每年采集
大量各级政府国民经济和社会发展的统计信息,建立统计公报、年鉴、阶段统计。发展数据、统计分析、经济新闻、主要统计指标排名等。 1.6 Amazon aws来自亚马逊的跨学科云数据平台,收录
化学、生物、经济等多个领域的数据集。
1.7 figshare链接:(credit for all your research)研究成果分享平台,在这里可以找到世界各地大咖分享的研究成果,同时还能得到里面的研究数据,内容很有启发性。
1.8 如果github觉得之前的数据源不够用,github上的大佬们为大家整理了一个非常全面的数据获取通道,包括各个细分领域的数据库资源,自然科学和社会科学的覆盖面非常全面。它是研究和数据分析的强大工具。1.9 世界城市CAD 共享世界主要城市的CAD文件。有些城市比较老,可以凑合。
1.10启信网链接:(企业注册信息查询|企业经营信息查询|企业信用信息查询平台-启信宝)启信宝是苏州贝拉数据科技*敏*感*词*旗下的企业征信产品,旨在为用户提供能够快速查询企业信息、*敏*感*词*判决信息、关联企业信息、司法拍卖信息、失信信息、执行人信息、知识产权信息、公司新闻、招聘信息等服务。通过多模式查询,多选项筛选,查询结果更准确,查询内容更详尽!是泛金融、泛投资、泛法律、泛商务(如销售、采购)相关人士的首选工具!1.11环境云链接:(环境云-环境大数据免费开放平台)环境云是环境大数据服务平台,是南京云创大数据科技*敏*感*词*全新开发的全面、稳定、便捷、免费的环境数据开放服务平台。环境云环境大数据服务平台获取权威数据源(中国气象网、中央气象台、国家环保部数据中心、美国全球地震信息中心等)发布的各类环境数据,形成覆盖全国的环境监测传感器网络。1.12 PM2.5是一个为大家提供空气质量监测数据的网站,数据采集自环保部。1.13 世行公开数据链接:
1.14 中国统计年鉴链接:(中华人民共和国国家统计局>>中国统计年鉴)中国统计年鉴,国家统计局编着。
1.15体育大数据链接:(体育大数据-首页)
2.交易数据
" />
2.1 游易数据
链接:(友谊数据_大数据交易创新平台_数据定制_数据交易_数据API) 2.2 数据堂链接:(数据堂_大数据交易平台)专注于互联网综合数据交易,提供数据交易、处理和数据分析,包括语音识别、医疗健康、交通地理等数据、电子商务、社交、图像识别等。 2.3 数据淘链接:(Data Amoy)数据淘是数据的垂直搜索工具,也是数据供求双方自由交流的平台。
2.4数据宝链接:(中国数据宝-大数据交易平台)首个省部共建的大数据资产运营管理平台。
3、指数数据研究
3.1 百度索引(Baidu Index)是大家比较熟悉的索引查询平台。根据指数的变化,可以查看某个话题在各个时间段的关注度,对于趋势分析和预测非常有用。除了关注趋势,还有需求分析、人群画像等精准分析工具,对市场调研有很好的参考意义。同样,另外两个搜索引擎搜狗和360也有类似的产品,可以作为参考。3.2 阿里指数(Ali Index - Socialized Big Data Analysis Platform)是中国权威的商品交易分析工具,可以按地区、行业查看商品搜索和交易数据。基于淘宝的交易数据,天猫和1688平台可以基本看到国内商品交易的概况,对于趋势分析和行业观察具有重要意义。3.3 链接艾瑞:(iResearch-生活梦想科技载体)艾瑞作为老牌互联网研究机构,在数据沉淀和数据分析方*敏*感*词*有得天独厚的优势。比较互联网趋势和行业发展数据分析 权威,艾瑞的互联网分析报告可以说是互联网研究的必读刊物。3.4 友盟指数(【友盟+】全球领先的第三方全球大数据服务商)友盟在移动互联网应用数据统计和分析方面拥有较为全面的统计和分析。对研究移动终端产品、做市场调研、用户行为分析很有帮助。除了友盟指数,友盟的互联网报告也是了解互联网趋势的优秀阅读材料。
3.5 爱奇艺指数链接:(爱奇艺指数_首页)爱奇艺指数是一个专注于视频播放行为和趋势的分析平台。对互联网视频播放进行全面的统计分析,涉及播放趋势、播放设备、用户画像、地域分布等诸多方面。由于爱奇艺庞大的用户基础,该指数基本可以说明实际情况。3.6 猫眼专业版(Maoyan Professional Edition)电影票房统计分析平台,猫眼专业版有实时的票房统计、电影排片、上座率和影院数据,这些都是分析当前电影必不可少的。3.7龙芯创新指数 为助力“全民创新”“全民创业”,北京大学国家发展研究院与龙信数据合作,综合利用企业数据库、专利数据库、商标数据,创建了一个由企业家出生数量构成的当前指数,综合反映区域创新成果的创新指数由风险投资、专利获取、商标注册、新企业注册号、外商投资获取六个维度。2015 年 6 月 25 日,首份研究报告和 2013 年全国各省市、百强市、百强县区域创新指数排名正式发布。 3.8 中国城市拥堵排名报告(高德交通-中国' 《主要城市交通分析报告》)报告基于高德积累的海量交通数据,通过大数据挖掘计算得出,通用的算法和理论保证了报告的合理性和科学性。报告采用“拥堵延误指数”作为城市拥堵的评价指标,即城市居民平均一次出行实际出行时间与畅通状态下出行时间的比值。表达交通拥堵给出行者带来的时间成本。本报告从多个维度客观反映城市交通拥堵情况,力求准确、精准、准确,为公共交通出行、制度研究、政府决策提供有价值的理论参考。通过大数据挖掘计算,通用算法和理论保证其合理性和科学性。报告采用“拥堵延误指数”作为城市拥堵的评价指标,即城市居民平均一次出行实际出行时间与畅通状态下出行时间的比值。表达交通拥堵给出行者带来的时间成本。本报告从多个维度客观反映城市交通拥堵情况,力求准确、精准、准确,为公共交通出行、制度研究、政府决策提供有价值的理论参考。通过大数据挖掘计算,通用算法和理论保证其合理性和科学性。报告采用“拥堵延误指数”作为城市拥堵的评价指标,即城市居民平均一次出行实际出行时间与畅通状态下出行时间的比值。表达交通拥堵给出行者带来的时间成本。本报告从多个维度客观反映城市交通拥堵情况,力求准确、精准、准确,为公共交通出行、制度研究、政府决策提供有价值的理论参考。作为城市拥堵的评价指标,即城市居民平均一次出行的实际出行时间与畅通状态下出行时间的比值。表达交通拥堵给出行者带来的时间成本。本报告从多个维度客观反映城市交通拥堵情况,力求准确、精准、准确,为公共交通出行、制度研究、政府决策提供有价值的理论参考。作为城市拥堵的评价指标,即城市居民平均一次出行的实际出行时间与畅通状态下出行时间的比值。表达交通拥堵给出行者带来的时间成本。本报告从多个维度客观反映城市交通拥堵情况,力求准确、精准、准确,为公共交通出行、制度研究、政府决策提供有价值的理论参考。
四、研究机构
4.1 BCL北京市实验室
(Home)4.2 CityFormLab 链接:(Projects — City Form Lab)
4.3 城市数据实验室链接:(THUPDI技术创新中心)
" />
4.4 北大轨迹数据可视化链接:
5.数据采集
5.1优采云
(优采云
采集器官网络-网页爬虫工具_优采云
Collector_免费网站采集软件) 一款专业的互联网数据抓取、处理、分析、挖掘软件,可以灵活快速的对网页中分散的数据信息,以及通过一系列的分析和处理,准确挖掘出需要的数据,最常用的是采集
某些网站的在线资源,如文字、图片、数据等。接口比较齐全,支持的扩展也比较好用。5.2优采云
(优采云
collector - 最好的网页数据采集器)是一款简单实用的采集器,功能齐全,操作简单,无需编写规则。独特的云采集,采集任务也可以在电脑关机的情况下在云服务器上运行。
5.3 极搜客(免费网络爬虫软件-网络爬虫工具-GooSeeker网络爬虫)是一款简单易用的网页信息爬虫软件,可以抓取网页文字、图表、超链接等网页元素,提供简单易用的Web爬虫软件、数据挖掘策略、行业资讯和前沿技术。
6.API接口数据
6.1 好服务(API数据接口_开发者数据定制_免费数据调用_好服务数据)为企业提供准确、全面、快速的一站式数据服务平台。是北京畅游互联网旗下的数据平台。
6.2 图像识别开放平台链接:(试用及文档|图扑科技)
6.3 天狗云链接:#healthy(天狗云文档中心-API接口_健康、医疗、生活、农业开放平台) 6.4 极速数据 6.5 百度API商店链接:(API Store_为开发者提供最全面的API服务)
6.6聚合数据链接:(API数据接口_开发者数据定制_免费数据调用-聚合数据)
官方数据:日志易V4.2重磅发布,自研信创数据搜索引擎Beaver性能数倍增长
LogEasy V4.2 发布。新版本在配置和检索效率、Beaver性能等方面取得了显着提升,同时增加了字段标准集等个性化功能,并在Agent配置界面进行了深度优化。实现性、安全可靠性、可操作性、视觉效果等方面全面提升用户体验。
智能功能不断丰富
新领域标准集
随着采集的数据越来越复杂,各种分析场景的实现对数据质量的要求也越来越高。良好的数据治理可以帮助企业深入挖掘数据的价值,而提升数据质量往往是企业开展数据治理工作的第一步,也是数据治理的重要目标之一。LogEasy V4.2新增现场标准集功能,满足用户对现场标准集中管理的需求,为后续数据治理构建坚实的框架基础,帮助用户提升数据质量。如下图,一个字段标准集下可以设置多个字段标准,一个字段标准包括字段名称、字段类型、校验规则等内容设置。该功能还支持用户分析字段提取的质量。质量分析默认结果包括字段覆盖率、离群率等,分析结果可以保存为趋势图、报表等,也可以添加二次处理报表,形成新的分析结果。
标准集作为一种新的资源类型,配置了灵活的权限控制设置,可以授权指定用户使用,支持导入、导出等操作。
搜索框字段/值提示完成
新版本将LogEasy的SPL(Search Processing Language)语句提示和关键词高亮调整为SPLServer提示,搜索匹配结果的准确度显着提高。用户可以使用LogEasy V4.2新增的Typeahead方式获取字段名和字段值的提示,系统会提供索引最快获取的前10个值。同时,LogEasy会验证当前索引的查看权限,在保证检索速度的前提下,将敏感数据泄露的概率降到最低。
定时任务可选输出/试运行
以前,计划任务的结果默认选择计划索引。新版本增加了自选输出功能,可由用户自定义。也可以对选定的输出执行输出索引。实际输出的数据可以在定时任务运行的历史列表、选择的索引或者第三方数据库中查看。. 同时,系统会伪造一个schedule_id,避免污染定时运行的schedule_id数据。
定时任务列表新增执行结果展示
新版本新增定时任务列表,显示最近24次执行结果的成功或失败状态。历史详情页还支持显示相关的成功或失败状态,用户可以准确查看与失败状态关联的错误内容。
显示相关任务的数据库输出
在LogEasy V4.2版本中,定时任务采用数据库输出的方式,关联的定时任务会显示在数据库输出列表中,用户在修改或删除数据库输出时可以知道关联的内容,从而避免误用。
监控配置支持趋势图预览
在新版本中,用户在监控配置项中填写查询语句、查询时间范围、统计函数、统计字段、执行间隔等必要的配置信息后,可以点击生成预览趋势图。历史数据的完整分析和趋势图展示,帮助用户更准确地定义触发阈值。对于分组阈值,用户还可以预览每个分组条件下各自关联的趋势图。
新型数据库连接
LogEasy V4.2新增了SQLServer、Informix等数据库连接类型,还支持为JDBC URL添加自定义扩展参数。
高基数字段的风险提示
新版本增加了高基数字段风险提示功能。根据当前查询范围内前1000条数据命中的字段值,可以用感叹号Icon提示可能是字段列表中的高基数字段,防止用户误以为是作为 groupby 字段。,避免误操作造成的系统风险。
" />
新增个性化SPL命令,增强深度搜索能力
添加了提前输入命令
LogEasy V4.2新增的typeahead命令,支持直接访问对应索引时间范围内的倒排索引数据,可以快速返回对应term的倒排链长度,适用于快速返回类型估计的场景.
添加休息命令
通过新版本新增的rest命令,用户可以直接调用API获取返回数据,免去重复的手动创建操作,提高效率和准确性。
搜索命令下沉
加入搜索命令下沉后,LogEasy V4.2支持去除日志中raw_message倒排索引部分进行存储,日志扩容率降低0.28,有效降低了存储成本。
新版本支持切掉raw_message倒排数据,仍然对存储的部分进行过滤,达到一定的查询效果。同时,搜索下沉在某些搜索场景下可以极大地提高检索效率。例如,当使用 * | 搜索apache.status:200进行检索,系统仍会使用apache.status的列存数据,检索时间比从原创
日志中过滤快几倍到十倍
Beaver调优升级,性能提升数倍
海狸
Docvalue kPrefix 类型的额外压缩优化
额外压缩后,查询性能会比第一次查询有明显提升,多次统计的耗时可以减少几十倍。Pipeline中相应的字符串性能得到了显着提升
索引默认模式优化
LogEasy V4.2中,新增索引默认采用高压缩模式,帮助用户有效节省存储资源
智能可视化持续提升
网络流程图
LogEasy V4.2 中的网络流程图与旧版本中的力引导图相比,增加了节点图标样式。用户可以自由设置节点和连接的配色方案,自由配置连接文本和布局方向。
富文本报表支持插入页码
新版本支持用户在富文本编辑器生成的Word文件上插入页眉和页脚,还可以选择插入页码,设置页码位置、对齐方式等。
表格提供配色方案和斑马纹样式
" />
新版本配置了类似Word的表格式编辑区,支持设置表头颜色、斑马线样式等,也可在趋势图、仪表盘、报表配置中统一使用。
单行事件的原创
配色方案
在旧版本中,配色方案仅区分不同的字段。新版本针对关键信息raw_message引入炫彩显示效果,重点更加突出,有效提升用户浏览效率,减少重要事件的耗时处理。
每个资源列表的列宽优化
为了更好地适配低分辨率投影仪、小屏幕等显示场景,新版本对平台页面效果进行了优化。该页面会自动检测当前屏幕宽度。当宽度小于大屏阈值时,隐藏部分列,如常用的创建用户等;当宽度继续减小到小屏的阈值时,不再压缩列宽,滚动视图变为横屏。
代理模块多重优化
代理新增数据源列表样式优化
新版本将列表形式升级为卡片形式,交互更简洁。
常见场景代理配置界面
新版本基于界面梳理了脚本采集的Crontab支持、S3采集的区域输入、Kafka采集的编码认证等插件的高级配置项,大大简化了配置流程,有效提升了可操作性。
代理插件配置界面
新的插件配置会自动在列表中显示除密码以外的必填列。
代理安装包服务器上传
新版本支持通过服务器上传Agent安装包,以应对部分客户电脑浏览器对上传文件大小的限制。
Agent提供重复采集排查工具
新版本提供重复采集排查工具,帮助技术人员排查文件是否被不同配置重复采集。
公司简介
北京优特捷信息技术*敏*感*词*(简称“机机易”)是国家级专精新型“小巨人”企业,专注于机器大数据平台、服务和解决方案的研发,致力于帮助各行业用户挖掘和利用机器数据的价值,提升数字化运营能力,轻松应对IT和业务挑战。
公司推出了LogEasy智能日志中心、SIEM安全大数据分析平台、LogEasy LAS日志审计一体机、可观测性监控平台ObservationEasy、智能运维平台、数据工厂、LogEasy大屏等系列产品等产品,一站式解决机器数据采集、清洗、存储、搜索、分析、可视化等需求,帮助企业轻松实现查询统计、安全合规审计、业务关联分析、监控告警、安全信息化以及事件管理SIEM、用户和实体行为分析UEBA、安全编排自动化和响应SOAR、智能运维AIOps、IT可观测性等应用场景。
此外,集集易还提供了服务于中小企业的SaaS标准版。从2016年开始,DiaryEasy开始开拓国际业务。同年11月,发布英文版产品,并已为海外客户提供服务。经过8年多的发展,公司业务已从日志分析扩展到智能运维、安全分析、可观察性等领域。目前,公司在北京、深圳、天津、武汉设有研发中心,在全国20多个重点城市拥有100余名专业服务团队和员工,覆盖全国300多个地级市。形成了完整的销售网络和专业的服务体系,真正践行客户需求至上,
目前LogEasy开发的低代码编程语言SPL(Search Processing Language)已经实现了300个函数和指令,全面覆盖日常运维分析和安全分析工作的需求,后台对接各种机器学习算法实现智能运维AIOps。此外,LogEasy还研发了国内首款高性能高可用日志搜索引擎Beaver,每天可处理PB级海量日志。与国外通用开源搜索引擎相比,Beaver的性能提升了10倍,硬件成本也有所降低。50%。