即将发布:2022 Tesla AI Day
优采云 发布时间: 2022-11-19 16:14即将发布:2022 Tesla AI Day
人工智能算法就像电影的主角。我们在看电影的时候往往只看到主角们的光彩,但其实电影的创意和呈现都来自于他们背后的导演和制作团队。人工智能算法背后的数据相关软件、设施和虚拟团队,就像电影导演和制片人一样。他们是塑造算法并实现算法的核心力量。在这篇文章中,我将使用2022年特斯拉AI日发布的信息,遵循上述1.路径和运动规划算法:当算法植入终端(汽车或机器人)时,终端通过算法感知环境,规划路径,确保安全顺畅。前进。2. 环境感知算法: - 占用算法,即
- Lane & Objects 车道和对象算法,交通信息的语义层是车道线、对象识别和运动信息。然后共享算法背后的数据和相关的软件设施。总体框架如下: 3.训练算法设施和软件:
- 训练数据设施,超级计算中心用于支持数据处理和算法训练。- 人工智能算法的编译器和推理是训练算法的框架和软件方法。4. 数据标注、采集和虚拟化: - 自动标注算法,训练环境感知算法必须需要已经标注好的数据,自动标注算法就是标注数据,训练环境感知算法识别这样的场景或者物体。
- 环境虚拟化,合成制造虚拟场景。- 数据引擎、实景车、获取实景环境数据的测试软件、闭环数据引擎、校正标签等。
3. 训练算法设施和软件算法是基于数据训练的,也就是需要大数据来喂养。特斯拉表示,它需要训练 Occupancy Networks 算法。特斯拉目前已经从采集
的视频中提取了 14.4 亿张图片。它需要训练这些数据,这需要 100,000 个 GPU 满负荷工作一个小时到 90 度。
但在现实中,特斯拉建设的三个超级计算中心使用了 14000 个 GPU,其中 4000 个用于数据的自动标注,10000 个用于训练算法。
目前分布式视频缓存有30PB,1PB=1048576GB,想想30PB有多大。其中提取了1600亿张图片。而且这些数据不是静态的,而是动态流动的,每天有50万个视频被缓存和轮流替换,每秒转换40万个视频。那么很显然,特斯拉现在的数据中心,按照正常的方法是肯定不会工作的。同时,可想而知特斯拉对GPU超算的饥渴。此外,特斯拉还想加速其计算能力。特斯拉必须自己制造芯片。但是只要有一个芯片就行了?显然,海量数据的管理和训练方法是一个难题。那么如何优化训练这个庞大的数据呢?困难在哪里?这已经成为特斯拉现在正在考虑的问题。特斯拉'
为此,您必须考虑数据量、数据流带宽、CPU、内容和机器学习框架的分配。对于多个 GPU 的同时操作,您必须考虑 GPU 之间的延迟和带宽。这很复杂。
特斯拉的计划是:首先,视频是动态的、复杂的,不是简单的图像机器学习。特斯拉的视频到图像再到学习的过程是动态的,所以第一步加速视频库可以增加30%的训练。速度。
Tesla 使用 Pytorch 进行视频压缩工作,并对视频库进行加速。比如下图中的I帧(帧内编码图片)就是一张完整的图片,比如JPG或者BMP图片文件。P-frames(预测图片)只保存图像与前一帧相比的变化。例如,在汽车驶过静止背景的场景中,只需要对汽车的运动进行编码。编码器不需要在 P 帧中存储恒定的背景像素,从而节省了空间。P 帧也称为增量帧。另一个是视频数据的分类。说实话,比较复杂。等你以后有时间有价值的时候再仔细看看吧。
总的来说,通过这种方式,Tesla 实现了 2.3 倍的训练速度提升,现在 Tesla 可以在几天内使用 1024 个 GPU 从头开始聚合这些数据。另外,数据不断被压入计算中心,轮到计算芯片了。如何优化处理算法?这里提到了算法编译编译器和引用推理。
什么是算法编译器和推理?我们在理解这一部分的时候,首先要了解什么是算法编译器编译器,它将AI算法模型映射到高效的指令集和数据流。它还执行复杂的优化,例如层融合、指令调度和尽可能重用片上内存。
为什么要优化编译器?事实上,特斯拉的人工智能算法代码是并行运行、重复、回滚的。特斯拉要解决的问题是如何高效地运行芯片上的代码,比如不重复计算,计算紧密排列。空闲不阻塞,可以减少延迟,降低功耗。
怎么做?
Tesla 设计了一个中央操作的 Arc Max 将稀疏性(例如车道的空间位置)编码到首页,然后选择学习算法过程链接到首页。然后在静态内存SRAM中建立查询表,将重复的算法存放在缓存中,这样就不需要重复计算,只需要查询调用。
" />
因此,特斯拉表示,在FSD车道识别算法中,这段代码将其算法的延迟提升了9.6ms,能耗仅为8w左右。
特斯拉表示,这种编码思维贯穿于整个特斯拉 FSD 算法,特斯拉构建了全新的算法编译器,编译了 1000 多个算法信号
如此一来,特斯拉通过对编译器和推理的优化,保证了超算力、低功耗、低延迟的AI计算。那么分享完算法优化和计算优化之后,接下来就是关于数据的。4、数据标注、采集和虚拟数据标注,毫无疑问,人工智能的基础是基于真实的数据,总结规律,然后生成公式进行预测,也就是算法的形成。输入的数据越多,算法公式就越准确。所以海量数据是精准算法的基础,而海量数据的前提是这些数据需要被标注,也就是告诉机器这些数据是什么?有两种数据标记方法。第一个是人工标注,依靠人类来标记数据。这是一种非常费时费力的方法,但现实中确实是这样做的,有的还只是人工完成的。二是自动贴标。还记得上一篇文章《人工智能算法的三个基础数学》,其中一个是聚类,你可以把它看成是分类,而自动标注就是用分类的方法来标注。自动贴标显然是一件省时省力的事情,下面我们就来看看特斯拉是如何使用自动贴标的。困难在哪里?以上述车道算法为例,特斯拉认为,要实现十字路口车道算法,需要数千万次驾驶行程,通过大约100万个十字路口。特斯拉目前大约有 500 辆,每天000次行程,但很难将这些行程转化为可训练的数据。特斯拉表示,已经尝试过各种手动和自动贴标方式,显然是不可能的。
因此,特斯拉研发的全新自动标注算法,可以自动标注10000次驾驶行程的12小时,可以抵消500万小时的人工标注。
特斯拉是怎么做到的?特斯拉表示,其车道自动标注算法主要采用以下三个步骤来实现:
首先通过车辆获取车辆的高精度轨迹信息,然后通过算法将多行程重构为地图,再自动标注车道信息网络。详细步骤如下:
1、获取高精度轨迹。如上所述,特斯拉每天可以获得50万次出行。这些行程采集
的信息是车辆的视频,车辆运动的IMU陀螺仪,以及作为原创
信号输入的速度。1 个 CPU 线程(所有启用 FSD 的车辆都会生成此信息)进行跟踪和优化,特征提取输出车辆的 6-DOF 100hz 轨迹和 3D 结构道路细节。2. 多行程重构,因为所有车辆信息都来自于不同的车辆,所以需要根据他们的高精度轨迹信息匹配行程的道路信息,重构,接缝优化,包面优化,最后是人工分析进行最终校验,形成多次行程的轨迹信息。
3.自动标注行程。当然,自动标注只会标注新增的行程,不会重建所有的片段,所以标注一个行程大约需要半个小时,而不是人工标注几个小时。特斯拉声称,这种标注方式极易扩展,只需要有计算单元和驾驶行程信息。如上图所示,在视频的时间内,自动标注了53辆车的50组数据。. 当然,特斯拉也表示,自动标注的方式适用于特斯拉算法的方方面面。
不过,特斯拉表示,现实数据很难获取和标注,而传统 3D 场景的重建却极其缓慢。因此,特斯拉表示,在虚拟验证方面,应用一种新的方法,可以在5分钟内构建出一个3D虚拟场景。
虚拟验证能做什么?
特斯拉的建模是先将场景的ground truth输入到3D建模软件Houdini中,首先开始构建道路的边缘,构建路面的地理特征,然后将车道信息投影到路面中,并然后用路中间的小岛边缘形成一个绿岛。有了这样的基本主要特征,道路两边的树木和建筑物就可以随意建造了。
有了这些基础,再引入地图交通信息,比如红绿灯和停车位、车道信息,甚至是道路的真实名称。
后来偶尔引入行人,车流构成了场景的基础。然后可以改变场景的天气和光线,形成无穷无尽的模拟场景进行自动驾驶验证。当然,特斯拉表示,以上只是基本的。事实上,很多自动驾驶公司应该可以做到这一点。比如之前的文章《》提到通用的Cruise也采用了它。特斯拉更进一步,改变了真正价值的道路,形成了新的道路。场景,比如之前算法中的路口车道线场景,可以改变里面的车道信息,根据真实场景创建更多的变体场景,帮助算法训练,而不是仅仅通过真实世界的采集。
因此,有了虚拟数据,特斯拉可以快速进行各种场景的虚拟测试,优化算法,省去耗时耗力的实际测试。如何?特斯拉表示,其主要创新和亮点是虚拟验证架构,可以保证一切串联运行。
" />
如前所述,在虚拟世界的建模中,首先有*敏*感*词*实值信息,然后元素创建者将交通信息标签转化为元素,比如上面提到的车道线、路缘石、建筑物等都是元素。然后使用元素抽取工具将信息分成几何信息和交通实例元素放入150平方米的Geohash中,并命名为ID,方便加载调用。
这样建模信息更简洁,加载和渲染也更容易。然后,使用元素加载器工具,Tesla 可以使用 Geohash ID 代码加载任意数量的缓存切片。通常,兴趣点及其周围环境是在虚拟时间中加载的。最后,虚拟引擎生成场景。
通过这种方式,特斯拉可以让一名工程师以 2 周的时间来生成一个旧金山街道的虚拟世界,而不是以数月甚至数年为一个单元。同样,特斯拉可以利用这种PDG技术快速扩展到其他地方或城邦,或者更新原有的虚拟世界,保证数据根据现实动态发展。数据引擎 - 现实数据采集
器 为什么?其实我在看这一章的时候就在想,特斯拉的仿真能力这么强,为什么还需要一辆真正的跑车来采集数据呢?事实上,很多corner case极端场景需要通过真实场景发现,然后优化数据,帮助解决人员干预。
先看看这一幕。特斯拉的 FSD 正在进入弯道。经过这里时,我看到旁边有一辆汽车。现有算法下的特斯拉会认为有车等着过去,所以特斯拉自动驾驶这辆车。会减速,但实际上这是一个奇怪的停靠点,里面没有人。
这种场景估计是任何脑洞大的虚拟验证都无法想象的。必须有一个实际场景来识别这种corner case极端场景,所以自动驾驶的真实场景数据的采集必须是可用的,而且还是动态开发的。时间、不同的城市、不同的文化都会有不同的数据。因此特斯拉构建了一个工具来识别误判并纠正标签并将剪辑归类为需要重新评估的系列。在这个场景中,特斯拉将其诊断为具有挑战性的场景,并在转弯处停车。目前,特斯拉已经识别出 126 个这样的场景,挖掘并促进了 13,900 条视频数据的训练,以提高预测准确性。
要解决这种场景,特斯拉需要挖掘成千上万个这样的场景,而特斯拉可以使用数据采集车(客户的车,或者自己的测试车)和设备采集和修正标签来解决这个问题。琐碎的场景。
特斯拉将这个数据引擎框架实现到所有算法的持续优化中。特斯拉的数据引擎是从实验模型、虚拟验证到最终用户的完整流程。无论是3D多*敏*感*词*视频数据,无论是人工标注、自动标注还是模拟数据,无论是离线模型还是在线模型。
特斯拉能够*敏*感*词*使用数据引擎基础设施,为特斯拉的算法提供数据食粮。主要原因是其庞大的车队:终端用户车影模式传输客户使用FSD时的干预信息,以及实验车队再确认数据。总结
看完特斯拉的算法、数据等结构,我的第一想法是“高级coder玩的是思维方式和艺术结构,而不是按照规则交付”。当然,我无法评价这种算法结构的好坏,但可以肯定的是,特斯拉的智能驾驶算法是一种坚定的态度思考。
特斯拉的算法态度和思维是“基于视觉的人工智能算法,它必须能够自动驾驶和导航汽车或机器人,就像人类只用眼睛和大脑来实现安全驾驶或步行到目的地一样。” 这种态度和思维就像人工智能算法的数学基础一样,“任意两点之间一定有一条直线可以连接它们”。当然,特斯拉的最终理想是将这样的算法扩展到AGI(Artificial general intelligence,通用人工智能(AGI)理解或学习人类可以完成的任何智力任务的能力。),让我们拭目以待,但到底是什么?可以肯定的是,这条路一定是坎坷的。
参考文章和图片
特斯拉 AIDay 视频
*未经许可严禁转载和摘录-参考资料获取方式:
加入我们的知识星球汽车可以在公众号下载大量参考资料,包括以上参考资料。.
>>>>
外媒:如何对竞争对手网站进行谷歌SEO分析?
谷歌SEO分析,
顾名思义,是通过SEO的一些数据进行的比较分析。在Google SEO中对比公司自身网站与竞争对手网站的差距,通过一些SEO基础数据发现企业面临的挑战和机遇。以下是一些重要的SEO相关数据:
1. 网站权威评分:这些数据可以通过第三方工具(如Semrush,Aherfs等)进行查询。Google SEO行业普遍认为,权重分数越高网站排名越好,因此,我们可以使用权重分数来了解企业与同行之间的差距,以及我们可以在哪里努力。
2.有机关键词:了解商家与竞争对手之间的有机关键词来判断他们的SEO投放,关键词越多,越多和
网站本身的登陆页面越丰富,获得关键词排名的机会越多,网站的流量就越高。
3.网页分析:通过对竞争对手的网络分析,采集竞争对手网站流量和更好的排名页面,从而了解哪些信息可能是用户最想看到的,通过这些页面的页面内容分析,我们可以看到我们是否有机会做得更好。4.反向链接:也称为反向链接,
外部链接等,反向链接是指在其他网站中导入自己的网站的链接。导入链接是网站优化的重要过程。导入链接的质量(即导入链接所在页面的权威性)间接影响我们网站在搜索引擎中的权威性。反向链接是互联网的血液,也是一种链接。没有链接,信息是孤立的,因此,我们什么也看不到。很难在网站中做所有事情,因此您需要链接到其他网站,吸收其他网站可以补充的信息,并且连接反向链接不是数量,而是链接反向链接的质量。反向链接不仅可以增加网站的权重,还可以提高关键词的排名。高质量的外部链接可以网站带来良好的流量。
5、品牌流量:一方面通过第三方数据了解竞争对手通过品牌相关关键词获得的流量占比,从而了解他们在品牌建设方面的投入;另一方面,通过查询品牌相关词的平均每月搜索量,我们可以了解品牌的市场份额。通过企业与竞争对手两方面的对比,了解企业在互联网上的品牌知名度,从而制定增加品牌流量的相关策略。根据不同网站引擎力流量数据分析得出的结论是,一个成熟的外贸独立网站约40%的流量来源来自直接流量,约40%来自自然搜索流量,约10%来自付费流量,其他来自社交流量和第三方平台。这些数据仅供参考,因为它会随着互联网的发展以及社交媒体和其他新兴媒体的普及而变化。
6. 谷歌收录 一方面,通过搜索品牌词,查看搜索结果中是否有以下信息:
(1)品牌词搜索结果中是否存在大页面的附加链接,如果有,则说明网站结构清晰,或网站流量高。(2)是否有谷歌知识图谱,
以及相应的知识图谱内容是否详细,是否绑定了社交网络、URL、内容介绍、公司标志、谷歌地图等;如果是这样,则意味着品牌价值得到了体现。
(3)是否有维基百科词条,维基百科都是全球网络上最大、最受欢迎的参考书,跻身全球十大最受欢迎的网站。能够出现维基百科条目将给用户极大的信任感;如果有维基百科词条,则表示该品牌具有一定的知名度,或者该品牌具有较强的网络营销思维。
(4)品牌词搜索是否与官网第一名对应,对应的标题和描述信息是否详细;如果品牌搜索结果是第一个,则官网正常;如果对应的标题和描述信息全面,则表示网站已关键词布局。
(5)是否存在购电协议。
(6)是否有最新消息。
(7)是否有相关视频推荐。
(8)是否显示图像搜索结果。
另一方面,从网站查看的页面数量:URL收录
通过这个结果,我们可以了解网站收录页面是否正常,收录了多少页面,从而了解竞争对手在网站上内容的投入情况,大致得到一个标准供我们参考。
7. 谷歌
Sitelink:对于一些权重较高的网站,当用户用 Google 搜索一个关键词时,认为网站结果是最权威的来源,Google 会返回正常列表,并且还会显示四行两列,总共有八种内部链接结构,称为“sitelink”。
8. 核心关键词
了解竞争对手获得流量和排名的核心关键词,以了解竞争对手对您的产品和公司的定位程度。
9. 网站流量
通过比较网站流量
企业与竞争对手网站,了解您所在行业的流量情况,了解我们与竞争对手之间的流量差距;您还可以查看流量趋势图以了解流量的波动。
10. 流量来源
流量来源,
以谷歌数据统计工具GA为参考,通常网站流量来源如下:
(1)自然流量:即通过自然关键词搜索获得的流量
(2)直接流量:即通过输入URL直接访问的流量
(3)展示广告流量:指通过谷歌展示广告获得的流量
(4)付费流量:指通过谷歌搜索支付获得的流量
(5)第三方流量:指谷歌搜索引擎以外的搜索渠道或网站资源带来的流量
(6)社交流量:指通过社交媒体获得的流量,如脸书、优酷、Instagram、推特、LinkedIn、Quora、Reddit、微信等渠道。
(7)其他流量:上述渠道以外的流量,如第三方广告工具带来的流量
通过交通
分析企业和竞争对手的网站,我们可以更全面地了解获得流量的渠道和相应渠道获得的流量,从而合理配置资源。
扫描下方二维码