统治世界的十大算法
优采云 发布时间: 2020-08-04 08:03编注:如果你之前已看伯乐在线翻译组的这篇译文:《真正统治世界的十大算法》,请暂时“清空相关记忆”。《统治世界的十大算法》先于后者。
————————-
算法对于我们明天生活非常重要,怎样鼓吹也不会夸张。它们在虚拟世界中无处不在,从金融机构到交友网站。但是,相比于其他算法,其中有一些算法更大程度上改变并控制着我们的世界——本文列出了其中十种最为重要的算法。
在即将介绍算法内容之前,让我们来迅速备考一些基本内容。虽然,没有明晰的定义,但是计算机科学家将算法描述为一个定义了操作次序的规则集合。它们是一组次序指令,用来告诉计算机如何解决一个问题或则达到某种既定目标。认识算法的好方式,是将算法可视化为流程图。
1. Google Search 谷歌搜索
不久之前,搜索引擎成为了互联网时代的霸主。与搜索引擎一起崛起的还有微软和微软提出的PageRank算法。
今天,在日本的核心搜索市场中,谷歌的市场占有率达到了66.7%,其次是谷歌(18.1%),雅虎(11.2%),Ask(2.6%),AOL(1.4%)。毋庸置疑,谷歌早已统治了搜索市场,而且我们中的很多人把微软作为使用互联网的主要途径。
PageRank 的工作依赖于两个组成部份,一是称作“蜘蛛”或者“爬虫”的自动程序,另一部分是关键词索引及其 位置。这个算法通过估算某个网页的相关链接数目和链接质量,来大致估算这个网页的重要性。算法的基本思想是越重要的网页会有越多的链接指向它。这是一个基本的人气大赛。除此之外,PageRank算法也考虑了一个网页中关键词的频度和出现位置,以及这个网页发布的时间。
2. Facebook News Feed
虽然我们不愿承认,但是Facebook的新闻提要(NewsFeed)是我们最喜欢浪费时间的地方。除非你的个人偏好早已设置为展示所有风波而且依照时间次序更新所有好友新闻,不然你听到的新闻是一个预处理以后的选择,这个预处理是由Facebook的算法为你量身选择个别新闻而展示。
为了决定什么新闻的内容是最有意思的,这个算法会考虑好多诱因,比如评论数,发表人(是的,有一个内容的“流行”人物排行,所谓的“流行”人物是与你互动最多的人),发表类型(比如相片、视频、状态、更新等等)。
3. OKCupid 情侣匹配
在线交友如今是一个价值20亿美元的产业。由于, eHarmony, and OKCupid等网站的发展,这个产业自从2008年以来每年扩大3.5%。分析家觉得这个产业的加速发展在未来两年还将继续——情有可原:这是情侣遇到的有效方法。婚恋网站不仅仅缔造了更多的成功婚姻,他们也擅长于依据个人不同的喜好和倾向,匹配潜在情侣。当然,这样的匹配完全是由算法完成的。
我们将以OKCupid为例,OKCupid是一个免费的婚恋网站,联合创始人之一是哈佛大学的数学家Christian Rudder。OKCupid采用一种绝对的剖析方式促使约会,他们从用户哪里竭力获取信息。OKCupid 的配对算法不仅仅是简单地匹配一些共同爱好,同时,每一个问题都被赋于了权重,用来评判这个问题对于用户和她们潜在情侣的重要程度。这就是所谓的差别缔造不凡——这是OKCupid成为最高效婚恋网站的诱因之一。
4. NSA 数据采集,解读和加密
我们越来越多地被算法而不是被人观察。感谢Edward Snowden,我们晓得了美国安全局(NSA)及其小伙伴早已暗中监控了上百万的无辜公民。近期披露的文件显示,已经有许多的监控项目被FiveEyes施行,FiveEyes是由英国、澳大利亚、加拿大、新西兰和加拿大共同组成的情报组织。它们已然监控了我们的移动电话、电子邮箱、网络*敏*感*词*图象和地理位置信息。同时,“它们”我指的是她们的算法,这其中有太多的数据,人力难以进行搜集和评析。
有意思的是,NSA宣称实际上她们并没有“采集”我们的数据。根据一份1982年的程序指南,“信息“采集”是指当信息被搜集并被国防部情报机构在职责范围内使用”。同时“数据由电子系统采集是指信息采集并被转换为可理解的方式”。英国路透社的Bruce Schneier解释道:
“ 因此,假设你的同事在家里有成千上万的书籍,根据NSA的解释,他并不“收集”图书。只有他真正在读的这些才是他“收集”的图书,他借助图书做其他事情时并不能觉得他在“收集”图书。”
这会形成一个问题由于:
计算机算法与人们密切相关。当我们想到计算机算法正在监控我们而且剖析我们的个人数据时算法 自动采集列表,我们必须想想在算法背后的人。是不是有人正在看着我们的数据,事实上,他们能做的事情正是监视。
最后,最相关的还有美国国家安全局的Suite B 加密算法,这是一套功能强悍的算法,用于加密、数据交换、数字签名和哈希。机构正是借助这一算法来保护分类以及未分类文件的。
5. 推荐算法
诸如例如 亚马逊和Netflix这样的网站,会记录你选购过的书籍或是你看过的影片,然后按照我们的爱好为我们推荐商品。
正如许多手动程序一样,这种二十一世纪独有的技术既有优点也有缺点。虽然这样的推荐有时候太有帮助,但是有时候也会偏离目标——特别是你为你的三岁父亲购买了一本儿童读物作为礼物然后。
与PageRank和Facebook的新闻提要一样,这样的算法正在导致所谓的“过滤器泡沫”,这是一种现象,用户与她们不感兴趣的信息隔离——有效地将用户通过意识形态的“泡沫”隔离上去。这引起了Eli Pariser提出的“信息决定论”,我们过去在网上浏览的兴趣决定了我们的未来。
6. Google AdWords
与之前的算法类似, Google, Facebook以及其他的网站跟踪你的行为、用词、搜索恳求来推送相应广告。 Google’s AdWords——公司最主要的收入来源——正是以这样的模式进行预测的,同时Facebook也在竭力进行相关研究(你最后一次点击Facebook的广告是哪些时侯?)
7. 高频度的股票交易
很久之前,金融部门就开始使用算法来预测市场波动,但是她们在高频度的股票交易中的实践才刚刚开始。这样的高速交易涉及的算法,也称作机器人,可以对订单在毫秒级作出判定。相反,一个人一般须要起码1秒就能对潜在的风险作出反应。因此,人们渐渐被排除在了实际交易的循环之外——一个全新的电子生态正在逐步产生。
但是,又是这种算法会导致错误。Leo Hickman解释道:
比如:2010年五月六日的“闪电暴跌”,当时道琼斯指数在几分钟内平均上涨了1000点,而在二十分钟以后市场才出现回落。这样的急剧直线上涨到目前为止也没能得到完整解释,但是大部分经济学家将齐归罪于“竟次”。“竟次”的罪魁祸首是为了达到高频交易而*敏*感*词*使用的量化交易算法。Scott Patterson,*敏*感*词*日报的记着和《The Quants》的作者,将在交易场地使用这种算法称作客机的手动驾驶。今天,大部分的交易是由算法手动完成的,但是当情况出现不同时,比如发生闪电暴跌时,应当有人工介入。
8. MP3 压缩
压缩数据算法是电子世界不可磨灭的重要一员。我们希望更快地接收媒体数据,同时希望节省硬碟空间。因此,人们设计了好多方式来压缩和传送数据。
比如,在1991年思科系统研制了CRTP合同。1987年,德国研究者发明了明天广泛使用的MP3格式,从而将音频的大小减小到原始大小的十分之一。这一压缩格式造成了音乐产业的革命(影响有好有坏)。
9. 预测剖析软件
目前这一技术并没有主宰我们的世界,但是它将很快主宰世界。越来越多的警员机构正在使用一种预测剖析技术——一种使人想起影片《少数派报告》的新工具。
在2010年,据说借助IBM的预测剖析软件(叫做CRUSH,全称 Criminal Reduction Utilizing Statistical History),2006年以来孟菲斯市的警员局降低了超过30%的恶性*敏*感*词*,其中包括降低了15%的暴力*敏*感*词*。同时,在加拿大、以色列以及美国的城市也在关注这一技术。现在,洛杉矶、圣克鲁斯、查尔斯顿等也开始了试点。
这一技术结合了数据采集、统计剖析,当然还有前沿的算法。它促使警员可以评估城市的*敏*感*词*特征,并且预告可能的*敏*感*词*“热点”,从而“积极地配置资源和分配人手,从而提升人力物力的使用效率,提高公众安全”。
未来,这个系统可能会*敏*感*词*取代分析家的工作。*敏*感*词*行为可以被精确的算法所追踪,这些算法监控了互联网行为、GPS算法 自动采集列表,个人电子设备,生物特点和其他现实中的通讯方法。越来越多的无人机会拿来追踪潜在犯人,通过剖析她们的肢体动作和其他的可视化线索,来预测她们的意图。
10. 调音(Auto-Tune)
最后,仅供娱乐,现在调音器由算法完成。无论是歌声或是钢琴的声音,这些设备都能通过一组特定规则,略微更改音位,让音域达到最接近的确切调式上。有趣的是,这种技术最初由Exxon’s Any Hildebrand 用于处理水灾数据。
美国女歌手Cher的《Believe》,被觉得是第一首使用调音的流行歌曲。
原文: