抓取网页数据(作为数据科学家，我还有机会吗？——数据科学招聘状况如何？)

优采云发布时间: 2022-01-02 22:13

　　“作为数据科学家，我还有机会吗？”不，你应该成为一名数据工程师。

　　数据无处不在，而且只会增加。在过去的 5-10 年里，数据科学吸引了越来越多的新人加入。

　　但如今数据科学招聘的现状如何？在采集了多家公司的招聘信息后，亚马逊 Alxea 团队的机器学习科学家 Mihail Eric 在他的个人博客中写了一篇分析文章来解释他的想法。

　　数据胜于雄辩。他分析了自2012年以来Y-Combinator孵化的每家公司发布的数据领域职位。研究问题包括：

　　在数据领域，公司最常招聘的职位是什么？

　　经常讨论的对数据科学家的需求是什么？

　　这些技能是否使公司重视正在引发当今数据革命的技能？

　　以下是博客文章的主要内容：

　　方法

　　我选择分析声称使用某些数据作为其价值主张一部分的 YC 风险投资公司。

　　主要关注 YC，因为它提供了一个易于搜索（可抓取）的公司目录。此外，作为一家特别有远见的孵化器，十年来为全球多个领域的企业提供投资。我认为他们为此分析提供了具有代表性的市场样本。但请注意，我没有分析超大型科技公司。

　　我从 2012 年开始抓取了每家 YC 公司的主页 URL，并建立了一个收录 1,400 家公司的初始池。

　　为什么从 2012 年开始？ 2012年，AlexNet在ImageNet大赛中获胜，掀起了当前机器学习和数据建模的热潮，第一批数据优先的公司诞生了。

　　我对初始池进行了关键词过滤，以减少需要浏览的公司数量。具体来说，我只考虑了网站至少收录以下术语之一的公司：AI、CV、NLP、自然语言处理、计算机视觉、人工智能、机器、ML、数据。同时不要考虑那些网站链接失败的公司。

　　这种操作应该会产生很多错误的结果。我意识到会对每个网站进行更细粒度的人工检查以了解相关角色，因此我尽可能优先考虑高召回率。

　　在这个过滤后的资源池中，我遍历了每个网站，找到了他们发布职位信息的位置，并在标题中注明了所有收录数据、机器学习、NLP 或 CV 的职位。这使我能够建立一个资源库，其中收录来自大约 70 家不同公司的招聘信息。

　　还有一个小错误：我错过了一些公司，一些网站虽然招聘信息很少，但他们实际上在招聘。此外，有些公司没有正式的招聘页面，而是要求应聘者直接通过电子邮件与他们联系。我忽略了这两种类型的公司，它们不在本次分析和研究中。

　　另外一点是，本次调研大部分是在2020年最后几周完成的。由于公司定期更新招聘页面，空缺职位可能有所变化，但我认为这对得出的结论影响不大。

　　数据从业者应该负责什么？

　　在深入研究结果之前，值得花一些时间弄清楚每个数据域位置通常负责什么。我会抽空介绍以下四个职位：

　　数据科学家负责使用各种统计和机器学习技术处理和分析数据。他们通常负责构建模型以探索可以从某些数据源中学到什么，但模型通常处于原型级别而不是生产级别；

　　数据工程师负责开发一套强大且可扩展的数据处理工具/平台。他们必须熟悉SQL/NoSQL数据库和ETL管道的组织和构建/维护；

　　机器学习 (ML) 工程师通常负责训练模型和生产模型。他们需要熟悉一些高级 ML 框架，并且必须能够轻松地为模型构建可扩展的训练、推理和部署管道；

　　机器学习 (ML) 科学家致力于前沿研究，他们通常负责探索可以在学术会议上发表的新想法。在交给机器学习工程师进行生产之前，机器学习科学家通常只需要对新的 SOTA 模型进行原型设计。

　　值得一提的是，与传统数据科学家相比，开放数据工程师的职位数量增加了很多。在这种情况下，就最初雇用的公司数量而言，数据工程师比数据科学家多约 55%。，并且机器学习工程师的数量与数据科学家的数量大致相同。但是如果你看一下各个职位的名字，你会发现似乎有些重复。

　　我只提供了一个合并职位的粗略分类，即当不同职位、不同角色负责大致相同的内容时，将其合并为一个名称。包括以下一组等价关系：

　　NLP工程师≈CV工程师≈ML工程师≈深度学习工程师（虽然领域可能不同，但职责大致相同）

　　ML 科学家≈深度学习≈ML 实习生

　　数据工程师≈数据架构师≈数据总监≈数据平台工程师

　　以百分比表示：

　　一般来说，合并会使差异更加明显。开放数据工程师的数量比数据科学家多 70%。此外，开放 ML 工程师的数量比数据科学家多 40%。机器学习科学家的数量仅占数据科学家的 30% 左右。

　　结论

　　与其他数据驱动的职位相比，对数据工程师的需求正在增加。从某种意义上说，这代表着这个方向正在走向更广阔的领域。

　　5 到 8 年前，机器学习火了，公司需要能够对数据进行分类的人才。但后来Tensorflow、PyTorch等框架发展的很好，使得深度学习和机器学习的起步能力得到普及，随之而来的是数据建模技能的商业化。今天，发展的瓶颈在于帮助企业获得关于生产级数据问题的机器学习和建模意见。例如，考虑以下问题：

　　如何注释数据？

　　如何处理和清理数据？

　　如何将其从 A 移动到 B？

　　如何尽快完成这些任务？

　　这一切都意味着这个职位需要良好的工程技能，而偏向数据的传统软件工程可能才是我们现在真正需要的。但这是否意味着您不应该学习数据科学？并不真地。这意味着竞争将更加困难。对于准备培养成为数据科学人才的初学者来说，可用的职位会越来越少。当然，总是需要能够有效分析数据并从数据中提取可操作洞察力的人，但这些洞察力必须非常出色。

　　很明显，公司通常需要混合数据从业者，他们可以构建和部署模型。或者更简洁地说，您可以使用 Tensorflow，但您也可以从源代码构建它。

　　这项研究的另一个发现是 ML 研究职位很少。机器学习研究往往得到大量资源的支持，因为它是顶级研究，例如 AlphaGo 和 GPT-3。但对于许多公司，尤其是处于早期阶段的公司来说，最先进的 SOTA 技术可能不再是必要的。达到 90% 的最佳模型性能并同时扩展到 1000 多个用户通常对他们来说更有价值。

　　但您可能会在行业的研究实验室中找到许多此类角色。他们可以长期承担资本密集型的赌注，而不是在*敏*感*词*轮开始工业演示并准备接受 A 轮融资。

　　如果没有其他问题，我认为最重要的是让新人对数据领域的期望合理和校准。我们必须承认，数据科学已经不是以前的样子，只有知道自己在哪里，我们才知道自己要去哪里。

0

2022-01-02

抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页数据(作为数据科学家，我还有机会吗？——数据科学招聘状况如何？)

0 个评论

发起人