数据科学家回顾自己转入当今顶级职业的心路历程。
Paul Mahler 记得,他是在 2013 年 5 月的一天决定改变职业方向的。
那天,这位前经济学家正在华盛顿特区的一个公交车站等车,在智能手机上看《纽约时报》。其中的一则故事吸引了他。在这个故事中,一位统计学教授编写了一款应用程序,让计算机代替人工来审查剧本。得益于这款应用程序,这位学术界人士在好莱坞开启了一份利润丰厚的新职业。
Mahler 说:“这看起来是个巨大的突破。因此,我决定也要涉足数据科学领域。”如今,他是硅谷的一名高级数据科学家,在帮助 NVIDIA 客户利用 AI 实现自我发展。
与 Mahler 一样,Eyal Toledano 在步入职场十年期间也曾作出过重大转变。他描述道:“一场事关生死的危机……我认为,如果我有能力,应该尝试着去挑战自己,做一些真正让自己感到自豪的事情。即使结果以失败告终,我也会倍加珍惜过程中的分分秒秒。”
然后,Toledano 回忆道:“我大学时代的一个老朋友告诉我,他在一个偏远地区潜水时发生了意外。拍摄 X 光片后,却没人能读懂。他说,我们应该 [使用 AI] 建立一个影像数据库,以便在人们需要此类帮助时进行诊断。这是我第一次如此关注他人脑海中萌发的想法。”
这两位朋友在 2014 年共同创办了 Zebra Medical Vision,将 AI 应用于医学影像。根据 Toledano 的观点,深度学习这个新兴领域只有一条路可走。
他说:“在数据科学领域,您需要具备吃苦耐劳的精神。放下架子,撸起袖子加油干,这才是行之有效的方法。”
沙盒空间充足
此领域的发展空间仍然很大。根据 2019 年 Glassdoor 排名,数据科学家位居美国出色职位的榜首。Glassdoor 服务通过关联每月 6700 万访客与 1200 万条招聘信息,最终得出此排名。调查显示,入门级数据科学家的基本工资平均为 10.8 万美元,工作满意度为 4.3 分(满分为 5 分),而且还有 6510 个职位空缺。
数据工程师职位紧随其后,基本工资平均为 10 万美元,工作满意度为 4.2 分(满分为 5 分),而且还有 4524 个职位空缺。
Burtch Works 的招聘人员在 2018 年进行的一项研究更详细地描述了当前的就业情况。该研究估计,根据技能水平,数据科学家的底薪从 9.5 万美元到 16.8 万美元不等。数据科学家的学术背景丰富多样,包括数学/统计学 (25%)、计算机科学和物理科学(各占 20%)、工程学 (18%) 和通用商务 (8%)。将近一半的数据科学家拥有博士学位,40% 拥有硕士学位。
初创公司 FASTDATA.io 的联合创始人兼首席执行官 Alen Capalik 表示:“既然数据是新资源,那么数据科学就是最重要的工作之一。”FASTDATA.io 是由 NVIDIA 提供部分支持的 GPU 软件开发商。“需求量如此惊人,因此数据科学领域的失业率为零。”
与 Mahler 和 Toledano 一样,Capalik 也是数据科学领域的先行者。他说:“我通过阅读大量资料来了解数据、数据管道,以及客户如何使用他们的数据 – 各个行业使用数据的方式不同。”
基本要素
数据科学家就像混合生物。有些是学习编码的统计学家。有些是学习数据分析和机器学习的细微差别的 Python 向导。其余是希望参与下一计算大事件的领域专家。
所有人都面对常见的任务流程。他们必须:
- 识别适合大数据的业务问题
- 设置和维护工具链
- 收集大型相关数据集
- 构建数据集以解决业务问题
- 选择合适的 AI 模型系列
- 优化模型超参数
- 对机器学习模型进行后处理
- 批判性分析结果
Mahler 说:“独占鳌头的数据科学家包揽从设置服务器到向董事会陈述的一切工作。”
但现实情况是,此领域快速划分为多个子任务。数据工程师在流程的前端工作,通过所谓的提取、转换和加载流程处理数据集。
大型运营方面可能需要聘请数据管理员、隐私专家和 AI 管道工程师,以确保系统能够快速提供对时间敏感的建议。
Mahler 说:“职称的激增是该领域日渐成熟的另一标志。”
通过玩游戏来了解工作
Mahler 表示,快速进入该领域的一种极其热门的方式是参与 Kaggle 竞赛,体验 AI 的乐趣。通过在线匹配,为论坛提供实际问题和代码示例,以供使用。他说:“我们的 NVIDIA RAPIDS 产品团队一直在参加 Kaggle 竞赛。”
获胜还能赢得工作机会Owkin 是 NVIDIA 的一个合作伙伴,致力于为医疗保健领域设计 AI 软件。该公司在网站上宣称:“我们的数据科学家为全球顶尖人才,拥有几位 Kaggle 高手。”
现在,建议至少进行一些正式研究。fast.ai 的在线课程旨在让有经验的程序员快速入门深度学习。联合创始人 Rachel Thomas 保存着一份她的演讲清单,鼓励所有人,尤其是女性,投身数据科学。
我们编制自己的在线数据科学课程列表,这些课程由麻省理工学院、Google 和 NVIDIA 的深度学习研究院提供。以下是其他一些有用的资源:
- 2017 年热门课程排名,由数据科学家新闻网站 KD Nuggets 发布
- edX 课程,由麻省理工学院和哈佛大学联合创办的在线服务
- Coursera 课程,由两位斯坦福大学教授创办
- Andrew Ng 在 Coursera 上开设的机器学习课程(浏览量超过 700 万次)
- Udacity 课程,由另外两名斯坦福大学讲师创办
Mahler 说:“深刻理解线性代数、概率和统计建模,对于创建和解释 AI 模型至关重要。”他补充道:“许多雇主要求应聘者拥有数据或计算机科学学位,并对 Python 有深刻的理解。”
FASTDATA.io 的 Capalik 反驳道:“我从不注重学位。”他说:“拥有实际经验更好,因为入职第一天您就会遇到书本上无法学到的内容。”
但是,双方一致认为优秀的数据科学家应有很强的创造力。此外,雇主还觊觎那些富有想象力、善于解决问题的数据科学家。
获得工作机会
Capalik 说,一家初创公司对求职者进行了技术技能测试,但测试只是筛选过程的一部分。
他说:“我喜欢看着别人的眼睛,问几个问题。您需要了解他们是否能解决问题,是否能与团队合作,因为数据科学需要团队协作。即使是迈克尔·乔丹,也需要团队协作才能获胜。
为通过测试并获得 Capalik 的面试机会,您需要了解数据管道的外观、数据收集方式、数据存储位置,以及在使用算法解决问题时处理好细微差别和效率低下问题。”
Zebra 的 Toledano 对那些回答千篇一律的应聘者表示怀疑。
他说:“这是一门实验科学。您需要快速提出不同的想法,然后在训练实验中一遍遍进行测试,这样进行众多实验,最终一步步得出结果。”
他补充道:“那些希望一次性解决问题的人可能很聪明,但也许会错过一些东西。正如,不要想着去制造弓和箭,而是制造能发射出无数支箭的弹射器。这样的话,您可以快速评估每个潜在解决方案。”
AI 初创公司 BabbleLabs 的首席执行官 Chris Rowen 是位经验丰富的企业家,他对能够解释自己工作的应聘者印象深刻。他建议:“了解模型的工作原理、模型面向的问题及其原因。”
开发人员的出路
与答案非对即错的 IT 纯数字世界不同,数据科学面临的挑战通常没有固定答案,因此该领域偏好那些喜欢探索各种可能并权衡利弊的求知者。
事实上,IT 和数据科学是截然不同的世界。
IT 部门使用精心设计的流程来检入和检出代码,验证合规性。他们编写一次应用程序,可以用好多年。相比之下,数据科学团队则需要不断根据概率曲线试验模型,并且经常修改模型和数据集。
资深的市场观察家、Wikibon 首席 AI 分析师 James Kobielus 表示:“软件工程更像是一条直线,而数据科学则是一个循环。
也就是说,数据科学是新一代开发人员的核心。尽管许多学科专家投身于数据科学领域,并学习如何编写代码,但大多数人转行自常规应用程序开发,部分原因是该领域目前在盈利。”
云、机器人和软技能
无论您通过何种方式进入该领域,数据科学家都需要熟悉云技术。许多 AI 项目都依赖于使用容器和现代业务流程技术的远程服务器。
您应该了解最新的移动和边缘硬件及其限制。
Kobielus 说:“机器人技术领域需要通过反复试验算法进行增强学习,目前有许多工作要做。这不是传统数据科学的范畴,因此该领域的人才短缺问题更加严重,其中最属摄像机计算机视觉热门。”
外交官谈判技能也大有用处。数据科学家通常是变革的推动者,打破了原有的工作和流程,因此,建立良好的人际关系很重要。
思维方式的转变
这似乎并非易事,但不要就此退缩。
首个利用数据科学的初创公司 BabbleLabs 的 Rowen 说:“我没想到自己会做出如此大的转变。
游戏规则已改变。认为问题根源隐藏在数据中,这是一种思维方式的转变,但从根本上说,我目前所做的事情与我之前的众多工作类似。”
在过去,Rowen 探索“一个问题的计算概要,然后找到使其恢复正常的处理程序”。他说:“现在,我们只是将流程前后倒置了。我们着眼于计算的核心以及所需的数据。受这种洞察力的吸引,我接触深度学习领域。”
在 2018 年 5 月的一次演讲中,fast.ai 联合创始人 Thomas 的话语同样让人备受鼓舞。她表示,借助迁移学习,您只需训练神经网络的最后几层,即可实现出色的 AI 工作。您并非总是需要大数据。例如,一个系统只需经过 30 张图片的训练,即可识别棒球或板球的图像。
她补充道:“当今世界亟需 AI 人才,而且门槛比您想象的要低。”