Article / 文章中心

独家专访阿里云存储负责人吴结生:我经历的三个重大决策

发布时间:2022-02-18 点击数:721
简介: 云原生正在从头界说存储,而存储只是根底软件范畴中的一环。本期 C 位面临面,咱们有幸邀请到了阿里巴巴高档研究员,阿里云智能存储负责人吴结生(Jason Wu),他亲历了阿里云存储技能高速开展的 8 年,此次,他将与 InfoQ 一同解读存储技能的现在与未来,以及他本人在职业生涯中面临的一些挑选和个人生长感悟。

视频封面.png

深耕根底二十年
回忆IT技能开展前史,其每一个时期都有不同的焦点,往回推30年是高功能核算,推20年是查找,推10年是云核算。先后在中科院核算研究所做超算,在ASK.com做查找,在微柔和阿里云做云存储的Jason自以为是一个职业挑选上的幸运儿——高功能核算、查找、云核算这三个关键技能的开展,他都未曾缺席。“到后面的话,AI和机器学习或许是别的一个新的技能开展点。”现在的Jason又成为了AI和机器学习的乙方,他所负责的存储产品,正支撑着大数据分析、AI、机器学习、自动驾驶等新型负载。
 
Jason在2008年参加微软Azure团队,参加了Azure代码的编写,包含后续的运维和线上毛病排查作业。“由于我不是最早的那一波,所以只能算是参加了Azure从0.2到1的进程,最早的那波2007年就在团队里了。我觉得那几年我仍是十分幸运的,能够在早期阶段参加到这样一个大的产品和技能体系的演进中。”
 
“我记住2012年的时分,我来阿里云这边面试,王坚院士问我说,你在Azure做了4年,你觉得你最大的成便是什么呢?我其时也没有怎么想,就说自己最大的成便是让这个体系变得愈加安稳了一些。本来我或许一周要作业7天,每次出去的时分都要带着电脑一同,有时分或许开车开到半路就得找个星巴克去排查问题。2008年到2011年这种状况许多,到2012年咱们体系基本上就安稳了,这种状况就变少了,能够变成(一周作业)说或许是6天或许5天,自己出去要带上电脑去排查问题的次数变得少一些了。”
 
“后来据说博士对我这个回答仍是很满意的,说在体系的初期阶段的确有许多问题要解决,有许多坑要填。”
 
然而,拿到Offer的Jason并没有挑选立即参加阿里云。“由于其时给我Offer的时分,有两个挑选,一个是回到杭州,别的一个是让我回到硅谷,阿里云在硅谷有一支研发团队,想让我去带那个团队。”但他更倾向于留在西雅图。因而,直到2014年阿里在西雅图设立了Office,犹疑了两年的Jason才接过这个橄榄枝,不过,最后让他做下决定的,仍是由于看到了云核算在中国的远景。他以为,相较于芯片、操作体系,云核算是一个很适合中国做而且能做得比较好的技能。
 
“可是今日我的知道产生了一些改变,其实芯片这个作业咱们也能够搞一搞,像操作体系,阿里云也在做自己的操作体系。跟着咱们深化到芯片和操作体系范畴,其实它能够把全栈站的打通做得更好。”

在阿里云的阅历:三个严重决议计划和经验
从2014年到2022年,Jason现已和阿里云走过8年的时刻,成为了阿里云存储负责人。在这个进程中,他参加过许多重要的决议计划,也取得了许多经验和经验,接下来,他将跟咱们共享三个小故事。

  • 2015年最严重的决议计划,派最精英的人去写SDK 

飞天体系如雷贯耳,但2015年的时分,阿里云对象存储的事务开展并不满意。
“咱们都以为自己的分布式体系很牛,咱们的飞天操作体系很牛,咱们的盘古很牛,咱们的产品也就很牛,然后咱们就推理出来说,由于咱们有很牛的产品,咱们的客户肯定会很喜爱来用。”
 
可是实际状况并非如此,那么,原因究竟是什么?
 
“咱们发现,咱们后端是很很牛,可是咱们跟客户交互的那些东西的确做得欠好,SDK也不是很好,用户体会也就不怎么好。”
 
“举个例子,你或许花了一个月时刻在后面做了一个优化,让整个体系的功能提高了50%,但或许就由于SDK里边某一段写得不那么好的代码,客户就有或许是拿不到这50%的(优化)。而咱们后端这些做分布式体系的精英程序员体会不到这一点。”
 
所以,离客户最近的那一段的路需求十分好,这是阿里云存储团队在2015年取得的最大的一个经验。“就好像某个人有一个豪宅,但进去的路遍布荆棘的话,其实大家进去的时机也就少了,所以你有必要要把这些路给修好,对不对?像咱们的SDK,咱们的控制台,这些东西实际上便是这些路。”
 
痛定思痛,阿里云存储团队在年末做出了2015年最大的一个决议计划——派最精英的人去写SDK,重点关注控制台的构建和响应时刻,以及NPS,即客户愿不愿意把购买的产品引荐给其他朋友。“咱们把最精英的同学放在那个范畴去作业,让SDK和控制台真实能够让客户能感遭到易用、高功能,然后咱们在这些细节方面做得更好,后来咱们的事务也就起来了。”
 
假如你也是一位开发者,仍是一位后端同学,这个故事应该对你有所启示。从全链路角度动身,做好每一个细节,才能保证后端的优越能够被客户真实享遭到。

  • 2019年3月,阿里云存储团队的至暗时刻

2019年3月份,阿里云存储团队内部的至暗时刻。一个月内,阿里云产生了两起严重毛病,一次是块存储EBCS在华北2地域可用区C呈现了一个严重毛病,导致服务中止几个小时,形成多个App和网站瘫痪。紧接着一周之后,阿里云对象存储OSS也产生了一次P1级的毛病。
 
那一时刻,Jason真实地知道到了什么叫“根底不牢,地动山摇”,一旦根底设施底座呈现了问题,将给上层客户带来巨大影响。“咱们需求把体系做得更安稳,把咱们的服务质量,把咱们的快速反应才能,把咱们的毛病恢复才能提高到新的高度。客户把身家性命都放到了阿里云上面,咱们肯定要经过技能和服务给他供给一个永不宕机的体系,这是咱们的责任。”
 
哪怕是3年后的今日,整个阿里云存储团队都对这个月份记忆犹新。他们甚至会反复将这些事例告知新来的同学,告知他们,敬畏自己的每一行代码,每一个操作。

  • 20201年,查找引荐广告全面上云

现在,阿里巴巴集团事务,尤其是查找引荐广告(搜推行)事务的全面上云,对整个阿里云特别是存储团队来说意义十分严重。
 
最初在做阿里云的时分,王坚院士有一个方针愿望,便是阿里云能支撑多个查找引擎,不仅包含阿里自己的查找推行事务,也期望外部的查找公司也能架构到阿里云上面,这意味着,云平台需求具有相应的才能去支撑查找这个技能杂乱繁重的事务。“实际上,查找推行上云的进程有点弯曲,咱们从上云到下云再到上云,经过12年的开展才走到这一步,但最后咱们在20201年证明这个东西是成立的,而且咱们现已悉数上云了,所以这也是在整个存储技能的开展里边十分可喜的一个成就。”

当时存储面临的应战和风趣的发现
当时的存储技能现已取得了长足的开展,但一些技能趋势会带来一些新的应战,需求经过全链路规划和架构的重构解决问题。
 
首先是安稳性,这一应战长期存在。曩昔,体系的可用性或许3个9就够了,但现在它现已提高到了4个9、5个9,咱们还不只是满意于此,期望能到达更优的安稳性方针。由于新设备的引进,新事务、新负载、新技能的不断问世,整个体系的架构都在产生着改变,对底层有了更高的要求。比方云原生带来了快速弹性的拉取,在没有本地存储内存加速的状况下,底层将遭到巨大的冲击。
 
换句话说,磁盘的物理才能是否能完美支撑存储虚拟化的技能?
 
“虽然今日的磁盘容量现已变得很大,但假如把功能跟容量相除,你会发现一个风趣的现象,磁盘的单位容量上的功能实际上是在往下降的。”
 
Jason给咱们举了一个例子:“比方,本来大家或许用的是4T的磁盘,几年前,它变成了8T,现在它或许是20T。而HDD磁盘的其他维度的方针基本上是安稳的,IOPS大约在120~150左右,带宽大约在150~200M左右。但磁盘的容量从4T到了20T,现已添加了4倍,但它别的两个维度的方针都没有改变,所以你假如把这些功能方针除以容量的话,你就会发现整个曲线是往下走的。”
 
假如把一块20T的盘经过资源的复用以及云技能,用多租户的方法共享给更多的用户,会产生什么?
 
“一块20T的磁盘,我给每个客户4T,这样就相当于5个4T的盘,但我每个客户都期望自己能享遭到120~150的IOPS。但实际上这个盘的物理才能没办法支撑这样的存储虚拟化的1变5的才能的,所以今日对咱们来讲这是一个很大的技能上的应战,咱们需求去解决。”
 
多租户的状况下还有资源功能阻隔的需求,怎么做好互不干扰的才能,怎么把硬件的才能悉数运用出来,怎么降低成本,这都是存储范畴的经典问题,只不过在今日这样大规模的云环境下面,一切的问题都被放大。

阿里云存储的进化方向
面临以上应战,阿里云存储团队接下来的发力方向是什么?除了进一步提高体系可用性,Jason透露,他们将面向数据湖、机器学习、AI、自动驾驶、查找推行等新型负载进化,一是对外发布一个更高速的根据盘古的分布式文件体系,该体系现在服务于阿里集团内部的查找推行事务。二是持续做好并行文件体系CPFS,其在AI核算和自动驾驶场景都有落地应用。值得一提的是,阿里云自研的分布式存储体系“盘古”上一年入选了国际互联网抢先科技成果。别的,他们还将联合阿里云其他产品,给客户供给优质的数据办理和数据办理才能。而且聚焦高功能网络,自研网卡和磁盘,网络、磁盘和服务器之间的软硬一体规划的持续演进。
 
“其实咱们在未来有两个主战场,一是向下做深根底,在芯片磁盘、网络和服务器规划方面不断立异,寻觅全栈多点技能融合的时机,二是面向用户做产品规划。举个例子,阿里云、AWS过往在做EBS产品规划的时分,每一块盘都给一个固定的功能方针,假如用户要变更到另一个功能方针,就要进行变配操作,用时长达几分钟甚至十几分钟,十分影响用户体会。因而,阿里云从头规划后推出了ESSD Auto PL,即在设定的底线之上,能够进行无级变速;,也便是说,用户根据自身的事务需求,能够自在上升和回落,不必再去过多考虑容量资源的调配。这个规划对产品和研发来说是一件极具应战的作业,但也印证了阿里云自身的文明主张,把杂乱留给自己,把简略交给他人。”

个人生长闲谈
在技能之外,Jason也给咱们共享了他自身的一些小故事。

1.谈时刻办理
由于在西雅图、硅谷和国内都有团队,Jason需求频频往返于国内和西雅图之间,疫情之前,Jason每年回来4、5次,每次呆1个月时刻,而在疫情之后,频率就变成了每年回国一次,呆3、4个月。
 
咱们很猎奇,在这样的状况下,Jason这样的大咖是怎么做时刻办理,怎样去高效作业的。Jason表明,自己也是程序员身世,后来才做的办理作业。在做程序员的时分,时刻相对连续会集,除了自己写代码和调试代码的时刻,最多需求参加一些规划测验,但在做了办理以后,一个最明显的改变便是会议的增多,有一些有必要参加的重要会议。此外,还有一些在日历上显示不出来的时刻开支,比方要花更多的时刻跟团队的同学交流,以及跨团队的交流。“我现在给自己定了一个小方针,每个月至少要跟5个不是直接向我报告的同学交流,这样的话,你能够了解他们的一些主意,也能了解这个团队。”
 
“其实还有一部分能够补充,你要花许多的精力去为团队或许为整个范畴去寻觅一些志同道合的人,要花时刻去跟他交流,给他讲你们的主意,等候合适的时机,让他们参加你的团队。”
 
2.谈压力
在繁忙的作业中,Jason面临着许多压力,最主要的压力仍是来自于怎样保障体系的安稳性,给客户供给一个安稳牢靠的运行状况。这一点看起来很简略,完结起来却十分难,特别是在超大规模的分布式体系里边。“当体系呈现抖动或许小毛病,各种不行预测的状况产生,客户的事务或许受损,咱们怎么样能够快速恢复体系,对客户的影响降到最低点。许多时分咱们是在跟时刻赛跑,这是我当下最大的压力。”
 
当谈到是否有KPI的时分,Jason说自己的KPI十分简略——体系没有P1毛病,永远在线,客户的数据在阿里云上不丢不错。
 
“根底不牢,地动山摇”,在攀谈中,Jason屡次说到这句话。
 
3.谈解压 
Jason会从身体和心态两个方面去缓解自己的压力。平时,他喜爱一些体育运动,比方足球。在西雅图,他一周会踢两次,一般都是晚上踢,周五晚上正好是国内的周六凌晨,能够错开时刻。跟着球龄的添加,他在球队的位置不断后移,除了守门员,从前锋到中后卫都踢过。“这一块能够让自己的身体状况比较好,也能够敷衍更多压力,至少你得有一个好的身体去熬夜排查问题。”
 
在心态上,Jason主张用开展的眼光看待问题,当毛病产生的时分,不是第一时刻去责备人,而是去优化体系、流程、团队协作,等等,避免下一次毛病的产生。,而后触类旁通,排查其他模块和体系里是否有相似的缝隙以便改进。Jason曾告知自己的团队,“一个强大的产品,或许一个十分强大的体系,它许多时分是跟着毛病而生长起来的。”
 
体系是在犯错中生长的,人也是。
 
“可是每一次毛病对客户产生了的影响,咱们也是十分心痛的,咱们觉得这些作业其实能够做得更好,所以在这样一个不断相对螺旋上升的进程中,咱们让整个体系能够到达咱们想要的那种永不停机的状况,我觉得这种心态仍是是对咱们缓解压力仍是有协助的。”
 
4.谈学习 
在作业之余,Jason也会给自己安排一些学习时刻,关注USENIX、OSDPI、SOSP等尖端会议上宣布了哪些Paper,Facebook(现在叫Meta)、Twitter、Amazon和Google等公司发了哪些工程方面的Blog。“InfoQ的许多文章我也看,还有极客时刻,我觉得InfoQ仍是一个十分好的社区、IT技能交流中心。有时分,我也会去看一些知乎上的问答,我觉得也是十分不错的。”
 
从国际性的尖端会议的确中能够找到一些前沿技能趋势,甚至能看到国家立异的聚焦点。咱们也看到了一个活跃的现象,现在,国内有许多教师和研究生,包含阿里在内的企业,在这些尖端会议上宣布的高水平文章越来越多,这也反映出我国的研究水平的上升。
 
据了解,阿里连续资助了多届存储范畴优秀论文的宣讲,Jason告知咱们,虽然收效缓慢,可是学术研究绝对是值得长期投入的,由于在许多时分,一种理论的打破才会让整个行业有更大的开展。达摩院的建造便是阿里在中长期技能研究上的投入,而阿里云存储团队自身也在做一些技能预研方面的作业,每年都会与多家高校协作,招收实习生,一方面期望给高校学生供给一个业界真实的作业环境,同时也期望经过一些联合研究项目,让高校师生更深化地了解工业界,衡量解决问题的方案。达摩院这样的安排或许安排越多,对工业界的打破越有利。
 
5.谈成就感 
Jason以为,做工程师和做办理,从成就感的程度上看或许差不多,但感遭到的方法不太相同。做工程师的成就感,来自于体系上线且安稳运行,服务了许多客户。而做办理者,更多是来自于团队开展,你看到团队的同学生长起来了。由于负责存储事务线,他还有一个成就感来自于客户的反应,“客户觉得这个东西很好,我还想引荐给其他人用,我的这种成就感就会更多一些。”
 
6.谈挑选
在谈到过往的严重挑选的时分,Jason告知咱们,自己也有一些苍茫的时刻,但不多。“其实许多时分你就像一个天平里边,只需在哪一边加一根稻草,就或许把你的苍茫给打破了。”
 
说到这儿,Jason给咱们讲了自己换作业的故事。他博士结业后的第一份作业在ASK,Base阳光灿烂的硅谷,假如要去微软,就要搬到雨水和阴天都许多的西雅图,所以他有些犹疑。但一想到西雅图的房价比硅谷的房价要至少低一半,“我找到了一些心理上的平衡。”
 
7.谈方针
在作业上的方针,Jason给自己制定了OKR,其中有一个O是没有P1毛病,以及一些很宏大的方针。“咱们有些方针是实打实要完结的,有些方针便是一个牵引。”
 
Jason坦言,自己的个人方针其实也有一些没有完结,2021年,他给自己定了一个跑完365迈的方针,但最后大约只跑了100迈。
 
“我本来说每个月至少要跟5位不是报告给我的同学交流,我觉得这个也没有完结得那么好,大约完结了60~70%,也便是说或许平均下来每个月也就3~4位同学没到5位。”
 
团队开展尤其是海外团队建造方面的方针,Jason以为也没有特别合格,一方面是由于疫情影响,一方面是由于当下的技能趋势,整个海外人才市场竞争十分剧烈。
 
2022年,Jason期望疫情能逐渐完毕,争取多回国一些时刻,此外,他也期望多添加一些和家人去休假的时刻。
 
8.谈生长
2022年,极客邦的主题是“无限生长”,Jason分别从个人生长、技能生长、非技能生长三个维度来解读了这个词。
 
他以为,不管是在遇到不拿手的作业的时分,能够自动担任;,仍是从各种各样的反应中,拿到有用的东西,让自己变得更好;,又或是不局限于现有的思路,做产品立异,给客户带来更多价值,这都是无限生长。这和阿里内部推重的“打破边界”有殊途同归之意。“从协作的角度来看,假如你做了一个东西,你不仅能自己用,还能推行给他人,让其他产品或许团队运用,让你的模块或许代码发挥的价值更大。”
 
“其实你假如去看那些老练的技能的开展,整个团队实际上你都能够以为是在攀不同的顶峰,就像咱们做ESSDC这样一款产品,咱们是业界第一个提出来做100 us(微秒)推迟个Microsecond的块存储团队,而且还立下了100万IOPS的方针,2018年,咱们发布了ESSDC,咱们把这个方针到达了,到现在咱们也一直处在功能抢先的位置。今年咱们又给自己定了一个方针,推迟要做到80,咱们还有一款新产品能够做到30。”
 
这种对技能的寻求,也在鼓励着开发者们打破现状,做出立异,让自己跟着业界技能趋势去生长,把技能方针变成产品,让产品愈加具有竞争力,服务好更多的客户,无限生长也体现在这儿。
 
非技能方面的生长,则包含怎么做项目办理、跟团队交流、提高团队协作才能,将自己变成团队战斗力提高的驱动力。“咱们在阿里云这边经常会讲一句话,便是要一同拼、一同赢。我觉得咱们包含我的团队,或许包含阿里云的文明,技能文明或许安排文明,其实都跟无限生长十分契合。”

完毕语
咱们从攀谈中发现,Jason是一位十分朴素的工程师,正如千千万万在根底软件范畴静静据守的从业者,他们的努力灌注出一代又一代坚实的底层根底设施,成为上层事务的强有力支撑,让企业在数字化转型浪潮中迎候不知道的应战。
 
他的生长阅历也印证了咱们的观点——底层未必不能做到顶层,国产根底软件范畴大有可为。而长期以来,根底软件都是InfoQ重点关注的范畴,越深化越能看见国产根底软件背后的巨大价值,这也是DIVE全球根底软件立异大会诞生的初衷。