Article / 文章中心

网络运营系列(二):“交易促销型流量”在双11网络容量评估中的智能识别

发布时间:2022-02-14 点击数:209
简介: 假设将日常网络平稳运营比方成人体的日常态,双11流量则相当于人体血压瞬间暴增,正如血液在人体供给受阻会引起心梗、脑梗,流量洪峰时的网络阻塞也会引起买卖的不畅。

image.png

文/ 康鑫磊(子昊) 、胡欢武(瑾为)


假设将日常网络平稳运营比方成人体的日常态,双11流量则相当于人体血压瞬间暴增,正如血液在人体供给受阻会引起心梗、脑梗,流量洪峰时的网络阻塞也会引起买卖的不畅


怎么提前辨认双11买卖峰值网络流量的危险,从而确保事务在买卖峰值时的网络丝般顺滑,稳如磐石?本文将共享2021年双11 网络流量危险危险辨认的一个场景事例,来实在呈现日常工作中怎么通过技能创新完成“更高功率、更低本钱、更精细化”的网络运营。


01

全面上云新机遇


在全面上云的大布景下,2021年的双11给网络运营的同学带来了新应战:


1 多个BU参与双11大促,数万个使用、多地域、云上云下调用链联系杂乱,单纯靠人工手工整理无法精准辨认中心链路和关键节点。


2 部分数据密集型事务上云,摆脱了传统独享物理集群的束缚,与买卖型事务实例混布在一起,在边际,泛边际与接入层的流量途径上有必定程度的重叠和耦合,在流量评估、事务规划、故障诊断上增加了杂乱度。


3 叠加了公有云事务的自身布景流量。


4 国内,海外二个主战场一起作战,国内主场触及多个地域的数据中心,海外触及多个国家和地域。


5 物理设备叠加集团虚拟化层面的网元实例体量巨大……


在过往双11备战中,技能同学最重视的是自己体系在零点流量洪峰中的表现,特别是极限峰值压力场景下秒级买卖大盘是否呈现各种‘颤动’,哪怕有一次‘颤动’即使上下动摇很小,在技能人眼中这便是惋惜。细节决定成败,关于双11的网络运营,魔鬼般的小细节就藏在这些‘颤动’里……


针对呈现的问题,运营团队重复复盘过往各种压测和每次双11实在呈现过的不同‘颤动’场景,终究发现了在峰值场景下‘颤动’或多或少存在一些共性特征。这些共性的特征,假设用一个形象的比方就像是:人体血压瞬间暴增,自动脉虽四通八达,但很少毛细血管存在一些小拥塞(如各种热点,冷热负载不均,部分缓存击穿等),假设拥塞的血管正好在心脏邻近,则容易造故意梗,甚至有生命危险。


根据这些剖析总结,2021年双11,在全面上云的布景下,在往年双11 网络高保套餐的基础上,网络运营团队新增了一个高级检查项——‘防颤动’之买卖促销型流量的网络链路精准辨认与精准危险防控。这是什么名词?换用一个通俗易懂的解释便是从被动变自动,针对上面说到的毛细血管小拥塞,提前自动筛查它们在血压暴增时是否有爆管的危险,从而精准辨认并定向解决,防患于未然。


02

应战:人工规矩界说辨认


什么是买卖促销型流量?


什么是买卖促销型流量?为什么需求要点重视买卖促销型流量?下图是一个典型的使用场景:零点时间,买卖峰值的抱负趋势图是一竖一横,即竖直横平(注:横平是由于到达事务预设容量峰值,触发限流导致,契合预期),零点时间的峰值压力一般是其他时段的成百上千倍

image.png

(注:光看曲线图还没有实际的体感,网络运营君从网上找了一个上世纪某线下商场开业的排队图,大家脑补一下容量峰值压力)


从网络视角看零点事务峰值带来的流量都可以认为是买卖促销型流量,这些买卖促销型流量通过网络全途径相关链路,包含网络虚拟化实例(LB实例、NAT实例、ENI等与网络相关的虚拟化实例) 都需求要点重视。


image.png


抱负饱满,而现实骨感。事实上,超大数据中心的流量组成往往十分杂乱,特别当在线事务容器化和微服务化之后,由叠加部分数据密集型事务上云后产生的混布流量。数百万级事务容器规模下,假设能做到零点峰值买卖促销型流量全链路精细化辨认,那对容量危险将进一步精准化管控,从而对容量精细化规划有较大收益。



数据密集型事务:
典型流量特征的界说,一般流量占比较大,但对网络颤动,拥塞相对买卖容忍度更高,典型场景如大数据离线核算事务型事务、图像视频类AI算法练习事务等。


人工规矩界说带来的应战:


真正的技能应战是:我们很难用人工规矩界说辨认清楚这些买卖促销型流量的精细化分布;特别针对毛细血管层面的危险,很难精准辨认并定向解决。


在超大杂乱事务体量下,假设买卖促销型流量辨认采用传统的人工规矩界说计划,有如下劣势:


1 规矩源存在必定的体系成见

由于体系规矩由人界说,事务输入过程中,下述3种情况较为常见:

  • 评估遗失型-整理未到位导致规矩遗失,危险未辨认;
  • 人为成见型-界说非中心链路资源,加入黑名单;
  • 资源糟蹋型-事务评估输入时层层加码,必定程度上造成了部分资源糟蹋。


2 人工界说的规矩结论质量依赖于专家经历

存在必定程度的‘误报、漏报’;需求有专业人士二次剖析研判,对人的技能和经历要求较高。


3 工作量大

十分精细的场景下,大体量的规矩界说和保护带来的工作量较大。


03

解决计划:“AI网眼”


跟着算法、算力、大数据技能的快速迭代,人工智能在各种专业范畴的使用不断取得新成就和新打破。在上述场景中,“AI网眼”便是一种根据人工智能的网络运营自主原创解决计划。其中心思路是根据全网的数百万链路流量数据,结合全链路压测期产生了大量的买卖流量样本,根据算法生成买卖促销型流量特征模型,终究由机器给出大促买卖相关的网络容量危险模型


image.png

只是在数百万级链路中看了一眼,危险便已纳入AI 网眼


实战作用

该计划已用于2021 双11 大促网络容量危险排查实战中,一位项目成员说:“这么大的体量,我不知道怎么用规矩来检验机器自动辨认出来的准确率,但多次随机抽样辨认作用的确准确度十分高”。


作用一:危险排查:辨认并解决了近百个未被重视到的事务网络实例容量危险危险。


作用二:人工成见之纠错:算法辨认出之前未被人工规矩重视的一些使用体系,这些使用体系属于‘的大多数’,看流量图趋势又的确参与了0点大促流量组成;这些未被重视到的使用体系,是否会成为未来异常流量中‘灰犀牛',值得进一步重视。


04

未来

在《十四五规划和二〇三五前景目标建议》中,人工智能被放在了第一位。正如技能创造新商业,阿里云基础设施网络运营团队也在活跃推动内部自动化向智能化技能方向演进,在部分危险预警场景上,结合前史沉积的海量运营数据,对故障数据进行机器学习和深度数据挖掘。创新性的设计并引入部分AI算法模型用于危险预警。现在仅仅是万里长征第一步,希望此文能给业内同行在计划上带来一些新的视角输入。


风正潮平,自当扬帆破浪;负重致远,更需策马扬鞭!