行业新闻

Industry news
行业新闻
将双11新增IT成本降低一半阿里是咋做的
 

  有人说,技术是商业需求倒逼出来的。其实,不论怎么说,技术创新的目的虽然不全是,但有几个方面是确定的,那就是满足业务需要,同时提升效率和降低成本,这方面,阿里巴巴就是一个典型的案例。

  最近刚结束的天猫2017双11,数据显示,成交总额1682亿,交易峰值32.5万笔/秒,支付峰值25.6万笔/秒,比去年增长超1.1倍,再次刷新全球纪录。

  但鲜为人知的是,今年的双11,虽然数据再度刷新全球记录,但对阿里巴巴而言,新增IT资源需求却实打实的削减了一半。这是如何做到的?一番探究下来,在阿里巴巴云化战略中,基于阿里云混合云弹性能力之上的几项重大技术点突破,包括资源Pouch容器化、统一调度、存储计算分离和混部技术功不可没。

  阿里巴巴云化战略,是阿里集团基础设施近年来一直在努力的方向,其目的就是为了解决资源投入问题,在解决资源弹性投入基础上,进一步提升弹性资源投入后的使用效率,从而可以带来资源投入本身的节省。

  第一阶段,以往的双11,没有阿里云时,每次都会要采购大量的机器,资源比较浪费;

  第三阶段,即在现在有的混合云架构下,利用阿里云弹性能力的升级,快速调度用于计算任务的离线集群弹性资源投入在线服务,多种任务混合部署,这意味着需要将资源使用和任务运维标准化,即全面Pouch容器化,弹性资源占用周期大幅缩短;

  据了解,今年,阿里巴巴各BU在线系统都陆续进行Pouch化改造和接入到Sigma统一调度系统中来,数以万计的在线业务服务器不断加入到Sigma资源池中,统一管理,资源共享,对业务屏蔽基础设施复杂的细节,从而大幅提升效率和节省成本;为保证接入Sigma的业务能够稳定高效,Sigma做了不少的优化。

  众所周知,无论是什么自动化调度的集群管理系统都有一个共同的目标,那就是提高数据中心的机器利用率。

  但上述基于资源和虚拟化技术的调度模式用在在线业务系统上存在问题。因为资源共享和高密部署会带来各个层面的资源使用竞争,从而增加在线服务的延迟,尤其是长尾请求的延迟,这对时延要求较高的在线业务是无法接受的。但另一方面,近年来随着大数据的普及,对实时性要求并不高的批量离线作业规模越来越大,在资源使用上,逐渐和在线业务的体量相当,甚至超过了在线年开始,阿里巴巴尝试将延迟不敏感的批量离线计算任务和延迟敏感的在线服务部署到同一批机器上运行,让在线服务用不完的资源充分被离线使用以提高机器的整体利用率。

  关于容器技术的价值和在云化战略中的作用,相信不用多说也都了解,关于Pouch,此前已经有很多文章介绍,这里就不在细说。重点说下可能大部分人不知道的,阿里巴巴资源Pouch容器化改造现状。据老鱼了解,目前在阿里的数据中心运行有数十万个Pouch容器,且100%电商核心业务已通过Pouch容器化对外服务。

  面对这些技术难点,阿里巴巴的工程师又是如何做的?先说资源隔离,阿里巴巴首先从服务器的内核层面,对CPU,内存,IO,网络等多方面进行优先级的划分,做到对相关任务的毫秒级自适性调度或限制,以保证高优先级的任务不受影响。而对于存储计算分离,则把资源分为计算节点和存储节点两大类,完全统一了异构机型。

  声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。


活动五-优衣库视频_优衣库视频百度云_三里屯优衣库视频
活动四-优衣库视频_优衣库视频百度云_三里屯优衣库视频
 just go 活动三-优衣库视频_优衣库视频百度云_三里屯优衣库视频
活动二优衣库视频_优衣库视频百度云_三里屯优衣库视频
活动一优衣库视频_优衣库视频百度云_三里屯优衣库视频