电商与云计算

说起来,我们也算得上是电商服务行业的老兵了,了解中小企业是怎样从创业阶段一步步走向壮大的,也深知它们所需:对于客户来说,应用是一个重点。电商应用云解决方案,所有应用无需布置,均以服务方式提供,可以实现按需购买,并且可用性非常高,能帮助客户大幅降低成本。这与传统虚拟机方式需要自己部署相比,无疑具有很大优势。

我们的服务体系所面向的客户包括大型企业、中小型企业、淘宝商家、微型企业,正在云计算解决方案领域与阿里云合作进行积极的探索,以实现真正帮助企业更好地进行IT基础设施资源的运维及配置,最终降低成本。

以大中型电商企业为例,我们的一个客户创始于2007年,到2011年销售额已经过亿。我们为它提供AMS服务布置方案,包括商品处理、搜索引擎、缓存等,因此,必须要为它搭建很多服务器。随着企业发展壮大,它需要做推广、促销等各种活动,这时的资源需求量是平时的数倍甚至数十倍。我们原来的方案是给它调配十几台设备,活动结束后资源用量又回到原来水平,这些机器就成为我们的运营成本。促销活动持续时间短,留给电商服务商的准备时间也很紧张。虽然通过技术改造,解了燃眉之急,但效果并不理想。
采用云计算解决方案效果就完全不同了。客户在IT上面最大的成本来源于带宽,如果采用传统方式一步到位的话,费用相当高;而如果采用云服务,就只需要在访问量和资源消耗大的那几天把带宽增大,当活动结束后再恢复原来的带宽即可,不仅调整非常灵活,而且也在带宽上节省了一半的成本。

针对中小型、微型企业客户各自的特点和需求,我们也在和阿里云一起探索更理想的服务方案。对于中小型企业用户,在创业初期都会选择成本非常低的数据解决方案,但缺点也显而易见:安全防护成为一道壁垒,客户受到攻击时有发生,解决方法只能是把被攻击的资源关掉,毫无疑问,这对处于发展中的企业来说伤害非常大。很幸运,阿里云在这些方面提供了及时的支持。我们有一个供应商选择系统,在经过一段时间尝试后发现阿里云的可用率是最高的,最近半年的可用率都维持在99.95%以上。

此外,云计算也给开发者带来了很多机会。对于电商服务企业来说,采用云计算后不需要采购服务器,不需要复杂的部署,就可以在2~3个小时内完成配置,这在以前是不可想象的。同时,以一站式解决方案提供的云服务,对技术门槛的要求也大大降低,开发者只要经过简单的培训就可以应对,也在一定程度上为企业降低了成本。对企业来说,低成本获取原来大企业才能使用的技术,项目上线速度快,试错成本也非常低。

从总体来说,云计算为中小企业带来的意义肯定远大于大中型企业。我们实实在在地享受到了云计算带来的好处,通过与阿里云联合推出面向电商用户的解决方案,使所有应用以服务方式提供,相关应用也为电商量身定制、按需购买,让企业向往的功能得以实现。这个过程实际上是把云形成虚拟化、队列、缓存,将以往高端客户才能享受到的服务,包括内容分析、地图、楼所引擎、短信、位置服务等,提供给中小企业,我觉得这才是最重要的。

作者徐唤春,毕业于浙江工业大学计算机专业,2001年创办上海商派网络科技有限公司(ShopEx)并担任技术副总裁。曾独立完成多个大型IT软件开发项目,在计算机应用、程序、新业务、云服务领域造诣颇深,有长达十几年的实战经验。现负责300多名研发人员的管理工作,领导完成产品的上线、交付、验收,是商派技术领域的“神”。

阿里云CEO王坚:云计算业务最早一年内盈利

2月2日上午消息,阿里云计算CEO王坚在接受媒体采访时表示,阿里云计算业务有可能在12个月到24个月以内实现盈利。阿里巴巴集团将对公司进行连续十年的大额投入,不过王坚并没有透露具体数额。

阿里云方面表示,此处所指的云计算业务并不包括无线业务部分。阿里云计算CEO王坚在接受媒体采访时披露,阿里云计算将获得阿里巴巴集团持续十年的大额投入。王坚同时给出了上述盈利时间表。“现在公司可以不再增加一个人,收入却不断稳定增加。”王坚表示,公司的第一个目标是阿里云给集团外部提供服务所需的计算资源超过集团内部。

从与DeNA合作到推出第三方云市场,阿里云加速商业化的意图十分明显。不过,阿里云未曾公布过主要营收数据,公司方面也曾多次强调,阿里巴巴集团对云计算产业的投入是持续性与战略性的。

根据阿里云方面的数据,公司目前拥有内外5000多个直接客户,如依赖大规模数据分析的阿里巴巴金融、万网、shopex等,同时间接为20多万家客户提供基于云计算的服务。王坚表示,公司的第二个目标是计算规模能够与Amazon相提并论,“相信一定不会花十年的时间。”

大规模云计算平台的技术挑战

正如单机操作系统的内核,在阿里云OS中,飞天大规模分布式计算平台起到了承上启下的关键作用。飞天运行在通过网络互联的通用服务器集群上,隐藏了海量硬件所带来的复杂度和不可靠,向云OS的其他组件提供可信赖的的计算能力和存储能力。

具体来讲,飞天本身是一个由多个组件所构成的复杂的分布式系统,其中的核心组件是以下两个子系统。

  • 计算资源调度系统(又称伏羲):管理和调度集群计算资源;在多个云服务间动态分配计算资源,以满足用户的计算需求;自动检测服务器故障并迁移故障服务器上的服务。
  • 分布式文件系统(又称盘古):管理集群的所有硬盘;合理地安排数据存放位置以兼顾性能和数据安全性;自动检测磁盘故障并复制数据以保证安全。

在实现飞天云计算平台的过程中,工程师们面临了许多技术挑战,包括:

  • 在不可靠硬件基础上提供高可靠的计算能力和存储能力;
  • 提供高可用服务;
  • 低成本运维海量硬件;
  • 在线应用与离线应用并存;
  • 克服节点间带宽的限制;
  • 最大化利用计算资源,等等。

其中,不可靠的硬件是最基本的挑战。集群规模达到上千台后,单机上的小概率事件变成了必然的、频繁发生的事件。硬盘、硬盘控制器、CPU、内存、主板、电源等故障造成的宕机每天都会发生。这类硬件失效故障,我们称之为“硬”故障(fail-stop故障)。此外,还有一类故障现象不那么明显,称之为“软”故障,例如,磁盘可访问但速度只有正常的1/10、服务器没有宕机但程序运行缓慢、网络时好时坏等。这类“软”故障同样会影响服务质量,因为在线服务如果执行缓慢会造成客户端超时,而对离线作业而言,哪怕只有1%的数据处理任务缓慢,也会拖延整个数据分析作业的完成时间。

硬、软故障发生都会对系统的可靠性甚至可用性造成不良影响,因此如何及时有效地进行故障检测和恢复就变得比较关键。对于硬故障的检测业界已有成熟的方案,本文第一部分只重点讨论软故障的检测;本文的第二部分将集中探讨故障恢复策略相关的问题;最后,我们将介绍如何在保证数据可靠的同时满足在线应用的低延时需求。

云环境中的软故障检测

检测“软”故障有两种思路。

  •  一种思路是针对每种具体故障设计检测方法。但“软”故障产生的原因可能很多,例如执行缓慢可能是服务器硬件故障、网络故障、磁盘故障、操作系统软件故障等,逐一检测会使系统过于复杂。
  • 另一种思路是从宏观现象来检测,下面看两个例子。

例子一:检测作业在某台服务器上执行特别缓慢的情况。

我们统计每个作业在每台服务器上的执行时间。因为输入数据被均匀地切片,每台服务器上的执行时间应该大致相同。如果某台服务器上执行时间超过了平均时间的三倍,它就被标记为“缓慢”。如果各种不同作业在某台服务器上都“缓慢”,那么我们有充分理由怀疑这台服务器有问题(但不知道原因)。调度系统会自动把这台服务器加入黑名单,不再用它执行作业。之后再自动或人工检查这些可疑服务器的具体故障原因。

例子二:检测磁盘读写慢的情况。

我们在分布式文件系统里也会统计每次磁盘访问的时间。如果某块磁盘有大比率的访问时间远远超过系统平均值,那么很有可能是这块磁盘快要发生故障了。文件系统此时会做三件事:

  •  停止写新数据到这块磁盘,防止更多数据处于危险中;
  • 开始为这块磁盘上的数据增加更多副本;
  • 当这块磁盘上的所有数据都有额外的副本,就可以将它下线,待运维处理。

故障自动恢复的策略

在检测到故障后,需要有自动及时的故障恢复机制。然而,故障自动恢复机制一旦没有考虑周全就会成为一把双刃剑。让我们从Amazon云服务那次严重的事故说起。

Amazon EC2大规模停机事件
2011年4月21日,Amazon的虚拟主机服务EC2发生大规模停机,时间超过两天,影响波及Reddit、Foursquare、Quora等众多网站。事后Amazon对此次事故作了详细分析事故起因是Amazon对集群网络作日常维护升级时操作错误,网络流量被全部切换到备用网络,导致备用网络过载。自动故障恢复机制检测到网络不通,认为服务器大量宕机,马上开始数据复制以替换“宕机”的服务器上的数据副本,引发了“镜像风暴”(大量服务器同时尝试创建数据镜像)。而由此增加的数据流量更加剧了网络过载,从而使故障在集群中蔓延,进入恶性循环。最终采取了包括暂时关闭自动故障恢复系统和增加硬件在内的多种措施,服务于故障发生两天半以后恢复。

在此案例中,故障自动检测和恢复的策略是“在数据副本所在服务器失去联系时,复制数据”。这一策略对“一台服务器故障”这种小范围的常见问题很有效,然而在大范围故障如“网络过载”的场景下,可能会起反作用。在这个案例中,如果根本没有故障自动恢复机制,故障影响范围反而不会有那么大。

实际上,这一模式在过去的大规模分布式系统故障中反复出现:发生了未曾预料到的、中小范围的故障

→故障自动恢复机制采取了错误的手段

→故障恶化,进入恶性循环

Amazon S3存储服务2008年的故障就仅仅是由于故障自动检测机制的自身状态中一个bit出错,然而故障同样迅速蔓延到整个系统,导致服务在没有发生硬件故障的情况下不可用。

对此,我们的策略是限制故障自动恢复机制的作用范围:

  •  正常情况下,任何时候集群中都有且仅有很小比例的服务器发生故障,此时自动恢复有效,即使无效也不会造成灾难;
  • 如果发生(罕见的)大范围故障,明智的策略是尽量降低系统负载,因为此时实际上已不可能靠故障自动恢复来保持服务质量。万一此时故障自动恢复机制试图进行大量操作,并超出预设的限制,即暂时禁止掉这部分逻辑。

以前面提到的硬盘访问变慢为例:考虑到硬盘平均日故障率小于千分之一,我们给前述的疑似问题硬盘自动下线机制设置上限,例如,任何时候只能通过此机制下线总数1%的硬盘。此限制可以防止极端情况下,如大量硬盘出现问题,或者自动下线机制本身故障时,故障恢复机制本身不会引发灾难。

数据可靠性和实时性能优化

云环境中,由于分布式系统有硬件故障多发的特点,保证数据可靠性成为文件系统的一个挑战。

在飞天云计算平台的实际运营中发生故障最多的硬件是硬盘。硬盘故障占阿里云数据中心故障总数的80%。原因之一是硬盘是数量最多的部件,例如一个3000节点的集群就有30000多块硬盘,即使硬盘本身的平均无故障工作时间(MTBF)达到1,000,000小时,30000块硬盘也意味着平均每33小时就有一次硬盘故障发生。实际运营数据显示硬盘厂家标称的MTBF值并不可靠,生产环境的硬盘故障率可以几倍到几十倍于标称值。

硬盘故障最直接影响的就是盘古分布式文件系统。为了保证数据安全性,盘古文件系统对所有的数据均采用了多份拷贝。在创建文件时,用户可以指定文件数据的拷贝数目,文件系统会保证数据分布在不同的节点和不同的机架上,使得单个硬件故障不会造成数据无法访问。

多副本技术是业内广泛认可的有效防止数据丢失的技术,通常采用流水线方式传递写需求以减轻单个节点的负载。但这会导致数据写入的延迟增大,因为只有当所有副本都写成功后才能结束一个写操作。

由于磁盘读写特性,上述多副本写入磁盘的延迟通常在几十毫秒量级,有时可达100毫秒以上。云环境中的线上应用,有时会有更高的实时性要求。盘古通过内存日志文件(in-memory redo log)来解决此问题。

内存日志文件的基本思想基于以下事实:虽然服务器因为掉电或者宕机丢失内存数据的概率高于硬盘损坏的概率(所以在单机系统中我们会把日志文件写入磁盘以避免内存数据丢失),但多台服务器同时故障的概率却可以低到能够满足数据可靠性的要求。对于实时性要求高的应用,盘古提供接口,使得数据文件进入指定数量服务器的内存即可认为是写成功;盘古的后台线程随后会把内存中的数据批量写入磁盘。

盘古在保证内存日志的可靠性和低延时上做了如下考虑。

  • 保证redo log是多份拷贝的,避免单机故障造成数据损坏或丢失。
  • 为降低写入延迟,确保redo log写入多个数据服务器内存buffer后即返回成功,由后台工作线程保证内存数据在很短时间内持久化到磁盘。
  • 严格检测redo log数据的健康状态,并及时采取补救策略确保数据的可靠性。

分布式系统的一个优势是对单点故障的屏蔽:数据的可靠性通过多台服务器间的复制备份得到极大的增强。对于单机,内存数据是易丢失的;但在多机环境下,如果能保证服务器不是同一时间宕机,并辅以严格的策略保证,内存数据在不降低可靠性的情况下,可以极大地提高性能。阿里云的数据中心保证了很好的硬件隔离和冗余,并备有UPS等应急措施,为我们提供了使用内存缓冲的良好硬件环境。

下面主要介绍我们在内存文件数据可靠性上的一些考虑。

写入内存阶段

  • 确保多个数据服务器成功接收数据并放到内存buffer中(这点是redo log的设计基础)。
  • 选择数据服务器充分考虑硬件的隔离性,避免故障的关联。
  • 在接受数据时数据服务器判断自身的健康状态:
  • 所写的磁盘状态是正常的,并且剩余空间足够;
  • 当前的workload状况良好,比如内存和I/O队列没有超负荷。

内存到磁盘持久化阶段

  • 限制从内存buffer到磁盘I/O的最长时间(30秒内)。
  • 发现写入超时后(比如磁盘异常慢或I/O请求超载),立刻通知master服务器进行复制备份。
  • 当发现写入异常(磁盘坏或者满等)后,立刻报警,通知master复制。

检测与复制阶段

  • 监测磁盘异常和后台检查数据完整性,发现异常后立刻通知master复制。

可以看出,写入内存阶段的策略是预防措施;内存到磁盘持久化阶段最危险,我们确保这个阶段尽可能短(保证预期性能的情况下给出最长写入时间),并在确认出错后及时采取措施;检测与复制阶段是典型的磁盘坏掉但保证数据不丢的策略。

小结

在设计和实现飞天云计算平台过程中,工程师们花费了大量努力来应对海量硬件所带来的可靠性的挑战。本文叙述了部分设计思路但远远不是全部。锤炼一个健壮的大规模分布式系统一定需要良好的设计、精致的实现以及严格的测试。有了飞天这个稳定可靠的云OS内核,各种丰富的云计算服务及应用便有了生存、长大的肥沃土壤。我们随后将会介绍的各种云服务,正是运行建立在阿里云自行研发的飞天云计算平台上。

作者刘缙,2008年底加入阿里集团,专注于云计算平台的研发。目前在阿里云数据中心计算平台部任架构师,着重于集群资源调度系统。2006年于北京大学获得计算机硕士学位;在加入阿里之前,在微软亚洲研究院从事大规模数据分析平台的研发工作。对分布式系统和编程语言有浓厚兴趣。

作者朱家稷,阿里云计算高级专家,负责分布式存储,主要兴趣在大规模分布式系统的架构和实现。

作者张海勇,阿里云公司计算平台部高级架构师,从事文件系统以及通信模块的研发工作。之前担任IBM系统与技术研发中心高级软件工程师,从事高性能计算软件研发工作,组建并领导并行文件系统中国开发团队。在10年的IT职业生涯中,积累了丰富的大规模分布式系统的设计、开发经验,并对操作系统、文件系统有浓厚兴趣和深入理解。

阿里云服务综览

阿里云经过三年艰苦的探索与实践,参考业界的领先技术,独立开发出一套完整的云计算平台,并初步形成了一套比较完整的开放服务。我们将多角度介绍阿里云开放平台关键服务,希望向读者展现阿里云平台的全貌,进一步体验云计算的魅力。

 

弹性计算平台

弹性计算平台是最为接近传统用户需求的云计算产品,产品包括云服务器(虚拟化服务)和辅助的云负载均衡。阿里云的云服务器更支持用户以API的方式来灵活构建一个具备伸缩性的服务器架构。

ACE开发者平台

相比弹性计算平台,阿里云ACE开发者平台进一步为用户简化了网络应用的构建和维护过程。ACE平台系统基于云计算基础架构的网络应用程序托管环境,可根据应用访问量和数据存储的增长自动扩展。ACE支持PHP、Node.js等语言编写的应用程序。

开放存储服务和CDN

开放存储服务(Open Storage Service,OSS)是互联网的云存储服务。当用户面对大量静态文件(如图片、视频等)访问请求和数据存储时,使用OSS可以彻底解决存储的问题,并且极大地减轻原服务器的带宽负载。使用CDN可以进一步加快网络应用内容传递到用户端的速度。

开放结构化数据服务

开放结构化数据服务(Open Table Service,OTS)适合存储海量的结构化数据,并且提供了高性能的访问速度。当数据量猛增时,传统的关系型数据需要资深的DBA才能搞定;而使用OTS,数据再怎么增长,它都自动默默帮你搞定所有事情。这是时下热门的NoSQL在线服务!

开放数据处理服务

想深度挖掘出海量数据(如HTTP Log)中蕴藏的价值?开放数据处理服务(Open Data Process Service,ODPS)就是为了这个目的而存在。不用羡慕拥有几百甚至几千台机器的大公司数据仓库平台,也不需要写MapReduce程序,把你的结构化数据存储到ODPS中,使用SQL语句就能完成相同的事情。

云应用平台

使用HTML5、CSS3和JavaScript就能在移动平台上开发出用户体验优秀的移动应用?没错,云应用平台结合了本地应用和互联网应用的优点,便于开发功能强大的移动应用,并且还能非常容易地使用各种云服务。

体验云平台

在这些看起来很不错的服务的背后,有一个强大的大规模分布式系统作为基础平台。这个平台里的分布式文件系统、分布式调度系统等解决了各种各样的硬软件不可靠问题。我们提供了一个在线环境,来试试随意杀掉一台机器的感觉吧!不用担心,我们的分布式文件系统根本不在乎一两台机器宕机。

以数据为中心的云计算——阿里云OS浅谈

时下,云计算是一个时尚的名词,但究竟云计算解决了什么问题?云计算的技术挑战又在哪里?云计算和移动互联网又是怎样的关系?本文将阐述阿里云的观点,并介绍阿里云在云计算上的努力。

云计算的三个实质问题

云计算可以被解释为虚拟主机的租赁服务,也可以被解释为企业软件的SaaS化,又或者是一个“云机箱”之上跑许多个虚拟桌面。在阿里云看来,云计算要解决三个实质问题。

第一是大规模。这里提到的大规模不仅是超过单台PC服务器的能力,更指的是能够支撑互联网级别的数据和应用,例如个人邮箱、搜索等。

第二是低成本。低成本的一个标志在于用系统软件来解决廉价硬件在复杂条件下不可靠的问题。

第三是服务运营。这里所指的服务运营是能够通过无差别的存储计算能力来提供公共的基础服务。

当各式各样的应用可以共同运行在一个统一平台之上,才能达到真正的大规模,而由此得到的规模效益才能够获得低成本,于是这三个本质的问题是云计算的有机整体。

传统的软件以功能为主体,而云计算则彻底推动了“数据为王”。数据将成为一家企业乃至是一个国家极其重要的战略资源。而数据的搜集、存储、分享、处理和应用是需要大量的计算资源的,从这个意义上说,云计算可以称为“以数据为中心的分布式大规模计算”。而一个企业乃至一个国家瞬间能够调用的计算资源则成为了能否利用和发挥好数据这个战略资源的核心竞争力。提供公共计算服务的云计算平台将大大促进企业之间、社会各行业间的数据收集、分享和实时处理,在这基础之上必将孕育出大量的数据运营的新商业模式,数据也将最终成为一切商业行为的决策基础,从而大大提高社会的整体效率,促进人类从大工业化时代走向信息化时代。

云OS架构   

搭建云计算平台是一项有较高技术门槛的大工程。云OS在这个大工程中起着至关重要的工作。云OS的本质就是数据中心上的操作系统,它需要把成千上万台通用PC服务器变成一台超级计算机。

图 阿里云OS架构

如图所示,阿里云OS运行在成千上万台服务器的Linux之上,飞天大规模计算系统相当于Windows中的内核,负责管理集群系统资源、控制分布式程序运行、隐藏下层故障恢复和数据冗余等细节、有效地提供弹性计算和负载均衡的服务;开放存储服务(OSS)、开放结构化数据服务(OTS)和开放数据处理服务(ODPS)类似于Windows API,提供了方便的进行大规模数据的存储、查询和处理服务;在这之上的Cloud Engine为第三方云应用提供了弹性、低成本的运行环境,帮助开发者简化云应用的构建和部署;在互联网基础应用的层面,如同Windows自带记事本和画笔,阿里云OS自带了搜索、邮箱和地图的服务。

这样的体系结构可以有效并广泛地支持各种互联网的应用,并且作为一个开放系统,为第三方开发者提供简易的操纵整个数据中心计算资源的能力。在阿里云OS中,飞天大规模计算系统是整个系统的核心技术能力,承载了从PC服务器到“数据中心”这台超级计算机的质变。

云计算与移动互联网

随着3G时代的到来,移动互联网的兴起将带动互联网进入新一轮的高速发展。移动设备将成为人们更方便、更广泛地接入互联网的终端。移动的特性同时也带来了对数据收集、分享、处理等更高规模上和实时性上的要求。因此,虽然云计算不是为移动互联网而诞生的,却很可能在移动互联网开花结果。为了更好地配合和利用数据中心中云计算平台提供的计算能力,阿里云OS同时管理了移动终端上的计算资源(如图2所示)。其中,为了帮助开发者便捷地将互联网服务接入移动终端,使得云应用拥有和本地应用一样流畅的用户体验,阿里云OS为开发者提供了云端和终端的资源和服务构建统一的云应用框架。

阿里云通过构建阿里云OS来实现以数据为中心的云计算,解决了大规模、低成本、可服务运营这三个本质的问题。同时,阿里云OS在移动终端的努力,使用户可以用更便捷的方式来获取互联网服务。云OS是一个费时费力的大工程,但同时也是云计算绕不过的技术门槛。阿里云将直面平台搭建这样的正面战场,使得云计算不再是概念,而是实实在在的工作。

作者林晨曦,2008年11月加入阿里集团研发院,目前是阿里云计算平台部门的资深专家。从2008年到目前,一直从事阿里云大规模分布式系统(飞天)的架构和开发工作。在加入阿里云之前,林晨曦曾在微软亚洲研究院从事分布式系统、机器学习等研究工作。

追寻凌云梦——对话阿里云总裁王坚

王坚其人

被同事习惯地称为“博士”的王坚是一位颇具传奇色彩的技术领袖。这位1962年出生的杭州本地人个子却很高,学者气十足,说话思维敏捷,声音洪亮。小时候成绩并不出众的他,长大后却成为博学广识而有独特思维模式的怪才。

加入阿里巴巴以前,他曾经是声名显赫的微软亚洲研究院常务副院长,负责过用户界面、机器学习、大规模数据处理、广告平台、无缝个人计算等诸多看上去非常发散的项目。他主持发明的数字墨水技术、数字笔和手写数学公式识别器等都是名噪一时的学术成果。更令人称奇的是,他居然是心理学科班出身,在杭州大学从本科读到博士,短时间在国外进修后,又回到母校任教,先后担任教授、博士生导师和心理学系主任。而他当年进入微软研究院时的身份却是国内人机界面第一人。

与大多数同龄人不同,王坚敢想敢做,没有太多顾忌,思维方式很像美国人。《追随智慧》一书中曾爆料,当年他之所以接受李开复的邀请加盟微软,动因竟是因为老开会烦了,又不想当学校指定的理学院副院长。而他第一次见到李开复时,开口就批评后者参与开发的苹果系统和微软的Windows用户界面都很糟糕……

相比阿里巴巴旗下人人皆知的淘宝、支付宝等子公司,组建于2009年9月10日的阿里云要低调得多。也许因为恰逢阿里巴巴集团成立十周年,庆典的宣传太过火爆,外界很多人当时要么压根儿没留意到这个新公司的诞生,要么就将它与阿里软件混为一谈了。

此后,除了2009年底大批招聘技术人员见诸报道之外,阿里云似乎一度从人们视野中消失。即使是在云计算已经成为业界焦点、如火如荼的2010年,也未见阿里云有较大动作。原定2010年底的发布迟至2011年上半年将尽仍然不见动静。而在此前后,阿里云庞大的布局曝光——分布式计算系统、分布式数据库、手机操作系统、浏览器、输入法、搜索、地图、邮件、翻译……引起技术圈内激烈争论,豪华团队、投资巨大、研发受阻、前途未卜等等有关阿里云的传言也越来越多。更有前阿里员工甚至直斥阿里云不靠谱、纯忽悠。

2011年7月,联手天语推出的阿里云手机迅速成为媒体焦点,总体上外界的评价是毁誉参半。10月24日,阿里云首次开发者大会召开,弹性计算平台、开放数据处理服务、ACE平台、云应用平台、开放存储服务和CDN、开放结构化数据服务等全线产品首次全面发布。此后阿里云喜讯不断,先与日本游戏平台DeNA达成战略合作,后又获得政府亿元资金支持。

但围绕着阿里云的疑问仍然不绝于耳。一个电子商务公司为什么要同时做云计算和移动操作系统?为什么一开始就做这么全面的布局?在中国这个市场里如何靠云计算赢利?三年时间里阿里云荟萃的众多技术精英到底做了些什么?带着这些问题,在12月28日,我专门飞到杭州,对话阿里云掌门人王坚。

平台之梦

位于杭州文二路西湖国际科技大厦的阿里云公司办公场所面积很大,充满活力,满眼都是朝气蓬勃的技术人员。据介绍,目前公司已经有1200人,其中八九成都是工程师,包括中国第一个ACM-ICPC冠军队成员林晨曦在内的一批技术骨干,分别负责基础平台、基础服务、云计算业务、云手机四块,公司没有销售。

世界范围内,云计算的领导性厂商,技术上是Google,而业务上则是Amazon。Amazon Web Services目前已经渐渐成为主流,不仅是众多创业公司的首选,也是Netflix、DropBox、Zynga等行业新贵们崛起的幕后英雄,已经实现数亿美元的营收而且潜力巨大。而在中国,对应的市场仍然基本上是一片空白。在平台征战的时代,这块业务是当然的制高点,其重要性不言而喻。

阿里巴巴是中国与Amazon最接近甚至在电子商务方面布局更全面的公司,它的资源实力毋庸置疑,而外界不大了解的是,其技术能力在业界也是领先的。因此,阿里投身做云计算,逐鹿平台之战,并不奇怪,但阿里的雄心仍然令我吃惊。王坚介绍,从战略上来说,他们想做的事情实际上可以解读为Amazon+Google并有所超越。Amazon最重要的贡献是真正实现了计算的Utility化,而Google真正从技术上把计算的规模做上去了。这两点阿里云都要做,即用Google模式的技术来做Amazon模式的运营,而同时还在慢慢努力做的一件事情,是数据,要为人人提供全网规模的数据与计算。也就是说,如果你今天愿意,就可以做一个全网规模上的搜索引擎,计算和数据不再是你的约束。

阿里云对自己使命的表述方式颇有点与众不同——打造以数据为中心的先进云计算服务平台。在对话中王坚不无自豪地表示,三年前公司成立的这个初衷,现在一个字都不用改。他们当初对云计算的理解和判断基本上仍然是成立的。

为什么这么强调数据?王坚认为,数据将成为对国家和企业至关重要的战略性资源。而且,是近年来发生的一个革命性变化——数据都是在线搜集完成的,从不在线到在线,使数据真正具有了战略价值。与他的说法可以相互印证的是,全球范围内Big Data也成为业界大热词,有国外观察者称数据将成为新时代的石油。

另一个要素——计算能力,也是国家和企业绝对的核心竞争力。Google是一个很好的例子,它实际上是把一个本来是大家公共的数据变成独有的,然后在这上面创造了一个巨大的企业。相当于6千米海底下的石油,理论上是大家的,但别人都没有能力打,只有Google有这个技术能挖掘其中的价值。而阿里云的愿景是做中国拥有最大计算能力(而不是服务器最多)的公司。

阿里云的业务模式有两种,一种是数据中心和技术、运营都由阿里云负责,一种是数据中心和服务器是客户的,阿里云负责技术和运营,与客户分享收入。后一种模式已经有好几家公司在尝试,王坚预计后一种可能利润更高。

超越Hadoop

王坚在对话中多次强调,阿里云战略上最与众不同之处,就是坚持追求拥有自己的具有竞争力的核心技术。而且,经过三年艰难地技术攻关,数次推倒重来,终于跨过了这个技术门槛,依靠自己的技术力量实现了飞天(Apsara)这个非常扎实的通用大规模分布式计算系统,它除了MapReduce之外,还支持最广泛的各种编程模型。而且,阿里云技术人员在这个统一平台上实现了电子邮件、搜索、地图、弹性计算、数据处理等众多功能,也就是说邮件和搜索底层是一样的,除他们外,在世界上只有Google能够做到这一点。

说到这里,王坚有些动情:“这其中有很多具体的技术难题,有的非常难,比如调度那一块,就让开发团队吃了不少苦头。你不做到那个层次,根本不会知道其中奥秘。一开始很多人都不相信我们能够做出来。但我们成功做出来了,对此我完全有理由感到自豪。”

我们都知道中国公司很少会选择冒很大风险自己从事这种底层的自主研发,当时这一决策是怎么做出的呢?难道不怕最后搞砸了无法交待?

王坚回答,做平台必须面对正面战场,这是绕不过去的,打游击战、平型关大捷什么的没有用,无法结束战争。幸运的是,团队的内外部环境非常好:集团对此有足够的耐心和坚持,马云本人是铁杆的支持者,集团CFO也说过钱不是问题的话,其他子公司的友情支持,加上有一批铁杆的员工,还有来自万网这样铁杆用户的支持。他直言:“有这么幸福的环境,如果还做不成的话,只能说是我们这帮人无能。”

处于核心的飞天系统的研发成功之后,阿里云终于一扫之前的阴霾,各种上层产品源源不断地发布。

我又提出一个早已准备好的问题:为什么不直接用Hadoop呢?王坚回答:“大家都会觉得,直接用Hadoop不是很好更快吗。Hadoop当然在离线大数据处理上很有价值,但它无法解决我们公司公共云计算服务的问题,因为我们已经上线的云服务,已远远超出Hadoop的能力,这和公司的定位是有关系的。今天飞天已很好地支持了阿里云的各类业务,其中也包括了大数据处理,从这个意义上讲,飞天实际上已经超越了Hadoop。”

他还补充说,现在号称做云计算的公司很多,实际上其中的技术门槛是非常高的,很少有公司具备这样的实力。一些企业搞一百台服务器就做网盘、云存储,还有所谓的私有云,把一个企业解决方案放大就说是云计算,说实话,这些真不能算。此外,通用的云系统比垂直、专用的要难得多,虽然单看某个具体的应用效率上后者可能还是会有优势,但整个平台规模效益一上来,结果就完全不同了。

有了坚实的底层技术做支撑,阿里云就有信心在规模效益和成本上取得竞争优势。王坚举了一个让他最感自豪的实验案例,在一个1500台组成的数据处理集群上,一边处理数据的同时,还可以溜进去几个作业,完成动画渲染,实际上相当于渲染是免费的。

与此同时,云计算除了解决基础设施需求之外,必须给客户提供更多价值,比如搜索等服务,比如能给客户带来用户,降低用户获取成本。

拨开迷雾

问:在已经有很多业务的互联网公司做通用云计算平台,都会遇到平台与业务关系之间的矛盾。之前外界对阿里云的很多质疑也是说阿里云的研发不跟具体的业务结合,阿里集团自己内部也不怎么用。阿里云目前的情况如何?又是怎么解决相关问题的呢?

王坚介绍:“目前集团内外都有很多成功案例,平台接入的直接客户接近5000家。其中包括集团内部的整个邮箱。万网更是铁杆用户,在我们发展早期帮过大忙。他们第一天上线时,客服电话都被打爆了,而到现在几乎各种有竞争力的功能都是我们在后面支撑。阿里金融是联合运营的例子。淘宝的对外数据业务和开放平台也会建在阿里云平台上。还有ShopEx等外部的客户也跑在我们的平台上。类似的例子还有很多。”

在平台和现有业务之间,阿里云有过经验教训,中间有一个痛苦的转变过程。最开始,阿里云同时还承担集团技术部门的角色,要兼顾公司内部和面向外部的平台开放,一度非常纠结。支持集团内部业务与真正面对公众的开放云计算平台之间差异还是很大的。王坚说,看到Google虽然技术领先但在与Amazon的竞争中处于下风之后,坚定了外部服务和内部服务各有专注的看法。内部服务现在专门成立了集团技术部,由刘振飞负责。而阿里云将完全转变为专注对外业务,即使是集团内部的公司,也要按两家公司结算,分享营收。

问:阿里云本来应该是专注于平台的,为什么会想到去做云手机?之后的路线图是怎么样的?

王坚坦言,的确这一年同时在打两个正面战场,很辛苦,但移动终端也是一个绕不过去的正面战场,靠做应用无法解决所有问题。这个决策主要是从阿里巴巴集团战略的角度出发的,不能失去这么大的一个机遇。内部各公司中阿里云最有条件去做这一块。而且,战略上移动互联网和云计算是不可分的,如果你的云计算只是在传统互联网上成功的话,其实还不能算成功。云计算生根不是在移动互联网上,但开花结果会在移动互联网上。某种意义上阿里云在概念上是非常紧密的两家公司。但在云平台方面,对其他终端系统也是开放的。

下一步基本上每两三个月会有一个新的版本,2012年1月会出手机云OS 2012版,这一版在用户体验上有了很大提高。同时,已经开始在谈第二个手机厂家,天语也会出更多的型号,支持高端和低端,还有平板。但最重要的,是把互联网运营的思想带到手机上去。现在路子已经趟出来了,就是有三个系统:终端操作系统、云端系统,还有运营手机的系统,比如应用商店之类。

问:就目前来讲,你给阿里云打分打多少分?

“从个人角度,”王坚回答,“打两个分比较客观。必须承认正面战场是很难的,就阿里云自己今天走到这一步而言,我觉得可以打90分。但从让别人满意来看,我觉得打不到60分。确实由于能力所限,还有很多需要改进的地方。”

问:你预计阿里云过几年能够像Amazon那样成为盈利部门?

王坚确认,从集团角度阿里云会持续投入,一年十个亿,基本上要做十年。但阿里云有可能在12个月到24个月以内实现盈利。现在公司可以不再增加一个人,收入却不断稳定增加。“我的第一个目标,是阿里云给集团外部提供服务所需的计算资源,要超过集团内部,这个目标已经是可以预见的。而第二个目标,是我们的计算规模能够与Amazon相提并论,相信一定不会花十年的时间。”

阿里云的战略方向是正确的,自主研发核心系统的勇气也令人敬佩。从CSDN最近与阿里云平台的合作来看,产品值得信赖。阿里云公司杭州办公区的前台有一副对联相信给所有访客都留下了深刻印象:梦想永在凌云意意气风发,代码成就万事基积沙镇海。让我们祝福阿里云。

2012版阿里云OS上市

 1月18日,伴随着天语W800手机全面上市,随机搭载的阿里云OS 2012版也宣告面世。这也是自去年7月28日阿里云OS首度发布后的重大版本升级。而天语W700手机也将在不久之后升级到该版本。  

 

阿里云OS为每个用户提供了高达100G的云空间,让用户享受随时随地的数据服务。 在操作的人性化方面,2012版日历新增了农历显示,并与邮箱无缝衔接,同步会议邀请、约会等邮件提醒;系统级支持来电号码归属地显示;云地图升级到了更先进的矢量技术,并加载更多的生活信息,让寻找餐饮美食更加便捷;系统内的输入方面保留了“所写即所存”的特性,不必担心所写信息的遗失;在线翻译方面也增强了翻译的精确度。

阿里云2012版也开始了与其他合作伙伴联合创新的道路。短信息是日常使用频率极高的功能,在新版本中,用户可以在回复短信时添加其他联系的号码,方便转发手机号;短信内还新增了“热信儿”功能,用户可以随时获得从后台推送过来的最新最热的短句,或者在“乐音传情”中,获得有趣的短语、或送给好友一首最热门的歌曲。而这些服务均由在该领域领先的互联网公司提供。

面对手机购物趋势,本次新版系统新增支持使用支付宝账号作为系统账号登陆手机,与此前的系统一样,2012版阿里云OS也为每位用户赠送了1000元红包,用户可以使用该红包在手机上进行购物消费等。同时也增强了浏览器在反钓鱼等方面的安全性能。

值得一提的改进重点也在于阿里云OS重点打造的云应用(Aliyun App)及云市场(Aliyun Mart)上。2012版阿里云OS升级云市场至2.0版,对不断增长的云应用进行新分类。由于云应用性能及体验的提升,在2012版OS中,云应用还能添加至主屏,与本地应用毫无二致。这也意味着Web App模式在移动互联网中迎来新的阶段。

阿里云应用中心上线 手机应用可一键安装

近日,阿里云正式针对移动终端推出了在线应用中心(http://apps.aliyun.com ),该应用中心为阿里云手机用户量身定制,通过阿里云浏览器,用户可轻松实现在电脑上为手机安装各种应用。目前在线应用中心已有数千款各类应用软件可供用户下载。

“用户将手机通过usb连接到电脑,在阿里云浏览器上即可安装手机应用,一键搞定。不需要专门的管理软件,同时也为用户节省了手机上网流量。”应用中心负责人介绍。这是业内首创的浏览器与应用管理器的融合。

据悉,今年年中,阿里云在线应用中心会有超过1万个应用审核上线,供用户下载。“我们一直在不断丰富各种应用的种类,保证让阿里云手机用户随时能享受到最时尚、最新的优质应用。”该中心相关负责人说。

阿里云计算服务新增“开放结构化数据服务OTS”

近日,阿里云旗下开放结构化数据服务OTS(Open Table Service)正式上线,OTS构建在飞天大规模分布式系统之上,提供了海量结构化数据和半结构化数据的存储和实时查询的服务,具有实时的插入、修改、删除和查询等功能,适用于对数据的规模性和实时性有要求的各类应用。用户可通过领取邀请码的形式第一时间体验OTS。

 

由于许多应用有着结构化数据存储及查询的需求,传统数据库运营成本高、运维复杂,并且随着业务的增长数据量和并发访问量都可能会出现快速增长的情况,就会遇到添加机器、均衡负载、切分数据等麻烦的问题。

以一个普通的应用为例,如果使用传统的单机数据库方案,当数据规模超过100G以上的时候,单机处理就变得十分困难。同时,由于存储错误或者宕机的情况时有发生,严重影响着数据的可靠性和服务的可用性。而OTS是构建在大规模分布式计算平台之上,具备资源的可伸缩、数据的高可靠和服务的高可用。

OTS以数据表的形式组织数据,保证强一致性,并提供视图和分页的功能来加速查询。用户可以通过RESTful API来使用服务,也可以使用WEB页面对数据进行管理,这无疑在使用感受上给用户带来极大便利。同时,OTS提供多语言SDK来提高开发效率,并支持多种数据类型和动态调整schema以便让应用的构建更便捷。

在安全性方面,OTS提供用户级别的数据隔离、访问控制和权限管理,确保数据库的安全性不受威胁。

目前,有着全球能效管理专家之称的施耐德电气已经开始采用OTS服务,不仅保证了数据存储的安全和高效,更有效地降低了使用数据库的成本。这一点对于处于起步或初创阶段的客户来说,成本极具优势,竞争力不言而喻。

该服务已经通过官网正式邀请用户进行体验,有海量数据存储需求的用户可以登录http://ots.aliyun.com/网站进行体验。

阿里云与CSDN合作 提供安全服务

1月11日,阿里云计算与全球最大中文IT社区CSDN在北京达成战略合作协议,双方共同致力于构筑安全可信的新一代开发者服务平台。同时,CSDN将邮箱、代码托管、云测试平台、API开放接口、应用市场等服务托管至阿里云服务器上。

此前,互联网业界发生数据密码泄露事件,引起各方关注。而通过此次合作,阿里云可以协助CSDN在安全方面持续加强力量,保证用户的数据安全。

阿里云总裁王坚博士表示,互联网发展到今天,已经成为整个社会的公共基础设施,而大型的数据中心变成了一台真正为公众分享的计算机,同时变成一种公共的服务。这实际就意味着,安全永远是它的第一要素。

“阿里云在开始涉及云计算时,第一支组建的团队就是安全团队,在安全性上一点都不敢怠慢。我们每天至少要遭受10次攻击,我们保证所有的攻击都要在15分钟内处理完。”王坚表示,“每天阿里云要为数十万的网站做密码的监控,安全问题已经常态。”