移动段云峰:中国移动大数据系统架构研究与实践
互联网IDC圈4月28日报道,互联网的发展使得大数据引起人们广泛关注。现如今大数据技术早已渗透到金融、通讯等行业以及生物学、物理学等领域。大数据在容量、多样性和高增速方面的爆炸式增长全面考验着现代企业的数据处理和分析能力,与此同时也为各个行业带来了准确洞察市场行为的机会。迄今为止大数据技术与产品有哪些创新,工业大数据应用面临哪些挑战,金融行业大数据应用现状如何等。围绕这一系列问题,4月27日至28日,由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。
目前成都创新互联公司已为上1000家的企业提供了网站建设、域名、网页空间、网站托管运营、企业网站设计、海拉尔网站维护等服务,公司将坚持客户导向、应用为本的策略,正道将秉承"和谐、参与、激情"的文化,与客户和合作伙伴齐心协力一起成长,共同发展。其中,在4月28日上午“大数据与电信业转型”分论坛上,中国移动大数据系统总架构设计师段云峰发表了主题为《中国移动大数据系统架构研究与实践》的精彩演讲。
中国移动大数据系统总架构设计师段云峰
以下为段云峰演讲实录:
段云峰:很高兴有机会跟大家在这儿做一个大数据方面的交流,我的题目是大数据系统的架构研究和实践,更多是从技术角度做切入,我演讲内容是三块,一个是中国移动的演进和研究,另外是大数据做的案例和几个关键点。
这是整个电信行业大致的数据的情况,我们在做大数据的过程中,中国移动的角度,2001年就开始规划了数据仓库,在做数据仓库的过程中,主要汇集的数据是结构化数据,为什么现在冒出一个大数据,我个人理解是非结构化数据和半结构化数据出来。2010年开始中国移动做了一些云计算方面新技术的研究部署,给大家做一个介绍,中间还有一个MPP,分布式数据库,主要是想降低成本,因为MPP大的好处是X86化,大的优点是SQ9200支持的。原来数据仓库的问题是成本比较高,在Hadoop的架构上,我们现在基本上把有关的技术,Hadoop上组群技术都做了尝试。大数据时代的技术一个是时时技术,Hadoop技术和MPP技术,我个人觉得MPP的技术将来的发展还会面临一个角度,看它和数据仓库谁能够站住脚,这是整个大数据我们的基本架构。
中国移动在大数据方面是一个承载者,因为我们电信,大家一提大数据都想到互联网,但是所有互联网数据都跑在电信的网络上,电信网络的数据的特点,第一是全承载,第二是各个维度的,这是我们感受到的电信和互联网相比的一些特点,这是我们的一个架构,这个架构是中国移动的变化,2001年的时候做数据仓库,当年的目标就是内部服务没有对外服务的定位,最早定位是做决策支持,但是我们做了两年的时候发现不对劲,光做决策支持无法满足公司各方面业务的发展需要,后来提出全员经营分析,希望把我们的应用让所有的移动员工都能够使用上,这是我们当年的情况。从去年开始,我们整个中国移动进行了大数据的建设,这个建设的过程首先是拿到很多数据,进行有关的分发,现在数据环境里包括传统数据仓库MPPHadoop和时时的计算的环境,左边是数据治理,数据治理,2005年就开始做,做的比较早,这是我们的一些惨痛的教训,大数据做了两年左右,数据质量爆发期有些问题会出现,口径问题,数据的一致性问题等等都会暴露出来,这些有的是技术问题有的是管理问题。现在互联网行业这方面还怎么开始介入。大的互联网企业这些问题开始爆发,这是要解决的问题。
在上面怎么做服务和分享,包括我们做一些应用的展现,我们这次大数据的架构里可能有一些新的点,还在理念上,我们引入互联网的思维和角度怎么做这个后面的演化,包括用户是谁,大数据产品应该长什么样,很多问题需要大家考虑,我说的用户包括内部客户和外部客户,大家关注的更多是外部客户,从我们实践15年的情况看,作为一个企业尤其是国企第一件事要解决的是对内服务,把数据保障准确,让所有人都能看到数据的价值,这是我们面临的情况,这个结果特别复杂,这是混搭的状态。
这是中国移动的情况,数据资产,省略号是意味着整个数据极其繁杂,中国移动做了有意的尝试把所有的系统做了整合和管理,数据大量的梳理工作都是体力活,但是我们不得不干,因为真正做大数据这些东西都要先梳理。我个人认为很多事情是绕不过的数据整理建模都要做,我们看到互联网在建模方面刚刚开始。这是大数据应用的架构,这个能看出中国移动大数据做的一些工作,在全网有60个标准的应用,在省里有上千个个性化应用,现在业界看到的应用和模型中国移动都做了。包括当年做数据仓库,相关的工具中国移动基本都用了,SaaS、PaaS,当年数据挖掘类的工具都做过尝试,这些经验可能是对业界很难得的经验,中国移动是第一个吃螃蟹的,这个模型里做了很多数据挖掘的应用,有一种展现形式就是标签,对外再做服务,对外做服务的过程中中国移动积累了大量的经验,五年前我们提出怎么做大数据产品概念,怎么和APP结合,等等这些相关的内容。中国移动大的特点,电信运营商大的好处是所有大数据的汇集点,我见到政府的官员说的很实在,他说现在虽然提大数据,真正有大数据的也不多,互联网也就是BAT,再就是电信,这是运营商的一个优势,手里有大量数据,这些数据将来对社会各个方面都能产生积极的影响。这是IaaS,大数据4S店,DaaS是数据对外开放,PaaS是有关架构,中国移动设备很庞杂,全网加起来一百多个Pb,有大量的计算资源,包括现在的Hadoop和原来的数据仓库的体系,数据集市里更多有这些工具,他这些分析的工具在原来是比较成熟的,现在在PaaS里需要自己重新建,中国移动的这些能力都是将来的一个核心竞争力,大家都有数据,我们电信运营商这是我们的强项。计算能力是我们的竞争优势,因为我们比较成体系,不光是数据存储处理和分析,都是有成体系的工具。
第三个层面是SaaS,从中国移动来说是做探索,我们原来提过BIStore,模仿苹果做的APP开发的尝试,这是在五年前做过的一些BI领域的,应用开发的内容,上面是对外的政府交通做的差不多,在做这方面的对外服务,现在用的比较多的政府交通金融,我个人觉得将来大数据应该成为基础设施像现在的电信网络,中国移动将来可能会具备更多的,电信行业有更多这样的机会。因为将来所有的数据都在你手上。这是整个中国移动未来的大数据走向,一个IT架构首先要结合企业的特征管理模式和企业文化各方面,中国移动目前是两极架构,一个是两极反应,管理文化,我个人觉得集中化和分布化各有利弊,这种方式可能给省里营销的灵活度更高一些,营销资源和响应度更快一些,将来我们大概期望的目标方向是一个云化的资源池,我们叫1+N,N的节点还存在,非N组合在总部,大概是这么一个架构,是我们目前能够感受到的。
下面介绍一下我们在实践过程中的技术,包括业界比较流行的Hadoop,Sql,数据采集等等在中国移动两三年前开始做了,有一些成果。这是Hadoop平台,有做了划单的处理,划单查询从秒级到十秒级,压缩率比较高,这是Hadoop的一些优势。Sabk提高了速度,数据量是120,汇总减少3个小时,效果很显著。在MPP上,从原来的小机到(Wortk)性能提高了6倍,流处理做到秒级的展示,能做到时时监控,还有一些是Sql,主要是HBase,它的差距速度比较快,主要是用于查询,用复杂操作的时候也有一些问题,再是时时流处理的情况,业界有一些框架,每秒钟处理多少话单。很多在大数据处理过程中理论上可以OK的东西,真正实际系统压上去以后,不一定跑的下来,所以中国移动不得不做一些改良,做一些技术的调整。下面是几个关键点,首先是目前的架构,我们用了一个混搭的架构,我个人觉得是业界的技术没有一个好的能够完全一统江湖。我不同数据的技术处理不同数据的内容,站在一个用户的角度是希望把所有的东西都统一起来。Hadoop从我们实践的情况看,在有些计算上速度很快,但是Hadoop对我们国营企业面临的问题,内升外降,X86是便宜了,但是人工成本上来了,国企有些时候调人工有些问题,人工成本很难瞬间上来,不像互联网公司。Hadoop后头发展的走向也面临很多的挑战,中国移动也在做自己的研究院和大营,我们也希望加强一些核心技术的研发工作。
包括NoSql和MPP的数据库,我们现在的定位也在探索,什么样的应用业务什么样的性质业务特征压在上面,他并不是万能的,我们现在是取长补短,哪些系统放在上面都要做,这个过程很痛苦,还是希望将来能够统一起来,因为站在用户角度来说不可能养三套班子,这个成本太高。而且现在Hadoop的问题是人才极其匮乏,现在国内的本科教育里没有Hadoop的课程,这导致了你基本都是靠大家工作以后自学成才,这个成本极高,一个本科生毕业就可以写Sql,这个语言比较简单,基本上都做过职业训练,但是Hadoop最要命的是这方面的人才比较少,培训缺乏一个体系化,这些对会用户应用带来一些问题,互联网的高新模式,中国大部分企业不具备这个能力,将来中国移动怎么把他弄的更好,这是一个课题。
这是大数据的安全,中国移动整个安全系统是十年左右建设的历程,2005年开始做安全管控,原来我们的安全比较成熟的一套体系,比如在数据仓库领域,很多安全管理产品化,都是可以拿来直接用,现在面临的问题像Hadoop的开源性的安全怎么做,现在有很多瓶颈,内部在做技术的探索。而且Hadoop的机制本身不是特别稳定,不是特别产业化的东西,所以他的安全管控都是我们要面临的问题。我说Hadoop像回去重新写汇编,当年写Sql,JAVA,现在又重新回去了,要写一些细节的东西自己去管理,这些细节处理包括安全开源系统怎么做,原来一些脱敏技术怎么在Hadoop平台上形成,这是我们现在面临的一些问题。
整个中国移动做了十年,基本上把安全上能考虑的技术细节都在做探索,尤其是Hadoop,我问遍了业界,Hadoop自身内核怎么做架构还没有人研究,中国移动现在在做这方面的探索。第三个,对外服务,很多专家都分享了怎么把数据对外服务,这是我们一个实际的案例,是一个智慧洞察的开放,API的对外服务大家艘这个智慧洞察可以查到中国移动做的报告景区分析智慧城市的分析,这是三年前做的情况,效果很好。大数据对外经营方面,电信运营商目前还没有进入到主业,我们在一个省里有半个人一年做数据运营业能挣1500万,我说的是在合法合规的情况下做一些合法合规的数据经营对外服务,而且是没有正式做,如果真的做,大数据的运营远超过网络层面带来大家的利益。
第四,数据质量,站在中国移动的角度,在过去15年建立整个数据的过程中,当年说数据质量问题占60%的工作量,真的十几年现在工作量60%是数据质量问题,我了解的业界互联网刚刚开始暴露这些问题,而且运营商的数据质量的计费这方面是比较准的,你稍微一有偏差,用户肯定不干了这要很准才行,整个数据质量我们磨合了十几年。这个应该怎么做?中国移动2006年开始做原数据模型的建设数据质量的监控,我们做了大量产品化的东西,目前是服务内部客户为主,让内部客户参与到运营过程中。
这是中国移动做的大量的工作,这是列到2009年的规范,150册一千多万次,每年在坚持投入做这个系统,这个过程包括模型接口每年都在做新增的标准化,这些工作量应该是能看出做大数据的辛苦。这里有很多血和泪,在做大数据的过程中,可能大家看到的是光鲜的一面,作为技术人员,我们过去有很多血泪史,做了大量的基础性的工作。这是我们做大数据的时候真正进入后期的时候一定要做的工作。
这是本人出的四本书,这是2004年2005年刚开始建数据仓库的时候,写了两本书,一个是《数据仓库在电信领域的应用》,这是翻译的《数据仓库的基础》,当时主要是统计数据仓库能干什么,2001年做数据仓库的时候国内专家不超过20个人说的清楚。去年写了两本书,《大数据和大分析》,这是第一次提出大分析概念,业界更多强调数据的整理会聚和平台的建设,最关键的是分析,我们干了15年,分析的内容很多,这本书里有很多案例。第二本是《大数据的互联网思维》,这是我个人的一些反思,数据仓库还有一个教授提他的框架,但是大数据到现在为止没有一个框架,是纯实践的东西,我个人借鉴了互联网思维,包括大数据产品长什么样,大数据使用者是什么样,他怎么提高客户感知,让客户说你好等等这方面的经验包括中国移动做的探索,这是整个探索对大数据理论发展和体系发展的探索,大家也可以感受一下。
中国移动是大数据的承载者和倡导者,2000年开始做大数据,也是最早的,中国移动也是一个建设者,中国移动在大数据领域,把能涉及的技术都做了探索,最后中国移动也是大数据的运营者,在大数据对外工作方面做了大量的基础性的工作,包括对外的服务和变现。在整个过程中,过去的15年间,整个团队包括各级领导,当年能够有这个见识这样建数据仓库确实是有远见和卓识,中国移动2001年开始做这个系统,在做的过程中包括省级的各个同事奋斗15年,包括我们的合作伙伴,我们合作伙伴在大数据领域的技术水平在业界是数一数二的,因为我们都干了15年了,特别感谢大家。在整个大数据建设的过程中,我个人觉得可能会给电信运营商一些新的战略转型的机遇,在这个方面的利润有可能有一些新的增长点和新的发展趋势出现,在此,我们在做15年的过程中有一些经验愿意和大家分享,大家有问题再跟我们联系。
当前标题:移动段云峰:中国移动大数据系统架构研究与实践
标题网址:http://scyanting.com/article/scopij.html