电信云公司杨维:中国电信大数据能力开放实践与分享

互联网IDC圈4月28日报道,互联网的发展使得大数据引起人们广泛关注。现如今大数据技术早已渗透到金融、通讯等行业以及生物学、物理学等领域。大数据在容量、多样性和高增速方面的爆炸式增长全面考验着现代企业的数据处理和分析能力,与此同时也为各个行业带来了准确洞察市场行为的机会。迄今为止大数据技术与产品有哪些创新,工业大数据应用面临哪些挑战,金融行业大数据应用现状如何等。围绕这一系列问题,4月27日至28日,由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。

创新互联建站2013年至今,是专业互联网技术服务公司,拥有项目做网站、成都网站设计网站策划,项目实施与项目整合能力。我们以让每一个梦想脱颖而出为使命,1280元鄂城做网站,已为上家服务,为鄂城各地企业和个人服务,联系电话:18980820575

其中,在4月28日上午“大数据与电信业转型”分论坛上,中国电信股份有限公司云计算分公司大数据事业部产品总监杨维发表了主题为《中国电信大数据能力开放实践与分享》的精彩演讲。

电信业-杨维(猜的)

中国电信股份有限公司云计算分公司大数据事业部产品总监杨维

以下为杨维演讲实录:

杨维:尊敬的来宾大家上午好,非常荣幸有这样的机会跟大家分享一下中国电信在整个大数据的运营中的心得,我分享的主题是开放与分享。在我们的经营过程中,中国电信的大数据运营经过了两年多的历程,在这个过程中,各个行业的朋友和专家反复跟我们提一个问题,中国运营商的数据资产是整个社会有机组成部分,你们重要的职责不是自己做产品,而是应该开放出来,让这个数据在社会生产过程中发挥价值,这样才是你们作为一个有情怀的企业应该做的事情,这个问题困扰我们很长时间,因为企业资质的问题,包括国家去年出了很多法规条例,我们感觉在数据开放运营过程中的条条框框越来越重,怎么把数据真正开放出来,把企业责任尽到,这是一直困扰我们的问题,今天我想分享的,在这个过程中目前怎么思考这个问题做了哪些尝试以及可以向大家讨论和分享的方法。

中国电信自身定位目前是在做数据能力开放平台商, 我们是把中国电信的数据资源和能力包装和合法合规的能力向社会开放,在这个当中有三个问题,一个是互信融合,安全合规和怎么高效,现在大家在讲数据在分享过程中需要融合训练,你的数据是你的,我的是我的,都互相不相信,这个数据融合很难推进。什么样的数据是安全的,数据的颗粒度开放出来要安全合规,什么样的数据要关联,这个过程中也出现这样的疑问,作为一个海量的数据,对于社会上广泛的合作伙伴,这个时候性能,以及设备灵活性会成为制约整个数据开放的很重要的问题。

我们当时在整个数据开放的过程中针对这三个问题想,我们到底应该怎么办,我们在想一开始的时候希望有没有成熟的解决方案,包括跟业内开源和大数据厂商做了很多交流,有没有一揽子的解决方案解决我们所有的烦恼,后来发现其实很难,在这个传统大数据处理能力,我们常说的Hadoop之外,要持续开放出来还缺什么东西,我们归结为三项基本能力,四项运营性能力和两项云处理能力,我们在大数据之外把标签的发布整个数据的隔离调度和数据安全的管控以及生产环境的实施构建,在Hadoop之外构建了我们自己的能力。有两套运营体系监控和审计,以及对于数据的治理,这个是我们的主要能力。

互信融合,解决这个问题,我们有一个很简单的思路,假如双边都有数据,把数据放在一个环境里,让他做运算,然后把服务器砸了,每人把这个统计结果去做,这个方式是不是能解决安全问题,大家说这个方式说不定能接受,但是把服务器砸了成本太高,云主机是一个很好的思考,2013年的时候我们过了工信部的认证,我们在想有没有一种可能,在一个云主机环境里构建一台主机,把大数据生产环境布上去,这样和用户的环境是一个专线的打通,大家把数据放上去,运算完之后把这个结果取走把整个云主机模板做删除,这种情况会让大家放心一些,敢把数据放上来,这是我们做的第一个尝试。现在也在做一些试水的应用,这个方式是比较口语化的,更多时候,我们是基于用户空间的处理方式,在整个要做数据融合运算过程中有一定预定义的模板,我们通过定制的模板给用户搭一个混合云出来,通过专线VPN的方式进行打通,通过PaaS技术在主机上时时生成大数据运营环境,生成之后双方把数据放进来做一些运算,最终把结果放在标签系统上,把结果取走,把这个结果做一个完整的删除包括虚机物理文件的数据,这样数据在一个黑盒子中完成运算,通过界面调度,这种情况比以前往前小小的走了一步。

第二是安全,在安全有五个核心,隔离脱敏,标识授权审计,隔离,在隔离上想做好安全运营,在技术上需要更多的探索和突破,第一,比如我们数据文件,两边的数据文件,如果要来给用户开放,第一,我能不能做到分段的抽取,第二,给这个用户提供三个字段那个提供五个字段,这样开放做融合训练,他能不能把用户的空间隔离起来,第二用户大数据的组件,他在生态里的弱项是多租户隔离,你们有这种技术能力实现这种隔离机制,这是我们去年整个研发工作的重点,我们更多时候是通过已有的开源软件的改造,能够实现一种多租户的隔离。

第三,数据的脱敏,整个数据从采集和生产环节出现之后,会在清洗和转换过程中把一些关键字段用户的信息姓名家庭住址等等包括终端通话记录信息,把这些脱敏做了,保证流入到生产环境的数据安全性要有保证,通过标识把脱敏的数据,假如脱敏之后找不到人了这个数据就没用了,我们通过标识把脱敏的数据彼此之间重新关联起来,产生逻辑关联,在数据使用过程中有授权,你使用哪些数据能做控制,要有审计的痕迹,这样有第三方审计机构做审计才能满足要求,整个安全合规一定要把隔离脱敏标识授权审计五个环节做好之后,数据的开放才能落到实处才敢开放出来。

数据假如能开放出来之后有几个开放的形式,我们现在碰到的开放有三类,第一类,我们有一些查询,这些是需求大的,他更多是以标签接口的方式提供,这种对应用的设备性最强,第二是有些科研院所,他们可能是基于希望把数据做关系化处理,比如开环表的方式。整个从服务模式上,接口方式对接所有的APP、应用和运营系统。再往下是有关系化的环表做训练,这个在技术准备上做很多储备和工作。这是我们去年在加入BGU联盟之后有一个天翼大数据生长计划,希望跟大家合作挖掘这个数据的价值,在整个接口体系开放出来之后,整个调度量有一个比较明显的上升,这是到去年11月的数据,到今年为止整个对外开放服务平台,已经基本上到四百到五百亿次每个月,感觉到确实让这个数据为社会做一些价值。

最后是数据开放的运营体系,这个图是我们内部从数据产生到开放出来的发布,他中间要有一个27步的过程,在这个数据开放过程中,随着工作加深更多要减少人的参与,只有人参与的少过程是固化的,这样一个流程才是安全可控质量稳定,最终这个服务才能被这个社会所接受。数据开放整个运营体系,整个过程中的清洗集合,这样开放的数据才是有价值有质量的。


分享标题:电信云公司杨维:中国电信大数据能力开放实践与分享
分享链接:http://scyanting.com/article/sooppd.html