北京因特睿CTO张颖:燕云,大数据平台
互联网IDC圈4月27日报道,互联网的发展使得大数据引起人们广泛关注。现如今大数据技术早已渗透到金融、通讯等行业以及生物学、物理学等领域。大数据在容量、多样性和高增速方面的爆炸式增长全面考验着现代企业的数据处理和分析能力,与此同时也为各个行业带来了准确洞察市场行为的机会。迄今为止大数据技术与产品有哪些创新,工业大数据应用面临哪些挑战,金融行业大数据应用现状如何等。围绕这一系列问题,4月27日至28日,由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。在27日下午的大数据技术与产品创新分论坛上北京因特睿公司的CTO张颖给我们带来了主题为《燕云DaaS-大数据服务平台-打破信息孤岛、创新数据价值》的精彩演讲。
创新互联公司是一家专业提供海棠企业网站建设,专注与做网站、成都网站制作、HTML5、小程序制作等业务。10年已为海棠众多企业、政府机构等服务。创新互联专业网站设计公司优惠进行中。北京因特睿公司的CTO张颖
以下是张颖演讲实录:
张颖:今天很高兴有这个机会向大家介绍一下北京大学以及北京大学的产学用基地,北京因特睿软件公司在我们大数据方面的工作。
我们认为,信息化建设已经经历了两次浪潮,我们把它称之为数字化阶段和网络化阶段。在数字化阶段的时候,我们大多数人用计算机主要是处理一些个人的东西,比如说之前的WPS,写一些资料,通过打印共享给各个部门。接下来第二个阶段我们称之为网络化阶段,这个阶段大量的可以在部门内部、行业内部共享的信息系统,像雨后春笋这样快速的出来。经历了这两个阶段过后,接下来我们看到,就像别人在写有第三次浪潮一样,我们认为信息化建设也会经历第三次浪潮。我们总结第三次浪潮的特征是数据开放、共享、融合。
为什么要这么讲?首先从实际需要来看,比如说现在的不动产登记需要去整合土地、林地、房产等格式各样的数据,这就是一个实际的需要。我们再来看国家政策,从国务院发布促进大数据行动纲要,2017年的时候要实现数据开放共享目录,2018年的时候要实现内部共享,2020年的时候要实现可以向公众开放的数据开放给公众。2015年习主席说要加快城市建设,打破数据孤岛和分割。再到今年的政府工作报告,要实现部门间内部的数据共享,让企业少跑腿,好办事,这都是从国家政策来看,从实际需求来看,就是要实现数据的开放、共享、融合。
在这个过程当中有一个很关键的问题,我们认为有一个巨大的挑战就是信息孤岛的挑战。我们来看一下原来信息系统的建设,经常是为了某一个业务我们就上一套系统,或者是某一个领导新官上任我们就上一套系统。导致我所有的系统之间边界是非常清晰的,但是这种清晰的边界导致我们的数据孤岛的形成,每个系统都有它自己整个的一套配置。这些系统我们称之为是孤岛系统,这些孤岛系统有哪些呢?大多数的政企内部业务系统,大量的App系统,10万计的PC应用,这些都是我们称之为的数据孤岛。为什么它是数据孤岛?我们看这些系统不遵循标准的协议,很难类似于被爬虫去爬取,大量的这些信息系统占到整个数据量的96%。
我们来举两个例子看一下,这是某运营商的一个人资系统,我这个系统是由不同的领导、不同的部门分不同的时间开发的。每当要月末发放工资的时候,就要从考勤系统里面去拿到这个基地每天人们进出这个园区的时间,统计他的考勤信息。然后导出来,放到Excle统计过后,再填到相应的工资发放系统去发放,这是在同一个体系之内,不同的信息系统之间需要交换共享数据,但是却难以交换共享。再讲第二个例子,这是某个市的公检法司希望打造的一个共享平台,现在是两条腿办事,文本送去,还要把相应的公安的信息系统从公安系统里面导出来刻成光盘送到检察院,检察院从光盘里面把数据读出来,再进行处理之后再刻成光盘,再传递到其他的单位。我们也看到,在不同的体系之内,也需要进行相应的数据共享和融合,也需要把这个信息孤岛打破。
要打破信息孤岛,就要有一个颠覆式的新技术,我们看一下存在信息孤岛的本质是什么。我们看很多的信息系统开发团队不在了,文档源代码缺失,还有一些金蝶、用友这样的商业系统,我们要去理解它,要从这些系统里面拿到相应的数据,这个理解、学习和重构系统的工作量是非常巨大的。有的人说我可以直接拿到数据库,但是不是所有的信息系统数据都存在数据库里面,我们要把数据库开放给对方,实际上有改变数据的风险。其实对于很多不同的厂商、不同的部门开发的这些信息系统,这些孤岛系统,你很难拿到它的数据库。并且如果你要拿到它的数据库,必须要确保作为甲方把数据读写出来,还要确保读写权限和时效性,这个带来的风险是非常大的。其实最主要的就是不愿意,要去协调相关的利益相关者去开放和共享他的数据,其实这个时间成本是非常大的。很多的集成商,很多的公司发现我的一个项目要做这样的事,宁愿不接这样的项目,也不愿意去趟这些浑水。正是因为不会、不敢、不愿,导致我们整个信息系统围绕着数据的生命周期来看,90%的精力都花在了如何开采、管理数据上面,只有花了不到10%的精力在整个应用处理上面。因此,围绕大数据来讲,我们本身不是说数据多了,而是说大量的企业是没有数据,是无源之水、无本之木。
燕云DaaS做了什么事情?我们来跟石油做一个类比。大家都把大数据作为是石油,美国原来是一个纯的石油进口国,他通过多年的努力,把页岩气层里面的石油拿出来变成了一个石油的出口。我们对于大量的深网系统就有了一个开发技术,自动化的开采技术,使得能够源源不断的从这些系统里面把数据拿到。我们怎么做的?对于任何一个业务系统,如果有相应的权限或者是登录,我们只需要这个系统的帐号,我们叫做软件体系结构重建技术。我们会按照用户的要求恢复出他的数据接口,有了这个数据接口我们会有一个运行平台,一套中间件来支撑这个接口的运行,同时会有相应配套的管理平台来去支撑它的管理。这整个三个平台构成了我们整个的数据服务DaaS这么一个平台,用户只需要按照这个接口,他自己对接口的要求调用这个接口,我们可以按照原来设定的方式访问原来的数据,源源不断的读写原来系统的数据,这就是我们的工作。
前面讲的接口很多,我们来看一下具体的例子。先讲几个系统,第一个是浅网上面的,公网上面的数据大家都能看到,这是百度提供的违章查询,很多人需要这个违章查询的信息,但是是不是只拿这个信息来做违章查询本身呢?答案肯定不是这样的,很多人利用违章查询还可以做相关征信的工作。可以看到数据是非常关键的,利用我们的平台直接恢复到相应的接口,拿到相应的数据,这就是我们的第一个例子。对于深网内部的数据,同样我们也可以很好的解决前面遇到的问题。比如说这就是某个运营商的基地遇到的考勤的例子。包括App也是,这就是微信,微信其实说是一个开放的系统,但是它其实还不是那么开放,大量的对于微信来说,比如你的一个文章到底有多少人看过,有多少人点赞过,你的群里面到底发了什么样的信息,都可以通过相应的API直接获取。另外是从CS系统里面拿到相应的数据,比如这是某省的人口信息系统,大量的做网格员的管理,像人口、计生、公安、联防等大量的信息平台,利用平台技术,就可以从原来只针对人口的这么一套CS系统里面把数据通过接口拿出来整合,创造一个新的业务模式。有了这个接口之后怎么用?大家只需要写非常简单的代码,就可以把这个接口做一个根据大家需求的展现去用。比如说希望做一个微网站,就可以非常快速的去完成。
我们利用这个平台支持了政府大数据、企业大数据以及互联网创新,下面我快速的向大家介绍一下。比如我们为深圳平山做了一个闭门式的综合受理平台,去整合它的各个委办局上面的业务系统。大家知道,原来要做这个系统的时候成本和代价是非常大的,协调的单位非常多。通过我们的平台,可以快速的去完成。我们也支持神州数码快速的去支撑它的百城计划,比如水费、电费、违章、公积金等等,都可以快速的获得。不动产登记我们也可以支持相应的公司,原来的不动产登记的部门一个公司派了4个人,9个月到那个不动产登记的房产局去办事,房产局的系统每个省、每个市差别非常大,房产局的领导就是不开放数据库,原因是你万一把房产的数据改掉,一个人从没有房子变成有房子,一个人从三套房子变成一套房子,即便是一个无意的修改,影响也是非常大的。利用我们这个平台,能够快速的7天之内就把所有的业务系统按照他的需求写到新的不动产登记的平台当中。这里面还有很多的例子,比如说原来老的不动产登记系统,自己的原系统存的时间是2016年7月11日,但是实际上他是7月11层,我们还支持了很多的委办局来做相应的工作。
对于企业大数据,比如说这是南方的某个电网公司,原来它是6+1系统,某个单位低价中标,后来在5个省用的OA已经不支持了,通过我们围绕着6+1,这个1就是一个OA系统,我们可以快速的让新系统和这个1的系统进行整合。前面介绍了考勤,还可以做快速的移动化。还有某一个单位要去做采购,他自己有一套采购系统,他会到京东上面去采购,通过我们可以内外打通。
对于移动互联网,通过我们的平台,我们去支持,比如说北大的学生做了志愿树的微信公众号,我们支持各个点的活动,并且报名之后直接写回官方网站当中。像招生、互联网的招投标,全国有2千多家招投标平台,我们支持标送快车,快速的去构造最全、最及时、最准确的招投标的信息,我们还做了其他很多的工作。
这就是我们燕云DaaS的目标,就是要让很多的,千万计的孤岛系统里面,把这个数据开采出来,解决大家在大数据上面没有数据可以用的问题,让这些数据有序、安全、可控的流动到所需要的企业和用户当中。
这就是我今天向大家分享的内容,由于时间有限,今天就讲到这里,谢谢大家。
本文名称:北京因特睿CTO张颖:燕云,大数据平台
当前网址:http://scyanting.com/article/sdsoci.html