北京大学化柏林:多源数据融合方法与应用

互联网IDC圈4月28日报道,互联网的发展使得大数据引起人们广泛关注。现如今大数据技术早已渗透到金融、通讯等行业以及生物学、物理学等领域。大数据在容量、多样性和高增速方面的爆炸式增长全面考验着现代企业的数据处理和分析能力,与此同时也为各个行业带来了准确洞察市场行为的机会。迄今为止大数据技术与产品有哪些创新,工业大数据应用面临哪些挑战,金融行业大数据应用现状如何等。围绕这一系列问题,4月27日至28日,由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。28日上午大数据推动金融创新分论坛北京大学信息管理系研究员、助理教授化柏林做了主题演讲。 

成都创新互联是专业的惠安网站建设公司,惠安接单;提供网站设计、成都网站设计,网页设计,网站设计,建网站,PHP网站建设等专业做网站服务;采用PHP框架,可快速的进行惠安网站开发网页制作和功能扩展;专业做搜索引擎喜爱的网站,专业的做网站团队,希望更多企业前来合作!

500-333文章照片-大数据推动金融创新-化柏林

北京大学信息管理系研究员、助理教授化柏林

以下是化柏林演讲实录:

化柏林:很高兴有这样一个机会对多源数据融合的研究跟大家做一个交流,刚才听了工行和建行两位老总的介绍,我感觉心里特别踏实,为什么说踏实?因为我的工资在工行里,我的公积金在建行里,我的主要收入都在这两个银行里。大家通过这两个PPT可以发现一些共性,这个共性就是他们是在文地中谈创新,这是银行特别是国有银行的风格。我们谈互联网谈大数据创新的新型企业不是这样的思维模式,上来就是讲颠覆,就是抛弃一切。前面那种技术平台的架构都是从过去的技术开始逐步演进过来,钱放在这两个银行里我是放心的。

他们的差异性和信息安全的问题。我先举一个例子,前年斯诺登事件爆出来之后,很多新闻媒体都在说个人隐私信息泄露的问题,一个国家一个组织花这么多钱关注数据和媒体,他会关注一个普通网民的个人信息吗?我觉得是不会的。除非作为用户的群体去分析这个群体的特征。棱镜计划主要关注什么,第一是恐怖,第二宗教文化变迁的战略影响。第三,中国与发展中国家的科学技术与军事转型,我们国家每年的863计划、973计划、十一五重大专项等等项目,每当我们公布出名单,国外就会迅速地跟踪和分析。国内搞科技情报,我们也是一样,美国每年出来一些新项目,他们的大飞机、航空航天领域的技术也会迅速地被我们跟踪。还有能源和环境的目标任务。要实现一些目标的基础,像谷歌、Facebook的数据,基于这样的数据类型,我们在想仅仅有这样的数据无法实现刚才的目标,要实现这样的目标就得把这些信息融合起来,通过谷歌的检索日志可以看出关注信息点的兴趣及变化,根据Facebook、paltalk可以看出社交。把所有信息融合到一起,对一个用户的画像,对恐怖分子的头会有更加清晰的认识。这对于我们金融大数据也有一定的借鉴和参考意义。

再来看一个例子,这是在网上广泛流传的例子,根据丹麦的统计数据,截止到2002年42万人中有14249人被确诊患癌症,按照流行病的预测有1.5万例,预测使用手机和癌症的发生并无直接关联。只看这个案例好像没什么问题,根据WHO的统计,全球前十名癌症发病率的国家分别为丹麦、爱尔兰、澳大利亚等,看这个指标,发病率是一个好的指标,排在前边几位的都是非常发达国家的国家或者是国民福利比较好的国家。但是我们把这两个数据放在一起,第一个数据42万人里有14249,概率是3.4%。第二个数据10万人里有326,数据仅为0.33%,这两个数据放在一起我们可以断定肯定有一个数据是错的,因为差了一个数据级。我们查了原文,第一个例子是错的,这个例子在网上流传得很多,单看单个数据没有问题,但是在不同数据放在一起做交叉验证和融合,可能会有一些问题和发现,对于金融大数据也有借鉴和参考意义。我把不同类型的数据放在一起去做融合、交叉和比对就会发生一些新的问题,对于风险的防控会有更好的监测。

大数据特点与分析理念,三年前谈还有人听,现在再谈已经没有人听了。除了这三个理念的转变,数据的基础、过程、目标上还有一点很重要的,过去我们注重单一的数据,现在我们需要多元的数据,我们用单一的数据去写数字报告已经很难吸引人,去得到领导的肯定和关注了。不同的企业在寻求跨界和融合,去打通数据,使数据的价值有倍增的效应。为什么这么说?一方面是单一的数据有失全面性,无法全面刻画事物及事物运动的变化。单一数据的可靠性和真实性有时候难以判定,通过多源数据的交叉引证有助于对数据的真伪性辨别,数据越来越大,我们辨别数据真伪的能力有待于提高。从单一数据里发现的洞察是非常单一的。多元数据可以有更多的发现。

多元数据的理论。融合过去起源于军事领域,在传感器、地理空间就是我们所说的硬数据里得到了应用和发展,但是随着社会网络的发展,随着人际交际数据获取的越来越容易,所以注重软数据的融合也开始走向了新的应用和发展。我们通过形式表现方面,多元表示,工行叫机构建行叫单位,指的同样的事物,不同的数据融合的时候涉及到表示的问题,语法结构层次做相关的分析和揭示。逻辑语义层,意义建构理论解释它的内容。

现在的多源数据融合,包括三方面,多源、异构、多语种,多语种现在说得比较少,真正做多源数据融合,我是搞科技情报的,所以我们经常关注国外的文献。昨天有人讲到一带一路,一带一路一定会涉及到多源数据,获取土库曼斯坦的数据,无论是中文还是英文的数据非常少,像这些国家一定要把多语种的数据融合到一起,这里面带来很多技术的问题。同型异源,比如都是消费的数据、存款的数据。还有异质异构,比如理财产品。

科技情报里经常用期刊论文、会议项目、著作专利、学术论文,电子商务文献的发现,发现电子商务最高的高峰是2000年,电子商务产业是2010年后才有爆发式的增长,通过文献和产业有十年之久,通过学术论文的文献来预测专利,通过专利来预测一些技术的市场,根据不同类型的信息的时间差的规律,去寻找这种规律,利用这种规律来进行预测。我用产业的数据去预测产业是预测不出来的,用同一个数据去预测同一个数据是很难的。数据的融合涉及到线上与线下,历史的数据和实时的数据,金融行业积累了大量的历史数据,和实时数据的融合也非常关键。

现在大家强调大数据的实时性,我突然感觉有时候历史的数据特别重要,比如今天早上开车过来开会,我并不关心今天早上的路况,我更关心上一周今天早上的路况,因为我需要决定我几点出发比较合适,6点多出门肯定是不堵的,但是来的太早了,8点出门有可能晚了,所以我需要关注上一周的今天的数据规律,从7点到8点半的时间段的路况如何,来换算时间的关系,计算出行需要花多少时间。我经常看下周五要去哪儿,这个周五去看一下路况,决定要花半小时还是四十五分钟,历史数据是非常重要的。实时数据比较容易获取,但是历史的数据,看交通局的网站、百度、搜狗都是看不到的。外部和内部的数据融合。

融合的层次,数据级、特征级、决策级,要看面向的应用场景。融合问题,字段映射、字段拆分,有些地址分析,有区有路有门牌号,这样的东西我们要做拆分,做分级管理,然后才能做一些融合。不同的数据库里,不同的系统里,我们对于同一个地址的描述有时候是不一样的。还有数据率重的问题,不同的数据融合到一起,有些数据是互补的,有些数据是重复的,重复的会涉及到这样一些问题。异构加权的问题,VIP数据跟普通用户数据融合到一起需要加权的问题,这样做产品的时候才会有更好的效果性。

融合清洗的时候会涉及到很多问题,数据统一标识、数据脱敏处理、数据更新与同步、数据交换与共享、数据清洗与比对、数据记录滤重、字段映射与互补。基于这些多源数据可以做哪些分析?基于关联关系的融合是空间的维度,基于时间关系的融合、基于关联关系的融合。基于关联关系主要是通过相关性的分析,物与物的关联、人与物的关联、产品与需求的关联,现在是可以计算的,可以算出需求,产学研的分析、上下游的分析。

我们常用的企业有时候想找竞争对手的核心技术,A企业和某个学校的教授合作,你不太方便再跟他合作,那我们招聘这个教授毕业带的博士来工作,因为这个博士对博导的工作方式非常了解。通过这样的非直接的方式,这个在大数据时代是可以的。通过论文预测专利,通过专利来预测市场。基于空间关系的融合,聚类分析,看用户聚类与画像、产品聚类、人员聚类。社会网络分析,看合作网络、关系网络、引文网络、链接网络。异常分析,孤立点分析、突然消失分析。

就国家二胎的政策,这个经过很多的计算,通过公安统计、民政、卫生、财税、教育、劳动与社会保障,把所有数据融合在一起,当然现在这个政策的推出有一些诟病,本来是做社会的承受力压力、教育、保障、人口老龄口等等一系列问题,我觉得这个系统做得没有问题,但是少了一个因素,只是从行政者管理的角度,没有考虑老百姓生孩子的意义,特别是在北上广的城市很多人不想要那么多孩子,因为压力太大了,所以没有考虑用户的需求。如果把这样的数据融合在一起,我觉得政策推出得会更合适、更受欢迎,因为这个政策推出稍微晚了一些。

提到政策,大数据可以做的事情就更多了,比如反腐,我们有金融大数据,现在打虎的成本蛮高的,现在的反腐都是主动的。很多腐败的事件和案例,贪污受贿不会放在自己的名下,如果我们把人口的数据融合上,把行政的数据,通过家人或者秘书会发现,把工程项目的数据跟他融合在一起,可能会有更好的监测。前段时间我们给一个政府去做多源数据的融合,他是综合治理部门,他的数据融合的渠道有很多,和垂直系统的交换,还有网络信息采集、共享平台的交换,现在的系统越来越多,不同的系统中数据如何来共享和对接,还有空间的数据,有些社区的台账,社区的基层工作人员报的数据可能不是网络的,就像我们在银行填申请单一样纸版的数据,包括移动终端采集的数据。对这些数据驱做建模和整理。

对于一个企业来讲,我们的数据包括三方面,我们自有的数据、我们购买合作的数据和交易的数据、公开信息来源的数据,把这些不同类型的数据融合在一起,这是电子商务里的一些交易数据的融合,历史的信息、检索日志的信息、上网行为的信息、地址的信息。现在大部分电子商务公司还是不去搜集你的收货信息,如果搜集这种信息的话用户画像就更清楚了,现在可以知道你什么时候在单位什么时候在家,这些数据是可以分析的。整个的多源数据融合,从理论方面有这样一些。D-S证据和深度学习的算法,去处理一些重名的情况,对技术的问题实现历史数据和外部数据的融合,线上线下的融合、传感器硬数据与软数据的结合,实现这样一些应用,这是整个的体系。

多源数据融合整体上是实践驱动的领域,和大数据一样。社会人文的数据和物理信号的数据同样重要,商务领域更加重视多源信息进行交叉印证与关联分析。我的演讲就到这里,谢谢!


标题名称:北京大学化柏林:多源数据融合方法与应用
网站地址:http://scyanting.com/article/sojedp.html