周涛:对大数据背后的因果追求是人类超越机器之所在
周涛(电子科技大学大数据研究中心主任):刘德寰老师提到大数据可能变成大忽悠和引来大风险,不管是大忽悠还是大风险,核心问题是我们到底找因果还是找关联。我觉得,我们可以从两个层面看这个问题,一个是从技术层面,我们的确需要找到因果,因为关联有的可能是假的关联,有的关联没有因果在背后是不能发现的。
举个简单例子,比如我们有很多运营商的数据,一个人上飞机起飞前和下飞机落地的时候打的几个电话,发的几个短信可能是特别重要的,但如果你没有人类的这些知识在里面,就很难从海量数据中发现这个关联关系。
第二,我们测量很多东西,比如测量基本粒子,一次实验会产生巨大的数字,如果我们只是测量基本粒子的生命周期,它双向的周期和速度之间的关系,我们发现很多规律能找到一些关联,速度越快的话越长,但光有这个关联对物理来说没有太大价值。只有有了相对论,有了因果上的原理,有了这个关联来解释和印证这个原理,它才显得特别重要。
实际上,如果几位老师站在哲学的角度,人类作为一个物种,一方面有形而下的需求,物质上的满足,主要获得健康和安全。另外他有更大的形而上的需求,精神上的需求。我们这个物种存在的价值是什么?人和神之间的区别有多远?找到这种因果关系是拉近了人和神的关系。我想大数据时代,不管数据有多大,我们人类很重要的目标还是要把隐藏在背后的因果关系找出来。如果放弃了对因果的追求,就是放弃了人凌驾计算机之上的智力优势,是人类自身的放纵和堕落。
大数据实际运用的第一件事儿,是我们通过分析数据获得一些价值。其中很大一部分,可以用到社会学。比如通过数据轨迹的分析,实际上可以帮助反腐的。因为通过GPS和围栏技术能够对很多场所进行定位。比如今天我们在的场所,当然还有比这更高级的场所,我们可以知道一个手机是不是经常进出这个会所,通过他的银行账号关联,知道他是不是经常购买奢侈品。还有医保,我们通过对大量的电子病例和医保单的详细分析,可以找出哪些药店搭售,也可以找出哪些诊室、医院,哪些具体的医生存在过度医疗或者做一些不正当的检测,包括知悉每种药物在医院不同病种的使用,找出哪个病种在这个医院不同检测和不同用药的分布,这样就能自动帮助医保机构,节省医保基金,促进医疗资源的公平、公开的优化配置。这就是典型的通过数据分析、模式识别,异常检测的方式挖掘大数据的价值,解决一些社会问题,这只是一个初级阶段。
大数据应用更高级的阶段,实际上是来自于数据的集成共享,把集成和共享作为一种商业模式,促进全中国大数据的创新创业。我也举一个例子,我们和电力集团在做件什么好玩的事情呢?我们把大量人员的数据集中起来,这只是一个起点,为什么做这个事情?因为中国在全世界150个国家和地区做一些资源调配,我们需要通过大量的遥感和本地的勘探数据,了解哪些国家的能源是供大于求,哪些国家是求大于供,这样我们可以做一些更好的资源调配。这就积累了大量的大数据,并且这个数据我们可以开放给中国两百多家单位,所以,不仅是我们自己,满足国家的需要,同时我们把数据接口开放出去。有了这个数据还不够,我们还做什么?我们通过与气象局合作再拿到一些气象数据,就知道这个地方短期日照怎么样,风能怎么样,降雨怎么样,利用这个数据再和电力集团一起合作,我们就能实现对这些地区能源需求的短期预测,能够真正地把风能、太阳能、水能这些能源负载平衡,放进电网中来,这样带来的价值也是千亿万亿的。
我们为了搞清楚能源,包括有色金属矿藏的分布,以前能源局下面电力集团没有这么好的数据,但中国基础信息和国家信息中心有更好的数据,通过十几颗遥感卫星把有色金属矿藏、水稻的分布都做得很好,又可以把这个数据合作起来,提供给电建和电力集团,来做矿藏和能源方面的思考。这些数据有一部分在未来一两年内就可以看到,相关部分会开放给普通的民众,促进全中国大数据的创新、创业的生产。
最后,我想说一点,我同意刘德寰老师的观点,大数据里带有大的风险,恰如任何一个宏大概念背后有一些不怀好意的投资人一样,但是这样的大概念背后也必然有大机会,只要我们找准路子,大数据还是一个很有前途的方向。
杨玥:在数字的映象里研究人
杨玥(数托邦创意分析工作室创始人):我们对自己的定位我们是大数据时代的践行者。我们考察数据究竟能给个人,给社会、企业、政府、组织带来什么样的帮助,在此提供几个案例分享。
第一个是美国西北大学和哈佛做的全美情绪测量的案例,Pulse of the nation。我倾向于叫国人幸福调查,统计了三亿多条Twitter上的信息,按照情绪指数分成八个维度,最右边最绿色的代表最高兴,最左边的代表情绪最低落,他把一天24小时和美国的地理位置联系在一起,做了一个可视化的视频。(视频略)
这是一张美国地图,从东部时间零点开始,一天24小时美国发Twitter人的变化,深夜是红色的,说明深夜发Twitter的人都比较郁闷。到了早晨,加州人起来跑步,比较开心,变成了绿色。九点上班以后,美国东北部的律师投行进入了上班时间,整个人开始郁闷,颜色变红,随着时序推移,西部也开始郁闷起来。到下午三四点钟工作的压力下全美几乎都非常郁闷。这里,随着下班时间的临近,佛罗里达的人群又开始绿了,加州的下班了也开始绿了,东北部还是一片红,他们很晚下班,还是很郁闷。
这张图很直观的描述了一个全美的情绪变化,是心脏呼吸的形状,根据每个州的大小,Twitter的量做了一个可视化的地图。我从这张图里可以明显的感觉到美国人的幸福指数跟地域、时间、状况是什么关系。相对来说,生活在美国迈阿密州和加州的也许幸福指数更高一些。这个对社会现象的观察会带给我们很多不一样的视角和洞察。
下一个例子,回到PPT,这是我们自己团队的一个小例子,油价早知道。这也是我们团队的科学家做的一个小的应用。下周一很有可能会降油价,幅度在200元/吨,这是我们今天微信账号发出的预测,这个概率应该是超80%的,所以,大家可以下周二再去加油。
解说一下这个例子,用的是微博上的意见领袖的意见,我们实际上是海搜了大量的提及油价的人,找到其中的700位的专家意见团的人物,这些人物不知道我们在采集他的信息,我们从中间找出来影响力最高的700人组成了一个专家团,这个专家团在自己的微博上经常谈对油价的估计、看法,油价的趋势,我们用一个算法对这700个专家团建立一个投票机制,每个人投票下一次油价什么时候涨,涨跌多少钱,我们把这700人的智慧综合起来做加权,用社会化媒体的关系来加权,他在网络越有影响力我们认为他票数越高,代表意见领袖的价值越大。这个模型做出来后,我们发现这700个人的意见在真实油价下跌和上调之前的三天左右时间(出现)。这个专家团的意见,他们有汽车行业、能源、财经、媒体行业的,还有可能我们不知道,但是接触到油价信息披露的。但不知道会不会我们讲了以后就不调了。我们用这样的方法找到这700个这个领域的专家意见,并且把它汇总成一个结果,大家加油可以节省一点时间或者节省一点钱,累计起来的经济价值还是很可观的。这是一个典型的通过数据的挖掘对个人有帮助的小应用。我们团队希望开拓这样的应用服务社会。
我们还做了其他有趣的例子,比如这个给中国联盟出版社做的例子。00后的孩子在想什么,尤其针对10—16岁青少年的书,他们已经有自主的选择书的权利了,社长委托我们调查00后的男生和女生都在想什么。
我们数据来源于网络,来自于这些年轻的孩子们所留下痕迹的地方,比如微博、微信,他们上的论坛,来找到这样的一些孩子们,然后我们发现他们非常活跃,在大人不了解的一些领域里他们形成了一个个的群组,形成了一个个团体讨论自己感兴趣的事情。
这张图是对00后女生的描述,杨幂这个词非常大,他们爱看“快乐大本营”,也爱看成人相亲节目“非诚勿扰”,还有一些明星大家都不太知道,平泽,杨小曦,我看到都不知道意味着什么,还有“傲娇”这些词,这是00后女生的。
00后男生是另外一张图,最大的字眼是“海贼王”、植物大战僵尸、万圣节,可见这个年龄段的男生还活在爱动画和冒险里。男女生的兴趣点是不一样的,给他们的内容也是不一样的,从他们自己选择的书来看,女生可能更喜欢探索成人的情爱世界,更时尚,爱表达,男生还是活在动漫游戏中。那么,如果给这个年龄段的孩子出书,男生和女生可能要分开出。这也是常识的一个补充,当我们真正探索这个的时候,每个词的大小我们不是简单的统计,而是对信息商的一个计算,代表这个信息在这群人的发言里是很有信息含量的。
另外,我们还长期对一些热播的节目进行跟踪,现在越来越多的人会在网络上表达自己对事物的看法,包括对公众人物、娱乐人物的看法,比如3·15晚会当天,那个周末有好几个电视节目都在播,我们的人群结构已经凸显出了不同的内容对什么人群有影响。“我是歌手”这样的娱乐节目是典型的L型,青春派,更多的00后、90后在关注;3·15晚会是主流范儿,更多的50后、60后、70后看;最强大脑是合家欢,是爷爷奶奶带着年轻的父母以及更年轻的孩子都在看的励志类的节目,不同的内容和不同的年龄结构的人群一些不可分的特点。
3.15前后电视节目收视情况的年龄段差异3.15前后电视节目收视情况的年龄段差异
最后一个例子是12306的例子,讲这个例子是为了说明一个问题,为什么当时大家感觉票特别难买,用数据来解释就是2014年年1月9号当天是最高峰的一天,有879万张票定了,但是其中43%是没有被支付的,有将近一半儿的的票回到了票室,58%以上的票是在4分钟以后就支付成功的。我们给大家的建议,第一如果没有票,三分钟拿不到的话就再等45分钟,可能还是有票。这是从数据角度给个人提供建议。
回到我们的结论,现在大数据时代,人类的行为、人类的思想、人类的关系在虚拟世界里有一个映象,这是过去几百年、几千年、几万年都没有过的,人类社会的现实在一个虚拟世界里有了更丰富的意象,给我们提供的角度,我们在这个虚拟世界研究人、以更宽广的技术和手段,这些都是重新去研究人类与社会学,研究人类的行为、心理、组织形式,这会产生更多的技术上的一些创新和革新,也可能会有更多的发现。
于建嵘:大数据时代个体没有秘密
于建嵘(中国社科院农发所研究员):我先给大家讲个故事,前天《金融时报》的张力奋到我家里和我聊天,这个过程中我突然接到一个电话,是国家有关部门来的电话,说于老师你是不是和一个英国的媒体在谈话?我说你怎么知道的?他笑了。我把我们工作室所有的工作人员找过来,问他们是谁给国家安全部门打的电话?都说没有。今天我终于明白了,这是大数据的原因。因为完全可以做到,他把我们所有人的电话输入到一个系统,就知道我们在和谁谈话。这说明什么问题呢?说明目前的科技状况给这个社会的管理者带来很多新办法。
我要讲的第一点,大数据时代,个体没有秘密,个体的行为都在大数据拥有者的掌握之中。你们相信我这句话,你们和女生幽会的时候一定不能带电话,这是一个非常现实的问题。什么原因?在这个时代,相对于大数据拥有者和社会管理者,实际上个体没有什么秘密。我们一定要非常明白,我们今天所做的任何事情,他们可能都会通过数据把我们分析出来。包括哪些人在这里聚会,这些人是什么情况。刚才吴思等讲了新技术对于人类的安全问题,实际上这对国家来说可能更安全,因为普通人不一定能接触到大数据,我不知道它在干什么,但它知道我在干什么,我和哪些人经常见面,它完全可以通过数据的方法分析出来。这是我得出的第一个结论,大数据更有利于社会管理者,他们对社会统治可能有完全新的方法,而且我们一定要明白,大数据时代我们这些平民百姓没有秘密。刚才说反腐,数据在人家手里你怎么反腐?这个一定对统治最有利的,不要说对老百姓,因为你掌握不了大数据。
是不是个体就没有作为呢?第二个问题来了,最近大家看的一个电视剧,也是腾讯独家播出的《暴君》,当百姓游行示威的时候,这个暴君是采取他父亲的方法进行军事镇压?还是采取新的办法谈判?这个暴君反复讲了两句话,今天是每一个人都有选择的时代,每一个人都可以通过互联网把数据传到全世界的时代。所以,他最后选择了谈判。所以,我认为大数据时代带来的第二个问题,在新的科学发展中,管理者对社会民众的情绪反应也更加了解,他更加了解各种情况,然后采取各种方法。在这个情况下,民众不是无能为力的,民众所拥有的信息,会迫使统治者改变方式。
根据这两个问题,我认为大数据时代对我们个人而言,做事儿一定要有个底线,你要知道你没有秘密,不管采取什么方法,你都在人家的掌控之中。另一个问题是,个体也并非完全无能为力。
第三个问题,你们这些做科技的人,今天我听了一句非常重要的话,科技不仅仅是技术,而是有底线的,有指向的,有伦理的。互联网最大的一个改变,就是对每个人赋有一定的权利,搞科技的人不要过多的想办法控制我们,而是要将科技更多地服务于民主和自由。
谢文:中国有可能沦为大数据时代的殖民地
谢文(知名IT评论人):我们这个版块有两个主题词,一个叫“大数据”,一个叫“社会变革”。抠概念,什么是数据?数据是物质的还是非物质的?不客气的说,或者很惭愧的说,全世界没有一个被5%以上学者认同的数据定义。每个不同的行当都会说数据是物质,但看不见摸不着。说数据是非物质或者叫精神,好像也不对,它是客观存在,有没有我们人,数据都在那儿。我个人是倾向于数据是物质的属性之一或者叫物质的组成部分。如果这个说法成立的话,那么我们一般意义上的物质一定有它的数据形态的存在,物质一定有对应的东西。
我们刚才听到从微观的DNA,大到商业活动以及社会,它都可以数据化。所以,我把大数据定义成这个世界忽然之间就在我们眼皮底下。大概2010年以后,越来越多的人认识到这个世界的万事万物正在以超乎寻常的速度和加速度数据化。我们下面有一个东西,天上一定有对应的数据化形态存在,当这个进程发展到一定程度的时候,比如说50%,那我们就有两个宇宙,两个世界,两个地球了。一个是物质化的,一个是数据化的。当这个东西形成以后,咱们先不要讨论价值取向,谁能够在数据化的世界宇宙当中发现规律,想出办法,他一定能够效率更高,速度更快,在竞争中更有优势。我把这个叫做大数据,这个大趋势、这个大变化,或者我们现在用得更多的词儿叫大数据时代正在开始。
有多快?我们有个现成的例子,有人把现在的美国轰炸伊拉克的ISIS极端组织的行动叫做第三次伊拉克战争。我想我们在座的都经历过前两次,第一次伊拉克战争老布什出战,美军投的炸弹中只有7%是激光制导导弹,指哪儿打哪儿,剩下的还是笨炸弹,定位,然后地毯式爆炸;2003年,第二次美军投的炸弹90%是聪明炸弹,是精准的。今天的战争刚刚开始,我们看到,基本上是以无人机精准轰炸为基本的战争形式,辅之以智能战机,也基本上用的同一个办法,尽可能的获取数据,这种数据包括地理的、军事的、人员的、火力的、政治的、经济的等种种数据,然后建立模型,然后用一个无人机数据终端,跟咱们PC、手机没什么区别,本质上是一样的。我们看报纸上说,尤其《环球时报》作为标题,底下的恐怖分子说有种你下来,咱们人对人打,没有这回事儿。
假如还有第四次伊拉克战争,那时候可能战场上就没有人了,全是机器人。所以,战争的形式发展到最后,可能数据化战争就会出现。你有多少T的数据,我有多少T的数据,你的数据发得多快,模型是怎么回事儿,要么联合,要么投降。这就是由大数据引发的战争形式这一类的社会变革。我们今天听了好多其他领域引发的社会变革,如果再往下推就很简单了。大数据时代,大数据的利用机会不是均等的,进程不是等速的,是因国家而异、因社会形态而异。只有两条路,要么你改变你的社会,去追上别人的速度,要么你就变成大数据时代的殖民地。
我们讲中国接入互联网20年,遵从美国标准至少30-35年了。商用,有一个数字,世界的英语普及率增加了一倍,就是因为计算机、互联网这一套东西的使用,使得英语得到了广泛的普及。过去我们都说西方社会,现在西方的概念不成立了。现在是美国及其他,欧洲,包括英国、德国、法国这一类的,曾经勉勉强强也算是大国的,在互联网时代基本上是被美国殖民了,这个时候你不跟就变成空白。比如我去过的朝鲜、古巴,他们是政治原因拒绝互联网。或者马达加斯加是因为经济原因没有互联网。剩下的中国现在是世界上仅次于美国的互联网大国,但是不能以此类推中国可以在大数据时代,依然是仅次于美国的大数据大国。
从近两年来的态势看,中国很有变成大数据殖民地的可能。至少是我们在互联网时代与美国非常近的距离,3-5年的距离,目前被拉大到十年以上,差不多一个时代了,一代人的差距,现实的危险是非常大的。我们是不是可以做一个逻辑上的推论,任何阻止、迟滞、干扰大数据到来的社会组织、社会机构、社会机制、社会结构,你都要主动的、被动的,或者是粉碎式的改变,后面是不是隐含有社会规律我不知道,但是我们看得见,摩尔定律在这个时代,在这个层次也是成立的,不断加速。所以,在这个意义上我们用不着举那些具体的社会变革或者是生产方式变革或者商业社会(的变革)。
从根本上来讲,我是相信我们这一代人差不多是1960年代上下这代人应该看得到,赶得上,甚至可以说参与又一次生死攸关的大抉择、大搏斗。假如现在这个大数据时代的主旋律是从物质变数据化的话,那大数据时代这个主旋律的下半曲则是从数据变成物质。从数据变成物质已经开启,比如在我们行当以3D打印为代表的,你给我数字,你给我一组经过加工研究过的数据,我就可以把它还原成相应的产品或者是物质状态的东西。这个下半曲按现在看速度是非常快了。上至飞机,下至心脏、血液、细胞,只要给了数据都可以打印出来。
工业时代就两个大标记,一个是规模化生产,第二是全球化的贸易,产品交换。大数据时代是个性化单一性的生产和贸易,我发个文件给你就完成了。那么,海关没有了,外贸进出口税肯定也没有了。按这样的逻辑,如果万事万物都数据化了,数据化的东西可以按照人们的意志变成物质的东西,这个社会变革应该比农业社会或者工业社会的变革来的更为彻底,更为激烈,而且最要命的是,速度要快得多。
也许明年腾讯就可以搞同样的一个会议,可能有更多的证据拿出来加速度,极高的加速度,我们都赶不上。所以,我很希望我们的,包括共识网、包括《炎黄春秋》,我们视野可以放大一点儿,引入这一类的科技与历史变革的东西。历史学现在已经兴起这方面的研究,把技术作为主要的变量来分析文明史的变革。
王俊秀(嘉宾主持,信息社会研究所所长):谢文讲的这个逻辑已经非常清楚了。我最后总结一下,我们刚刚探讨的大数据,前面讲的都是上半场,从物质变成数据,可能下半场还有数据变成物质。整个进程当中有两个关键词:一个是“数据共享”,一个是“全球数据的流动性”,这是最近几年的美国推进的两个制度建设。但这两个制度在中国恰恰是有问题的,一个是中国现在连信息公开都有问题,“数据共享”还没有提到议程上;第二,关于数据的流动性问题,从最近一系列的举措来看,中国至少是抑制数据的流动性的。我觉得这对中国整个大数据时代的到来,可能是一个负面的消息。
结语在中国,如果那些阻止、迟滞、干扰大数据到来的社会组织、社会机构、社会机制、社会结构不主动或被动进行粉碎式的改变,中国很可能沦为大数据时代的殖民地。
大数据了能知道各国的军事、政治、外交秘密吗?能搞到F35图纸吗?