统计学在过去100年的发展中,基于抽样调查发展出来一整套比较完备的方法、体系、逻辑、技术。在大数据出现之后,学界有一种说法,认为大数据时代,我们只需要数据科学家,不再需要统计学,也不再需要统计学家。我们也在反思这个问题。大数据、多元数据的产生对整个学界造成非常大的困扰。
我们为何欢呼多元数据
从社会科学研究的角度来说,大数据兴起、多元数据的产生使我们有了一种新的工具,新的方法。这种新工具、新方法对我们理解社会、我们的生活提供了新的视角。
大数据可以帮助我们更好地理解人类行为。通常新领导上任,需要摸清楚公司里面的具体结构,在大数据时代,利用组织内部的人际关系网络,不仅可以刻画组织内部的结构,而且可以描述这种结构随时间的变化,以及进行某种调整之后的情形。
在大数据时代,我们可以更好理解城市的生活。例如在上海、北京这种特大城市职住分离很严重,以前这类问题的研究多数是主观的看法,利用传统问卷进行调研,有很大的局限性。随着基于位置服务(Location Based Service,LBS) 技术的发展,为研究城市系统与结构提供了新的视角与可能性。
大数据也可以用来研究交通拥堵问题。"城市数据团"分析了上海市实施中心区域人口疏散政策之后的影响效果。从2006年到2014年,上海人均通勤时间增长了42%,全市道路交通平均车速下降了13%。市场规律表明只要市中心的就业岗位数量不随着人口疏解而减少,交通拥堵便只会持续加重而不会缓解。
社会科学的研究人员会关注一些特定的问题,例如国家认同。以前我们研究国家认同的问题只能研究现代,历史我们做不了,历史的人已经逝去了。现在,有学者利用谷歌的词频进行历史研究。
以前我们非常喜欢人口普查数据、经济普查数据,但是这个数据的周期特别长,它的颗粒密度没有那么细。对贫苦国家、地区的数据获得没有那么容易。有学者发现,如果我们换一套指标,是不是可以在某种程度代表这种指标呢。例如手机的通信数据可以比较好地代表人口密度、经济发展水平,甚至可以代表贫困的指数。传感器和手机通讯数据作为代理指标,估算传统的社会经济指标,结果发现这些数据与贫困指标有很强的相关功能。
百度用我们春节期间的手机数据、火车票数据、飞机数据,把整个中国人口迁移进行了非常直观的表现。这个背后隐含巨大的商业价值,是传统的统计模式做不出来的。"百度迁徙"项目完全突破了传统交通运输产业生成数据的模式,对于我们理解中国社会人口流动的一个侧面具有重要的前瞻性价值。
此外,有个非常著名的例子,谷歌在2009年发表流感趋势的测量指数,通过人们在网上搜索流感相关的关键词判断流感规模、地区、传播,引起全球轰动。
这种通过用户自己生成的数据进行社会学分析的方法,在国内也开始有所跟进。例如有人使用新浪微博的转发、手机app信息和个人发帖信息中提取有关空气质量的信息,经过相关分析发现,个人发帖信息与空气质量指数高度相关,甚至可以用来作为空气质量指数监测的一个指标。
我们的广告投放逻辑是这样的,为什么我们要花钱投放广告,因为我们相信通过广告的投放,可以改变用户的行为,可以引导购买、多买行为。那么是不是这样呢?广告效果如何呢?广告主某一季度销售额的上涨,是因为投放某空调的广告,还是夏天来了,这是需要讨论和研究的。
多元数据:传统数据时代的终结?
在大数据时代,相对于传统的抽样调查技术,依然有些问题不能完全解决。在对于人类社会的研究过程中,一大障碍是缺乏适当的测量。对于现代社会科学,即使是先构建最浅层次的理论、再予以泛化的测量,往往也不能达到定量研究所需的标准。首先,是概念的模糊性。其次,要获取个体行动者的互动数据可谓难上加难。定量测量与概念之间的偏差在经典社会学研究中是一个长期存在且被相对忽视的问题。
在多元数据时代,新的数据记录设备和获取手段的出现在一定程度上解决了第二个问题,即数据的获取性会稍好,但是上文提及的第一个问题仍然没有解决。
针对谷歌的用户生成数据,行业内产生一个词叫"大数据的傲慢",认为大数据是传统数据收集方法的终结而非补充。有学者对谷歌用户生成的大数据"谷歌流感趋势"进行重新的检验,发现从2011年8月21日到2013年9月1日,GFT在为期108周的时间里有100周的预测结果都偏高。这其中隐藏着抽样的问题,大数据数量巨大,但非随机的样本。一个有偏的样本其规模越大,做出错误判断的概率也就越高。
对于调查行业而言,如果样本不具有代表性,不管数据量多大,其实也只是一个局部性的数据,根据局部数据调查出的结果就会存在较大偏差。
局部数据存在变量(特征值)的残缺。所谓的大数据本身并不是一个全数据,特别在广电系统的大数据,包括智能电视数据、有线电视机顶盒数据、视频网站回路数据等,都是局部数据,对运营商本身有价值,对跨运营商则价值不大。这些大数据需要进行整合,要找到它的界限,找到样本的代表性在哪,然后才可能进行整合,否则数据越大,犯错误的可能性会越高。数据整合困难重重,美国从1965年开始不断的尝试,曾经通过法案又被废止,因为美国有很强的隐私保护。美国正走另外一条路,开始进行数据的开放,2009年5月21日 Data.gov上线,2010年5月21日27万项数据开放,2011年拥有1570个不同的数据可视化应用,2012年31个国家建立了公共数据的开放网站,这个趋势发展非常好。我们国内政府也正在做这样的尝试,还有很长的路要走。
数据量增大,增加了我们对于世界的认识吗?海量数据导致实际运算速度下降,事实上减弱了对于人类社会逻辑机制的分析能力。我们现在面对大数据时的处理能力,与当年PC机对小数据的处理类似。例如,我们正在处理上海市的实有人口的数据,2500万数据,25个G,用了两个月的时间清理数据,最后做出来结果之后,我们抽取了一个千分之一的样本,结果很快出来,与之前的结果没有那么大的差别。
多元数据时代的抽样调查技术
在理想的大数据背景下,即便只是订购一个披萨,也可以用到客户的家庭信息、健康信息、信用卡信息等,但这只是一种理想的状态,做到这样是非常有难度的。我们理解的大数据是全数据的逻辑,但是我们现在做不到。现在的大数据样本量很多,有上千万的记录,但是对样本本质特征了解很少。这种情况下,样本的代表性是有偏的。如果样本不能做到随机,观测的指标不是事先设计好的,就会出现样本的偏差。之所以强调事先设计好,因为研究人员要理解这个社会,脑中有一个框架。例如,想了解男性、女性、老人、小孩收视率会不会有差别,需要观测样本指标,从而了解对广告投放的影响。如果不了解抽出样本的总体情况,样本不具有随机性、代表性,就会致使研究无法进行,或者花费很多成本却抽出有偏的样本,这也是大数据面临的问题。
大数据具有收集快速、数据颗粒更细、数据总体量巨大等特点,但是现有大数据多数是政府部门和企业的业务流程数据沉淀而来,所以虽然其规模巨大,但其样本往往是有偏的,在很多时候也并不是"全数据"。由于大数据通常并不是通过专门的理论设计和测量工具产生,其中包含的变量也是非结构、非预期的。
在目前的测量环境下,小数据有非常重要的价值。我们在欢呼大数据的同时,要把小数据研究向前推进。虽然小数据样本量相对较少,但是变量多;虽然存在误差,但是知道误差在哪;虽然小数据不能百分之百代表总体样本,但是可以了解有百分之多少代表总体情况。相对于大数据,小数据的优点仍然非常明显,变量定义清晰、数据生成机制可控、检验评估成本较低等。最重要的是,小样本数据对于可能推论的研究总体具有比较明确的认知,从而可以对社会现象之间的因果关系具有更好的判断。例如,收视率涉及的三个W,who(谁在看),大数据无法解决,大数据无法得知用户的性别、职业、年龄等特征,需要进行抽样调查;when(什么时间看),大数据在这方面较具优势;What(看什么),大数据可以解决部分,但收看内容的文本分析,仍然是一个大问题(中文的文本分析技术)。
这其中的操作性问题需要实现大数据联盟,通过分享、通过整合来解决,但在实践层面难度非常大。现在学界提出一个设想,抽样分析+大数据验证,用小数据可以快速的验证社会的逻辑,进行初级的探索性分析,然后把探索性的结果放在大数据下验证。这样的尝试在学界和商界中正在探索。用大数据验证,如果大数据是局部数据,局部误导情况下,验证的标准在哪里,仍然是需要不停思考、研究。无论如何,我们一直在做努力,希望未来找到更好的方法、路径来推进小数据、大数据的合理运用。
媒体融合发展目前已经上升到国家战略的高度,融合发展需要四轮驱动,即流程再造、结构调整、重构用户关系以及资本驱动,而在融合发展的过程中离不开数据运营,包括数据的采集、挖掘、应用等,因此在现有的基础上需要开阔多维的数据视野,进行多元的价值挖掘,以更好地发挥数据价值,推进媒体深度融合、全面转型。
All rights reserved © 2011-2023 CSM Media Research 京ICP备05047992号-5
京公网安备 11010502035133号 法律声明诚聘英才联系我们隐私保护