在论及大数据应用时,每每会提及全量数据、海量数据或海量样本,有的界定清晰,有的指代含混,有的因为概念不清而模糊了三者之间的关联和区别,甚至有意无意地传播着偷换概念的信息。全量数据、海量数据或海量样本数据、大样本数据,从基础的数据范围和数据内容方面都有不容忽视的差异。避免一叶障目、以偏概全,理解正确使用得当是用好大数据的前提。
全量数据
全量数据的要义是“量要全”,“全”是标准界定。那么紧接着的必答题就是“全的是什么范围内的什么数据”?
首先是数据范围,全量数据必须包括特定领域的全部个体,关键是明确这个特定领域是什么;进而是数据内容,全量数据必须包括某类特定行为的全部数据,关键是明确这类特定行为是什么。全量数据是理想化的数据源,也是较难获得的数据源。现实工作中,全量数据多数是“部分全量”,因此必须明了“全量”所指的数据范围和数据内容,即哪类用户的全量、该类用户哪些行为的全量。
例如,网络用户全量数据,从数据范围来讲是所有网络用户还是某个视频网站的所有用户,从数据内容来讲是这些用户视频收看次数还是视频收看时长,抑或视频网站的浏览数据。又如电视用户全量数据,数据范围是区域内所有电视用户还是其中的互动机顶盒电视用户或是智能电视机用户,互动机顶盒或智能电视机的全量并不等于电视用户的全量;数据内容是直播收视还是点播收视,是收看次数还是收看时长等。
海量数据
海量与全量一字之差,却差之千里。海量的要义是“量要大”,“大”是一种形容,并没有明确的标准界定。“大”与“全”不只是数量程度差异,更是局部与全部的质的差异。无论海量数据的数据内容在多大程度反映个体行为的哪一部分,在首要的数据范围方面,海量本身并没有承担“全部”的意义,在“海量数据”、“海量样本”的说法中,海量不是一种概念,而是一种形容描述,与全量不可相提并论。
海量数据,如果局限于某个范围内,那么数量的增加无益于弥补与全部数据的差异。如果海量数据所在的局部与全部领域中其他部分存在可预知或不可预知的差别,那么局部数据就终究只是局部数据,不能代表或推及全部情况。如果以所有电视用户为总体,那么互动机顶盒电视用户或是智能电视机用户的海量作为局部数据,一方面互动机顶盒和智能电视机在多数地区并未占电视用户的大多数,且普及率和用户数在各地分布不均;另一方面互动机顶盒和智能电视机用户的收视条件和功能、可接收频道和节目内容、家庭和人口特征等与其他用户存在差异,这部分用户的数据不能代表其他用户,进而不能无偏差地推及总体用户行为。
具备可靠的应用价值的海量数据可能来自两个方面,其一是海量数据的量级越来越接近全量数据,两者的差异达到数据使用者可以接受的程度,甚至最终达到全量数据水平,由量变积累至质变,海量数据升级为全量数据;其二是海量数据反映的局部领域情况与全部数据具有较高的同质性,或局部结构和特征对于全部数据有较好的代表性,局部数据虽然不是全部数据,但是可以通过一定的方法推及或反映总体,这种情况下局部数据必须符合要求,才能保证推及总体具有可靠依据。
海量样本
海量样本,所谓海量样本与大数据则完全不是同一范畴的概念,海量样本既然是“样本”,那么本质就依然是抽样,海量只是样本量大的一种模糊形容而已,多少样本量称之为海量呢?几十万、几万,还是几千就可以称为海量?在抽样领域,衡量一套样本的质量,样本量的多少是一个重要的方面,但也只是一个方面,抽样总体完备以保证全面覆盖调查范围内所有个体、抽样方法科学以保证样本对于总体的良好代表性,才是样本质量的首要条件。如果样本只是来自总体中的一部分,那么这一部分所占比例的多少、与总体结构和特征的一致性高低,决定着样本的代表性,而样本代表性是抽样的原则问题,不是单纯依靠“量大”就可以解决的。
在电视收视率抽样方法中,海量样本或者更确切讲“大样本”,对于减少抽样误差提高数据精度具有重要价值,尤其可以更有效地反映分散的、发生率较低的收视行为,有利于针对局部更加精细化地分析研究。要发挥大样本数据的优势,就必须保证大样本数据的质量。在建立大样本的过程中,无论样本量多少,无论通过单纯的抽样方式建立或是通过抽样与大数据结合的方式建立,抽样总体和大数据范围必须足够覆盖调查区域内的所有电视用户,以保证大样本数据对于调查区域全部电视人口的代表性,才有可能成为可靠的、高质量的收视率调查样本。例如在互动机顶盒用户比例较低的地区,直接来自互动机顶盒用户的大数据或抽取自互动机顶盒用户的大样本数据,无论样本多少,都只能反映当地少部分电视观众的收视,与基于当地所有电视家庭人口、以严格统计抽样方法建立的收视调查样本在质量上有着天壤之别。
全量数据、局部海量数据、抽样数据对于描述轮廓和细节的描述,可以比照以不同像素、不同角度拍摄人物照片,样本越多、数据点越密集相当于像素越高,照片越清晰。而只拍摄局部的照片,即便像素高局部清晰,对于图像完整性仍然有重大缺失,不能反映全貌,如同限于局部的不完整的海量数据(图1-图5)。
注:
图1:科学抽样,轮廓完整,细节模糊
图2:科学抽样,轮廓完整; 增大样本量,细节更清晰
图3:局部抽样,轮廓缺失;增大样本量,局部细节更清晰
图4:局部海量大数据,轮廓缺失、局部清晰
图5:全部的全量大数据,轮廓完整、细节清晰
在明晰理解数据本身特点的同时,还必须清醒认识到某些大数据提供者本身亦是参与网络运营或广告经营的主体,不具有第三方数据提供者的属性,所提供的用户数据或基于这些用户的样本数据,与第三方调研公司独立建立的抽样样本所提供的调查数据有根本的原则差异。
收视率调查领域的大数据应用,符合国际惯例和市场应用需求的通行解决方案是由第三方收视调查公司主导,在机顶盒或电视机大数据覆盖范围和数据内容符合质量要求的地区,由运营商配合提供可供校验审核的数据,多方合作建立大样本个人收视调查体系。第三方收视调查公司利用科学的方法纠正大数据的偏差,将其与收视率抽样调查的样本数据结合,并且必须向客户清晰说明数据来源和调查方法,计算并提供为行业和客户广泛认可的大样本个人收视调查数据。例如,CSM媒介研究于2014年12月初在香港与电讯盈科(PCCW)合作推出了香港首批大样本个人收视率数据;在大陆与多个地区的有线数字网络或IPTV运营商合作,探索合作模式、测试和研究数据,力争尽早与行业分享高质量的大样本个人收视数据。
All rights reserved © 2011-2023 CSM Media Research 京ICP备05047992号-5
京公网安备 11010502035133号 法律声明诚聘英才联系我们隐私保护