中文EN
深化对大数据的科学认识
2015-12-29 来源:《中国社会科学报》2015年12月29日第876期 作者:樊明太
分享到:

  近年来,随着信息技术和通信技术革命的深化和创新,人类社会进入了信息数据化、大数据及云计算时代,大数据也因此成为创新、竞争和生产力的一个前沿,并开启时代转型。所谓“大数据”,一般指规模超出典型数据库软件工具可以捕获、存储、管理和分析能力的数据集。人们有意不明确数据集作为大数据要达到怎样的规模临界点,是因为大数据隐含地强调这一规模临界点具有动态性、主观性,会随技术动态进步而提高,会随部门普遍可行的软件工具和特定行业普遍的数据集规模而有所差异。大数据理念在引起社会各界广泛关注的同时,要求我们深化对大数据的科学认识,理性对待大数据。

  信息及通信技术革命催生大数据

  20世纪末的信息技术和通信技术革命,产生了以计算机和互联网为主要标志的新经济工具。伴随着信息技术和通信技术的革命以及新经济的深化,数据的增长、存储、传输、读取及计算速度得以越过拐点而急剧加速,大数据也因此被广泛应用于经营决策和风险管理领域,大数据时代应运而来。

  以计算机和互联网为主要标志的新经济工具,催生了信息的爆炸式数据化,而数据化使得信息精准化得以实现。数据是信息的一种表现形式,数据本身的产生是交流信息的需要,而信息的数据化是信息精准化的需要。一个经济体的发展状况需要根据国民经济核算体系及国内生产总值(GDP)/国民生产总值(GNP)指标和数据来衡量,如果没有相应的指标及数据,就不好进行量化分析和比较。因此,信息的数据化成为非常重要的资产。如果没有现在的信息数据化,我们将无法获知许多信息。由于计算机和互联网等新经济工具的发展,数据的增长得以突破拐点,随之“摩尔定律”发挥作用,数据指数效应爆发。

  数据存储的革命,来自于磁带取代穿孔卡片机;随后发明的磁盘驱动器,则使数据可以由以计算机和互联网为主要标志的新经济工具进行随机存储、传输和读取,并使数据库由传统的层次型向网状型、关系型转变,为决策支持系统和商业智能系统提供了基础。过去,光盘因容量小而限制了其数据存储和读写能力,更限制了信息的传输。现在,大数据技术加快了数据的存储、传输和读写能力,同时也降低了信息获取成本。

  以计算机和互联网为主要标志的新经济工具,也使得数据可以通过计算而自我产生和方便应用。传统的数据由于规模限制可以被随机计算,但大数据则需要应用云计算来实现。资本市场基于股价和交易量可以计算很多技术指标,银行运营基于现金流量表和资产负债表也可以计算很多监管指标,帮助人们进行交易、治理和风险预警。在大数据的技术支持下,这些技术指标和监管指标可以内在地动态生成关系数据库,使数据本身价值化,并实现决策智能化。

  大数据可扩展预测性模型价值

  大数据的价值在于其隐含信息的价值,以及数据集所显现的信息量的规模(Volume)、多样化(Variety)、信息产生、加工和相互之间关系变化的高速化(Velocity)。大数据来源于信息的数据化,必须是以信息为基础,没有信息就无所谓大数据,但数据规模大不一定是好的,关键是要内涵信息量大。数据集作为信息资产,需要成本有效、创新的信息加工格式,同时必须有助于强化洞察力和改善决策价值。大数据中的信息要内容完整一致并内在精准;数据集作为信息资产还需要具有生命力、处方价值和预测价值。

  在大数据情景下,人们并非只是简单地收集大量的数据,而是希望从中仔细选择最有可能影响结果的多重属性因素和变量,通过快速而成本有效地检验和确认变量的相关性来评估数据的生命力。一旦可以确认一系列逐渐扩大的关键变量集及相应的多维度数据,我们就可以揭示这些变量之间的隐性关系并建立有效的预测性模型,应用这些关系和模型进行处方性模拟和结果预测,并通过随后揭示一个实际上不可测度的剩余变量的组合影响来扩展预测性模型的价值。可见,数据本身的价值化,不仅取决于基于数据识别的关键因果变量之间潜在的隐性关系及相应的有效预测性模型,同时还取决于识别一个实际上不可测度的剩余变量的组合及其影响估计。

  大数据具有信息多样化特征,这使得研究经济和社会不再局限于宏观研究,而是可以利用多维度的大数据,研究微观个体的不同状况和行为(如家庭消费金融状况和行为),研究信贷政策对具体行业或企业的就业、利润、产出价格等的微观影响。大数据的微观化、多维度既是信息多样化的产物,也会衍生进一步的多样化信息。

  大数据的产生伴随着经济活动快速化和信息自我派生能力而得以加强,这会使数据的产生速度急剧加快,即呈现出信息高速化特征。大数据的加工能力由于计算机等新经济工具的革命性而获得突破性进展,数据科学家已将网格计算、云计算、数据库内生计算等计算技术提高到人们不可想象的水平。而且,伴随着大数据生成和加工的摩尔效应,大数据内部关键变量的形成和互动关系也发生着急剧的变化。大数据如果没有相应的信息高速化,现在很多东西也无所谓大数据。

  大数据由于其大、杂、快,更需要在数据库设计时仔细考虑信息的完整一致性、内在精准性和生命力。大数据的规划必须在成本有效和技术支持条件下,兼顾大数据全集的完整性和采样的随机代表性,兼顾大数据信息的混杂性和精准性,兼顾大数据的相关性和因果性。大数据如果失去了辨识度也就失去了有效性。大数据的相关性是其因果性的前提,但其相关性不一定具有因果性,大数据如果失去了其内部的因果关系也就失去了生命力。大数据的信息精准及生命力取决于噪声过滤、查漏补缺和去伪存真能力。

  大数据影响人类认知和行为习惯

  大数据为信息数字化、信息标准化和信息价值化创造了条件和基础,社会和经济主体可以据此进行数据相关性和因果关系分析、趋势预测和实验博弈,而在研究数据之间的相关关系时,最好还要注意其相应的机制和行为含义。

  第一,大数据既是新经济的新载体,也来自新经济的驱动。一方面,大数据成为新经济的生产要素和资产,是新经济和互联网金融的新载体。按照2008年国民经济核算体系,GDP核算中首次把研发支出归入固定资产投资,从而使研发和软件归入知识产权产品、大数据归入数字资本,这意味着企业研发支出、软件和数据支出过去划入企业成本,现在则划入企业投资。这样,数据和软件就变成了资产,成为生产要素。从这个角度来说,大数据是新经济的重要组成部分和新载体。另一方面,新经济工具的革命性创新,也驱动着大数据的产生和互联网金融发展。近年来,在金融领域,基于大数据计算的比特币应运而生,互联网金融由于大数据、云计算、社交网络和搜索引擎等新经济工具的突破和应用而拓宽了经济学中的“交易可能性边界”,导致互联网金融新业态快速发展,从而使其开始与传统银行业进行现实博弈。

  第二,大数据意味着人类对社会的认知、交流和决策的革新,将影响居民、企业和政府的行为习惯和市场规则,有利于提高社会生产率、改善消费者剩余。由于现代信息技术和互联网革命,人类对社会的认知逐步数字化,人类之间的交流借助数据标准化实现了传输和视频化,人类进行决策也多基于数据定量分析而非经验和直觉。比如,经济学者基于经济数据分析和模型计算进行经济预测、企业发展规划、大型工程项目经济评估。如果没有相关数据及信息,这些都是很难想象的。此外,大数据的有效利用可以提高社会的生产率。在经济学的生产函数中,生产率反映生产要素的绩效及组合。大数据的有效利用也会改善消费者剩余。在福利经济学中,消费者剩余反映消费者购买时的支付意愿扣除实际支付外所感觉的额外收益。

  (本研究得到中国社会科学院创新工程项目“经济预测与经济政策评价”资助)

  (作者单位:中国社会科学院数量经济与技术经济研究所数量金融研究室)