大数据用来描述那些数量庞大到无法用人工,甚至用简单的计算机软件进行处理的海量数据。随着计算机和现代检测技术的发展,获取数据变得越来越容易。首先了解几个术语:
数据——组成大数据的单元。
数据,指事实或观察到的结果,是对客观事物的逻辑归纳,用于表示客观事物未经加工的原始素材。数据是信息的表现形式和载体,可以是符号、文字、数字、语音、图像、视频等。数据和信息不可分离,数据是信息的表达,信息是数据的内涵。数据本身毫无意义,只有对实体行为产生影响时才成为信息。大数据中的数据量非常巨大,其中,不仅包括结构化数据,如数字、符号等数据,也包括非结构化数据,如文本、图像、声音、视频等数据。
数据库——承载大数据的容器。
在信息化社会,充分有效地管理和利用各类信息资源,是进行科学研究和决策管理的前提条件。数据库技术是管理信息系统、办公自动化系统、决策支持系统等各类信息系统的核心部分,也是进行科学研究和决策管理的重要技术手段。
统计学——解析大数据的工具。
统计学是一门通过搜索、整理、分析数据,推断被测对象本质、甚至预测对象未来的综合性科学。通过寻找和挖掘现象,把现象变为可用数字标识的数据,并汇总大量数据,从而找出事物的本质和规律。随着“大数据”概念的提出,统计学也受到越来越多的重视。
大数据产生的一个显著标志就是:为了满足市场需要,数据存储设备的容量越来越大,处理数据的速度越来越快。
大数据是一种能力。
大数据不是一种时尚,也不仅仅只是一个大的数据集。它的实质是一种能力,是从高度关联的数据中获取知识和价值的能力。如果说物理层的互联网实现了不同主体的物理连接,那么流淌在其间的数据则实现了价值层面的连接。从这个意义上讲,互联网就是数据之网。
大数据是一种价值。
大数据的战略意义不在于掌握庞大的数据信息,而在于对这些有意义的数据进行专业化处理。单个数据并没有价值,但越来越多的数据累加,量变就会引起质变。
大数据是一种行为。
大数据不同于过去的传统数据,其产生方式、存储载体、访问方式、表现形式、来源特点等都与传统数据不同。大数据更接近于某个群体的行为数据,它是全面的、准确的、有价值的数据。
据国外学者考证,大数据一词最早出现在1998年。当时用于阐述信息基础设施在大规模数据条件下面临的压力。《大数据时代》一书是国外大数据研究的先河之作,该书作者维克托·迈尔·舍恩伯格被誉为“大数据商业应用第一人。
随着全球数字化、网络化进程加快,互联网应用于各行各业,累积的数据量越来越大。越来越多企业、行业和国家发现,可以利用类似技术更好地服务客户、发现新商机、扩大新市场以及提升效率。进而,大数据的概念逐步成熟。
可以说,离开互联网谈大数据,是毫无意义的。