《大数据》,此词条收录于12/28,仅供参考
大数据(Big Data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助人类生活更高效、便利的资讯。其数据类型包括结构化数据,半结构化数据和非结构化数据。大数据具有“5V”特点,它们分别是数据量(Volume)、速度(Velocity)、多样性(Variety)、真实性(Veracity)和价值(Value)。
大数据的发展历史可以追溯到19世纪末,美国统计学家赫尔曼·霍尔瑞斯(Herman Hollerith)发明了电动读取设备,初步实现了数据处理的自动化。到1980年,未来学家阿尔文·托夫勒阿尔文·托夫勒(Alvin Toffler)在《第三次浪潮》中首次提出“大数据”概念,突出其对社会的潜在影响。2001年,Gartner的道格·莱尼提出了描述大数据的“3V”模型,即数据量、速度和多样性。2003年至2008年间,随着Google等公司的关键技术发布,大数据技术快速进化。到2012年,IBM将“真实性”加入“3V”模型,形成了“4V”模型,后来又增加了“价值”维度,成为“5V”模型。近年来,技术如Apache Storm和Databricks的Delta Lake推动了实时数据处理和数据湖技术的发展。到2024年,大数据技术不断创新,支持AI等新兴领域的需求。
大数据的技术架构涵盖数据采集、处理、存取、分析、可视化和管理等关键环节,包括大数据安全、实时处理和分布式计算等核心技术。现代工具如Elasticsearch和Apache Flink等,已显著推动数据处理和分析的发展。大数据技术已在金融、医疗、教育和安全等众多领域得到广泛应用。然而,随着这些技术的普及,数据安全和隐私保护、构建数据核心计算体系以及应对数据垄断等成为了当前亟需解决的关键挑战。