大数据的权威定义

如题所述

、国内外开展的相关工作

近年来,大数据成为新兴的热点问题,在科 技、商业领域得到了日益广泛的关注和研究,有 一些相关的研究成果。早在1980 年,阿尔文·托夫勒等人就前瞻性地指出过大数据时代即将 到来。此后经过几十年的发展,特别是移动互联网络和云计算的出现,人们逐渐认识到大数据的重大意义,国际顶级学术刊物相继出版大数据方面的专刊,讨论大数据的特征、技术与应用, 2008 年 Nature 出版专刊 “Big Data”,分析了大量快速涌现数据给数据分析处理带来的巨大挑 战,大数据的影响遍及互联网技术、电子商务、超级计算、环境科学、生物医药等多个领域。 2011 年 Science 推 出 关于 数 据 处 理的 专 刊 “Dealing with data ”, 讨论 了 数 据 洪流 ( Data Deluge) 所带来的挑战,提出了对大数据进行有 效的分析、组织、利用可以对社会发展起到巨大推动作用。在大数据领域,国内学者也有大量的相关工作,李国杰等人阐述了大数据的研究现状与意义,介绍了大数据应用与研究所面临的问题与挑战并对大数据发展战略提出了建议。文献主要关注大数据分析、查询方面的理论、 技术,对大数据基本概念进行了剖析,列举了大数据分析平台需要具备的几个重要特性,阐述了大数据处理的基本框架,并对当前的主流实现平台进行了分析归纳。
温馨提示:答案为网友推荐,仅供参考
第1个回答  2020-12-02
大数据是IT行业的术语,指的是无法bai在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据起源 2008年9月,美国《自然》杂志,正式提出“大数据”概念
2011年2月1日,美国《科学》杂志,通过社会调查的方式,第一次分析了大数据对人们生活的影响
2011年5月,麦肯锡研究院分布报告。大数据是指其大小超出了常规数据库工具获取,存储,管理和分析能力的数据集。
具有4V特征(value,volume,velocity,variety)
Value:价值高。
Volume:体量大。(数据每个18月翻一番,而每年产生的数据量增长到44万亿GB)
Velocity:速度快。(数据生成,存储,分析,处理远远超过人们的想象力)
Variety:种类多。
大数据的来源
按产生主体
(1)企业(关系型数据库,数据仓库)
(2)人(浏览信息,聊天,电子商务......)
(3)机器(服务器产生日志,视频监控数据)
第2个回答  2020-11-27
大数据是IT行业的术语,指的是无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据起源 2008年9月,美国《自然》杂志,正式提出“大数据”概念

2011年2月1日,美国《科学》杂志,通过社会调查的方式,第一次分析了大数据对人们生活的影响

2011年5月,麦肯锡研究院分布报告。大数据是指其大小超出了常规数据库工具获取,存储,管理和分析能力的数据集。
具有4V特征(value,volume,velocity,variety)

Value:价值高。

Volume:体量大。(数据每个18月翻一番,而每年产生的数据量增长到44万亿GB)

Velocity:速度快。(数据生成,存储,分析,处理远远超过人们的想象力)

Variety:种类多。
大数据的来源
按产生主体

(1)企业(关系型数据库,数据仓库)

(2)人(浏览信息,聊天,电子商务......)

(3)机器(服务器产生日志,视频监控数据)

数据来源的行业划分

(1)BAT三大公司为代表

(2)电信、金融、保险、电力、石化系统

(3)公共安全、医疗、交通领域

(4)气象、地理、政务等领域

(5)制造业和其他产业

3.按数据存储的形式划分

(1)结构化

(2)非结构化

二.大数据技术支撑

大数据运用场景
环境,教育,医疗,农业,智慧城市,零售业,金融业。

大数据的处理方法
数据采集
数据抓取,数据导入,物联网设备自动抓取

数据预处理
数据清理,数据集成,数据转换,数据规约。

转换:过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。

规约:寻找依赖于发现目标的数据的有用特征,缩减数据规模,最大限度地精简数据量。

统计与分析
统计与分析主要是利用分布式数据库,或分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总,以满足大多数常见的分析需求,在这些方面需要使用不同的框架和方法。

Hadoop:大数据的核心,主要组成部分包括:mapreduce(处理)和HDFS(存储)和yarn(集群资源管理和调度);

Hbase:常用数据库;spark:实时数据处理框架;sqoop:数据导入导出;flume:日志采集工具

Hive:数据仓库,必须有SQL基础,可以做离线的数据分析,把复杂的mapreduce代码转化为简单的sql语句,

而且可以处理的数据类型更加丰富,对接的工具也更多,是整个大数据学习中非常主要的一部分。本回答被网友采纳