大数据导论
上QQ阅读APP看书,第一时间看更新

1.4 大数据的相关技术

大数据本身是一个现象而不是一种技术,伴随着大数据的采集、传输、处理和应用的相关技术就是大数据处理技术,是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的一系列数据处理技术,或简称大数据技术。大数据技术主要包括数据采集、数据存取、基础架构、数据处理、数据分析、数据挖掘、模型预测、结果呈现等。大数据技术内容框架图如图1-2所示。

图1-2 大数据技术内容框架图

(1)数据采集:ETL工具负责将分布的、异构数据源中的数据(如关系数据、平面数据文件等)抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

(2)数据存取:关系数据库、NoSQL、SQL等。

(3)基础架构:云存储、分布式文件存储等。

(4)数据处理:自然语言处理(Natural Language Processing,NLP)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机“理解”自然语言,所以自然语言处理又称自然语言理解(Natural Language Understanding,NLU),也称为计算语言学(Computational Linguistics)。一方面它是语言信息处理的一个分支,另一方面它是人工智能(Artificial Intelligence,AI)的核心课题之一。

(5)数据分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等。

(6)数据挖掘:分类(Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity Grouping or Association Rules)、聚类(Clustering)、描述和可视化(Description and Visualization)、复杂数据类型挖掘(Text、Web、图形图像、视频、音频等)。

(7)模型预测:预测模型、机器学习、建模仿真。

(8)结果呈现:云计算、标签云、关系图等。