第1章 算量
本章导读
本章将介绍人工智能三要素之一——数据(业界也称为算量)。业界流行这样一句话:数据和特征(从数据中提取的用以输入机器学习算法模型中的维度数据)决定了机器学习的上限,而模型和算法只是逼近这个上限而已。从中可见数据对于人工智能发展的重要性。
此处的数据指的是大数据。数据承载着信息,不同的信息源与信息形式对应着不同的数据类型。日常生活中,以表格形式记载的信息数据类型我们都已司空见惯,这类数据通常显现出不同特征维度上的数据表现。例如,常见的有关销售的数据表格能显现出不同地区、不同时间、不同品种、不同部门的销售情况,一般称这类数据为结构化数据。还有文字、图片与视频等数据,这类数据就不像结构化数据那样能显现不同特征维度上的数据表现,在输入机器学习算法模型之前需要运用特征工程来抽取与选择隐藏在不同特征维度上的数据表现,通常称这类数据为非结构化数据。当然,还有介于结构化数据与非结构化数据之间的半结构化数据,如邮件等。
大数据之所以很有价值,其中一个因素是因为"多源"。为了能更准确地分析与预测某些事情,往往需要从多个渠道、多个角度采集历史数据。把各种相关的不同来源的数据汇集起来,有利于让人工智能算法模型更完善,更具有泛化应用能力,这就是多源数据的含义。为了获取更多渠道的数据信息,例如互联网上各类公开的报道资料,网络爬虫技术被广泛应用。显然,多源数据可能包含结构化数据、非结构化数据和半结构化数据。
行为数据是大数据分析与应用过程中很重要的一类数据。行为数据亦即人们在日常生产和生活中的行为留痕,这些行为动作的数字化记录对于分析、预测、判断人们的行为动机与行为趋势很有参考意义。今天,广为谈及的精准推送、智能推荐等大数据应用就主要是基于行为数据的。
计算机在存储与处理大数据的过程中,经常需要对各类数据进行"管理"。数据来自何方、数据去往何处、数据如何编排、数据是否有更新、数据的使用记录等信息,都需要进行管理,用来管理这些数据的数据记录就是元数据。数据是资产,需要用元数据对这些数据资产进行管理。
无论是元数据,还是各类数据本身,通常需要用数据仓库进行存储。为了实现对数据的并行处理和安全保障,通常可以将数据分布存储在不同的计算机上,即采用分布式系统架构对数据进行存储和计算处理,并通过集群系统技术将这些分布式存储和计算进行统一管理与调度。
类似于物流配送中心需要提升物流配送效率和降低物流配送综合成本一样,从原数据到数据应用之间也存在一个"数据中台"概念。数据中台的目的是将对原数据的汇集和加工处理与数据分析应用进行分离,即通过对原数据的汇集和加工处理,形成数据分析应用所需要的各种"组件",以支撑数据分析的快速响应与数据应用的敏捷开发。
在大数据发展应用过程中,也面临着数据安全和个人隐私保护方面的挑战。除了通过立法加强监管外,技术层面的安全保障措施也尤为重要,各类加密技术和区块链技术将在大数据发展应用过程中大放异彩。