揭秘大模型:从原理到实战
上QQ阅读APP看书,第一时间看更新

1.2 大模型的概念

大模型是指具有超大规模参数和复杂计算结构的机器学习模型,通常基于深度神经网络构建而成。参数是模型的内部变量,用于存储和调整模型从数据中学习到的知识和能力。参数量是衡量模型复杂度和容量的一个重要指标。一般来说,参数量越大,模型越强大,但也越难训练和部署。

训练数据是指用于训练模型的数据集,通常是从互联网等来源收集和整理的文本、图像、音频、视频等数据。训练数据的质量和数量对模型的性能和泛化能力有很大的影响。一般来说,训练数据越多越好,但也越难获取和处理。

以自然语言处理为例,目前最大的语言模型之一是ChatGPT,它可以通过自然语言指令(natural language instruction,NLI)完成各种任务,如文本生成、问答、摘要、翻译、对话等。ChatGPT使用多个不同数据集来进行预训练,包括来自不同来源和领域的文本数据,如维基百科、图书、新闻、社交媒体和论文等。

表1-1所示是目前主流的大模型汇总,其中谷歌在2023年5月发布的大模型PaLM 2,其参数量达到了3400亿个。

表1-1 主流大模型汇总

图片表格