Appearance
LangChain教程 - 1 AI大模型简介
2022 年底,ChatGPT 的发布,让普通人第一次直观感受到人工智能的强大:
- 机器可以像人一样对话
- 能写代码、写文章
- 能总结文档、解释复杂问题
随后,全球进入"大模型竞赛"时代:
- OpenAI 推出 GPT 系列
- Google 推出 Gemini
- Anthropic 推出 Claude
- Meta 推出 LLaMA
- 国内厂商也纷纷推出自己的大模型
AI 不再只是实验室技术,而是开始真正走进普通人的生活。从智能助手到内容创作,从代码编写到数据分析,大模型已经成为我们工作和生活中的重要工具。
1.1 什么是人工智能
1.1.1 人工智能的定义
人工智能(Artificial Intelligence,AI),本质上是:让机器表现出"类似人类智能行为"的技术。
它并不是"让机器有意识",而是让机器能够完成类似下面的工作:
- 识别图像
- 理解语言
- 做出决策
- 预测结果
- 自动生成内容
1.1.2 人工智能的发展阶段
AI 并不是突然出现的,它经历了几个重要阶段:
1 规则驱动阶段
早期 AI 依靠人工编写大量规则。
例如:
text
如果温度 > 30°C,则打开空调这种方式简单直接,但无法应对复杂问题,当规则数量变得非常庞大时,维护和扩展变得极其困难。
2 机器学习阶段
机器学习(Machine Learning)不再靠规则,而是通过数据"学习"。
例如:垃圾邮件识别、推荐系统、图像分类等。
机器学习让计算机能够从数据中学习规律,而不是依赖人工编写的规则。
3 深度学习阶段
深度学习(Deep Learning)通过神经网络(Neural Network)模拟人脑结构,让机器具备更强的学习能力。
这一阶段催生了:语音识别、自动驾驶、图像生成、语言生成等革命性应用。
1.2 什么是大模型
1 大模型的定义
"大模型"并不是一个严格的学术概念,而是一种工程规模的说法。
通常指:参数量极大、训练数据规模极大、计算资源极大的深度学习模型。
例如:
- GPT-3 有 1750 亿参数
- 新一代模型参数量更高
2 什么是模型参数
你可以把大模型想象成一个超复杂的数学公式,这个公式里有大量的"可调节数字",它们的作用是:决定输入和输出之间的关系。
比如你输入一句话:
今天的天气非常……模型内部会经过一连串计算,最后输出:
适合出门散步这些计算过程中,真正决定结果的,就是这些"参数"。
参数不是人写进去的,它们是训练出来的,训练过程大概是这样:
给模型大量文本数据,让模型预测下一个词,如果预测错了,就微调内部参数,反复几万亿次,慢慢地,参数会调整成一种"最优状态"。所以参数就是模型通过海量数据"学"出来的经验。
当模型说"我有 70B 参数",意思是:它内部有 700 亿个可以调节的数字。
3 大模型的核心突破
2017 年,Google Brain 发表论文提出了 Transformer 架构,这成为现代大语言模型的基础。
它解决了几个关键问题:
- 可以并行计算(训练更快)
- 可以处理长文本
- 可以捕捉远距离语义关系
后来,GPT、BERT 等模型都是基于 Transformer 架构改进而来。
所以大模型在最近几年取得突破性进展,主要原因有三点:
数据爆炸:互联网产生了海量文本数据,为模型训练提供了丰富的素材。
算力提升:GPU 集群、大规模并行训练成为可能,使得训练超大规模模型成为现实。
算法突破:Transformer 架构的出现,解决了传统模型的诸多限制,使训练超大规模模型成为可能。
1.3 什么是大语言模型
大语言模型(Large Language Model,LLM)是:专门处理"文本"的大模型。
它的核心能力是:预测下一个词。
例如:
今天的天气非常……模型会预测:
- 好
- 冷
- 热
- 不错
它每次只生成一个词,然后把这个词加到句子后面,再继续预测下一个词:
今天的天气非常 好接着再继续预测:
今天的天气非常好,……就这样一个词接一个词,不断往下生成,最后就变成了一整段通顺、连贯的话:
今天的天气非常好,阳光明媚,微风习习,特别适合出门走走。所以,大语言模型并不是 “一次性想出整段话”,而是像人写字一样,一个字、一个词慢慢写出来。
1.4 大模型能做什么
现在的大模型已经可以:
- 写代码
- 写文章
- 做翻译
- 总结文档
- 数据分析
- 生成图片
- 生成视频
- 做智能助手
典型应用案例:
- ChatGPT:对话与内容生成
- Midjourney:图像生成
- GitHub Copilot:代码辅助
现在大模型正在从"实验室技术"变成"基础设施",它将更加普及,融入更多行业和应用场景,而且能力不断提升,可以处理更复杂、更个性化的需求。也到了我们不得不学习的成都,在这个教程中,我们将学习如何调用大模型、如何本地搭建大模型、RAG、Agent等实用技能。
不多说,开始吧!