Skip to content

LangChain教程 - 1 AI大模型简介

2022 年底,ChatGPT 的发布,让普通人第一次直观感受到人工智能的强大:

  • 机器可以像人一样对话
  • 能写代码、写文章
  • 能总结文档、解释复杂问题

随后,全球进入"大模型竞赛"时代:

  • OpenAI 推出 GPT 系列
  • Google 推出 Gemini
  • Anthropic 推出 Claude
  • Meta 推出 LLaMA
  • 国内厂商也纷纷推出自己的大模型

AI 不再只是实验室技术,而是开始真正走进普通人的生活。从智能助手到内容创作,从代码编写到数据分析,大模型已经成为我们工作和生活中的重要工具。

1.1 什么是人工智能

1.1.1 人工智能的定义

人工智能(Artificial Intelligence,AI),本质上是:让机器表现出"类似人类智能行为"的技术。

它并不是"让机器有意识",而是让机器能够完成类似下面的工作:

  • 识别图像
  • 理解语言
  • 做出决策
  • 预测结果
  • 自动生成内容

1.1.2 人工智能的发展阶段

AI 并不是突然出现的,它经历了几个重要阶段:

1 规则驱动阶段

早期 AI 依靠人工编写大量规则。

例如:

text
如果温度 > 30°C,则打开空调

这种方式简单直接,但无法应对复杂问题,当规则数量变得非常庞大时,维护和扩展变得极其困难。

2 机器学习阶段

机器学习(Machine Learning)不再靠规则,而是通过数据"学习"。

例如:垃圾邮件识别、推荐系统、图像分类等。

机器学习让计算机能够从数据中学习规律,而不是依赖人工编写的规则。

3 深度学习阶段

深度学习(Deep Learning)通过神经网络(Neural Network)模拟人脑结构,让机器具备更强的学习能力。

这一阶段催生了:语音识别、自动驾驶、图像生成、语言生成等革命性应用。

1.2 什么是大模型

1 大模型的定义

"大模型"并不是一个严格的学术概念,而是一种工程规模的说法。

通常指:参数量极大、训练数据规模极大、计算资源极大的深度学习模型。

例如:

  • GPT-3 有 1750 亿参数
  • 新一代模型参数量更高

2 什么是模型参数

你可以把大模型想象成一个超复杂的数学公式,这个公式里有大量的"可调节数字",它们的作用是:决定输入和输出之间的关系。

比如你输入一句话:

今天的天气非常……

模型内部会经过一连串计算,最后输出:

适合出门散步

这些计算过程中,真正决定结果的,就是这些"参数"。

参数不是人写进去的,它们是训练出来的,训练过程大概是这样:

给模型大量文本数据,让模型预测下一个词,如果预测错了,就微调内部参数,反复几万亿次,慢慢地,参数会调整成一种"最优状态"。所以参数就是模型通过海量数据"学"出来的经验。

当模型说"我有 70B 参数",意思是:它内部有 700 亿个可以调节的数字。

3 大模型的核心突破

2017 年,Google Brain 发表论文提出了 Transformer 架构,这成为现代大语言模型的基础。

它解决了几个关键问题:

  • 可以并行计算(训练更快)
  • 可以处理长文本
  • 可以捕捉远距离语义关系

后来,GPT、BERT 等模型都是基于 Transformer 架构改进而来。

所以大模型在最近几年取得突破性进展,主要原因有三点:

  1. 数据爆炸:互联网产生了海量文本数据,为模型训练提供了丰富的素材。

  2. 算力提升:GPU 集群、大规模并行训练成为可能,使得训练超大规模模型成为现实。

  3. 算法突破:Transformer 架构的出现,解决了传统模型的诸多限制,使训练超大规模模型成为可能。

1.3 什么是大语言模型

大语言模型(Large Language Model,LLM)是:专门处理"文本"的大模型。

它的核心能力是:预测下一个词。

例如:

今天的天气非常……

模型会预测:

  • 不错

它每次只生成一个词,然后把这个词加到句子后面,再继续预测下一个词:

今天的天气非常 好

接着再继续预测:

今天的天气非常好,……

就这样一个词接一个词,不断往下生成,最后就变成了一整段通顺、连贯的话:

今天的天气非常好,阳光明媚,微风习习,特别适合出门走走。

所以,大语言模型并不是 “一次性想出整段话”,而是像人写字一样,一个字、一个词慢慢写出来

1.4 大模型能做什么

现在的大模型已经可以:

  • 写代码
  • 写文章
  • 做翻译
  • 总结文档
  • 数据分析
  • 生成图片
  • 生成视频
  • 做智能助手

典型应用案例:

  • ChatGPT:对话与内容生成
  • Midjourney:图像生成
  • GitHub Copilot:代码辅助

现在大模型正在从"实验室技术"变成"基础设施",它将更加普及,融入更多行业和应用场景,而且能力不断提升,可以处理更复杂、更个性化的需求。也到了我们不得不学习的成都,在这个教程中,我们将学习如何调用大模型、如何本地搭建大模型、RAG、Agent等实用技能。

不多说,开始吧!