问无界·答无限
问无界·答无限

2025年06月22日

AI的底层逻辑是什么?

一图读懂

解构智能:对人工智能底层逻辑的深度剖析

第一部分:智能的逻辑之争 - 哲学与历史视角

人工智能(Artificial Intelligence, AI)的“底层逻辑”并非一个单一、固化的概念,而是源于一场持续数十载、关于如何创造智能的根本性智识辩论的产物。要理解AI,首先必须探究其思想根源——两大核心哲学流派的对立与融合:符号主义(Symbolicism)与连接主义(Connectionism)。这两大流派代表了两种截然不同的智能观,它们的兴衰更迭塑造了整个AI领域的历史轨迹与未来方向。

1.1 两大思想流派

人工智能的构建逻辑主要沿着两条路径展开:一条是自上而下的符号操作,另一条是自下而上的仿生学习。

符号主义(“自上而下”的逻辑)

符号主义,又称逻辑主义或计算机学派,其核心信念是:智能的本质在于根据一套明确、形式化的规则来操纵符号 ¹。这是一种“自上而下”的方法,其逻辑前提是人类的认知与思维过程可以被抽象为符号运算。在这种观点下,智能被视为一种逻辑推理过程,而心智则可类比为一个运行在结构化数据之上的计算机程序 ³。

该流派最典型的体现是专家系统(Expert Systems)。在20世纪70至80年代,专家系统迎来了其黄金时期,成为AI首次大规模商业化成功的标志 ¹。这些系统旨在通过一个包含大量“如果-那么”(if-then)规则的知识库,来模拟特定狭窄领域(如医疗诊断、化学分析)中人类专家的决策过程 ¹。专家系统的成功,将符号主义推向了顶峰,使其在当时几乎成为AI的代名词。

连接主义(“自下而上”的逻辑)

与符号主义相对,连接主义,又称仿生学派,主张智能是一种**涌现(emergent)**现象。它并非由中央控制器或预设规则所主导,而是源自大量简单的、相互连接的处理单元(即人工神经元)之间复杂的相互作用 ¹。这种“自下而上”的逻辑深受人脑结构的启发,认为智能不是被编程的,而是通过从数据中学习模式而获得的 ⁶。

连接主义的核心信念是,复杂的行为可以从简单的局部互动中产生,无需全局性的显式规则 ³。其核心技术体现为

人工神经网络(Artificial Neural Networks, ANNs)。这些模型通过在大量样本数据上进行训练,不断调整神经元之间连接的“权重”(即连接强度),从而学习到输入与输出之间的复杂关系 ⁶。

1.2 历史的钟摆:崛起、寒冬与复兴

AI的发展史并非线性进步,而更像一个在符号主义与连接主义之间来回摆动的钟摆。这一过程深刻地揭示出,一个理论范式的成败,不仅取决于其思想的深度,更受到当时技术与经济条件的制约。AI的底层逻辑并非在真空中演化,其发展轨迹是**(1)主流哲学思想、(2)可用计算能力、以及(3)经济可行性**三者间复杂博弈的直接结果 ¹。

早期优势与第一次AI寒冬

在AI领域的早期,连接主义展现出巨大潜力。然而,1969年,符号主义的领军人物马文·明斯基(Marvin Minsky)出版了《感知器》(Perceptrons)一书,成为了历史的关键转折点 ¹。明斯基在书中从数学上严谨地证明了,当时简单的单层神经网络(即感知器)无法解决一些最基本的问题,例如逻辑上的“异或”(XOR)问题 ¹。这一精准的学术批判,结合当时计算机算力普遍匮乏的现实,对连接主义研究造成了毁灭性打击。研究经费被大量削减,神经网络研究由此进入了长达十余年的停滞期,史称第一次“AI寒冬”。在此期间,符号主义的逻辑占据了绝对主导地位 ¹。

符号主义的黄金时代与第二次AI寒冬

专家系统在20世纪80年代大放异彩,将符号主义推向了商业应用的巅峰。然而,其局限性也逐渐暴露:专家系统构建成本高昂、知识库难以维护、无法处理模糊信息,且不具备自动学习新知识的能力。最终,专门用于运行符号主义AI程序(如Lisp语言)的“Lisp机”在商业上的惨败,标志着这个时代的终结 ¹。性能更强、价格更低的通用计算机(如IBM PC)的崛起,使得这些专用硬件变得毫无竞争力,AI领域随之进入了第二次寒冬。这再次证明,一种理论逻辑若要持续发展,必须有强大且经济的硬件基础作为支撑。

连接主义的复兴

连接主义的复兴并非偶然,而是由三大关键因素共同驱动的:

  1. 算法突破:在“寒冬”期间,反向传播算法(Backpropagation)的提出和长短期记忆网络(LSTM)等更复杂网络结构的发明,为神经网络的有效训练奠定了算法基础 ¹。

  2. 数据洪流:互联网的普及带来了前所未有的海量数据。这些数据为需要大量样本进行训练的神经网络提供了充足的“养料” ⁸。

  3. 算力革命:最初为电子游戏设计的图形处理器(GPU),其大规模并行计算架构被发现完美契合神经网络中核心的矩阵运算。GPU的出现,一举打破了困扰连接主义数十年的算力瓶颈,使其理论潜力得以真正释放 ¹。

最终,算法、数据和算力的汇合,引爆了深度学习革命,使连接主义的逻辑成为当今AI领域无可争议的主流。

1.3 哲学的僵局:理解与模拟

两大流派的历史之争,最终引向一个至今悬而未决的深刻哲学问题:一个能够完美模拟智能行为的机器,是否真正拥有**理解(understanding)**能力?

图灵测试

艾伦·图灵提出的“图灵测试”为智能提供了一个操作性的、行为主义的定义。测试内容是:如果一台机器能够与人类进行对话,而人类无法分辨其是机器还是人,那么这台机器就可以被认为具有智能 ¹⁰。图灵测试绕开了“什么是智能”的本质问题,而转向“智能应表现出何种行为”。

“中文房间”思想实验

哲学家约翰·塞尔(John Searle)于1980年提出了著名的“中文房间”思想实验,对符号主义和图灵测试发起了猛烈抨击 ¹⁰。实验构想如下:一个不懂中文的人被锁在一个房间里,房间里有一套详尽的中文处理规则手册(相当于一个程序)。他通过一个窗口接收写有中文字符的纸条(输入),然后严格按照规则手册的指示,查找并组合相应的字符,再将结果递出窗口(输出)。对于房间外的人来说,这个房间的回应与一个地道的中文使用者无异,因此通过了图灵测试。

然而,塞尔指出,房间里的人自始至终没有理解任何一个中文字符的含义(semantics),他所做的仅仅是纯粹的符号操作(syntax) ¹⁰。塞尔由此得出结论:仅仅操纵符号,无论多么复杂,永远无法产生真正的“理解”。这一论证有力地挑战了“强人工智能”(即认为正确编程的计算机可以拥有心智)的观点。

今天,以大语言模型(LLM)为代表的现代AI,在某种意义上可以被看作是“中文房间”的超级升级版。它们通过对海量文本数据进行统计模式匹配来生成看似智能的回答 ¹⁰。关于它们究竟是真正“理解”了语言,还是仅仅是复杂的“随机鹦鹉”(stochastic parrots),这场争论正是图灵与塞尔之辩在当代的延续。

长期以来,符号主义与连接主义被视为两种相互排斥的范式。然而,历史的“战争”正以一种**综合(synthesis)的形式走向终结。未来的底层逻辑并非二选一,而是两者的融合。这一趋势体现在神经符号AI(Neuro-Symbolic AI)**的兴起上 ⁴。该领域旨在将神经网络强大的模式识别能力与符号系统严谨的逻辑推理能力相结合,以期构建出既能学习又能推理的更强大系统。例如,现代AI智能体(AI Agents)能够调用外部的符号工具(如计算器、数据库查询)来增强自身能力,这正是神经模型与符号工具的实际结合 ¹⁵。

此外,现代大型语言模型中的“专家混合(Mixture of Experts, MoE)”架构,在概念上也与符号主义的专家系统遥相呼应 ¹⁷。MoE模型由多个专门的“专家”子网络和一个“门控”网络组成,门控网络负责为每个输入选择最合适的专家来处理。这在功能上类似于一个符号系统根据规则调用特定的功能模块,但其实现方式完全是连接主义的——通过端到端的学习和微分优化。这表明,AI的底层逻辑正在从对立走向互补,通过融合创造出前所未有的强大能力。

表1:基础AI范式比较:符号主义 vs. 连接主义

特征 符号主义 (自上而下) 连接主义 (自下而上)
核心原则 智能是通过操纵符号和遵循形式化规则实现的 ¹。 智能是从大量简单、互联的单元的相互作用中涌现的 ¹。
知识表示 显式的、结构化的知识库(如“if-then”规则)¹⁸。 隐式的、分布式的,知识编码在网络连接的权重中 ¹⁸。
推理方法 基于逻辑演绎、搜索和启发式规则的推理 ⁴。 基于数据驱动的模式识别和统计推断 ¹。
关键技术 专家系统、逻辑编程、知识图谱 ¹。 人工神经网络、深度学习、大语言模型 ⁶。
优势 可解释性强、逻辑严谨、在定义明确的领域表现出色。 学习能力强、能处理模糊和非结构化数据、泛化能力好。
劣势 知识获取瓶颈、处理不确定性能力弱、系统脆弱 ¹。 “黑箱”问题(可解释性差)、需要大量数据和算力、易受对抗性攻击 ²¹。
历史高峰 20世纪70-80年代的专家系统时代 ¹。 2010年至今的深度学习时代 ¹。
代表人物 Marvin Minsky, Herbert A. Simon, Allen Newell ¹。 Geoffrey Hinton, Yann LeCun, John Hopfield, 李飞飞 ¹。

第二部分:现代AI的通用语言 - 核心数学原理

揭开现代AI神秘面纱的核心在于认识到,其“底层逻辑”并非人类的常识或推理,而是一种精确、普适的数学语言。尤其是连接主义主导的AI,其本质是由“数据、算法和算力”驱动的应用数学 ²¹。智能的产生、学习与优化过程,都可以被分解为三大数学支柱的协同作用:概率统计、线性代数和微积分。

2.1 AI的数学本质

当前的人工智能,其核心任务通常可以被描述为:在高维度的复杂问题空间中,寻找一个近似最优解 ²²。它不是通过穷举所有可能性来解决问题,而是通过数学方法找到一个足够好的解决方案。数学为AI提供了形式化的建模工具和科学的描述语言,是构建、理解和改进AI系统的基石 ²¹。

2.2 支柱一:概率与统计 - 不确定性的逻辑

概率论与统计学为AI提供了在不确定性环境中进行推理和从数据中提取规律的理论框架。AI模型本质上是概率系统,它们通过学习数据的潜在分布来进行预测和决策。

然而,大数据的出现对传统统计学的基础构成了严峻挑战 ²¹。传统统计学理论,如大数定律和中心极限定理,大多建立在样本“独立同分布”(i.i.d.)以及样本量

n远大于特征量p(即p≪n)的假设之上 ²¹。但在大数据时代,这些假设常常被打破。例如,在图像识别任务中,一张高清图片可能包含数百万个像素(特征

p),而训练数据集可能只有数万张图片(样本n),这就导致了p≫n的“维度灾难”问题。在这种情况下,很容易产生“伪相关”,使得传统统计方法失效 ²¹。

深度学习的兴起,在某种程度上正是对这一挑战的回应。它提供了一种在不依赖传统统计假设的情况下,从高维数据中自动学习有效特征表示的方法。尽管如此,为这种新的数据范式建立一套稳固的统计学基础,仍然是当前AI研究中一个亟待解决的重大数理问题 ²¹。

2.3 支柱二:线性代数 - 表示的逻辑

线性代数是AI世界的“通用语”,为数据和模型的表示提供了基本工具。在神经网络中,无论是输入(如图像的像素、文本的词向量)、模型的参数(权重),还是最终的输出,都被表示为一种数值结构:向量、矩阵或更高维的张量 ²⁵。

神经网络中的核心运算,例如一个神经元对其所有输入进行加权求和,其本质就是矩阵与向量的乘法。GPU之所以能极大加速AI的训练,正是因为其硬件架构被高度优化,能够高效地执行这些大规模的并行线性代数运算。

2.4 支柱三:微积分与优化 - 学习的逻辑

AI的学习过程,其核心是一个数学上的**优化(Optimization)问题。目标是找到一组模型参数(例如神经网络中的权重和偏置),使得模型预测结果与真实答案之间的差异最小化。这个差异由一个损失函数(Loss Function)**或成本函数来量化 ²⁶。

梯度下降:学习的引擎

**梯度下降(Gradient Descent)**是实现这一目标的核心算法,是驱动几乎所有现代AI模型学习的引擎 ²⁶。

  • 核心思想:梯度下降是一种迭代优化算法,其目标是找到损失函数的最小值点。这个过程可以被通俗地比喻为一个在浓雾中下山的人。他看不清山谷的最低点在哪里,但可以感知到脚下地面的坡度。最理性的策略,就是沿着当前位置最陡峭的下坡方向走一小步,然后重复这个过程 ²⁶。

  • 具体流程

    1. 初始化:首先,随机设定一组模型的初始参数(权重和偏置)²⁷。

    2. 计算损失:使用当前参数,让模型对训练数据进行预测,并计算预测结果与真实标签之间的总误差(损失)。

    3. 计算梯度:利用微积分中的偏导数(Partial Derivatives),计算损失函数相对于每一个参数的梯度(Gradient)。梯度是一个向量,它指向损失函数值增长最快的方向 ²⁸。

    4. 更新参数:将每个参数沿着其梯度的相反方向移动一小步。这一步的大小由一个称为**学习率(Learning Rate)**的超参数(通常用$\eta或\alpha$表示)控制。更新公式为:参数新​=参数旧​−η×梯度 ²⁶。

    5. 重复:不断重复第2至4步,成千上万次。每一次迭代,模型参数都会被微调,使得损失值逐步降低。当损失值不再显著下降时,算法就“收敛”到了一个局部或全局的最小值点,学习过程结束 ²⁷。

  • 算法变体:根据每次迭代所用数据量的不同,梯度下降有多种变体,如批量梯度下降(Batch GD)、随机梯度下降(Stochastic GD, SGD)和小批量梯度下降(Mini-batch GD),它们在计算效率和收敛稳定性之间提供了不同的权衡 ²⁶。

数学是连接所有现代AI范式的统一语言。无论是简单的线性回归、复杂的支持向量机,还是庞大的深度神经网络,其学习的底层逻辑是共通的:定义一个模型,定义一个损失函数,然后使用一个优化算法(如梯度下降)来寻找最小化该损失函数的参数。这个基于“损失最小化”的数学框架,是机器如何从数据中学习的真正核心逻辑 ²¹。

AI的数学逻辑也标志着一种从传统编程逻辑的根本性转变。传统编程是确定性的、精确的。而AI是概率性的、近似的。正如研究指出的,AI的目标通常不是找到一个可被证明的完美解(这对于复杂的现实世界问题往往是不可能的),而是找到一个“足够好”的近似解 ²²。AI的“黑箱”特性正是这种转变的直接后果。我们可以通过评估其损失或准确率来衡量它

是否有效,但却很难像分析传统算法那样,用一步步的清晰逻辑来解释它如何工作。这是因为,AI的“解”并非一组人类可读的规则,而是一个由数百万个经优化后的数值参数所编码的高维复杂函数。其内在“逻辑”体现在损失函数所构成的多维空间几何形态中,而非语义规则本身 ¹⁰。

第三部分:学习的方法论 - AI如何获取知识

在核心数学原理的基础上,AI发展出了三种主要的学习策略,或称“学习范式”。这些范式根据AI系统在训练过程中可获得的数据类型和反馈信号的不同而划分,它们分别是:监督学习、无监督学习和强化学习。

3.1 监督学习:带导师的学习

监督学习(Supervised Learning)是目前应用最广泛的机器学习范式。

  • 核心逻辑:模型从一个**有标签(labeled)**的数据集中学习。在这个数据集中,每个输入样本都明确地配对了正确的输出答案 ⁷。这个过程好比一个学生用一套带有标准答案的习题集来备考。模型的目标是学习从输入到输出的映射函数
    f:X→Y ²¹。

  • 学习过程:模型对一个输入样本进行预测,然后将预测结果与真实的标签进行比较,计算出误差(损失)。接着,通过梯度下降等优化算法调整模型内部的参数,以减小这个误差 ³⁰。

  • 主要任务与算法

    • 分类(Classification):预测一个离散的类别标签。例如,判断一封邮件是“垃圾邮件”还是“非垃圾邮件”,或者识别一张图片中的动物是“猫”还是“狗”³²。常用算法包括逻辑回归(Logistic Regression)、决策树(Decision Trees)和支持向量机(Support Vector Machines, SVM)³²。

    • 回归(Regression):预测一个连续的数值。例如,预测一栋房子的价格,或者明天的气温 ²⁹。常用算法包括线性回归(Linear Regression)和随机森林(Random Forests)³³。

  • 数据要求:监督学习的成功严重依赖于大量高质量、人工标注的数据。获取这些标注数据通常成本高昂且耗时,是该方法的一个主要瓶颈 ³⁴。

3.2 无监督学习:无导师的学习

无监督学习(Unsupervised Learning)探索的是数据的内在结构。

  • 核心逻辑:模型接收的是**无标签(unlabeled)**的数据,必须自主地发现数据中隐藏的模式、结构或关系 ²⁹。这个过程好比一位人类学家在观察一个未知部落时,没有任何向导,只能通过观察来识别出不同的社会群体和行为习俗。

  • 主要任务与算法

    • 聚类(Clustering):将相似的数据点分组。例如,根据购买行为将客户划分为不同的群体 ²⁹。常用算法有K-均值(K-Means)和高斯混合模型(GMM)³²。

    • 关联规则学习(Association):发现数据项之间的有趣关系。例如,在购物篮分析中发现“购买了面包的顾客也很可能购买牛奶”的规则 ³³。

    • 降维(Dimensionality Reduction):通过找到数据中最重要的基本特征来简化数据,同时保留大部分信息。例如,主成分分析(Principal Component Analysis, PCA)³²。

  • 重要意义:无监督学习对于探索性数据分析至关重要,并且是现代大语言模型(LLM)进行“预训练”阶段的基石,使其能够从海量未标注文本中学习语言的通用知识 ³³。

3.3 强化学习:通过试错学习

强化学习(Reinforcement Learning)的灵感来源于行为心理学,是一种通过与环境互动来学习的范式。

  • 核心逻辑:一个智能体(Agent)在一个环境(Environment)中采取行动(Action),并接收到相应的奖励(Reward)或惩罚(Punishment)作为反馈。智能体的目标是学习一个最优的策略(Policy),即在不同状态下应该采取何种行动,以最大化其长期累积奖励 ⁶。这个过程就像用零食奖励来训练一只宠物完成特定动作。

  • 核心要素:智能体、环境、状态、行动、奖励。学习的核心在于通过反复试错,探索出能带来最高总回报的行为模式 ³⁴。

  • 应用领域:强化学习在棋类游戏(如AlphaGo)、机器人控制、资源调度等领域取得了巨大成功。近年来,它在“基于人类反馈的强化学习”(Reinforcement Learning from Human Feedback, RLHF)技术中扮演了关键角色,用于对齐大语言模型的输出,使其更符合人类的偏好和价值观 ³²。

3.4 案例研究:支持向量机(SVM) - AI逻辑的缩影

支持向量机(SVM)作为一种经典的监督学习算法,其设计精妙地体现了AI的多种核心逻辑。

  • 基本概念:SVM是一种功能强大的分类器,其核心逻辑是在特征空间中找到一个最优的超平面(Hyperplane),以最大化地分隔两类数据点 ³⁶。

  • 最大间隔逻辑:与简单地找到一条能分开数据的线不同,SVM追求的是间隔最大化(Maximizing the Margin)。它寻找的超平面能够使得两类数据中距离它最近的点(这些点被称为支持向量(Support Vectors))到该平面的距离之和最大化 ³⁶。这个被最大化的“空白地带”或“街道”被称为间隔。最大化间隔是一种优化原则,它能有效提升模型对新数据的泛化能力,使其在面对未见过的数据时表现更稳健。

  • 核技巧的转换逻辑:当数据在原始维度上线性不可分时,SVM采用了一种被称为“核技巧(Kernel Trick)”的绝妙数学方法 ³⁷。其逻辑是:与其在低维空间中寻找复杂的非线性边界,不如将数据通过一个非线性映射$\phi(x)
    投射到一个更高维的特征空间中,在这个高维空间里,数据点可能就变得线性可分了[39]。核技巧的神奇之处在于,它通过一个∗∗核函数K(x_i, x_j) = \phi(x_i) \cdot \phi(x_j)$,可以直接计算出数据点在高维空间中的内积,而无需真正执行这个耗费计算资源的映射过程** ³⁸。它以低维计算的效率,实现了高维空间分析的威力,是AI中数学表示力量的完美体现。

这三种学习范式并非相互孤立,而是构成了一个监督信号强度的谱系。当今最先进的AI系统,如大语言模型,正是这些逻辑的混合体。它们的训练过程是一个精心编排的序列:首先通过无监督学习(预训练)在海量互联网文本上学习语言的通用规律;然后通过监督学习(指令微调)在高质量的“指令-回答”对上进行训练,学会遵循人类指令;最后,通过强化学习(RLHF)进行对齐,使其输出更安全、更有用 ³⁵。一个顶尖模型的“逻辑”正是这些学习策略的有序组合。

贯穿所有这些范式,模型“逻辑”的最终来源是数据。在监督学习中,逻辑由人工标注的标签明确提供。在无监督学习中,逻辑是数据本身蕴含的潜在结构。在强化学习中,逻辑来自于与数据生成环境互动后产生的奖励信号。这揭示了一个根本事实:AI并非凭空创造逻辑,而是从其接触的数据中提取、提炼和泛化逻辑。这也解释了AI最大的弱点——偏见。如果训练数据中存在偏见,那么AI学到的逻辑也必然会复现甚至放大这些偏见。

表2:机器学习范式概览

范式 核心逻辑 (“学习方式”) 输入数据 目标 关键算法/技术 典型用例
监督学习 有导师的学习 有标签的数据 (输入-输出对) ³⁰ 学习从输入到输出的映射关系 ²¹ 分类 (SVM, 决策树), 回归 (线性回归) ³² 图像识别、垃圾邮件检测、房价预测 ³²
无监督学习 无导师的学习 无标签的数据 ²⁹ 发现数据内在的结构和模式 ²⁹ 聚类 (K-Means), 降维 (PCA), 关联规则 ³³ 客户分群、异常检测、大模型预训练 ³³
强化学习 通过试错学习 与环境的互动 (状态, 奖励) ³² 学习最优策略以最大化累积奖励 ²⁹ Q-Learning, Policy Gradients, RLHF ³² 游戏(AlphaGo)、机器人控制、模型对齐 ³⁴

第四部分:智能的现代架构 - 神经网络与深度学习

本部分将深入剖析连接主义逻辑在当代的统治性实现方式——人工神经网络。我们将解构其基本组成单元,并阐释为何通过增加“深度”来构建深度学习模型,是开启当前AI时代的革命性一步。

4.1 生物灵感:从大脑到算法

人工神经网络的设计灵感,在宏观上源于对人脑结构和功能的模仿 ⁵。其目标是创建一个能够像生物体一样,从经验和错误中学习并不断自我完善的自适应系统 ⁵。

4.2 人工神经网络的解剖学

一个典型的人工神经网络由三个基本部分构成:神经元、层级结构、以及连接它们的权重和偏置。

  • 神经元(Neuron)或节点(Node):是网络最基本的计算单元。它的工作流程是:接收来自其他神经元或外部数据的输入信号,对这些信号进行加权求和,加上一个偏置项,然后将结果通过一个非线性的**激活函数(Activation Function)**进行处理,最终生成输出信号传递给下一层 ⁵。

  • 层(Layers):神经元被组织在不同的层中,形成一个层级结构 ⁵:

    1. 输入层(Input Layer):负责接收最原始的数据。例如,一张图像的像素值,或一个词语的向量表示 ⁵。

    2. 隐藏层(Hidden Layers):位于输入层和输出层之间,是网络进行计算和特征提取的核心。一个网络可以没有、有一个或有多个隐藏层。每一层都从前一层接收输入,进行计算,然后将输出传递给后一层 ⁵。

    3. 输出层(Output Layer):产生网络的最终结果。例如,在分类任务中,输出层可能会输出每个类别的概率得分 ⁵。

  • 权重(Weights)和偏置(Biases):这些是网络中需要通过学习来调整的参数。权重决定了神经元之间连接的强度。一个较大的正权重意味着来自一个神经元的信号对下一个神经元有很强的激励作用,而负权重则代表抑制作用 ⁵。
    偏置则是一个额外的可学习参数,它允许激活函数的输出进行平移,从而增加了模型的灵活性和表达能力。

4.3 学习的逻辑:前向传播与反向传播

神经网络的学习过程是一个包含两个阶段的循环:前向传播和反向传播。

  • 前向传播(Forward Propagation):这是网络进行预测的过程。输入数据从输入层开始,逐层向前传递,直到输出层。在每一层,神经元都会执行其计算(加权求和并通过激活函数),并将结果传递给下一层,最终在输出层生成一个预测值 ⁴⁰。

  • 反向传播(Backward Propagation, Backprop):这是网络进行学习和修正的过程,也是第二部分中梯度下降原理的具体应用。

    1. 在前向传播之后,将模型的预测结果与真实标签进行比较,计算出损失(loss),即模型犯了多大的错误。

    2. 反向传播算法利用微积分中的链式法则(Chain Rule),从输出层开始,将损失的“责任”逐层向后传递。

    3. 在这个过程中,算法会计算出损失函数对于网络中每一个权重和偏置的梯度。这个梯度精确地指明了为了减小损失,每个参数应该如何调整(调整的方向和幅度)。

    4. 最后,根据计算出的梯度,使用梯度下降法来更新网络中所有的权重和偏置,将它们向着能减小损失的方向微调一小步 ⁴⁰。

这个“前向预测-反向修正”的循环在整个训练数据集上会重复成千上万次(称为epochs),每一次循环都会让网络的参数得到微小的优化,最终使其预测能力越来越精准。

4.4 “深度”革命:层级表示的逻辑

“深度学习”并非一种全新的技术,而是神经网络发展到一定阶段的产物。

  • 何为“深度”:一个“深度”神经网络(Deep Neural Network, DNN)就是一个拥有多个隐藏层(通常是数十层甚至数百层)的神经网络。而只有一个或两个隐藏层的网络则被称为“浅层”网络 ⁷。

  • 深度的意义:层级化特征学习(Hierarchical Feature Learning):深层结构之所以具有革命性,是因为它能够实现特征的层级化自动学习 ⁴²。网络中的每一层都会在前一层的基础上,学习到更高级、更抽象的特征。

    • 以图像识别为例

      • 靠近输入层的第一层可能学习到识别一些非常简单的基础特征,比如图像中的边缘、角落和颜色块。

      • 第二层会组合第一层学到的边缘和角落,来识别更复杂的形状,比如眼睛、鼻子和耳朵。

      • 第三层则可能组合眼睛、鼻子和耳朵,来识别出人脸的轮廓。

      • 更深层的网络则能识别出特定的人脸,或更复杂的物体,如猫、狗、汽车等 ⁹。

  • 关键优势:这个特征学习的过程是完全自动的。在深度学习出现之前,机器学习工程师需要花费大量时间和精力进行“特征工程(Feature Engineering)”,即由人类专家手动设计和提取对任务有用的特征。深度学习则将这一过程自动化,网络能够直接从原始数据(如像素点)中学习到解决问题所需的最优特征表示 ⁹。这可以说是深度学习时代最重要的突破。

在一个深度神经网络中,其“逻辑”并非预先编程的规则,而是内嵌于网络自身学习到的分层架构之中。网络为特定任务所学习到的特征层级结构,本身就是它对该任务所处世界的模型。例如,一个用于识别猫的网络的“逻辑”,就是其数百万个权重在多层结构中的特定配置,这种配置被优化到能够对猫的图像中存在的统计模式产生强烈响应 ⁹。

神经网络的底层逻辑建立在一种深刻的简单性与复杂性的二元统一之上。构成网络的基本单元(神经元)和学习规则(梯度下降)都极其简单 ⁶。然而,当数以百万计的这些简单单元相互连接,并在海量数据的驱动下进行训练时,系统会涌现出极为复杂和智能的行为 ⁵。这正是连接主义的精髓。其“逻辑”并非存在于任何单个神经元或权重之中,而是作为一种整体的、分布式的属性,体现在整个网络系统里。这也解释了为何神经网络难以解释——试图通过分析单个神经元来理解整个网络的行为,就如同想通过观察一棵树来理解整片森林的生态。

表3:架构比较:传统机器学习 vs. 深度学习

特征 传统机器学习 (例如 SVM) 深度学习 (例如 CNN)
特征工程 需要人工设计和提取特征 ⁴²。 自动从原始数据中学习特征(端到端学习)⁹。
数据表示 通常是扁平的特征向量。 层级化的、分布式的特征表示 ⁴²。
架构 通常是浅层结构,计算流程相对简单。 深层结构,包含多个(甚至数百个)隐藏层 ⁷。
数据量扩展性 性能增长在数据量达到一定程度后会趋于饱和。 性能通常随数据量的增加而持续提升 ⁴²。
计算成本 训练成本相对较低。 训练成本极高,通常需要GPU等专用硬件 ⁹。
可解释性 相对较高,决策边界和特征重要性较易分析。 极低,被视为“黑箱”,难以解释其决策过程 ²¹。
关键用例 结构化数据分析、中小型数据集上的分类/回归。 图像识别、语音识别、自然语言处理等非结构化数据任务 ⁹。

第五部分:连接主义的顶峰 - Transformer与注意力逻辑

本部分将聚焦于支撑现代生成式AI和大语言模型(LLM)的尖端架构。我们将揭示,这些模型的“底层逻辑”基于一种名为“注意力机制”的强大原理,它使得模型能够以一种全新的方式理解数据中的上下文和复杂关系。

5.1 序列数据的处理难题

在Transformer架构出现之前,处理文本等序列数据的模型,如循环神经网络(Recurrent Neural Networks, RNNs),是按顺序逐个词元(token)处理信息的。这种串行处理方式造成了一个“信息瓶颈”:模型很难捕捉和维持长距离的依赖关系(例如,一个长句子开头和结尾词语之间的关联),并且由于其固有的顺序性,无法进行大规模并行计算,严重制约了训练效率。

5.2 突破口:“注意力机制”

**注意力机制(Attention Mechanism)**的提出,彻底改变了这一局面。

  • 核心逻辑:注意力机制允许模型在处理序列中的某一个元素时,能够动态地、非顺序地“关注”输入序列中的所有其他元素,并根据相关性为它们分配不同的权重 ⁴⁴。它为模型提供了一个灵活的“注意力跨度”,使其能够直接捕捉任意两个位置之间的关系,无论它们在序列中的距离有多远。

  • 自注意力机制:Q, K, V的类比:实现这一逻辑的核心技术被称为自注意力(Self-Attention) ⁴⁶。对于输入序列中的每一个词元,其工作流程可以通俗地理解为以下几步:

    1. 生成三个向量:从每个输入词元的初始向量(词嵌入)出发,通过与三个独立学习的权重矩阵(WQ​,WK​,WV​)相乘,生成三个新的、功能不同的向量:查询向量(Query, Q)键向量(Key, K)和值向量(Value, V) ⁴⁶。

      • **Q (查询)**:代表当前词元“想要寻找什么信息”的意图。

      • **K (键)**:代表序列中每个词元“能够提供什么信息”的标签。

      • **V (值)**:代表序列中每个词元实际包含的“内容或意义”。

    2. 计算相关性得分:将当前词元的Q向量与序列中所有词元的K向量进行点积运算。这个得分衡量了序列中其他每个词元与当前词元的相关性或“匹配度” ⁴⁶。

    3. 归一化为权重:将这些得分通过一个Softmax函数进行归一化,将其转换为一组和为1的正数权重。这些权重就是“注意力分数”,精确地表示了在理解当前词元时,应该给予序列中其他每个词元多大的“关注度”。

    4. 加权求和输出:将序列中所有词元的V向量分别乘以它们对应的注意力分数,然后将结果加权求和。最终得到的向量,就是当前词元的一个全新的、融合了整个序列上下文信息的新表示 ⁴⁶。

  • 多头注意力机制(Multi-Head Attention):Transformer模型并非只进行一次自注意力计算。它并行地运行多组独立的自注意力模块(称为“注意力头”),每一组都拥有自己独立的WQ​,WK​,WV​权重矩阵 ⁴⁶。这使得模型能够同时从不同的“子表示空间”中学习不同类型的依赖关系。例如,一个头可能专注于学习句法结构,而另一个头可能专注于学习语义关联 ⁴⁶。

5.3 Transformer架构

2017年,谷歌在论文《Attention Is All You Need》中提出的Transformer模型,是第一个完全基于自注意力机制构建的序列处理模型,彻底抛弃了RNN的循环结构 ⁴⁴。这种完全并行的架构设计,是其能够处理前所未有的海量数据集的关键。一个完整的Transformer通常由一个**编码器(Encoder)

栈和一个解码器(Decoder)**栈组成,两者都由多层自注意力和前馈神经网络堆叠而成 ⁵¹。

5.4 大语言模型的学习逻辑:预训练与微调

Transformer架构的强大能力,通过一种两阶段的训练范式得以充分释放,这已成为构建现代大语言模型的标准逻辑 ³⁵。

  1. 预训练(Pre-training)- 无监督学习:首先,在一个巨大的、通用的文本语料库(例如整个互联网的文本数据)上,通过无监督学习的方式训练一个大规模的Transformer模型。其任务通常非常简单,如“预测句子中的下一个词”或“填补句子中被遮盖的词”。通过在数万亿词元上反复执行这个任务,模型被迫学习到关于语言的深层知识,包括语法、句法、事实知识,乃至一定的推理能力。这些知识全部被编码在模型庞大的权重参数中。这是一个通用的、获取基础知识的阶段 ³⁵。

  2. 微调(Fine-tuning)- 监督学习:在预训练之后,这个通用的“基础模型”会在一个规模小得多、但质量更高的特定任务数据集上进行进一步训练。例如,使用包含“指令-回答”对的数据集进行监督微调(Supervised Fine-Tuning, SFT),以教会模型如何遵循人类的指令,并以对话的形式提供有用的回答 ³⁵。之后,还可以通过RLHF等强化学习技术进行进一步的“对齐”,使其行为更符合人类的价值观。

Transformer架构的引入,标志着AI底层逻辑的一次根本性转变:从序列逻辑转向了关系逻辑。RNN等旧模型将世界视为一个线性的事件链,信息只能一步步传递。而Transformer将世界视为一个全连接的图,序列中的任何一个元素都可以直接与其他所有元素建立联系。模型的“逻辑”就在于动态地学习这个图的结构——即在每次输入时,实时计算出所有元素之间关系的强度和性质。这是一种远比序列处理更丰富、更强大的上下文表示方式 ⁴⁶。

然而,Transformer在解决了序列处理瓶颈的同时,也引入了一个新的瓶颈:计算瓶颈。自注意力机制的计算复杂度与序列长度的平方成正比(即O(n2)),因为每个词元都需要与所有其他词元进行交互。这正是为什么大语言模型都有一个固定的“上下文窗口”长度,以及为什么处理超长文档(如一整本书)成为一个重大的研究挑战 ⁵³。这再次说明,AI的底层逻辑总是受到现实计算能力的制约。未来的下一个重大架构突破,很可能将是找到一种计算效率更高的方式来捕捉长距离的关系依赖。

第六部分:综合与未来轨迹 - 从专用工具到通用智能

本部分将对前文探讨的各个层次的“逻辑”——哲学、数学、算法和架构——进行综合,以勾勒出现代AI的全貌。在此基础上,我们将展望AI的下一个前沿:从狭义AI向自主智能体的演进,以及该领域的终极理论目标——通用人工智能(AGI)。

6.1 逻辑的堆栈:一个综合视图

AI的“底层逻辑”并非单一层面,而是一个层层递进、相互支撑的堆栈结构:

  • 顶层(应用层):我们日常接触到的各种专用AI工具,如图文生成、语言翻译等,它们执行具体的、定义明确的任务 ⁶。

  • 智能体层:能够进行规划、推理并使用工具以达成目标的AI智能体(AI Agents),代表了更高层次的自主性 ¹⁵。

  • 架构层:以Transformer为代表的现代神经网络架构,它实现了“注意力”这一核心关系逻辑(第五部分)。

  • 算法层:监督、无监督和强化学习这三大基本学习范式,它们定义了AI如何从数据中获取知识(第三部分)。

  • 数学层:由优化理论、概率统计和线性代数构成的通用语言,为所有学习过程提供了理论基础(第二部分)。

  • 基石(哲学层):连接主义与符号主义之间持续的对话与融合,为整个领域提供了根本性的思想动力(第一部分)。

6.2 下一步:AI智能体的崛起

当前AI发展的显著趋势,是从被动执行指令的“工具”,向主动追求目标的“智能体”演进 ¹⁵。

一个AI智能体展现出更高阶的逻辑能力,包括推理、规划、记忆和一定程度的自主性。它能够将一个复杂的目标分解为一系列可执行的步骤,并灵活调用外部工具(如网络搜索、代码解释器或其他AI模型)来完成这些步骤 ¹⁶。这代表了从大语言模型中习得的隐式知识与执行符号化操作(调用工具)能力的有效结合。

6.3 终极前沿:通用人工智能(AGI)

通用人工智能(Artificial General Intelligence, AGI)是AI研究的一个理论性终极目标。

  • 定义:AGI是一种假想的AI,它拥有广泛的、与人类相当的通用智能。与只能执行单一或少数特定任务的“狭义AI”(Narrow AI)不同,一个AGI系统将能够在多个不同领域中自主学习和解决全新的问题,而无需针对这些问题进行专门的训练 ⁶。它将具备自我理解、自主改进等高级认知能力 ⁵⁶。

  • 巨大的鸿沟:尽管当今最先进的AI系统能力惊人,但它们与真正的AGI之间仍存在巨大的鸿沟。目前的系统本质上仍是在预设参数范围内运行的复杂模式匹配引擎 ⁸。它们缺乏真正的常识、意识和跨领域泛化的能力。哲学家塞尔的“中文房间”难题依然没有得到解决 ¹⁰。

  • 通往AGI的路径与挑战:学界正在探索多种可能通往AGI的路径,且这些路径往往是相互结合的 ⁵⁶:

    1. 规模化连接主义:一种观点认为,通过不断扩大现有大语言模型的规模(更多数据、更大模型、更多算力),最终可能会涌现出AGI。

    2. 神经-符号混合:结合连接主义的模式识别能力和符号主义的逻辑推理能力,以实现更鲁棒的智能 ⁵⁵。

    3. 具身智能/整合生物架构:这种观点认为,真正的智能需要一个物理身体与世界进行互动,从而将其知识根植于真实的感官经验之中 ⁵⁶。

  • 核心障碍:实现AGI需要在当前AI的薄弱环节取得根本性突破,例如,超越简单物体检测的鲁棒视觉感知、真正的因果推理能力、以及实时构建和适应世界模型的能力 ⁵⁵。此外,AGI可能带来的社会、伦理和安全风险是极其深远的,已成为一个重要的研究领域。

大语言模型的成功路径,在某种程度上颠覆了我们对智能实现路径的传统认知。人类的学习通常遵循“由专到通”的模式,即先学习具体技能,再逐步泛化形成广博的理解。而现代AI,特别是其“预训练-微调”范式,则遵循一种“先通后专”或“填鸭式”的逻辑 ⁵⁷。它首先通过吞噬海量通用数据来建立一个庞大的知识基础,然后再针对特定任务进行专门化训练。这暗示了机器获取智能的底层逻辑,可能与人类的认知过程存在根本性的不同。

最终,AI的“底层逻辑”是其人类创造者的目标、假设和局限性的反映。无论是将智能定义为在特定基准测试上的表现,还是依赖数学优化作为学习的核心手段,抑或是神经网络的结构设计和我们选择投喂的数据——所有这些都是人类决策的产物。追求AGI不仅是一项技术挑战,更是一项哲学探索,它迫使我们去更深刻地定义“智能”、“理解”和“意识”的内涵。正如医生这一职业不仅需要医学知识,还需要同理心、责任心和社会认知能力一样,许多人类智能的维度是当前数据驱动的逻辑难以捕捉的 ⁵⁹。如果AGI有朝一日得以实现,其最终的“逻辑”将不可避免地带有我们在其创造过程中所嵌入的价值观和定义的烙印。

引用的著作

  1. 慧科讯业新闻动态-慧科讯业, 访问时间为 六月 22, 2025, https://www.wisers.com.cn/about/newsDetail_810.html

  2. 符号人工智能- 维基百科,自由的百科全书, 访问时间为 六月 22, 2025, https://zh.wikipedia.org/zh-cn/%E7%AC%A6%E8%99%9F%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD

  3. 联结主义- 维基百科,自由的百科全书, 访问时间为 六月 22, 2025, https://zh.wikipedia.org/zh-cn/%E8%81%94%E7%BB%93%E4%B8%BB%E4%B9%89

  4. 大模型逻辑推理研究综述 - ACL Anthology, 访问时间为 六月 22, 2025, https://aclanthology.org/2024.ccl-2.3.pdf

  5. 什么是神经网络?— 人工神经网络简介— AWS, 访问时间为 六月 22, 2025, https://aws.amazon.com/cn/what-is/neural-network/

  6. 何謂AI?認識AI定義,類型與五大應用,搞懂什麼是人工智慧(AI)! - 巨匠電腦, 访问时间为 六月 22, 2025, https://www.pcschool.com.tw/blog/it/what-is-ai

  7. 什么是人工智能(AI)? - IBM, 访问时间为 六月 22, 2025, https://www.ibm.com/cn-zh/think/topics/artificial-intelligence

  8. 什么是人工智能(AI)? - AWS, 访问时间为 六月 22, 2025, https://aws.amazon.com/cn/what-is/artificial-intelligence/

  9. 什么是深度学习?| Oracle 中国, 访问时间为 六月 22, 2025, https://www.oracle.com/cn/artificial-intelligence/machine-learning/what-is-deep-learning/

  10. 洪小文:以科学的方式赤裸裸解剖AI——人的智慧在哪里? - 知识分子, 访问时间为 六月 22, 2025, https://zhishifenzi.blog.caixin.com/archives/171455

  11. (PDF) DIKWP 模型与人工意识:对赫拉利问题的理论回应及《意识简史》构想 - ResearchGate, 访问时间为 六月 22, 2025, https://www.researchgate.net/publication/390771496_DIKWP_moxingyurengongyishiduihelaliwenti_delilunhuiyingjiyishijianshigouxiang

  12. (PDF) 全球否认与质疑人工意识的科学家”Top 100”排行榜(DIKWP 人工意识国际团队-深度研究发布) - ResearchGate, 访问时间为 六月 22, 2025, https://www.researchgate.net/publication/389307196_quanqiufourenyuzhiyirengongyishidekexuejiaTop_100paixingbang_DIKWP_rengongyishiguojituandui-shenduyanjiufabu

  13. Хасиева М.А. — Образ Мегалополиса в контексте концепции неотехнического развития П. Геддеса и Л. Мамфорда (№3, 2025) - Nota Bene, 访问时间为 六月 22, 2025, https://cn.nbpublish.com/fkmag/rubrics_970.html

  14. 人类语言习得的亲知还原模式——从ChatGPT的言知还原模式说起, 访问时间为 六月 22, 2025, http://journal.pku.edu.cn/CN/Y2024/V61/I2/167

  15. 什么是人工智能(AI)?| AI技术深度解析 - SAP, 访问时间为 六月 22, 2025, https://www.sap.cn/products/artificial-intelligence/what-is-artificial-intelligence.html

  16. 什么是AI 智能体?定义、示例和类型 - Google Cloud, 访问时间为 六月 22, 2025, https://cloud.google.com/discover/what-are-ai-agents?hl=zh-CN

  17. 深度解读混合专家模型(MoE):算法、演变与原理 - Zilliz, 访问时间为 六月 22, 2025, https://zilliz.com.cn/blog/what-is-mixture-of-experts

  18. 3.1 专家系统的基本概念, 访问时间为 六月 22, 2025, http://www.tup.tsinghua.edu.cn/upload/books/yz/082564-01.pdf

  19. 专家系统与神经网络集成系统的设计 - 管理科学学报, 访问时间为 六月 22, 2025, https://jmsc.tju.edu.cn/jmsc/article/html/19990106

  20. 人工神经网络专家系统应用研究 - 广东工业大学学报, 访问时间为 六月 22, 2025, https://xbzrb.gdut.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=1562

  21. 人工智能的10 个重大数理基础问题 - 中国科学:信息科学, 访问时间为 六月 22, 2025, http://scis.scichina.com/cn/2021/SSI-2021-0254.pdf

  22. 学术分享| 现代人工智能:本质、途径和方向, 访问时间为 六月 22, 2025, https://www.stat-center.pku.edu.cn/kxyj/kydt/1373358.htm

  23. 现代人工智能:本质、途径和方向, 访问时间为 六月 22, 2025, https://www.math.pku.edu.cn/teachers/zhzhang/MAI2.pdf

  24. 徐宗本:人工智能的基石是数学 - 新闻- 科学网, 访问时间为 六月 22, 2025, https://news.sciencenet.cn/htmlnews/2019/9/430783.shtm

  25. 成为机器学习大神,你不能不懂数学- Microsoft Research, 访问时间为 六月 22, 2025, https://www.microsoft.com/en-us/research/articles/book-recommendation-machine-learning-math/

  26. 什么是梯度下降? - IBM, 访问时间为 六月 22, 2025, https://www.ibm.com/cn-zh/think/topics/gradient-descent

  27. 线性回归:梯度下降| Machine Learning, 访问时间为 六月 22, 2025, https://developers.google.com/machine-learning/crash-course/linear-regression/gradient-descent?hl=zh-cn

  28. 7.2. 梯度下降和随机梯度下降 - 动手学深度学习, 访问时间为 六月 22, 2025, http://zh.gluon.ai/chapter_optimization/gd-sgd.html

  29. 什么是机器学习? | Machine Learning, 访问时间为 六月 22, 2025, https://developers.google.com/machine-learning/intro-to-ml/what-is-ml?hl=zh-cn

  30. 监督式学习与非监督式学习:有何区别? - Google Cloud, 访问时间为 六月 22, 2025, https://cloud.google.com/discover/supervised-vs-unsupervised-learning?hl=zh-CN

  31. 什么是机器学习算法? - IBM, 访问时间为 六月 22, 2025, https://www.ibm.com/cn-zh/topics/machine-learning-algorithms

  32. 机器学习类型 - IBM, 访问时间为 六月 22, 2025, https://www.ibm.com/cn-zh/think/topics/machine-learning-types

  33. 有监督学习与无监督学习- 机器学习算法之间的区别 - AWS, 访问时间为 六月 22, 2025, https://aws.amazon.com/cn/compare/the-difference-between-machine-learning-supervised-and-unsupervised/

  34. 什么是机器学习? - AWS, 访问时间为 六月 22, 2025, https://aws.amazon.com/cn/what-is/machine-learning/

  35. 训练方法 - LLaMA Factory, 访问时间为 六月 22, 2025, https://llamafactory.readthedocs.io/zh-cn/latest/advanced/trainers.html

  36. 支持向量机(SVM)简介 - 天翼云, 访问时间为 六月 22, 2025, https://www.ctyun.cn/zhishi/p-219165

  37. 什么是支持向量机(SVM)? - IBM, 访问时间为 六月 22, 2025, https://www.ibm.com/cn-zh/think/topics/support-vector-machine

  38. 6. 支持向量机(SVM)核函数 - 博客园, 访问时间为 六月 22, 2025, https://www.cnblogs.com/huangyc/p/9940487.html

  39. [白话解析] 深入浅出支持向量机(SVM)之核函数 - 博客园, 访问时间为 六月 22, 2025, https://www.cnblogs.com/rossiXYZ/p/12243416.html

  40. 什么是深度学习? - IBM, 访问时间为 六月 22, 2025, https://www.ibm.com/cn-zh/think/topics/deep-learning

  41. 什么是神经网络?它的工作原理是什么? | Google Cloud, 访问时间为 六月 22, 2025, https://cloud.google.com/discover/what-is-a-neural-network?hl=zh-CN

  42. 什么是深度学习以及深度学习的工作原理 - NetApp, 访问时间为 六月 22, 2025, https://www.netapp.com/zh-hans/artificial-intelligence/what-is-deep-learning/

  43. 神经网络与深度学习对比— 人工智能领域之间的区别 - AWS, 访问时间为 六月 22, 2025, https://aws.amazon.com/cn/compare/the-difference-between-deep-learning-and-neural-networks/

  44. 注意力机制在图神经网络模型中的算法研究 - hanspub.org, 访问时间为 六月 22, 2025, https://www.hanspub.org/journal/paperinformation?paperid=79111

  45. 加速Transformer:稀疏注意力加速器调研-壁仞科技智绘全球, 访问时间为 六月 22, 2025, https://www.birentech.com/Research_nstitute_details/10.html

  46. 图解transformer - notebook, 访问时间为 六月 22, 2025, https://tianchi.aliyun.com/mas-notebook/preview/323419/378796/-1?lang=

  47. Transformer 解读— 深入浅出PyTorch, 访问时间为 六月 22, 2025, https://datawhalechina.github.io/thorough-pytorch/%E7%AC%AC%E5%8D%81%E7%AB%A0/Transformer%20%E8%A7%A3%E8%AF%BB.html

  48. 语言模型和GPT-2 - notebook, 访问时间为 六月 22, 2025, https://tianchi.aliyun.com/mas-notebook/preview/326213/382012/-1?lang=

  49. 基于MindSpore实现Vision Transformer图像分类 - 昇腾社区, 访问时间为 六月 22, 2025, https://www.hiascend.com/forum/thread-0228168938472506057-1-1.html

  50. 学习报告:Attention is All You Need - 学者网, 访问时间为 六月 22, 2025, https://www.scholat.com/teamwork/showPostMessage.html?id=10574

  51. 第三章:注意力机制 - Transformers快速入门, 访问时间为 六月 22, 2025, https://transformers.run/c1/attention/

  52. 炼石成丹:大语言模型微调实战系列(二)模型微调篇 - AWS, 访问时间为 六月 22, 2025, https://aws.amazon.com/cn/blogs/china/practical-series-on-fine-tuning-large-language-models-part-two/

  53. Long-Document Cross-Lingual Summarization - arXiv, 访问时间为 六月 22, 2025, https://arxiv.org/pdf/2212.00586

  54. 人工智慧(AI)是什麼?AI 應用領域與3 大AI 種類介紹!, 访问时间为 六月 22, 2025, https://solwen.ai/posts/what-is-ai

  55. 通用人工智能(AGI) 示例 - IBM, 访问时间为 六月 22, 2025, https://www.ibm.com/cn-zh/think/topics/artificial-general-intelligence-examples

  56. 什么是AGI?— 通用人工智能详解 - AWS, 访问时间为 六月 22, 2025, https://aws.amazon.com/cn/what-is/artificial-general-intelligence/

  57. 生成式语言模型与通用人工智能:内涵、 路径与启示, 访问时间为 六月 22, 2025, https://statevalbase.fudan.edu.cn/info/1045/1499.htm

  58. 什麼是AGI?- 通用人工智慧說明 - AWS, 访问时间为 六月 22, 2025, https://aws.amazon.com/tw/what-is/artificial-general-intelligence/

  59. 像天使也似魔鬼:关于通用人工智能时代科学研究的71个问题 - 华尔街见闻, 访问时间为 六月 22, 2025, https://wallstreetcn.com/articles/3685660

旧文章 > < 新文章