原文:A Brief History of AI with Deep Learning,Aug 31, 2024 原作者:LM Po,一位科技专栏作家 编译者:唐隆基博士 编译者注:本文编译者在一场意外的左手创伤中走出来后,又继续开始了他的新兴技术发展趋势及战略和应用的研究,研究中发现两篇介绍人工智能简史的文章,特编译发布以供读者学习参考,以帮助读者提高对人工智能革命的认识和促进人工智能技术的釆用。本文是两篇文章之一,另一篇待发布的是《大模型(LMMs)发展简史(2017~2025)》。 |
过去几十年来,人工智能 (AI) 和深度学习取得了显著进步,彻底改变了计算机视觉、自然语言处理和机器人等领域。本文概述了深度学习在人工智能发展史上的重要里程碑,从早期的神经网络模型到现代的大型语言模型和多模态人工智能系统。下图描绘了一个人工智能深度学习的简史。
人工智能 (AI) 的概念已存在数百年,但我们今天所知的现代人工智能领域始于 20 世纪中叶。“人工智能”一词最初由计算机科学家和认知科学家约翰•麦卡锡于 1956 年在达特茅斯人工智能夏季研究项目中提出。
达特茅斯会议通常被认为是人工智能研究领域的发源地。会议汇集了一群计算机科学家、数学家和认知科学家,探讨创造能够模拟人类智能的机器的可能性。与会者包括马文•明斯基、纳撒尼尔•罗切斯特和克劳德•香农等知名人士。下图拍于马文•明斯基、克劳德•香农、雷•所罗门诺夫和其他科学家参加达特茅斯人工智能夏季研究项目。
人工智能的演进始于 20 世纪 50 年代,当时出现了用于国际象棋和问题解决等任务的算法,第一个人工智能程序“逻辑理论家”于 1956 年诞生。20 世纪 60 年代和 70 年代出现了基于规则的专家系统,例如 MYCIN,它可以协助复杂的决策过程。20 世纪 80 年代出现了机器学习,它使人工智能系统能够从数据中学习并不断改进,为现代深度学习技术奠定了基础。
如今,大多数尖端人工智能技术都由深度学习技术驱动,这些技术彻底改变了人工智能的格局。深度学习是机器学习的一个分支,它利用多层人工神经网络从原始输入数据中提取复杂特征。本文将探讨人工智能的历史,并重点介绍深度学习在其发展过程中所扮演的角色。
神经网络的概念可以追溯到 1943 年,当时 Warren McCulloch 和 Walter Pitts 提出了第一个人工神经元模型。McCulloch-Pitts (MP) 神经元模型是对生物神经元的突破性简化。该模型通过聚合二进制输入,并使用阈值激活函数基于该聚合结果进行决策,最终得到二进制输出 {0, 1},从而奠定了人工神经网络的基础。
这个简化的模型抓住了神经元行为的本质——接收多个输入,对其进行积分,并根据积分信号是否超过阈值产生二进制输出。尽管简单,MP神经元模型却能够实现基本的逻辑运算,展现了神经计算的潜力。
1957 年,弗兰克•罗森布拉特 (Frank Rosenblatt) 提出了感知器 (Perceptron),这是一种能够学习和识别模式的单层神经网络。感知器模型是一种比 MP 神经元更通用的计算模型,旨在处理实值输入并调整权重以最小化分类误差。
罗森布拉特还为感知器开发了一种监督学习算法,使得网络可以直接从训练数据中学习。
罗森布拉特对感知器能力的雄心勃勃的宣称,包括其识别个体和翻译不同语言语音的潜力,在当时引发了公众对人工智能的浓厚兴趣。感知器模型及其相关的学习算法标志着神经网络演进的重要里程碑。然而,一个关键的局限性很快显现出来:感知器的学习规则在面对非线性可分离的训练数据时无法收敛。
1959年,Widrow 和 Hoff提出了ADALINE(自适应线性神经元,又称 Delta 学习规则),这是对感知器学习规则的改进。ADALINE 解决了二进制输出和噪声敏感性等限制,并能够学习和收敛非线性可分离数据,这是神经网络发展的重大突破。
ADALINE 的主要功能包括:
线性激活函数:与感知器的阶跃函数不同,ADALINE 使用线性激活函数,使其
适用于回归任务和连续输出。
最小均方 (LMS) 算法:ADALINE 采用LMS 算法,最大限度地减少预测输出和实际输出之间的均方误差,从而提供更高效、更稳定的学习过程。
自适应权重:LMS 算法根据输出中的误差自适应地调整权重,使 ADALINE即使在存在噪声的情况下也能有效地学习和收敛。
ADALINE 的推出标志着神经网络第一个黄金时代的开启,它克服了罗森布拉特感知器学习的局限性。这一突破实现了高效学习、连续输出以及对噪声数据的自适应,引发了该领域的创新浪潮和快速发展。
然而,与感知器一样,ADALINE 仍然局限于线性可分离问题,无法解决更复杂、更非线性的任务。这一局限性后来被 XOR 问题凸显,从而催生了更高级的神经网络架构。
1969年,马文•明斯基(Marvin Minsky)和西摩•帕普特(Seymour Papert)在他们的著作《感知器》(Perceptrons)中强调了单层感知器的一个关键局限性。他们指出,由于感知器的决策边界是线性的,它无法解决简单的二分类任务——异或(XOR)问题。异或问题不是线性可分的,这意味着没有任何一个线性边界能够正确地对所有输入模式进行分类。
这一发现凸显了对能够学习非线性决策边界的更复杂神经网络架构的需求。感知器局限性的暴露导致人们对神经网络失去信心,并转向符号人工智能方法,标志着从 20 世纪 70 年代初到 80 年代中期“神经网络的第一个黑暗时代”的开始。
然而,从解决异或问题中获得的洞见使研究人员认识到,需要更复杂的模型来捕捉非线性关系。这一认识最终促成了多层感知器和其他先进神经网络模型的发展,为未来几十年神经网络和深度学习的复兴奠定了基础。
多层感知器 (MLP) 于 20 世纪 60 年代问世,是对单层感知器的改进。它由多层互连的神经元组成,从而弥补了单层模型的局限性。苏联科学家AG Ivakhnenko 和 V. Lapa在感知器的基础工作基础上,为 MLP 的发展做出了重大贡献。
隐藏层的添加使 MLP 能够捕获并表示数据中复杂的非线性关系。这些隐藏层显著增强了网络的学习能力,使其能够解决非线性可分的问题,例如异或问题。
MLP 标志着神经网络研究的重大进步,展现了深度学习架构在解决复杂问题方面的潜力。然而,在 20 世纪 60 年代和 70 年代,MLP 的发展受到了以下几个挑战的阻碍:
缺乏训练算法:早期的MLP模型缺乏有效的训练算法来调整网络权重。缺乏反向传播使得训练多层深度网络变得困难。
计算限制:当时的计算能力不足以处理训练深度神经网络所需的复杂计算。这一限制减缓了 MLP 研发的进度。
神经网络的第一个黑暗时代于 1986 年随着反向传播算法的重新发现和发表而结束,从此开启了神经网络的第二个黄金时代。
1969 年,异或问题凸显了感知器(单层神经网络)的局限性。研究人员意识到多层神经网络可以克服这些局限性,但他们缺乏训练这些复杂网络的实用算法。反向传播算法历时 17 年才得以开发,使得神经网络能够在理论上逼近任何函数。有趣的是,后来人们发现,该算法实际上在其发表之前就已经被发明出来了。如今,反向传播是深度学习的一个基本组成部分,自 20 世纪 60 年代和 70 年代诞生以来,它经历了重大的进步和完善。
Seppo Linnainmaa(1970):引入了自动微分的概念,这是反向传播算法的关键组成部分。
Paul Werbos (1974):提出使用微积分的链式法则来计算误差函数关于网络权重的梯度,从而实现多层神经网络的训练。
David Rumelhart、Geoffrey Hinton 和 Ronald Williams (1986):提出反向传播是一种训练深度神经网络的实用且有效的方法,并展示了其在各种问题中的应用。
梯度下降:反向传播与梯度下降结合使用,以最小化误差函数。该算法计算网络中每个权重的误差梯度,从而允许迭代更新权重以减少误差。
链式法则:反向传播算法的核心是应用微积分的链式法则。该法则允许将误差的梯度分解为一系列偏导数,这些偏导数可以通过网络的反向传播有效地计算出来。
分层计算:反向传播以逐层的方式进行,从输出层开始,反向传播到输入层。这种分层计算确保梯度在网络中正确传播,从而实现深度架构的训练。
乔治•西本科(George Cybenko)于 1989 年提出的通用近似定理,为多层神经网络的功能奠定了数学基础。该定理指出,在给定足够多的神经元并使用非线性激活函数的情况下,具有单个隐藏层的前馈神经网络可以以任意精度逼近任何连续函数。该定理凸显了神经网络的强大功能和灵活性,使其适用于广泛的应用。
具有单个隐藏层的多层神经网络可以将任何连续函数近似到任何所需的精度,从而能够解决各个领域的复杂问题。
反向传播和通用逼近定理 (UAT) 的发展标志着神经网络的第二个黄金时代的开始。反向传播提供了一种训练多层神经网络的有效方法,使研究人员能够训练更深层、更复杂的模型。UAT 为多层神经网络的使用提供了理论依据,并增强了人们对其解决复杂问题能力的信心。这一时期横跨 20 世纪 80 年代末至 90 年代初,人们对该领域的兴趣再次高涨,并取得了显著的进展。
然而,由于以下几个因素,神经网络领域在 20 世纪 90 年代初至 21 世纪初经历了“第二个黑暗时代”:
支持向量机(SVM)的兴起,为分类和回归任务提供了一种数学上优雅的方法。
计算限制,因为训练深度神经网络仍然耗时且需要大量硬件。
过度拟合和泛化问题,早期的神经网络在训练数据上表现良好,但在未知数据上表现不佳,这使得它们在实际应用中不太可靠。
这些挑战导致许多研究人员将注意力从神经网络转移,导致该领域陷入停滞。
神经网络领域在 21 世纪末和 2010 年代初经历了一次复兴,这得益于以下领域的进步:
深度学习架构(CNN、RNN、Transformer、扩散模型)
硬件(GPU、TPU、LPU)
大型数据集(ImageNet、COCO、OpenWebText、WikiText 等)
训练算法(SGD、Adam、dropout)
这些进步促成了计算机视觉、自然语言处理、语音识别和强化学习领域的重大突破。通用近似定理与实践进步相结合,为深度学习技术的广泛应用和成功铺平了道路。
卷积神经网络 (CNN) 极大地改变了深度学习的格局,尤其是在计算机视觉和图像处理领域。从 20 世纪 80 年代到 2010 年代,CNN 的发展反映了其在架构、训练技术和应用方面的显著进步。
CNN 的概念最早由福岛健二 (Kenji Fukushima) 在 20 世纪 80 年代提出,他提出了Neocognitron,这是一种模仿人类视觉皮层结构的分层神经网络。这项开创性的工作为 CNN 的发展奠定了基础。20 世纪 80 年代末到 90 年代初,Yann LeCun 和他的团队进一步开发了 CNN,推出了专为手写数字识别而设计的LeNet-5架构。
CNN 由三个关键组件构成:
1. 卷积层:这些层通过应用一组可学习的过滤器自动从输入图像中学习特征的空间层次结
构。
2. 池化层:池化层减少了输入的空间维度,增强了对变化的鲁棒性并降低了计算负荷。
3. 全连接层:在卷积层和池化层之后,全连接层用于分类任务,整合从先前层学习到的特
征。
局部感受野:CNN 使用局部感受野来捕获输入数据中的局部模式,使其对于图像和视觉任务非常有效。
共享权重:在卷积层中使用共享权重可以减少网络中的参数数量,从而提高效率并更易于训练。
平移不变性:池化层引入了平移不变性,使得网络能够识别模式,而不管其在输入图像中的位置如何。
2012年,CNN发展迎来了重要的里程碑,AlexNet在ImageNet大规模视觉识别挑战赛(ILSVRC)中取得巨大胜利,取得了显著的胜利优势,标志着图像分类领域取得了重大突破。 下面是AlexNet 的架构(2012):
ILSVRC 是一项年度图像识别基准测试,其基于超过 1000 万张带注释图像的数据集评估算法,这些图像被分为 1000 个类别。AlexNet 的创新包括:
1. ReLU 激活函数:ReLU 的引入是为了克服传统激活函数的问题,它可以加快训练速度
并提高性能。
2. 丢弃正则化:该技术通过在训练期间随机丢弃单元来减少过度拟合。
3. 数据增强:通过人为增加训练数据的多样性,对训练数据集的增强提高了泛化能力。
AlexNet 的成功标志着 CNN 发展的一个转折点,为图像分类和物体检测的进一步发展铺平了道路。
AlexNet 开启神经网络的第三个黄金时代:
当前的黄金时代(2010 年代至今)以深度学习、大数据和强大计算平台的融合为标志。这个时代见证了图像识别、自然语言处理和机器人技术方面的显著突破。持续进行的研究不断突破人工智能能力的界限。
继 AlexNet 之后,出现了几种有影响力的架构:
VGGNet(2014):VGGNet 由牛津大学视觉几何小组开发,强调更深的架构和更小的卷积滤波器(3x3),实现了显著的准确性。
GoogLeNet/Inception(2014):引入了 Inception 模块,使网络能够有效地捕获多尺度特征。
ResNet(2015):残差网络引入了跳过连接,使得非常深的网络训练成为可能,同时缓解了梯度消失问题。
CNN 的进步彻底改变了各个领域:
计算机视觉:CNN 已成为现代计算机视觉的支柱,推动了图像分类、对象检测和语义分割方面的突破。
医学成像:CNN 用于疾病诊断、肿瘤检测和图像引导手术等任务,显著提高诊断准确性。
自动驾驶汽车:CNN 是自动驾驶汽车感知系统不可或缺的一部分,使它们能够解释和响应周围环境
下图展示了CNN 的计算机视觉应用。
CNN 从诞生到如今成为深度学习基石的历程,展现了其对人工智能的深远影响。CNN 的成功也为深度学习的进一步发展铺平了道路,并启发了其他专用神经网络架构(例如 RNN 和 Transformer)的发展。CNN 的理论基础和实践创新,为深度学习技术在各个领域的广泛应用和成功做出了重要贡献。
循环神经网络 (RNN) 旨在处理序列数据。与传统的前馈网络(又称多层感知器 (MLP))不同,RNN 会维护内部隐藏状态或“记忆”,从而能够捕捉序列元素之间的时间依赖关系。这使得 RNN 在语言建模、时间序列预测和语音识别等任务中尤为有效。
RNN 的概念可以追溯到 20 世纪 80 年代,像 John Hopfield、Michael I. Jordan 和 Jeffrey L. Elman 这样的先驱为这些网络的发展做出了贡献。John Hopfield 于 1982 年提出的 Hopfield 网络为理解神经网络中的循环连接奠定了基础。Jordan 网络和 Elman 网络分别于 20 世纪 80 年代和 90 年代提出,是捕捉序列数据中时间依赖关系的早期尝试。
RNN 使用时间反向传播 (BPTT) 进行训练,这是用于前馈网络的标准反向传播算法的扩展。BPTT 涉及随时间展开网络,将每个时间步视为一个层。在前向传播过程中,处理输入序列,并在输出层计算误差。然后将得到的梯度从最后一个时间步反向传播到第一个时间步,更新 RNN 的参数。然而,由于梯度消失问题,RNN 难以学习长时间依赖性,在这种情况下,梯度会变得非常小,导致无法学习。相反,梯度可能会变得过大,导致训练不稳定,这被称为梯度爆炸问题。
长短期记忆网络 (LSTM) (1997):Sepp Hochreiter 和 Jürgen Schmidhuber 提出了 LSTM 网络来解决传统 RNN 中的梯度消失问题。LSTM 使用门控机制来控制信息流,使其能够捕获序列数据中的长期依赖关系。它由单元状态(存储长期信息)、隐藏状态(承载当前时间步的短期输出)和三个门控(输入门、遗忘门、输出门)组成。在每一步中,LSTM 都会基于多个数学运算和门控来决定需要遗忘多少信息、需要将多少信息添加到单元状态以及需要将多少信息输出到下一步。
门控循环单元 (GRU) (2014):Kyunghyun Cho 等人提出了 GRU,它是 LSTM 的精简版本,也采用门控机制来调节信息流。与具有三个门和两个状态的 LSTM 不同,GRU 仅使用两个门和一个状态。LSTM 的遗忘门和输入门合并为一个更新门,该更新门决定保留多少过去信息以及合并多少新信息。此外,LSTM 的输出门在 GRU 中被重置门取代,重置门决定在整合新信息之前需要“重置”或遗忘多少过去信息。GRU 的参数比 LSTM 少,因此训练速度通常更快。
序列到序列模型(Seq2Seq) (2014):Ilya Sutskever 和他的团队提出了 Seq2Seq 模型,该模型使用编码器-解码器架构将输入序列映射到输出序列。该模型已广泛应用于机器翻译、语音识别和文本摘要等任务。
下面是使用 LSTM 的序列到序列模型的编码器-解码器架构:
RNN 对各个领域产生了重大影响,包括:
1. 自然语言处理:RNN 彻底改变了自然语言处理领域,使得语言建模、机器翻译、情感分析和文本生成等任务取得了重大进步。
2. 语音识别:RNN 广泛应用于语音识别系统,它们对口语中的时间依赖性进行建模,将语音信号转换为文本。
3. 时间序列预测:RNN 对于时间序列预测非常有效,它们对序列数据中的时间依赖性进行建模以预测未来值。
2016年,谷歌翻译改用神经机器翻译系统,大大提高了翻译质量。
尽管 RNN 取得了成功,但它仍面临一些挑战:
梯度消失和梯度爆炸:尽管 LSTM 和 GRU 提供了一些解决方案,但传统的 RNN 仍难以解决这些问题。
计算复杂性:训练 RNN 可能需要大量资源,尤其是在处理大型数据集时。
并行化:RNN 的顺序特性使得并行训练和推理过程变得复杂。
RNN 的成功为深度学习的进一步发展铺平了道路,并激发了其他专用神经网络架构(例如 Transformer)的发展,这些架构在各种序列数据任务中都取得了卓越的性能。RNN 的理论基础和实践创新为深度学习技术在各个领域的广泛应用和成功做出了重要贡献。
Transformer 凭借其出色的处理序列数据的能力改变了深度学习的格局,成为从自然语言处理 (NLP) 到计算机视觉等许多领域的关键。
Transformer 模型由Vaswani 等人(2017) 在开创性论文《Attention is All You Need 》中提出。该模型放弃了传统的 RNN 顺序处理,转而采用自注意力机制,从而实现并行处理并更好地处理长距离依赖关系。下图是自注意力机制:
自注意力机制:允许序列中的每个位置关注所有位置,比 RNN 或 LSTM 更灵活地捕捉上下文。
并行化:通过同时处理所有输入数据来提高训练速度,这与 RNN 的顺序性形成鲜明对比。
编码器-解码器结构:编码器和解码器堆栈都利用自注意力和前馈神经网络层,并使用位置编码来维持序列顺序。
下面是具有编码器-解码器结构和多头注意力机制的原始 Transformer 架构:
下面是基于 Transformer 的语言模型:
BERT(2018): Transformers 的双向编码器表示,一种仅编码器的 Transformer,通过对掩码语言建模(masked language modeling)和下一句预测进行预训练,彻底改变了 NLP。
T5(2019):文本到文本传输转换器,一种编码器-解码器转换器,将 NLP 任务重新定义为文本到文本的格式,简化了模型架构和训练。
上图是BERT 和GTP 与 T5的对比。
OpenAI 的生成式预训练 Transformer (GPT) 系列自 2018 年诞生以来,显著推动了自然语言处理 (NLP) 领域的发展。每次迭代都建立在上一次迭代的基础上,引入了更强大的模型和更强大的功能。以下是每个版本的详细概述。
GPT 的自回归语言模型架构旨在根据输入的前一个标记来预测序列中的下一个标记。
GPT(2018):最初的 GPT 模型于 2018 年推出,是一个自回归解码器专用 Transformer,拥有1.17 亿个参数。它旨在预测序列中的下一个标记(子词),展现出强大的理解和生成类人文本的能力。这一基础模型为生成式语言模型的后续发展奠定了基础,展现了在大型文本语料库中进行无监督学习的潜力。
GPT-2 (2019): GPT-2 于 2019 年发布,标志着模型规模和能力的显著飞跃,可扩展至15 亿个参数。该版本展现出了一些新兴能力,例如零样本任务性能,即无需专门训练即可执行任务。然而,它能够生成连贯但有时具有误导性的文本,这引发了人们对其潜在滥用的伦理担忧,尤其是在生成虚假新闻或虚假信息方面。
GPT-3 (2020): GPT-3 于 2020 年发布,其模型规模进一步扩展至令人印象深刻的1750 亿个参数。该模型在少样本学习方面展现出卓越的能力,能够基于提示期间提供的少量示例适应各种任务。它能够生成类似人类的文本,使其成为内容创作、编码辅助和对话代理等众多应用的多功能工具。GPT-3 的架构使其无需进行大量微调即可执行各种 NLP 任务,巩固了其作为当时最强大的语言模型之一的地位。
ChatGPT(2022):经过微调的 GPT-3.5 模型,通过人类反馈强化学习 (RLHF) 针对多轮对话进行了优化,擅长处理后续问题和维护上下文,通过指令调整和偏好数据使响应与用户意图保持一致。
高级大型语言模型 (LLM) 训练流程涉及预训练、指令调整和偏好调整的组合,使用人类反馈强化学习 (RLHF) 或直接偏好优化 (DPO)。
GPT-4(2023):最新版本的 GPT-4 于 2023 年发布,延续了功能和参数扩展的趋势,尽管目前有关其架构和参数数量的具体细节尚未完全公开披露。预计它将进一步提升先前模型的性能,尤其是在推理和理解复杂情境等领域。
详见https://klu.ai/glossary/large-language-model 。
大型语言模型 (LLM) 的领域因各种杰出模型而得到了显著丰富,每种模型都提供了独特的功能,并在人工智能领域取得了进步。以下是一些知名 LLM 的最新概述:
Anthropic 的 Claude (2022):优先考虑人工智能输出的安全性和道德考虑,旨在与人类价值观保持一致。
Meta 的 LLaMA(2023):为不同的计算需求提供不同大小的模型,在自然语言处理基准测试中取得了令人印象深刻的成果。
Mistral.AI 的 Mistral (2023):平衡高性能和资源效率,非常适合实时应用,专注于开源 AI 解决方案。
阿里巴巴的Qwen(2023年):为英语和中文创建高质量的双语人工智能模型,促进跨语言应用并鼓励创新。
微软的 Phi(2023 年):强调跨各种应用程序的多功能性和集成性,并具有用于情境理解和用户交互的高级培训技术。
Google 的 Gemma 系列(2024 年):轻量级、最先进的开放模型,适用于各种应用,包括文本生成、摘要和提取,重点关注性能和效率。
详见https://www.analyticsvidhya.com/blog/2023/07/build-your-own-large-language-models/
详见https://medium.com/towards-data-science/fine-tune-llama-3-1-ultra-efficiently-with-unsloth-7196c7165bab,此外,此文沒有包括后起之秀的中国大模型DeepSeak。关于更详细的内容请关注待发布的另一篇文章《大模型简史》。
GPT-4V(2023)将多模态功能集成到本已强大的基于文本的模型中,标志着人工智能发展迈出了重要一步。它不仅可以处理和生成文本内容,还可以处理和生成图像内容,为更全面的人工智能交互奠定了基础。
GPT-4o (2024)是 GPT-4V 的演进版,它增强了多模态集成能力,并具备复杂的语境理解能力。相比前代产品,GPT-4o 的改进之处在于:在不同媒体之间实现了更佳的连贯性,能够根据文本提示生成高级图像,并基于视觉输入进行精细推理。此外,GPT-4o 还包含先进的伦理道德训练机制,确保其输出不仅准确,而且负责任,符合人类价值观。
Gemini Pro (2023):谷歌 Gemini 推出了一系列专为多模态任务设计的模型,集成了文本、图像、音频和视频处理功能。Gemini Pro 尤其以其可扩展性和效率而著称,使高级 AI 能够应用于各种应用,从实时分析到跨不同媒体格式的复杂内容生成。
Gemini 的多模态能力:Gemini 模型(包括适用于不同规模应用的 Ultra 和 Nano 版本)旨在执行需要理解多种数据类型的任务。它们在视频摘要、多模态翻译和交互式学习环境等任务中表现出色,彰显了 Google 致力于提升 AI 在多媒体环境中地位的决心。
Claude 3.0(2023)由 Anthropic 推出,该模型专注于增强人工智能响应的安全性和可靠性,并改进了情境理解和伦理考量。它旨在提高对话性和实用性,同时严格避免产生有害或带有偏见的输出。
Claude 3.5(2024)进一步完善了 Claude 3.0 的功能,使其在复杂任务中表现更佳,处理效率更高,用户请求的处理也更加细致入微。此版本也强调了多模态交互,尽管它主要擅长文本和逻辑任务,但其在处理视觉或其他感官输入方面也逐渐增强,从而带来更加集成的用户体验。
LLaVA(大型语言和视觉助手)代表了一种创新的多模态人工智能方法,它将语言理解与视觉处理相结合。LLaVA 于 2023 年开发,能够解读图像并将其与文本内容关联起来,从而能够回答关于图像的问题、描述视觉内容,甚至根据视觉线索生成文本。其架构充分利用了 Transformer 模型的优势,在需要视觉和语言理解的任务中实现了最佳性能。该模型因其开源特性而备受瞩目,这将鼓励人们在多模态人工智能应用方面进行进一步的研究和开发。下图描绘了LLaVA的架构。
这些模型共同标志着人工智能系统向着新的方向发展:它不仅能够理解和生成文本,还能跨多种模态解释和创作内容,从而更贴近人类的认知能力。人工智能模型的这种演进将催生更具交互性、更直观的应用程序,并使其能够通过融合不同的感官输入来处理现实世界的场景,从而拓展人工智能在日常生活、研究和行业应用中的潜力。
扩散模型已成为一类颇具影响力的生成模型,它提供了一种从复杂数据分布中创建高保真样本的全新方法。与 GAN 和 VAE 等传统模型相比,扩散模型采用了一种渐进式去噪技术,该技术在众多应用中均表现出色。
Sohl-Dickstein 等人(2015)在其论文中引入了扩散模型,奠定了基础。他们概念化了一个生成过程,通过逆转逐渐添加的噪声,可以将噪声重新转换为结构化数据。
去噪过程:这些模型逐步添加噪声(前向过程)并学习逆转这一过程(后向过程),从而有效地去噪以生成样本。
马尔可夫链:这两个过程都以马尔可夫链的形式构建,每个前向步骤都会添加高斯噪声,模型会反向学习消除这些噪声。
训练目标:目标是最小化每一步预测噪声和实际噪声之间的差异,优化证据下限(ELBO)的形式。
稳定性和鲁棒性:它们比 GAN 具有更好的稳定性,避免了模式崩溃等问题,从而持续生成多样化、高质量的输出。
去噪扩散概率模型 (DDPM) (2020):改进了扩散过程,为图像合成设定了新的基准。
去噪扩散隐式模型 (DDIM) (2021):通过非马尔可夫采样提高效率,使生成过程更加灵活。
基于分数的随机微分方程生成模型(2021):利用随机微分方程进行有效的样本生成。
潜在扩散模型(2022):成为稳定扩散等流行的文本到图像生成系统的基础,显著推动了人工智能生成图像领域的发展,并为更易于访问和高效的生成人工智能工具铺平了道路。
DALL-E 3 和 Stable Diffusion 3 等模型擅长根据文本描述生成高质量图像,其中 DALL-E 3 提供详细而准确的视觉效果,而 Stable Diffusion 则提供一种开源替代方案,使图像生成技术的访问更加民主化。
FLUX.1 (2024):黑森林实验室发布了 FLUX.1,这是一款用于 AI 图像生成的先进扩散模型,提供卓越的速度、质量和快速执行。FLUX.1 提供三个版本——Schnell、Dev 和 Pro,并利用 Rectified Flow Transformers 等创新技术来生成高度逼真的图像。FLUX.1 可以生成文本并处理手指和脚趾等细节——具备优秀图像生成器所需的一切。
上图是一张由 FLUX.1 Shenell 模型生成的图像,上面画着一个简单的“侧面写着 FLUX.1 的咖啡杯”。这张高质量的咖啡杯图像清晰可见“FLUX.1”字样,展现了 FLUX.1 生成文本的能力。
DreamBooth(2022):能够在特定主题的少量图像上训练扩散模型,从而实现个性化图像生成。
LoRA(2022):低秩自适应 (Low-Rank Adaptation) 是一种允许使用最少的附加参数对扩散模型进行微调的技术,从而使模型更容易适应特定任务或数据集。
上图是单概念生成的定性比较。左栏显示每个概念的参考图像。基于 LoRA 的方法在保真度方面优于自定义扩散。此外,正交自适应和 SBoRA 表现出与混合展示相当的性能,同时还引入了正交约束,这在多概念场景中具有优势。
ControlNet(2023):根据草图或深度图等附加输入对扩散模型进行条件化,从而对生成的图像提供更多控制。利用带有姿势控制的 ControlNet 实现稳定扩散(见下图)
Multi-SBoRA (2024):Multi-SBoRA 是一种针对多概念定制扩散模型的新方法。它使用正交标准基向量构建低秩矩阵进行微调,从而实现区域和非重叠权重更新,从而减少跨概念干扰。这种方法保留了预训练模型的知识,降低了计算开销,并增强了模型灵活性。实验结果表明,Multi-SBoRA 在多概念定制方面取得了最优性能,同时保持了独立性并减轻了串扰效应。
上图展现了多概念生成的定性比较。结果分为三种情况:(1)角色生成,(2)物体生成,以及(3)角色和物体组合生成。每个概念的参考图像显示在上行。缺乏正交设计的方法(例如自定义扩散和混合显示)表现出概念身份的显著损失,尤其是在面部特征复杂的角色中。正交自适应方法展现出更好的身份保留效果,但可能会损害模型的整体知识,导致模型崩溃。相比之下,我们提出的方法取得了卓越的效果,有效地保留了每个概念的身份,同时确保了更稳定的生成。
扩散模型研究的轨迹预示着光明的未来,集成模型有可能结合各种人工智能架构的优势,同时优化速度和质量。
OpenAI Sora 是一个全新的文本转视频生成模型,扩展了 OpenAI 多模态 AI 产品的功能。该模型允许用户根据文本描述创建视频,有效地弥合文本与动态视觉内容之间的鸿沟。Sora 与多模态框架的集成增强了创意应用的潜力,使用户能够以最少的输入生成丰富的多媒体内容。这一进展标志着我们朝着更直观、更具交互性的 AI 系统迈出了重要一步,这些系统能够理解和生成复杂的媒体形式。
人工智能和深度学习的发展史充满了重大进步和变革性创新。 从早期的神经网络到如今复杂的架构,例如卷积神经网络 (CNN)、循环神经网络 (RNN)、Transformer 和扩散模型,该领域已经彻底改变了各个领域。
近期的进展推动了大型语言模型 (LLM) 和大型多模态模型 (LMM) 的发展,例如 OpenAI 的 GPT-4o、谷歌的 Gemini Pro、Antropic 的 Claude 3.5 Sonnet 和 Meta 的 LLaMA3.1,它们展现了卓越的自然语言和多模态能力。此外,生成式人工智能 (包括文本转图像和文本转视频生成模型,例如 Midjourney、DALL-E 3、Stable Diffusion、FLUX.1 和 Sora) 的突破,拓展了人工智能的创造潜力。
扩散模型也已成为功能强大的生成模型,拥有广泛的应用前景。随着研究持续聚焦于开发更高效、更易解释、更强大的模型,人工智能和深度学习对社会和技术的影响将与日俱增。这些进步正在推动传统领域的创新,并为创造性表达、问题解决以及人机协作创造新的可能性。
然而,深度学习并非人工智能的唯一或最佳方法。符号人工智能、强化学习和神经符号人工智能各有其独特的优势,并弥补了深度学习的局限性,例如可解释性和计算资源需求。对人工智能的全面审视应该涵盖这些不同的方法论。
人工智能的未来在于多种方法的协同作用。随着研究的不断进步,构建多元化的人工智能技术生态系统将确保其均衡有效的演进,造福社会和技术发展。
编后注: 本文既然是简史,它只包含了人工智能和深度学习发展史上的重要里程碑。同时它也缺乏介绍中国人工智能科学家的一些贡献。但该文仍不愧为一份珍贵的学习资料。 |
618里的“1分钱”快递
1568 阅读京东物流陕西省大件京东帮招商
1247 阅读日日顺供应链入选商务部《数智供应链案例集》“十大典型案例”
1153 阅读京东与小红书官宣推出“红京计划”
1025 阅读2025 LOG低碳供应链物流 杰出贡献奖
917 阅读2025 LOG 低碳供应链物流 数智化优秀服务商
837 阅读2025 LOG低碳供应链物流 最具影响力品牌商
828 阅读2025 LOG低碳供应链物流 杰出贡献奖
833 阅读京东物流辽宁省区大件京东帮/宅配招商
797 阅读拼多多Q1利润放缓背后:“千亿扶持”下电商西进为商家拓单显著
761 阅读