首页 / 文章发布 / 君合法评 / 君合法评详情

法律人眼中的人工智能大模型:从概率建模到AGI 2.5

2025.12.08 陈思佳 韩岳岐

引言


近年来,以大型语言模型(LLM)为代表的人工智能大模型取得了突破性进展。这些模型在自然语言理解、生成、推理乃至多模态任务中展现出前所未有的能力,各种AI产品正在逐步加深对工作、生活的改变。


作为一个对互联网行业比较熟悉的法律人,2025年初deepseek开源其大模型代码风头正热,我们在某技术论坛看到一篇讨论deepseek的文章——“改变世界的代码不过300行”(大意),彼时心里就有一个想法——用法律人看得懂的方式写一篇文章说说人工智能大模型的基本逻辑,固有此文,重点是用户视角的理解,如有错漏之处欢迎大家交流指正。


一、人工智能大模型的本质


当前绝大多数大模型的核心机制建立在概率建模之上,即根据已知的参数结合大量数据统计分析,判断接下来出现的文字、图像、音频等概率,最终输出特定情境下最大概率出现的答案。尽管大模型的结果看似“确定性”,但其推理决策过程始终是“概率性”的,我愿称之为一种赛博朋克般极致理性的艺术。


(一)以当前最主流的大语言模型为例,其本质是基于概率的统计模型,把概率变成语言,大模型统计语言发生的概率(即在特定语境下接下来的词出现的概率有多大)。


举例,语境为“我今天早上坐”,下一个词可能是公交、地铁、网约车,如果我们用统计的方法来分析大量的语言数据,可能发现公交、地铁、网约车各占30%、50%、20%,大语言模型会根据统计结果计算出一个概率分布,然后当用户询问大语言模型时,大语言模型会根据用户的提问计算出概率得分决定输出哪个答案,如果最高得分落在地铁的区间,那就输出地铁,如果落在网约车区间,那就输出网约车。大语言模型每次输出一个词,然后根据这个词,计算下一个词的概率分布,输出下一个词,以此类推,不断重复,拼出完整的语句。当然,为增加创造性和多样性,模型也会引入一定的随机性(采样),让它的回答不那么死板。这就像法官的“自由心证”,虽然基于证据(数据)和法律(参数),但最终的判决(输出)依然包含了一定的主观裁量权(随机性)。

 

图片1.jpg

图片来源于北大课题组的研究人员GPT-Tree团队


不过,不同于单纯统计的语言规律,大语言模型还能统计人类回答问题的方式,因此,你会发现当你询问大语言模型时,有时内容本身没有太大区别,但是表述方式、结构却有差异,就是因为模型学习了不同的语言表达方式。


大语言模型的参数是其破解语言规律和出现概率的核心。理论上,参数量越大,对于语言规律和出现概率的判断就越精准。因此,大语言模型并非真正理解了语言的含义,而是用概率的方式,模拟出人类的表达和思考。


(二)同样,视觉大模型、语言大模型其底层逻辑大多也都是基于概率的统计模型,只不过统计的对象从语言规律变成了图像或语音规律。多模态大模型,突破单一语言维度,实现文本、图像、视频、语音等多模态数据的统一理解与生成,核心创新在于多模态数据的联合概率分布建模。


(三)当然,在生成概率建模主流之外,还有一些特殊模型,比如用于分类、情感分析的Encoder-Only架构模型,其核心是对输入文本做语义编码,输出固定类别结果而非生成文本,底层靠特征匹配和分类器决策,不涉及逐词概率预测;还有少数基于规则的轻量化语言模型,依托预设的语法规则,知识库匹配回答,比如简单的客服问答模型,直接通过关键词调取固定回复,没有概率计算环节。


二、人工智能大模型的基本技术特征


先搞清楚几个基本概念术语。


术语

定义

说明

范式(Paradigm)

指AI模型构建的整体方法论或哲学框架,包括训练目标、学习方式、推理逻辑等。

范式关注的是“模型如何学习和推理”,属于顶层概念。

架构(Architecture)

指模型的结构设计,即神经网络如何组织层、模块、连接方式等,同一种范式下可以有多重不同的架构。

架构是模型的骨架,Transformer、CNN、RNN、Mamba、混合专家(MoE)等均为架构,属于中间层概念。

模型(Model)

范式 + 架构 + 训练数据 + 参数的具体实现。

通常可以对应到具体的AI大模型产品,属于终端概念。


由于大模型的架构和模型非常多,往往还是范式、架构的多元组合,我们重点从范式层面说明不同大模型的基本技术特征。


1. 自回归建模(Autoregressive Modeling)

  • 技术逻辑:模型逐 token(即为我们前述分析的上一个已知的语言、视频、音频内容) 生成输出下一个出现概率最大的内容,每个新 token 的预测都基于此前已生成的所有 token。

  • 代表:GPT 系列、LLaMA、Claude、Qwen

  • 特点:天然支持文本生成,概率驱动,单向上下文


2. 自编码建模(Autoencoding / Masked Language Modeling)

  • 技术逻辑:给定一个被部分遮盖的句子,预测被遮盖的词是什么,这迫使模型必须同时利用遮盖词左侧和右侧的上下文(双向理解),学习词语之间的语义、语法和逻辑关系,构建上下文相关的词向量表示(contextualized embeddings),双向理解是其与自回归建模的显著区别。

  • 代表:BERT、RoBERTa

  • 特点:双向上下文理解强,适合理解任务,因训练时不学习“从左到右”的生成过程,因此不适合用于直接生成。BERT虽然不能直接像GPT那样流畅地写文章,但它依然是目前法律检索、合同审查等“理解类任务”背后的功臣。


3. 扩散建模(Diffusion Modeling)

  • 技术逻辑:对学习对象先增噪,再减噪,通过逐步去噪的方式从随机噪声中生成图像或跨模态内容。虽然主要用于视觉,但近期也出现文本扩散模型(如 Diffusion-LM)。举个形象的例子,你有一缸大米,你要搞清楚缸里的大米都是什么形态如何分布的,你先向大米里掺入沙子,然后从里边把沙子拿出来,每次拿出的沙子也带着周围的大米,且因为沙子是你按照一定规律掺入大米的,通过不断拿出特定位置沙子你会更容易还原大米本来的样子。

  • 代表:Stable Diffusion、DALL·E 2、Imagen

  • 特点:高保真生成,理论严谨,主要用于图像/音频,近年尝试用于文本。


4. 对比学习(Contrastive Learning)

  • 技术逻辑:其基本思想是让模型学会区分‘相似’(正样本对)与‘不相似’(负样本对)的数据,从而学到具有判别性的特征表示。以图像为例,同一张图像经过不同数据增强(如裁剪、旋转、颜色抖动)得到的两个视图(views),例如:image_A_crop1 和 image_A_crop2,即为正样本对(Positive Pair);不同图像的增强视图,例如:image_A_crop1 和 image_B_rotated,即为负样本对(Negative Pair)。将原始图像映射到一个低维语义向量空间,使得:语义相似的样本 → 在向量空间中距离近;语义不同的样本 → 在向量空间中距离远。最终得到的向量(embeddings)可直接用于下游任务(分类、检索、聚类等),无需大量标注。在对比学习范式中,有一个关键假设,即同一图像的不同增强版本语义相同;不同图像语义不同。

  • 代表:CLIP、ALIGN

  • 特点:跨模态对齐能力强,常用于图文检索、多模态预训练。因为该范式将向量直接用于下游任务,无需标签,因此在处理海量无标签数据的场景非常具有优势,已成为现代 AI 系统(尤其是多模态和基础模型)中不可或缺的自监督预训练技术。


三、人工智能大模型发展阶段及趋势


AGI与AI agent


AGI(通用人工智能)是指具备与人类相当或超越人类水平的广泛认知能力的人工智能系统,能像人类一样处理各种任务而不局限于特定领域。其核心特点是通用性、自主学习和推理能力,例如能同时完成下棋、写作、驾驶等不同任务,是当前人工智能模型的发展方向。


2024年,OpenAI的CEO Sam Altman提出了一个关于通用人工智能(AGI)的五层框架理论,将AGI的发展分为五个阶段,分别是:L1  Chatbots(聊天机器人)——AI主要具备基础的对话能力,能够理解和回应简单的文本输入。


L2  Reasoners(逻辑推理者)——AI具备基本的逻辑推理能力,能够分析复杂信息并进行推断。


L3  Agents(解决方案输出者)——AI具备理解复杂指令的能力,并能够在多任务环境中自主决策和灵活应对。


L4  Innovators(创新者)——AI不再满足于执行和优化现有任务,而是具备创新和创造的能力。它能够独立提出新的概念、假设和解决方案,甚至在科学和技术领域取得独立发现。


L5  Organizers(组织者)¬——AI具备协调和管理庞大系统、资源和团队的能力。它可以在多层次、多维度的环境中有效组织资源,管理复杂任务,实现高效团队协作,成为真正的“智能决策者”。进入“组织”层次的AGI标志着在系统管理、资源分配和战略规划上的跨越式发展。


2024年时,Sam Altman认为我们处于L2 AI Reasoners(逻辑推理者)。L2 AI Reasoners与L3 AI agent的最大区别在于——Reasoner 是“思考者”, Agent 是“行动者”, AI Reasoner 仅负责“思考”环节,而AI Agent 构成一个“感知–思考–行动”的闭环


大家回想一下我们使用的过的AI工具,是不是有过这样一个阶段,即它只能告诉你答案,但不能帮你操作。比如你给AI输入提示词,要求它帮你制作一个日历工具网页,它能给你输出一堆代码,你得复制到编辑器、保存为HTML文件、用浏览器打开才能看到效果,AI并不能直接帮你在开发环境中做好这个程序,但现在情况正在发生变化。


谷歌最新推出的Gemini 3 Pro模型,网络上充斥着大量的测评文章(国内无法直接使用),称其从能说到会做的进步非常明显。比如,可以通过一句话的需求直接做出前端网页,甚至是做出一个类似 Windows 操作系统的 Web OS,并且web OS 具备文件管理器、画图工具等功能。2


阿里巴巴最新推出的千问app,已经可以通过用户指令直接生成可导出的PPT成品了,不再需要像之前一样需要先生成markdown格式,再手动转化。


字节旗下的豆包,也实现了通过用户一句话的需求直接生成可下载的mp4格式视频成品。


因此,从一个用户的视角,我认为现在的AI产品已经具备了初步的行动者能力了,似乎已经到了2.5阶段,即从L2 Reasoners(逻辑推理者)向L3 AI agent(解决方案输出者)过渡的中间阶段,但这种行动的能力还局限于网络空间的一些比较简单的功能场景,尚未实现网络空间更复杂功能场景的打通,也未实现网络空间和显示世界的跨越


我们可能会在2.5阶段待上一段时间,但不管怎么样,从“能说”,到“会做”,跨越的不仅是知识的鸿沟,更是从思想到行动的闭环。


结语


我们这一代人,再一次幸运地站了一个变革时代的路口。从今往后,对于普通人来说,真的会去执行操作一件不那么复杂的事的重要性会不同程度地降低,而知道自己要什么且能清晰准确表达出来,当拿到一个东西之后,能准确判断是否符合要求并能给出有价值的优化方向,这会变得越来越重要,清晰的需求表达能力和独立的判断力是AGI 2.5及更高级别时代,作为普通人最核心的竞争力。在AI时代,最稀缺的不是答案,而是“提出好问题”的能力,以及对答案进行“价值判断”的智慧。这恰恰是我们法律人最擅长的——从纷繁复杂的事实中,通过精准的提问,构建出法律事实,并做出价值权衡。 




1. 作者排名不分先后

2. 详见https://mp.weixin.qq.com/s/wx_-R4vMGkP4lnWn4EFZKg




声 明


《君合法律评论》所刊登的文章仅代表作者本人观点,不得视为君合律师事务所或其律师出具的正式法律意见或建议。如需转载或引用该等文章的任何内容,请注明出处。未经本所书面同意,不得转载或使用该等文章中包含的任何图片或影像。如您有意就相关议题进一步交流或探讨,欢迎与本所联系。

君合是两大国际律师协作组织Lex MundiMultilaw中唯一的中国律师事务所成员,同时还与亚欧主要国家最优秀的一些律师事务所建立Best Friends协作伙伴关系。通过这些协作组织和伙伴,我们的优质服务得以延伸至几乎世界每一个角落。
北京绿化基金会与君合共同发起的“北京绿化基金会碳中和专项基金”,是中国律师行业参与发起设立的第一支碳中和专项基金。旨在充分利用公开募捐平台优势,积极联合社会力量,宣传碳中和理念,鼓励和动员社会单位和个人参与“增汇减排”、“植树造林”等公益活动。