• 南方网

  • 南方日报

  • 南方都市报

  • 南方杂志

  • 南方日报出版社

从DeepSeek展望人工智能发展趋势

2025-03-04 12:50 来源:南方日报

  ●目前众多政府部门、头部企业及著名研究机构,纷纷接入DeepSeek,其影响力正快速扩散,这不仅验证了DeepSeek的实用性,更彰显其在推动各领域智能化变革中的巨大潜力

  ●DeepSeek的突破证明,中国人工智能创新正在进入“第二曲线”。当技术演进从参数竞赛转向认知革命,我们有机会重新定义智能进化的轨迹。这场变革不仅需要技术勇气,更需要构建支持持续创新的生态系统

  人工智能技术正在经历范式变革的关键期。在这个GPT-4展现通用智能曙光、Sora突破视频生成边界的时间节点,中国团队DeepSeek(深度求索)在复杂推理领域的突破具有特殊意义。这场技术变革正在揭示智能本质的两个核心维度:知识建构的广度与认知推理的深度。本文将从技术突破的路径分析出发,展望人工智能发展趋势,探讨中国人工智能发展面临的机遇与挑战。

  勇于突破:从技术跟随到范式创新的跨越

  一直以来,我国人工智能领域存在显著的“资源—创新悖论”:庞大的工程师群体、海量数据资源与广泛应用场景的组合,尚未转化为具有全球影响力的原创技术体系。这背后折射出科研生态的结构性困境——在追逐技术热点与承担创新风险之间,我们往往选择前者。

  DeepSeek的突破恰恰打破了这种惯性思维。研发团队选择了“强化推理”这条曾被主流忽视的技术路径,通过构建多级推理验证机制,在参数规模可控的前提下,使模型在数学证明、逻辑推理等复杂任务上达到甚至超过了OpenAI-o1的性能水平。更为重要的是,目前众多政府部门、头部企业及著名研究机构,纷纷接入DeepSeek,其影响力正快速扩散,这不仅验证了DeepSeek的实用性,更彰显其在推动各领域智能化变革中的巨大潜力。这种“非暴力突破”的成功证明,中国团队完全具备挑战技术深水区的能力。

  OpenAI的“暴力美学”与DeepSeek的“精工细作”形成了有趣的对照。前者验证了算力规模化的可能性,后者则证明智能涌现未必依赖参数爆炸。这提示我们:人工智能的发展正在进入多路径并行的新阶段,我们需要建立更包容的容错机制,支持更多“非共识”创新。

  技术解构:算法—硬件的协同创新

  通过拆解DeepSeek的技术架构,不难窥见其创新的方法论,这也是范式创新的内在基础。DeepSeek技术创新包括了混合专家模型(MoE)、独特设计的强化学习推理路径等一系列巧妙的算法设计,还包括了诸如FP8混合精度、GPU协同调度以及融合硬件特性的原生稀疏注意力(NSA)等工程创新。

  一是混合专家模型(MoE)。DeepSeek-V3基座模型拥有6710亿参数,每个Transformer层部署256个领域专家与1个共享专家。借助动态路由机制,每个token处理仅激活8个专家(约370亿参数)。这种“专业分工”架构相较于传统稠密模型,预训练速度更快;与相同参数数量的模型相比,推理速度也更快,实现了模型的高效运作。通过任务驱动的资源调度,打破了传统计算范式的效率瓶颈。

  二是强化学习推理。DeepSeek-R1模型回归了最纯粹的强化学习路径,仅依据模型输出进行奖惩,避免使用极易导致偏差的奖励模型学习。在上述技术路径,团队前期积累的组相对策略优化(GRPO)起到核心作用。最值得敬佩的是,DeepSeek开源了推理大模型,并提供详尽技术报告,实现了“授人以渔”,通过蒸馏赋能,有效提升了Qwen、Llama等开源大模型的推理能力。

  三是原生稀疏注意力(NSA)。2月18日,DeepSeek最新公开发表的论文提出融合硬件特性的原生稀疏注意力。其通过针对硬件的优化设计,在提高推理速度的同时降低预训练成本,且不牺牲性能。在通用基准测试、长文本任务和基于指令的推理中,它均能达到或超越全注意力模型的表现。这些融合硬件特性的优化,在一定程度上为我们充分利用硬件特性、摆脱对英伟达CUDA架构的过度依赖提供了有效路径。

  智能双螺旋:感知与推理的协同进化

  从更宏观的视角来看,人工智能的演进,离不开感知能力与推理能力的持续提升,DeepSeek的发展便是有力印证。

  在感知能力发展方面,当前大模型主要依赖文本数据的统计规律。DeepSeek通过引入知识自验证机制,构建起动态的知识可信度评估体系。这种内生验证虽仍局限于符号空间,但已触及智能进化的核心矛盾——如何实现知识获取的闭环反馈。这意味着当智能体必须通过与物理世界的交互来验证知识时,多模态感知将变得不可或缺。

  在多模态感知能力发展上,DeepSeek同样表现出色。R1发布后,DeepSeek开源了多模态大模型Janus-Pro。尽管其关注度不及其他模型,但这表明DeepSeek正积极布局多模态感知领域。Janus-Pro支持多模态理解与生成,是一款非常紧凑的大模型。由于高效多模态感知是具身智能感知外界的先决条件,包括DeepSeek在内的大量研究机构和团队在此方向持续深耕,突破性成果呼之欲出。

  在推理能力发展方面,DeepSeek-R1和OpenAI-o1致力于向推理大模型突破,长思维链是其中的核心思路,通过逐步推理与自我反思,提炼正确思路。R1发布后,众多团队探索其有效性,我们团队将长思维链中的反思、规划等高级动作作为约束,应用于普通的指令微调大模型,在数学推理上实现了飞跃性的性能提升,从而证实了长思维链在数学推理中的有效性。

  然而,从推理机制来看,众多研究表明,现有大语言模型基本不具备从数据中发现因果关系的能力。研究发现,现有大模型在使用思维链时易产生因果幻觉,构建不存在的因果链路。但进一步研究表明,赋予大模型提炼的因果知识,可大幅减少这一现象,这意味着大模型具备一定的知识整合能力,且因果关系或许能提升其推理能力。

  这方面的挑战依然是巨大的,因为当前大模型存在严重的决策黑箱问题,其本质是相关性与因果性的割裂。在简单问答场景尚可容忍的统计偏差,在金融等高价值场景将成为致命缺陷。在可预见的未来,智能体、机器人被期待参与到真实物理环境下与专业知识、生产环境以及人类进行交互,这其中留待解决的问题还有很多。从目前的探索来看,以下两者不可或缺:一是有效的反馈过程。大模型需要与目标环境、用户建立有效的反馈。以我们探索的支持数据库交互的对话AI产品Chat2DB为例,从用户意图理解、查询语句生成到数据库执行反馈不同环节,建立有效的交互机制,才能真正实现产品的落地应用。二是因果发现和推理能力的突破。在低容错的交互场景,必须通过因果关系发现,进行有效的决策过程。我们和华为一同在智能运维场景下探索了多年,在争分夺秒的抢修下,只有有效的根因定位发现,才可以减少复杂排查过程。我们认为大模型要应用到类似的决策过程,因果推理过程对齐是重要的突破口。

  未来布局:构建智能时代的创新生态系统

  从技术演化角度看,人工智能正经历从“数据驱动”到“机理驱动”的范式迁移。我国在该领域具备独特优势:庞大的应用场景为因果验证提供试验场,丰富的人才储备构成智力基础,而DeepSeek等企业的实践则积累了工程经验。在取得重大突破之前,任何一条探索之路都布满未知与风险,充满了各种不确定性。如何整合这些要素,从众多可能路径中去探索成功的方向,是需要深入思考的问题。

  面对技术变革的窗口期,需要建立更具战略纵深的布局,包括:

  一是理论前沿先导。以理论前沿为先导,从哲学、数学、物理、生物等基础学科的前沿发展中汲取灵感与力量,全力突破多模态感知、因果发现与推理、物理常识世界模型等关键技术,致力于在新一代人工智能领域构建起创新发展的新格局。

  二是基础研究特区。设立专注认知架构、因果推理等前沿方向的“科研无人区”,给予5—10年的持续支持周期,建立“宽容失败”的评估机制,鼓励大胆创新,为探索未知领域的科研工作者保驾护航。

  三是人才生态重构。建立“理论—工程—应用”的旋转门机制,使人才在高校、研究机构、企业中实现灵活流转。以人才流转的方式,让理论研究成果快速转化为现实生产力,同时让工程实践和应用中遇到的问题及时反馈到理论研究中,实现真正意义上的产学研用协同发展。

  DeepSeek的突破证明,中国人工智能创新正在进入“第二曲线”。当技术演进从参数竞赛转向认知革命,我们有机会重新定义智能进化的轨迹。这场变革不仅需要技术勇气,更需要构建支持持续创新的生态系统。唯有如此,方能在智能时代的全球竞争格局中占据战略主动。

  作者蔡瑞初,系广东工业大学计算机学院教授、博导,数据挖掘与信息检索实验室主任

编辑:王沛容   责任编辑:王萍  
回到首页 南方网二维码 回到顶部

南方报业传媒集团简介- 网站简介- 广告服务- 招标投标- 物资采购- 联系我们- 法律声明- 友情链接

本网站由南方新闻网版权所有,未经授权禁止复制或建立镜像 广东南方网络信息科技有限公司负责制作维护

违法和不良信息举报电话:020-87373397 18122015068

ICP备案号:粤B-20050235