外媒推测 DeepSeek R2 发布计划受阻,因 CEO 梁文峰对性能不满

6 月 26 日——中国人工智能初创公司 DeepSeek 尚未确定其 R2 模型的发布时间,因 CEO 梁文峰对该模型的性能不满意,The Information 于周四报道,援引两位知情人士的消息。

R2是DeepSeek广受欢迎的R1推理模型的继任者,原计划于5月发布,目标是提升编码和在英语以外语言中的推理能力, 今年早些时候曾报道。

过去数月,DeepSeek的工程师一直在对R2进行优化,直至梁博士批准发布,据《The Information》报道。

报告称,DeepSeek已与部分中国云公司联系,向其提供技术规格以指导其在服务器上部署和分发该模型的计划。

《The Information》称,目前使用R1的云客户中,大多数正在使用Nvidia的H20芯片运行该模型。

特朗普政府4月实施的新出口限制措施已阻止Nvidia向中国市场销售其H20芯片——这是当时该公司唯一可合法出口至中国的AI处理器。

148 Responses to 外媒推测 DeepSeek R2 发布计划受阻,因 CEO 梁文峰对性能不满

  1. teruakohatu says:

    文章标题为《DeepSeek R2 发布受阻,因 CEO 对进展持保留态度》,但文章正文中指出发布受阻的原因是由于出口限制导致的 GPU 容量不足,而非进展不足。文章正文中甚至未提及“进展”一词。

    我无法想象R2的需求会比R1更高,除非它有重大突破。也许R2会是一款更大、性能更低、价格更高的型号?

    Deepseek可以在美国或欧盟的数据中心部署……但那将意味着承认失败。

  2. wizee says:

    他们最近发布了r1-0528模型,相较于原始R1模型实现了重大升级,其性能已与当前最佳的西方专有模型大致相当。让他们慢慢开发R2吧。

    • A_D_E_P_T says:

      目前我使用的模型仅限于o3/o3-pro和R1-0528。OpenAI模型在处理数据和进行推理方面更出色,而DeepSeek模型在处理文本本身方面更擅长——即适用于所有写作和编辑任务。

      有了这个组合,我没有理由使用Claude/Gemini进行任何任务。

      人们没有意识到新Deepseek模型有多好。

      • energy123 says:

        我使用R1-0528生成Python代码的体验很糟糕。但当时我设置的上下文长度为100k令牌,这可能是原因。它在lmarena代码排行榜上的表现还不错,那里上下文长度较短。

        • diggan says:

          如果可能的话,我很想看看涉及的系统/用户提示。

          个人而言,我让它生成的代码与我手动编写的代码相同,显然我认为这是可用的代码,但似乎他人的体验与我相差甚远,因此好奇原因何在。我已对系统提示进行了大量迭代,可能问题就出在这里。

          • Workaccount2 says:

            我使用Gemini的主要原因是它在100k上下文长度下仍能完成任务。其他模型在3万上下就开始表现疲软,到5万时完全无法工作。

            • diggan says:

              我避免使用Gemini(以及我尝试过的所有谷歌模型)的主要原因是我无法让它们生成与我手动编写相同的代码,而OpenAI的模型则相对容易实现。

              模型中似乎存在某种更深层的机制,可以通过系统/用户提示进行引导/编程,但不知为何仍会生成质量低劣的代码。或者我尚未找到正确提示谷歌模型的方法,这也可能是原因,但同样的提示方式对OpenAI、Anthropic等模型有效,我不确定该如何解释。

              • brokegrammer says:

                我使用Gemini时也遇到了相同的问题,当上下文长度超过约5万字符时,它开始输出质量极差的随机代码,即使给出明确指令也是如此。它经常混淆各种API。我花了很多时间通过少量示例反复指导它不要编写此类代码,但似乎毫无效果。它似乎变得“困惑”了。

                较长的上下文长度是一个巨大优势,但似乎无法有效利用它。您认为OpenAI模型是否不存在这个问题?

            • JKCalhoun says:

              对我来说是新概念:更多的上下文是否更糟?是否存在一个理想的上下文长度,其分布类似于钟形曲线或其他形式?

              • diggan says:

                对我来说是个新问题:更多的上下文会更糟糕吗?

                是的,绝对如此。对于我使用和/或测试过的每个模型,即使在上下文限制范围内,上下文越多,输出结果就越糟糕。

                当我使用聊天 UI 时(诚然,我越来越少使用了),我绝不会让聊天超出我的消息和 LLM 的一个响应。如果回复有问题,我会分析需要修改提示词的内容,然后重新开始聊天/编辑第一条消息并重新尝试,直到成功。每次我尝试用“不,我的意思是……”或“很好,现在改成……”这类方式时,回复质量都会急剧下降。

          • tazjin says:

            您使用的是DeepSeek托管的R1模型,还是自定义模型?

            已发布的模型附有强烈建议,要求您完全不要使用系统提示,所有指令都应以用户消息形式发送,因此我只是好奇您是否使用系统提示以及使用体验如何。

            也许托管服务会透明地将系统提示转换为用户消息……

            • diggan says:

              > 您使用的是DeepSeek托管的R1版本,还是自定义版本?

              主要使用托管版本。

              > 已发布的模型中有一个注释,强烈建议不要使用系统提示

              我认为这已过时,新版本(deepseek-ai/DeepSeek-R1-0528)的README中包含以下内容:

              > 与之前版本的DeepSeek-R1相比,DeepSeek-R1-0528的使用建议有以下变化:现在支持系统提示。

              之前的版本虽然建议将所有内容放在用户提示中,但似乎仍可通过系统提示进行引导/编程,只是效果可能不如其他模型显著。

              但除此之外,系统提示(显然也包括用户提示)的使用非常频繁。

  3. Aeolun says:

    当中国不可避免地推出自有竞争芯片时,Nvidia 的股价将大幅下跌。不过我对他们不直接授权并大量生产 AMD 芯片感到困惑。Nvidia 目前领先,但优势并不像想象中那么大。

    我的消费级AMD显卡(7900 XTX)性能超越了我之前使用的价格高出15倍的Nvidia服务器芯片(L40S)。

  4. KronisLV says:

    我好奇如果CPU和GPU的供应链在全球范围内更加分散,情况会有多不同:如果我们处于这样一个阶段,即硬件模型(编辑:指硬件,我之前用词不当)在欧盟以及世界其他地区开发和生产。

    也许那时我们就不会受制于英伟达的意愿(在购买其显卡和成本方面存在问题,而英特尔试图通过其Pro系列显卡解决这个问题,但最终软件支持更差,以及进口成本),也不会受制于某个特定政府。我不知道我们是否能生活在这样的世界中。

    • diggan says:

      > 如果我们处于这样一个阶段,即模型在欧盟以及世界其他地区开发和生产。

      但目前已有模型在美國以外地區開發和生產,包括亞洲和歐洲。當然,看到更多來自南美洲和非洲的模型會很酷,但競爭舞台已不再僅限於美國,特別是在開放式API(這似乎更像是「全球利益」而非封閉式API)方面,美國已遠遠落後。

      • ignoramous says:

        > 在开放权限(这似乎比封闭API更具“全球效益”)方面,美国已远远落后。

        Llama(不考虑v4)和Gemma(尤其是v3)在我看来并不算“远远落后”……

        • diggan says:

          > Llama(不考虑v4)和Gemma(特别是v3)在我看来并不算落后太多…

          虽然 Llama 确实很出色,并且无疑为生态系统的发展奠定了基础,因此功劳应归功于它,但这两个项目都存在“开放但不完全开放”的问题,因为它们附带了大量“可接受使用”文档,明确规定了用户可以对权重模型进行哪些操作,而中国同行则直接为权重模型贴上开源兼容许可证的标签,就此了事。

          我们可以讨论这种做法是否最佳,甚至在考虑其训练数据的(可能)来源时是否合法,但最终结果依然不变:中国公司正在进行开源发布,而美国公司则采取了更类似于BSL/混合开放发布的方式。

          当某家公司的法律部门将模型+权重称为“专有”时,而其市场部门继续将同一模型+权重称为“开源”,这应该能说明一些问题。我知道在这两者中,我更信任哪一方的准确性。

          我猜这就是为什么我认为美国公司落后于中国公司,尽管他们确实发布了“某些东西”。

          • cesarb says:

            > 这两者都存在“开放但不完全开放”的问题,因为它们附带了大量“可接受使用”文档,详细规定了用户可以和不可以对权重模型进行的操作

            更糟糕的是,“可接受使用”文档是一个独立的网页,可以随时更新。没有任何机制能阻止它被更新为“公司X不再被允许使用这些权重模型”。

            这些中国和欧洲模型的“FOSS兼容”许可证是独立的,不会突然发生变化。它们也没有“使用范围”限制,并且由于实际上是将传统的FOSS许可证应用于略显特殊的对象(它们最初是为源代码设计的,而非大量数值数据),因此已经广为人知,从而降低了出现意外问题的风险。

  5. b0a04gl says:

    这延迟肯定不是因为GPU,哈哈。DeepSeek可能已经准备好R2了。R1-0528已经把期望值抬得太高了。如果R2表现平平,人们就会开始怀疑。

    或者

    谁知道呢,也许他们只是在悠闲地看着西实验室如何烧钱,让评估指标发生变化。然后在OAI/Claude信任度曲线略微下降时推出R2

  6. rsanek says:

    “极受欢迎”?或许发布时确实引起了很大兴趣,但如今还有谁在使用R1呢?我之前通过Perplexity使用过它,但O3/Gemini Pro模型要好得多,我很少再去阅读它的回复。

    根据OpenRouter https://openrouter.ai/rankings?view=month的排名,它甚至不在前十名。

    • pama says:

      V3在你的列表中排名第5。R1-0528(免费)排名第11,R1(免费)排名第15。Openrouter将免费版本(在你分享的前20名列表中)与付费版本(排名更靠后)的V3和R1分开统计,当然它也不计算直接连接到服务商的实例,或是各种自建解决方案(包括许多在敏感领域工作的公司,其中不乏我的朋友)。

  7. spaceman_2020 says:

    坦白说,AI 进展因这些出口限制而受阻。一个能与 Gemini Pro 2.5 和 o3 竞争的开源模型对世界有利,对 AI 有利。

  8. lossolo says:

    [delete]

    你可以购买任何你想要的东西。出口管制基本上是虚构的。试图阻止全球贸易就像试图用赤手空拳阻止一条河流。

  9. numair says:

    > 《信息》周四报道,援引两位知情人士的消息。

    我怀念过去的新闻业,那时他们可能会觉得有必要让读者知道,他们的间接消息来源几乎完全由一位为成为DeepSeek主要竞争对手(Meta)老板的密友而拼命工作的人所创造的财富资助。

    为那些从《信息》获取新闻却缺乏这一关键背景信息的人感到遗憾。

    • gwern says:

      我认为TI与FB的利益冲突并不广为人知。我本人直到最近才得知此事。你可以与许多人讨论这类问题,却无人指出这一点。

      • numair says:

        完全同意。我认为,Facebook在美国风险投资领域的影响力,尤其是其已全面渗透大多数基金的有限合伙人(LP)和普通合伙人(GP)层级,是一个更大且更重要的故事。这让我深刻意识到,我们必须努力保持全球其他资本市场的自由与开放——这是我当前工作的重点。

        你永远无法预知《信息》不会报道哪些故事,或是哪些“负面”文章实际上是转移视线的手段。同样,你永远不知道哪些令人惊叹的初创公司被排除在融资之外,而许多创业者对融资轮次和“一夕成名”背后暗箱操作的程度一无所知。

        像我这样的HN上的普通人本不应成为这些信息的来源。希望有人能挺身而出,但我们正处于一个令人震惊的懦弱时代。

    • Voloskaya says:

      我怀念HN评论区过去的日子,那时评论者可能会直接告诉读者他们在谈论谁,而无需解开一个六步谜题。

  10. jekwoooooe says:

    唉,这次他们不能再非法获取一批GPU,然后直接用OpenAI的输出结果训练模型了。R1被炒得太过了

  11. qwertox says:

    “我们难以访问OpenAI,我们的数据提供商。”/s

    • jamesblonde says:

      传闻称DeepSeek使用了OpenAI推理模型(当时为o1)的推理步骤输出,来训练DeepSeek的大型推理模型R1。

      • orbital-decay says:

        这更像是Altman在没有证据的情况下直接(且极具争议性)的指控。事实上,这两个模型几乎没有任何共同点,而且o1推理链本身也无法获取。

      • dachworker says:

        也许他们也这么做,但我处理的是一类其他模型尚未攻克的问题*,除了R1之外,至今仍无人能解。

        请记住,DeepSeek是某对冲基金的分支机构,该基金早已广泛应用机器学习技术,因此他们可能拥有海量高质量数据集和源代码仓库用于训练。此外,他们可能还掌握了中国互联网领域更高质量的数据。

        * 当然我不会详细说明我的问题类别,否则我的基准测试将迅速失去实用性。我只说这是一个计算机科学本科水平的任务,需要相当多的推理能力。

      • WiSaGaN says:

        Deepseek在OpenAI之前就发布了思考轨迹,而不是之后。

      • msgodel says:

        我不这么认为。他们提出了一种新的强化学习算法,只是更好。

      • tw1984 says:

        OpenAI使用了整个人类拥有的所有可用文本来训练o1/o3。

        那又怎样?

    • astar1 says:

      我的猜测是,OpenAI在r1之后吸取了教训,为o3设置了o1没有的安全措施,因此导致了延迟。

      • ozgune says:

        我认为这种可能性不大。

        DeepSeek-R1 0528在AI质量基准测试中的表现几乎与o3相当。因此,要么OpenAI没有限制访问权限,要么DeepSeek并未使用OpenAI的输出结果,要么使用OpenAI的输出结果对DeepSeek的性能没有实质性影响。

        https://artificialanalysis.ai/?models=gpt-4-1%2Co4-mini%2Co3

        • astar1 says:

          几乎和O3一样好?有点像双子座2.5?我深入研究后,果然发现:https://techcrunch.com/2025/06/03/deepseek-may-have-used-goo

          我一点也不惊讶,中国将人工智能竞赛视为自身生存的绝对关键…

          • 轨道衰减 says:

            并非所有写下的内容都值得阅读,更不用说从中得出结论了。该基准测试每次运行时显示不同的结果,这应该能让你明白其中的问题。它还将grok-3-beta与gpt-4.5-preview归类在GPT家族中,使得前者看起来像是基于后者进行训练的。如果你查看发布日期,这显然说不通。此前它将gpt-4.5-preview归类为与4o完全不同的分支(这在某种程度上说得通,但现在情况不同了)。

            EQBench,同一作者的另一个“粗糙基准测试”,同样值得怀疑,他大部分工作也是如此,例如antislop采样器,试图以程序化方式解决一个NLP任务。

    • imiric says:

      如果这是真的,批评DeepSeek就显得虚伪了,因为OpenAI和其他该领域的所有主要玩家都在用他们能获取的一切数据训练模型,完全不考虑法律或道德问题。锅,认识一下壶吧。

    • nsoonhui says:

      我不太明白为什么你会被点赞,但OpenAI确实宣布他们正在调查Deepseek对他们输出结果的(滥用)使用,并且他们正在加强API访问者的验证,以防止滥用。

      对我来说,这似乎是一个合理的推测,尽管尚未得到证实。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注