WSJ: DeepSeek与OpenAI的AI模型究竟有何不同?

美股资讯评论163阅读模式

WSJ: DeepSeek与OpenAI的AI模型究竟有何不同?

很难不拿中国AI初创公司DeepSeek的新AI模型与占据龙头地位的美国竞争对手OpenAI相比较。

DeepSeek声称其最新的AI模型R1尤其擅长解决问题,在性能上与OpenAI的o1推理模型不相上下,但每次使用的成本却低得多。DeepSeek的一款应用程序目前在美国iPhone下载排行榜上名列榜首。

但正如DeepSeek和OpenAI是截然不同的两家公司,R1和o1也是两种不一样的技术。以下是这两种技术在五个方面的异同点。

《华尔街日报》(The Wall Street Journal)母公司新闻集团(News Corp)与OpenAI有内容授权合作关系。

DeepSeek的工作原理

《华尔街日报》此前报道,DeepSeek减少了训练模型所需要的数据处理量,不仅利用了自己的发明,还采用了其他受限的中国AI公司所采用的技术。

除了减少数据处理量(这压缩了大量的训练时间和计算成本),DeepSeek还使用一种名为“专家混合”(mixture of experts)的技术。DeepSeek和其他一些AI开发人员的做法类似于将问题交给特定领域的专家。每个专家需要的训练量都比较少,从而减轻了芯片同时处理所有任务的压力。

“他们采用的技术本身并不新鲜,但他们在如此大的规模上应用这些技术,并且如此坚信这些技术,这是很新颖的,”基于AI的互联网隐私平台Loti AI的首席执行官卢克·阿里戈尼(Luke Arrigoni)说。

DeepSeek采用的方法在用户向AI模型提问前需要更少的时间和算力,但在回答问题时需要更多的时间和算力。AI初创公司Fireworks AI的首席执行官兼联合创始人Lin Qiao表示,这个模型通过“思维链”(chain-of-thought)推理来展示自己是如何得出答案的,能一步一步地更好地完成一项复杂任务。

Lin Qiao说,OpenAI的o1模型也使用了思维链推理,但没有向用户展示背后的步骤。她还说,DeepSeek模型产生的推理可以用来训练更小的AI模型,这让其更进了一步。

o1和DeepSeek的R1都能完成所谓的“推理”任务,比如撰写商业计划书或创建填字游戏。

性能

DeepSeek背后的研究人员表示,他们用R1与OpenAI的一些顶级AI模型进行了测试,发现R1非常有竞争力。这些评估中包括由OpenAI开发的一项测评,让AI模型自行完成计算机编程任务,比如修复软件漏洞。

R1的性能与OpenAI的o1相当,优于名为o1-mini的早期模型。

Lin Qiao说,开源社区的成员已经创建了一个小得多的R1版本,可以在手机和平板电脑上使用。

一些用户表示,R1的写作和解决问题的能力令人惊叹。但他们也指出,在解决某些特定类型的问题方面,该模型的表现不如OpenAI的o1等竞争对手。

OpenAI首席执行官阿尔特曼(Sam Altman)周一在X上发帖称,R1是“一款令人印象深刻的模型,特别是考虑到能以这个价格交付产品”。他还表示,出现一个新的竞争对手令人振奋,他的公司将提前发布一些产品。

成本

DeepSeek宣称自己以更低的成本实现了与OpenAI相媲美的结果,而且没有使用性能最高的芯片。Bernstein Research分析师斯泰西·拉斯贡(Stacy Rasgon)在一份研究报告中表示,据估计,DeepSeek在训练一个早期模型时只用到价值约500万美元的芯片,但这忽略了其研发过程中的研究和实验成本。

目前尚不清楚DeepSeek在更先进的R1模型上使用了多少算力。

相比之下,OpenAI表示,训练GPT-4模型的成本超过1亿美元,而未来的AI模型预计将耗费10亿美元以上。

根据公开和非公开估算,对OpenAI下一个模型GPT-5来说,仅计算成本一项,六个月的训练就可能花费约5亿美元。

隐私和安全

DeepSeek最新的旗舰模型V3的用户注意到,有关中国及其领导人习近平的敏感政治问题被拒绝回答。在某些情况下,这款产品的回应符合中国政府的宣传,而不是像ChatGPT那样包含政府批评者的观点。

不过,R1可以免费下载和使用,因此一些用户觉得在自己公司的服务器或美国公司托管的服务器上使用会更放心。AI初创公司Liner的首席执行官卢克·金(Luke Kim)表示,该公司愿意使用DeepSeek的R1,因为它是开源的,而且更换AI模型很容易。

相比之下,OpenAI表示自己采用一种“新的安全训练方法”,强制其o1模型遵守该公司的准则。OpenAI表示,该公司希望避免AI模型被“越狱”,并与美国和英国的AI安全机构签署了正式协议。AI模型越狱指的是操纵模型或试图绕过其安全控制。

开源与专有

DeepSeek已发布了R1模型背后的“权重”(数值参数),供公众免费使用、下载和修改,但没有发布其背后的训练数据,导致一些人认为其模型也并非完全“开源”。

这家中国公司发布了一份报告,详细介绍了自己是如何训练模型的。AI专家表示,这有助于开发人员破译DeepSeek是如何实现创新的。

发布模型权重也意味着开发人员可以下载模型来使用。运营开源模型共享平台的Hugging Face表示,其社区创建的R1模型已被下载了320万次。

与DeepSeek不同,OpenAI的o1是专有的,意味着消费者和企业要付费才能使用其模型和服务。虽然一些公司更喜欢使用专有技术,因为经过了创建者的审查,并内置了网络安全控制,但另一些公司更喜欢开源技术,因为更容易定制和控制。

文章末尾固定信息

meigu
  • 本文由 meigu 发表于 2025年1月31日14:34:01
  • 转载请务必保留本文链接:https://www.mgwz.com/389.html
匿名

发表评论

匿名网友
:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:
确定

拖动滑块以完成验证