DeepSeek 震撼全球,背后的原因是什么?
介绍
中国的 AI 企业 DeepSeek 通过发布与美国公司如 OpenAI 和 Anthropic 的最先进产品相媲美的高效 AI 模型,给科技行业带来了巨大冲击。成立于 2023 年的 DeepSeek,仅用少量资金和计算能力就达到了这些成就,相较于竞争对手显得尤为突出。
DeepSeek 的成就
V3 模型12 月,DeepSeek 发布了 V3 模型,这是一个非常强大的“标准”大型语言模型,功能水平与 OpenAI 的 GPT-4 和 Anthropic 的 Claude 3.5 相当。
尽管这些模型容易出错,有时还会编造事实,但它们可以执行回答问题、撰写文章、生成计算机代码等任务。在解决问题和数学推理测试中,它们的表现甚至超过了人类平均水平。
据报道,V3 的开发成本约为 558 万美元,这比 GPT-4 超过 1 亿美元的开发费用要低得多。
DeepSeek 声称使用了约 2000 个由 NVIDIA 制造的 H800 GPU 进行 V3 的训练,相比之下,其他公司可能使用多达 16000 个更强大的 H100 芯片。
R1 模型1 月 20 日,DeepSeek 发布了另一个模型 R1,这是一种所谓的“推理”模型,旨在逐步处理复杂的问题。这些模型在需要上下文、包含多个相互关联部分的任务(如阅读理解和战略规划)中表现出色。
R1 是 V3 的改进版,经过一种称为强化学习的技术修正。它似乎与去年发布的 OpenAI 的 o1 处于同等水平。
此外,DeepSeek 还利用相同技术创建了一个可以在家用电脑上运行的小型开源模型版本。
DeepSeek官网
www.deepseek.com1:文章:DeepSeek 震撼全球,背后的原因是什么?
2:链接:https://www.panxp.com/373.html
3:文章内容来源于网络,仅供大家学习与交流,如下载了本站中的任何资源,请于24小时内删除,如有侵犯您的权益,请发送邮件至silverornament@qq.com,我们会在24小时内删除处理。
4 本站一切资源不代表本站立场,不代表本站赞同其观点和对其真实性负责。
5 如您发现本站提供资源链接失效或有违规现象,请联系我们处理。





赶快来坐沙发