DeepSeek冲击(含本地化部署实践)

京东云开发者
• 阅读 178

作者:京东零售 姜海

DeepSeek无疑是春节档最火爆的话题,上线不足一月,其全球累计下载量已达4000万,反超ChatGPT成为全球增长最快的AI应用,并且完全开源。那么究竟DeepSeek有什么魔力,能够让大家趋之若鹜,他又将怎样改变世界AI格局和我们的生活,本篇文章将进行简要解析。

DeepSeek与ChatGPT对比

说到人工智能就不得不提OpenAI和ChatGPT,这是绕不开的话题,要分析DeepSeek的实力,最简单的方式就是跟ChatGPT进行对比。

模型分类

ChatGPT目前有两种大模型,分别是面向普通用户,解决日常应用问题的4-OMNI,以及面向专业用户,处理深度思考问题的O1,DeepSeek与之对标的分别是V3模型以及R1模型。

DeepSeek冲击(含本地化部署实践)



实用效果

据我目前的使用体验下来,DeepSeek的实际体验效果完全不输ChatGPT,甚至在解决数学、物理和推理问题方面表现出色,响应速度比ChatGPT还要快,且能够完整地展示其思考和给出答案的过程,例如最经典的,让绝大多数AI翻车的“1.11和1.9谁大?”的问题,ChatGPT给出的回答是:

DeepSeek冲击(含本地化部署实践)



前言不搭后语,而反观DeepSeek:

DeepSeek冲击(含本地化部署实践) DeepSeek冲击(含本地化部署实践)

DeepSeek冲击(含本地化部署实践)

DeepSeek冲击(含本地化部署实践)



可以看到DeepSeek不仅给出了正确答案,而且展示了详细的解题思路,甚至有最后的验证。我也测试了许多其他的问题,DeepSeek完全不拉垮,相对于ChatGPT,他在中文领域的问题理解和处理更加到位,使用体验非常好。

这无疑也使得苹果公司柳暗花明又一村,为弥补apple intelligence上在中国区无法使用ChatGPT提供了完美的解决方案。

成本

成本分为两部分:硬件成本和训练成本。AI大模型构建算法绝大部分都是基于公开的论文,所以市场上的大模型,底层逻辑都大同小异,训练数据也来自于互联网,所以主要的成本体现在硬件上,也就是提供AI算力的芯片,自从AI大爆发以来,大家的共识就是堆砌的芯片越多,大模型的表现就越优秀。我先简单介绍一下为什么提升AI的性能就要堆砌大量的芯片。

AI算力的芯片领域是英伟达(Nvidia)一家独大,芯片价格非常昂贵,目前该公司最先进的B200芯片单张的价格就高达4万美金,而且对于AI公司来说你还必须买,因为芯片的产能有限,如果你不抢就会被竞争对手买走,导致你的大模型算力不如他的。

DeepSeek冲击(含本地化部署实践)

英伟达公司为自家的芯片研发了一种叫CUDA的核心的技术,其全名叫做Compute Unified Device Architecture(统一计算设备架构)。

 DeepSeek冲击(含本地化部署实践)



这是一种并行计算平台和编程模型。开发者通过它,可以间接利用GPU的处理能力,大幅提升计算性能。简单的说,CUDA核心就像是一间间的海水提纯工厂,它可以把如海洋般的GPU算力转换成AI开发者可以直接使用的AI算力,越多的CUDA核心数量就意味着更大的AI算力。

DeepSeek冲击(含本地化部署实践)



这也就是为什么AI行业越发展,芯片的需求量越大,英伟达的市值就越高。美国也多次通过英伟达“锁算力”以及限制芯片出口,阻碍中国的AI发展。AI行业的发展被一家公司扼住喉咙的现象显然极度不合理,英伟达可谓是真正的万恶之源。

OpenAI不受限制,所以囤积了大量的英伟达芯片,训练ChatGPT据传用到了5万张英伟达的芯片,而DeepSeek作为中国公司,在这方面相比自然相去甚远。

DeepSeek冲击

由于CUDA技术被英伟达牢牢掌握,所以间接提高了所有AI大模型的使用成本,阻碍了AI的发展。以ChatGPT为例,4-OMNI和O1两个大模型的研发成本高达数十亿美金,免费用户使用有诸多限制,付费用户每月20美金,专业用户每月200美金,如果企业想要接入OpenAI的人工智能服务,调用API做客服等用途,则更是按字符收费,虽然比人工客服省钱,但也是一笔不小的开销。这些收入中,绝大多数都是用来平衡购买芯片带来的巨大成本。

DeepSeek之所以引起全球瞩目,就是因为他在“芯片”受限的前提下,达到了与ChatGPT近似的使用体验,甚至在某些领域还远远超过了。OpenAI和它的母公司微软囤积了大量的高端芯片,而DeepSeek手里的芯片,不论从数量还是质量上都不占优势,甚至可以说远远落后。

在深度解析DeepSeek开源的模型代码之后,研究人员发现,DeepSeek之所以能够绝地反击,秘诀就在于他绕过了CUDA核心的限制,使用了完全创新的技术训练大模型,直接利用英伟达的底层技术调用了GPU的算力,相当于能直接使用如大海般的GPU资源,所以才能使用低端的芯片,在极短的时间内完成了模型的训练,达到了与ChatGPT近似的效果。

而且此技术成功解除了AI模型对英伟达芯片的依赖,使DeepSeek可以使用华为的芯片进行训练。DeepSeek服务调用的费用只有ChatGPT的十分之一,具有非常高的性价比和广阔的应用前景。

整体来说,DeepSeek用了很少的钱,很低端的工具,就把美国投入上百亿美元的事给办了。自从DeepSeek爆火之后,市场普遍认为英伟达的芯片估值过高,要实现高性能的AI并不需要如此之贵的芯片,最高端的芯片也并不值那个价钱,这直接导致英伟达的股价当天就暴跌17%,创造了美国股市历史上单日最大跌幅,截至目前英伟达市值蒸发近6000亿美元。

技术曝光的第二天,英伟达,微软和亚马逊的计算平台都宣布接入DeepSeek模型,堪称AI界的“斯普特尼克时刻”,就如同当年苏联率先成功发射人造卫星时一样,让一直以为自己在技术上遥遥领先的西方世界陷入了一片混乱,世界AI市场的格局就此改变。

本地化部署R1模型

DeepSeek虽然好,但是用过的同学都知道他有个致命的问题,就是万恶的资本主义经常组织针对DeepSeek的网络攻击,导致使用时出现“服务器繁忙的问题”。

DeepSeek冲击(含本地化部署实践)



为了避免被攻击,降低延迟和卡顿,规避共享敏感信息的风险,同时更灵活的进行微调和实验,我们可以把R1模型部署到本地。

安装Ollama

首先登陆Ollama官网:https://ollama.com/。打开官网,然后点击下载,之后安装到本地。

DeepSeek冲击(含本地化部署实践)

拉取 DeepSeek R1 模型

然后打开Ollama 的模型列表: https://ollama.com/library/deepseek-r1 ,搜索到DeepSeek R1:

DeepSeek冲击(含本地化部署实践)



显卡需求

各个模型版本需求的显卡档次大致如下表

模型(DeepSeek-R1) 显卡档次 显存需求
1.5b GTX1050以上 1GB
7b RTX2050、RTX3060以上 4GB
8b RTX2060、RTX3070以上 5GB
14b RTX3080、RTX4070以上 8GB
32b RTX4080以上 18GB
70b RTX4090、RTX5080以上 36GB以上

我们普通的电脑安装1.5B,7B就可以使用,然后在【右上角的的代码】复制,打开终端,输入上述下载命令回车后,会出现模型下载进度,当进度为100%就说明该模型已经下载到本地了。

DeepSeek冲击(含本地化部署实践)



输入ollama list可以查看安装的模型。

DeepSeek冲击(含本地化部署实践)



此时已经可以在控制台使用R1模型进行问答了。

包装GUI

只能在命令行中使用既不美观也特别的不方便,所以我们可以使用现成的GUI进行包装,相当于包上图形用户界面。这里以Cherry Studio为例,下载对应版本后打开。

DeepSeek冲击(含本地化部署实践)



在设置中选择模型服务,选中Ollama

DeepSeek冲击(含本地化部署实践)

填入对应的本地模型信息:

DeepSeek冲击(含本地化部署实践)



然后就可以使用了!希望本篇文章能够帮到大家!

点赞
收藏
评论区
推荐文章
京东云开发者 京东云开发者
1个月前
硅基流动+Cherry Studio‘0天然全科技’快速搭建DeepSeek满血版
作者:京东物流刘红妍一、前言近期DeepSeek如此火爆,全民跃跃欲试,奈何频繁的【服务器繁忙,请稍后再试】,让探索的路上体验不佳。前驱力量紧接着发布【如何本地化部署DeepSeek】的指导,尝试过程中苦于自己电脑的硬件条件,运行7B/14B的结果确实让人
京东云开发者 京东云开发者
1个月前
云电脑:快速部署无限制、可联网、带专属知识库的私人 DeepSeek 大数据模型
作者:京东云李凯在当下的科技领域,DeepSeek无疑是一颗耀眼的明星,近期关于它的话题热度持续飙升,引发了无数技术爱好者和行业从业者的热烈讨论。大家纷纷被其强大的大数据处理能力和广泛的应用前景所吸引,急切地想要深入探索和使用这一先进的模型。然而,当人们满
京东云开发者 京东云开发者
1个月前
🧐 DeepSeek-R1原理解析及项目实践(含小白向概念解读)
作者:京东零售王加伟一、概念解读(小白向)我们打开deepseek官网,会发现对话框之下:有两个按钮,那他们的含义如何理解🤔?最近爆火的deepseek究竟指的是哪个模型?深度思考R1与联网搜索的作用?接下来对常用概念做一些入门性质的介绍:1、联网搜索:
京东云开发者 京东云开发者
1个月前
有了DeepSeek等AI大模型,人人都能当医生吗?
作者:京东健康王付刚春节期间,DeepSeek的爆火无疑让大家对AI大模型有了全新的认识和体验。与其他大模型不同之处,DeepSeek不仅提供答案,还输出推理过程,这一功能引起了大家的震惊和担忧。在日常生活中,相信大家习惯于通过百度搜索、浏览小红书或者观看
四大核心优势,多场景覆盖,息壤智算一体机-DeepSeek版强势来袭!
DeepSeek持续爆火,引发国产AI技术蓬勃发展的浪潮,天翼云作为云服务国家队迅速响应,将产品与DeepSeek模型深度融合,促进国产AI生态闭环,加速AI应用普惠。
打工人最强福音上线!AOne终端全面接入DeepSeek大模型!
DeepSeek深度融合国产AI生态,国云连放大招!继天翼云多款产品上线DeepSeek后,见证企业级智能办公的时刻来了!天翼云AOne联合国产大模型王者DeepSeek带着671B满血版、70B版杀进职场了!
京东云开发者 京东云开发者
1个月前
Spring AI接入DeepSeek:快速打造微应用
作者:京东科技张新磊背景随着DeepSeekR1的官宣开源,DeepSeek迅速成为AI领域的热门话题,吸引了大量开发者和研究者的关注。这一开源举措不仅推动了技术的普及,也促使更多企业和机构加入到开源生态中。例如,国内大厂X度于2月14日宣布将在未来几个月
京东云开发者 京东云开发者
1个月前
DeepSeek免费福利限时开启,AI界的“薅羊毛”机会来了!
作者:京东科技张新磊背景最近一直在关注deepseek的动态,现在看到一则好消息,分享给大家;国家超算中心目前上线了deepseek且免费调用DeepSeekR1:7B、DeepSeekR1:14B、DeepSeekR1:32B三个模型,具体操作如下操作步
数字先锋 | AI+政务,轻松跨语种!霍尔果斯政务服务升级蜕变
今年,义乌国际商贸城的一家袜子店火爆全网,商家通过搭载DeepSeek模型的AI视创工具,只需录制中文口型视频,即可通过系统自动生成阿拉伯语、西班牙语等多语种带货视频,将袜子生意做到了世界各地。在全球化与数字化深度交织的今天,DeepSeek凭借自然语言处
DeepSeek分析DeepSeek App
一、目标山中方一日,世上已千年。Chatgpt的喧嚣感觉还在昨天,DeepSeek已经迎面而来。今天我们就在DeepSeek的帮助下来分析DeepSeekAppPOSThttps://chat.deepseek.com/api/v0/chat/comple