电话: 邮箱:
博 学 而 笃 志   切 问 而 近 思 SEEK BROAD KNOWLEDGE · ASK EARNESTLY

6686盘口

6686盘口

6686体育官方网站 DeepSeek塞进苹果本儿, 分币不花竣事“龙虾摆脱”

发布日期:2026-05-13 04:46 来源:未知 作者:admin 浏览次数:

6686体育官方网站 DeepSeek塞进苹果本儿, 分币不花竣事“龙虾摆脱”

在agent时间最贵的是什么?是token。

一些重度agent使用者,一个月用掉几亿token,账单小几万块钱亦然常有的事。

然而当今运转,有这样一个开荒者他开源了一个腹地有野心,一台苹果札记本就能部署,也便是说,你从此竣事了“龙虾摆脱”,跑再多任务,也不会再为token付出一分钱了。最重要的是,他用的如故DeeSeek V4 Falsh。

几天前,antirez在GitHub上发布了一个款式,叫ds4。

这是一个专诚为DeepSeek V4 Flash写的推理引擎。一共几千行C代码,不错让DeepSeek V4 Flash这个模子在128G内存的苹果电脑上跑起来。

开荒者antirez,真名Salvatore Sanfilippo,是意大利设施员,同期他亦然开源数据库Redis的原作家。Redis其后成为全球互联网基础设施里最常用的内存数据库之一。

往好的方面去思,DeepSeek影响力实足大,诱导到了圈内顶流的设施员,但是坏的方面是,DeepSeek这回简直免费了。

任何开荒者王人不错用ds4,去把DeepSeek V4 Flash装进我方的MacBook Pro里,腹地跑代码、腹地读潦倒文、腹地作念agent任务,而这一切的一切,不需要给DeepSeek付1分钱。

固然DeepSeek V4 Flash自己开源,可FP16精度的原始模子要吃掉284G内存,显存需求更是高达160G。

因此,思运行它,你至少得有两张英伟达A100 80GB、一条512GB DDR5 ECC内存,以及一个4TB NVMe SSD。总本钱50万东谈主民币。

而当今,一台3万块钱的MacBook Pro就能跑。

那antirez为什么偏巧选中DeepSeek V4 Flash呢?

原因是DeepSeek最符合被“塞进腹地电脑”。

它有284B总参数,实足大;但每次推理只激活13B参数,又不像传统大模子那样千里重。

它复旧100万token潦倒文,符合编程助手这种长任务;同期KV cache压缩得实足狠,给腹地内存和SSD留住了操作空间。

DeepSeek V4 Flash刚好站在了这样一个神奇的均衡点上,既大到值得折腾,又小到能被塞进苹果札记本里。

YC的CEO Garry Tan在X上转了这条音问,只打了一排字:正鄙人载……100万token潦倒文窗口,可用的编程助手才气,全在一台128GB的MacBook Pro上,太自便了。

01

ds4究竟是什么?

先说论断,ds4不是一个模子,它是一台“专用发动机”。DeepSeek V4 Flash是车,苹果电脑是路,ds4精致把这辆底本更符合跑在云霄的大车,改到腹地机器上能跑、能接API、还能被coding agent调用。

曩昔全球思在我方电脑上跑大模子,迢遥用的王人是llama.cpp这个器具。它的克己是什么模子王人能跑,Llama、Qwen、DeepSeek实足复旧。

可问题便是,什么王人能跑,就意味着什么王人跑不到最快。为了温存总计模子,llama.cpp必须作念许多调解,性能上不可能作念到极致。

antirez的思法正值相背,他才岂论别的模子存一火,他就专诚伺候DeepSeek V4 Flash这一个,把它优化到极限。

他一共作念了3件事。

第一件事,是永别称的2-bit量化。

DeepSeek V4 Flash的架构是MoE(Mixture of Experts),284B总参数里,每次推理只激活13B,这13B是路由挑出来的多少个巨匠子汇聚。

就像一个器具箱里有284把器具,每次只拿出13把来用。这284B内部,有一大堆“备选巨匠”占了90%以上的空间,但它们不是每次王人用,仅仅候补。

antirez的作念法是,只对这批routed experts作念激进的2-bit量化,up和gate矩阵用IQ2_XXS,down矩阵用Q2_K,而模子里所相重要旅途上的组件,包括shared experts、projections、routing汇聚,总计保持原始精度不动。

也便是说,antirez把这些“候补巨匠”狠狠压缩,压到只剩原来1/4的大小,但那些每次王人要用的中枢组件,一丝王人不动,保持原样。

这是一种永别称的压缩战略,砍掉体积大头,保住质地命根子。

第二件事,是把KV Cache搬到SSD上。

DeepSeek V4 Flash复旧100万token的潦倒文,这异常于你不错把一整本演义扔给它,它能全记取。

但这样长的潦倒文,意味着AI在责任时要束缚地回头翻看前边的内容。为了让这个“回头翻看”的当作不至于慢到卡死,AI需要把这些内容暂存在一个叫“缓存”的地方,简单随时调用。

以前的作念法是把这个缓存放在内存里。内存速率快,AI每次生成一个字王人要等闲查这个缓存,是以必须放内存。

但问题是,如果让128GB内存的MacBook Pro跑DeepSeek-V4 Flash,光缓存就能把内存吃光,模子自己王人没地方放了。

是以antirez的作念法是顺利把缓存扔到硬盘(SSD)上。ds4把一部分KV现象作念成可落盘、可归附的缓存,让长教唆词和agent反复续写时,不必每次从新惩处。

这听起来有点离谱,因为硬盘比内存慢多了。

滚球app中国官网下载入口

然而当代Mac SSD实足快,符合作念KV缓存经久化和归附。加上DeepSeek V4 Flash自己对缓存作念过压缩,读写量不大,是以硬盘完全顶得住。

扫尾便是内存省出来了,100万token的超长对话简直在一台MacBook上跑起来了。

不外这不等于128GB MacBook不错毫无压力地把100万token总计拉满。

按照ds4我方的诠释,2-bit模子自己仍是要占掉简略80GB级别的内存,实在普通使用时,100k到300k潦倒文会更试验一丝。

第三件事,是纯Metal原生旅途。

antirez把总计优化王人押在苹果电脑的GPU上。

因此他专诚为苹果芯片写了一套代码,让DeepSeek V4 Flash能在苹果电脑上跑得飞速。

至于CPU,并不是这个项指标重心。README里也写得很直白,CPU模式现时还不结识,以致可能触发系统崩溃。antirez进一步示意,6686体育官方网站如果有东谈主真思走这条路,后续简略还得靠社区来救援。

在M3 Max 128GB的MacBook Pro上,实测速率是每秒能生成26个字傍边。M3 Ultra 512GB的Mac Studio上能跑到每秒36个字。

不算快,但写代码、调试这些普通责任完全够用。

更有真理的是,antirez是独自一东谈主通过GPT-5.5完成的总计这个款式。

02

利好DeepSeek

阐明外媒报谈,DeepSeek现时正在寻求高达73.5亿好意思元的融资,梁文锋当今就处在这个重要的改造点上,用贸易叙事取代DeepSeek过往的时刻叙事。

那投资东谈主看什么?不仅仅看模子跑分,不仅仅看API调用量,更看生态位和不可替代性。

一个国外著明开荒大佬,自得为你的模子写专用引擎,这自己就诠释DeepSeek在国外有着一定的生态地位。

曩昔一年,中国开源模子的出海叙事里,主流揣摸尺度是benchmark,MMLU、HumanEval、SWE-bench,一串又一串的数字。

但有东谈主自得围绕你作念二次工程,才代表你的模子被招供了。Anthropic用千问作念实验,Cursor蒸馏Kimi,这种招供比分数更值钱。

antirez不是AI圈里那种什么新模子王人要试一遍的博主

他选一个模子,然后还要花几周的时分去写专用推理引擎、作念特制量化、搭HTTP职业层、作念agent集成测试,彰着是他认为DeepSeek值得。

这就变十分于,一个有信誉的第三方,在用我方的时分和名声给DeepSeek-V4背书。

说到国产模子出海,现时我能思到的路有两条。

一条是API被调用。你提供职业,别东谈主付费使用,你是service provider,客户是consumer。

这条路很顺利,也很试验,别东谈主不错随时切换,你时时刻刻王人得抵挡你的竞品,从性能到价钱。

另一条是模子被创新。有东谈主把你的权重拿走,作念量化、作念蒸馏、作念专用runtime、作念腹地部署、作念agent器具链。在这条路里,你的模子成了材料。

材料和职业的区别在于,材料会被镶嵌到别东谈主的器具链里,然后就很难被换掉了。

举个例子,某个开荒者把ds4集成到我方的coding agent里,写了一堆建立文献、调试剧本、自动化进程。他的团队成员也王人习尚了这套器具,公司的代码库里到处王人是基于DeepSeek腹地推理的调用。

这时候如果要换成别的模子,就不是“改个API key”那么毛糙了,而是要再行适配引擎、重写剧本、再行培训团队习尚。本钱太高,简略率就不换了。

这便是“被镶嵌”的粘性。

ds4把DeepSeek V4 Flash嵌进了Metal原生腹地推理这个场景。终结发稿,Hugging Face上antirez阿谁deepseek-v4-gguf仓库,就仍是有25000次下载了。

每一次下载,王人意味着有东谈主在我方的机器上跑起了DeepSeek,粘性也就这样一丝一丝的种植起来了。

更值得正经的是连锁效应。

Hacker News上有这样一条高赞驳斥,他说如果以后针对精准的GPU加模子组合构建超优化推理引擎会怎样?GPU越来越贵,玄虚层去掉得越多,优化空间就越大。

这个地方一朝被考证,意味着每一代有重量的开源模子发布时,王人会有东谈主跳出来给它作念专属引擎、专属量化、专属agent接入。

异常于是每一代模子王人应该有一个我方的“antirez”,开荒出一个我方的“ds4”。

DeepSeek V4 Flash正值踩在了这个起初上。

如果这套逻辑缔造,那么后续每个V4 Flash的小版块迭代,王人会自然地被镶嵌到这个“一代模子配一个专用引擎”的轮回里。

梁文锋成了第一个吃螃蟹的东谈主。

DeepSeek也从一个模子品牌,酿成国外开荒者手里的基础设施材料。

关于现阶段的DeepSeek来说,这种“升维”异常过错。

03

塞翁失马

讲完毕利好,必须讲另一面。

现时来看,DeepSeek的中枢贸易化旅途是API。开荒者调用,按token付费,薄利多销。

这是DeepSeek最擅长的布置。

但ds4这种款式,本体上是在“劝退”一部分API用户。

你不错这样来剖释,一个寂寥开荒者或者小团队,曩昔用Claude Code或者DeepSeek的API跑coding agent。coding agent是高token消费场景,长潦倒文、多轮对话、等闲器具调用、反复重试。

按token计费的话,一个重度agent的开荒者每个月可能要花几千块钱的token用度。

然而当今他眼前出现了另一个选项。

花几万块钱买一台128GB的MacBook Pro,然后跑ds4。

前期进入一次,之后推理莫得边缘本钱,数据不出腹地,延伸完全可控。

外网论坛上有个开荒者共享了他的方法:普通写代码、改bug这些毛糙任务,全扔给腹地的ds4跑,毋庸钱。只须遭受复杂的架构联想问题,才切换到云霄的DeepSeek V4-Pro或者Claude Opus。

高token消费的部分被腹地化了,只须少许高价值调用还留在云霄。

异常于一分钱莫得给到DeepSeek,却在绝大无数时分王人在使用DeepSeek。

同期,antirez经受的量化方法亦然有“坑”的。

即使是永别称量化战略,只压MoE巨匠不压重要旅途,也不可能完全莫得质地亏损。

外网论坛上仍是有东谈主发出了测试扫尾,ds4腹地量化版块在超2000行代码的文献里偶尔丢失变量作用域,幻觉略多,MoE路由层对量化噪声尤其敏锐。

这就引出了另一个更阻隔的问题,叫作念体验讲授权。

就像DeepSeek职业器崩了,我不知谈是为什么崩的,我只会认为是DeepSeek不行。

用户调用DeepSeek官方API,如果成果不好,他简略率会认为是DeepSeek我方的问题。但用户在腹地跑ds4时,面临的是2-bit量化、Metal runtime、SSD KV cache、潦倒文截断、agent建立等一整套变量。

这内部任何一个体式出问题,临了频频被归因到“DeepSeek不行”。

别东谈主帮你扩散模子,但他并不会帮你去珍爱口碑,主如果东谈主家也没这义务。

更深一层看,“成为材料”和“成为平台”是完全不同的两件事,梁文锋更思要的是后者,然则ds4却让DeepSeek成为了前者。

材料只会被镶嵌别东谈主的器具链,不成为DeepSeek提供贸易闭环,只须平台才掌合手分发、计费、账户、数据、开荒者联系和升级节律。

DeepSeek如果仅仅提供权重,被antirez、Cursor、多样腹地agent和第三方runtime拿去创新,它自然获取了名声。不外实在能留住用户的东谈主,可能是那些器具链的开荒者。

这便是开源模子的悖论。

模子越告成,越容易成为别东谈主的底层才气;但底层才气如果莫得收拢开荒者的进口,就有可能被表层居品吃掉大部分贸易价值。

是以ds4对DeepSeek不是毛糙的好音问,也不是坏音问。

不错确定的是6686体育官方网站,关于DeepSeek来说,他们又有故事不错讲给投资东谈主听了。