给人的印象是,经营尖端的聊天机器人需要一个价值数十亿美元的GPU?想一想。AI Tools Outfit Huggingface的工程师Matthew Carrigan声称 ,您只需6,000美元的PC硬件即可运行Hot New DeepSeek R1 LLM 。踢球?您甚至不需要高端GPU。
Carrigan建议的构建涉及双插入AMD EPYC主板和几个兼容的AMD芯片。显然,CPU的规格实际上并不是那么重要 。相反,这全都与内存有关。
Carrigan解释说:“我们将需要在24个RAM通道上进行768GB(适合模型)(要使带宽以足够快地运行)。这意味着24 x 32 GB DDR5-RDIMM模块 。 ”
提供链接有用 ,仅RAM约为3,400美元。然后,您需要一个案例,PSU ,仅1 TB SSD,一些散热器和粉丝。
确实,卡里根(Carrigan)说 ,这种设置为您带来了完整的DeepSeek R1体验,而无需妥协 。他解释说:“实际模型,无蒸馏和第8季度量化以达到全面质量。”
从那里,只需在Linux上“抛出” ,安装Llama.cpp,下载700 GB的权重,输入命令行Carrigan有用提供 ,并且Bob是您在本地运行的大型语言模型,正如他们所说。
总的来说,这是完全没有提及昂贵的NVIDIA GPU。那给什么呢?好吧 ,卡里根(Carrigan)提供了该设置上本地运行的LLM的视频,并提供了粗糙的性能指标 。
他说:“此构建的生成速度是每秒6到8个令牌 ,具体取决于您获得的特定CPU和RAM速度,或者如果您有较长的聊天历史记录。上面的剪辑接近运行时间,略微加速以适合视频长度限制。 ”
该视频显示了以合理的速度生成文本的模型 。但是,当然 ,这仅适用于一个用户。向多个用户打开此设置,我们假设每个用户的性能很快就变得无法使用。
换句话说,实际上是单个用户的6,000美元硬件 。因此 ,这可能不是一种用于建立AI业务的方法,该业务为数百万名,数千甚至数百万用户提供服务。对于这种应用 ,即使是痛苦的单位价格,GPU也可能更具成本效益。
卡里根(Carrigan)建议,依靠GPU的构建可能会很快到三位数 ,尽管性能更好 。
但是,得知您实际上不需要价值数十亿美元的GPU即可在本地运行全规格的LLM,这很有趣。可以说 ,它还可以洞悉最新LLM所隐含的真实智能规模。
当最终用户经历了这些机器人中的意识流式传播的东西,因此假设是要生成LLM的输出需要巨大的计算 。但是这种设置正在使用几个AMD CPU进行。
因此,除非您认为几个AMD CPU具有意识,否则该硬件解决方案即使是最新 ,最先进的LLM的平淡现实。也许AI Apocalypse毕竟并不完全存在。