Thumbnail for 我花了3700块,从闲鱼买了台双Tesla V100扩展柜,想一步到位玩转MoE,结果… by 司波图

我花了3700块,从闲鱼买了台双Tesla V100扩展柜,想一步到位玩转MoE,结果…

司波图

12m 12s106 words~1 min read
Auto-Generated

[0:00]Hello 大家好,我是你们的小伙伴司波图,那前段时间呢,我们用2500块双Radeon VII张量并行,稳定将32B模型跑到了100 tokens每秒。 那我们成功用最低的这个成本实现了让八个人同时玩这个大语言模型,但是上次那套方案呢,我们留下了一个小小的遗憾了,就是我们跑的是性能很棒的稠密模型。 可是一旦想碰现在更火,结构更加复杂的这个混合专家模型呢,比如说当前社区呼声很高的这个Qwen3-30B-A3B的MoE。 那套基于这个GFX906架构的方案就有点力不从心了,那我又一直在想啊,如果能让这种计算量小,但是智商又很高的模型在本地跑起来。 那岂不是可以爆出几百个每秒的性能,到时候把它接入Dify、AutoGen这种工作流软件,让一堆本地AI小机器人在我们的电脑里面开会,那该多有意思呢? 那AMD的路暂时是走不通啊,那我们就换路呗,那我把目光投向了另一位曾经的王者NVIDIA的Tesla V100。 那我心想N卡生态这么完善,总不会再有什么兼容性的问题了吧,于是呢,一场新的垃圾佬寻宝之旅就开始了。 经过一番寻觅啊,那我在这黄鱼上面找到了一个非常有意思的打包产品,那卖家呢称之为GPU扩展柜,或者说是这个显卡坞。 整套下来包含邮费,一共是3700块钱左右,简单来说这个显卡坞就是将两块SXM2接口的Tesla V100计算卡安装在一块转接板上面。 接下来我们再使用一种8654接口的转接卡,将它插在我们主机上之后呢,这样就可以将外置的显卡以类似Oculink的方式接入服务器了。 让它们可以从外部接入我们常用的电脑主板,我估算一下,如果说我们自己去淘各种散件,像这个SXM2的V100显卡、转接板、散热、电源,自己组装的话呢成本大概是在3000块钱左右。 考虑到这里面还会因为一些不确定的因素啊,可能会有一些兼容性问题,这次我就偷个懒,直接买了我身边这一套成品。 当然了,那这里我们先声明一下,我们这期视频并不是带货,除了这个硬件质量,这台机器背后呢,其实还隐藏着很多技术上的难点,咱们后面也会慢慢说到。 整个系统被集成在一个带有侧透的MATX机箱里面,那外观呢,还是挺帅气的,能够装进这个标准的机箱,是因为它核心的那块转接板预留了标准的MATX固定螺丝孔位,这个设计就非常接地气了。 我们来看一下它的核心构成,机箱内部的核心呢,是一张巨大的转接板,那上面呢搭载了两张数据中心最原生生态的SXM2形态的V100。 相比我们常见的PCIe版本啊,这种形态会更加紧凑,也为高速互联打下了基础,这套方案最关键的一点呢,就是这块定制板集成了NVLink桥接。 虽然说呢它被这个巨大的散热器给盖住了,我们无法看到,但根据卖家的信息,它为两张V100提供了高达300GB/s的互联带宽。 当然了,市面上也有更便宜的100GB/s甚至无NVLink的丐版啊,大家选购的时候需要注意区分,散热的部分呢,这台机器用的是原装的NVIDIA巨型的一个散热器,前后都加装了9cm的一个风扇。 机箱的内部呢还集成了一个手动的风扇调速器,那可以在噪音和效能之间找到一个完美的平衡点。 那实测下来呢,在相对安静的情况下,就可以轻松压制两张卡满载的一个功耗了,这个设计还是好评的。 GPU供电用的是一个足额的850W电源,并且能够跟主机联动开机,那GPU柜的主板通过机箱后面两个8654高速接口和一张PCIe转接卡与我们的电脑相连。 最终只会占用主板一个乘16的插槽,理论上呢,因为卡间已经有了超高速的NVLink,所以即便两张卡都跑在PCIe 3.0乘8的模式下,对这个AI性能影响也是微乎其微的。 硬件看起来相当完美对吧,但是想让这套系统跑起来,我们立刻就会遇到第一个,也是最容易忽视的一个深坑,PCIe通道的拆分。 简单来说我们这张转接卡,它需要主板的那个PCIe乘16插槽,能够被拆分成两个独立的乘8加乘8的通道来使用。 如果说主板不支持这个功能呢,那它就只能认出其中一张显卡,甚至一张都认不出来,大家千万别以为这是一个很基础的功能,那很多主板,甚至我试过像浪潮服务器里面专业的这个服务器主板,都不提供这种拆分模式。 那我原本测试机上用的是一张ROG HERO Z690的高端主板,其实它就不支持乘8加乘8的一个拆分模式,插上去就只能识别第一张GPU了。 幸运的是我们这次用的测试平台是华硕的ROG HERO Z790啊,它能够支持这个功能,在BIOS里面找到PCIe的设置,然后手动把插槽的模式改成乘8加乘8,然后保存重启,那这才算是完成了第一步。 所以大家在想玩这种多GPU的方案之前呢,一定要先确认你的主板到底支不支持通道的一个拆分。 那这里还有一个备选方案,就是如果你的主板实在不支持这个单槽的拆分,你可以再多买一张8654转PCIe的这个转接卡,把两张V100分别接到主板的两条不同的PCIe槽位上面。

[4:59]那这样呢虽然说会多占一个插槽啊,但对主板的兼容性要求一下子就降低了,也算是一个曲线救国吧。 搞定了通道拆分,然后系统也成功点亮,那在挑战我们最终的一个目标之前呢,我们先来摸一下它的底,看看这块几年前的卡皇啊还剩下几成的功力。 首先我们来看看它的纸面参数啊,很多人提到这个V100第一反应就是它那强大的一个双精度,也就是FP64的性能,这是现在消费级显卡给不了的。 但这呢其实只能算是它的这个过往的辉煌了,因为我们这是核心的目标啊,是运行像DeepSeek这类主流量化大语言模型。 而这些模型根本用不上FP64,所以说呢,这些优势在我们今天的测试里面其实是不存在的。 而真正对我们有用的呢,是这个GPU的张量核心,它能够提供112 TeraFLOPS的这个FP16算力,这才是我们跑AI推理的一个关键。 好了,那我们理论不多说,我们先转到这个系统上面,我们用这个NVIDIA SMI成功识别出了两张V100,并且这个NVLink状态呢,显示是激活的状态。 我们板载的300GB每秒的高速通路啊也成功启用,在NVLink的加持下呢,两张卡的数据交换效率是非常高的,GPU利用率几乎能够同时拉满,这也证明了硬件基础是没问题的。 硬件检查完毕之后呢,接下来就是这个重头戏了,为了检验这套双V100的真实实力啊,我们请来了几位老朋友作为对手。 那像上期视频的这个主角双Radeon VII,还有当今主流市场的RTX 4060 Ti 16GB版本,和一张这个高端卡5070 Ti。 为了保证这个公平呢,我们统一使用的是ollama框架,分别在几套平台上运行DeepSeek系列不同参数量的4bit量化模型,来看看V100到底表现如何。 首先是小参数量的这个模型啊,在1.5B到8B这个级别呢,大家可以看到,凭借更新的架构,更高的性能,那5070 Ti呢是拔得头筹的。 我们的这个双V100呢也紧随其后,性能是非常接近,这说明在小参数量的模型上呢,高算力的GPU的优势还是非常明显的。 但是当这个模型参数量来到了14B的时候呢,有趣的事情就发生了,大家看,双V100跑出了55 tokens每秒的速度,而价格比它更高的4060 Ti 16GB版只有27.5 tokens每秒。 那V100的这个速度就是它的整整两倍,这一下就把性价比打出来了,别急,这还没完,那当我们把压力上到最大运行32B量化模型的时候,那大显存即正义,这句话就体现得淋漓尽致。 双V100凭借32GB的总显存,跑出了接近30 tokens每秒的优秀成绩,而反观高端游戏卡5070 Ti,那它的速度则掉到了惨不忍睹的6.4 tokens每秒,几乎就处于一个不可用的状态。 那这也说明呢,在运行真正的大模型的时候,显存容量是绝对的门槛,再强的核心呢,也无济于事。 接下来我们业也试了一下很火的这个图片生成,我们用Flux模型来试下水,虽然说V100没有最新的架构,但凭借其强大的一个原始算力,生成图片的速度还是相当可观的,对于想在本地玩AI绘画的朋友来说呢,完全也够用。 然后下面呢是大家一个喜闻乐见的环节啊,那我们直接在这个Windows物理机上给这张显卡装上了特殊的Grid驱动,看下这张AI计算卡打起游戏来怎么样。 那首先呢是这个理论性能测试,我们跑一个3DMark,大家可以看一下这个分数,Time Spy图形分数来到了12600分左右。 这个成绩已经超过了RTX 3060 Ti的一个平均水平了,接近了4060 Ti的性能。 那实际游戏表现怎么样呢,我们简单来测试一下,在赛博朋克2077里面,我们在2K分辨率中画质下进行测试。 它的平均帧数可以稳定在70帧左右,这个表现呢,可以说是非常流畅了,完全可以媲美3060 Ti。 但是这里呢,还要强调几点啊,首先游戏是跑在这个单卡上面的,跟我们是单V100还是双V100的配置没有关系,性能都是一样的。 其次呢,虽然说性能客观,但我们绝对不建议大家为了玩游戏去买这个V100。 一方面装这个Grid驱动本身呢,是一个折腾活,而且部分对这个双显卡只是不太好的游戏,那可能会出现兼容性的问题。 然后呢,再有一个方面呢,这个单V100加上转接板加上这个散热器呢,它的价格也并不便宜,单为了游戏去买它,性价比其实是不高的,所以这个环节纯属娱乐,大家看个乐呵就好。 好了,那常规的测试我们完美通过,这台机器的性能也让我们挺满意的,现在我们再来看我们的目标,运行我们此次最终的一个模型啊,千问3-30B-A3B的MoE模型。 嗯,出错了,怎么回事呢,那经过一番折腾,我们终于定位到了这个我问题所在啊,而且不是一个问题,是两个,这一下呢就把我所有的这个计划都给打乱了。 那第一个坑呢是这个BF16精度,我们会发现千问3这类新模型的原版呢,为了平衡性能和显存,普遍采用的一种叫BF16的数据格式。 但问题是呢,BF16是NVIDIA在V100之后的这个安培架构,也就是算力8.0才开始原生支持的,我们V100的这个Volta架构呢,它的这个硬件上根本就不认识BF16。 那第二个坑呢,其实是前面这个问题的延续啊,那我们跑原版模型不行,跑量化模型总行了吧,我想到用这个AWQ量化,结果发现vLLM里面最新的这个AWQ量化内核,它需要显卡这个Compute Capability,也就是我们常说的这个算力至少是7.5。 而我们今天这张V100它的算力是多少呢,7.0,就因为这0.5的差距啊,那我们就直接被这个最新的软件生态给拒之门外了。 这感觉呢就像你拿着一把这个屠龙刀啊,却发现你要打的这个Boss对我方等级70以下的装备魔法免疫,这道坎是无论如何也绕不过去的。 我本以为从这个AMD换到了NVIDIA,能用钱解决生态的问题,结果发现呢,在绝对的技术代差面前,钱也是无能为力的。 那这里我们也打个补丁啊,在视频发出之后呢,我们在评论区发现有小伙伴说有一个叫LM Deploy的这个软件,可以让V100跑这个AWQ模型。 为了避免误导,那我们这里也是补充一下,那未来呢,我们也会试一下这个软件,看看能不能圆我这个小人开会的一个梦啊。 好了,那这次的挑战呢,可以说是这个虽败犹荣吧,这3700块钱呢,也算是交了一笔宝贵的学费。 通过这次的踩坑,我想和大家分享几点这个心得,第一点呢就是捡垃圾不仅要看这个性能啊,还要看生态。 V100的这个硬件性能呢,无疑是不错的,但它的这个软件生态呢,已经进入了晚期,最新的模型,最新的这个算法,最新的量化技术,都在抛弃这些老架构。 买之前一定要确认你要跑的这个目标软件啊,是否还支持它,那第二点呢就是V100其实是一个偏科生啊,它原本的优势呢,其实到现在呢,已经大部分都不适用了。 如果说你的目标是追新,玩最新的大模型,它可能不是一个最好的选择,现在消费级的这个GPU,比如说RTX30或者40系显卡,虽然说FP64被阉割了,但在新特性支持和能效比上呢,优势是压倒性的。 那第三点呢就是这个性价比是相对的,回头看我们上期那套这个2500块钱的双雷奇的方案,虽然说同样跑不了这个MoE模型。 但它在这个擅长的领域,例如这个稠密模型的张量并行,那性价比依然是无敌的,所以说没有最好的垃圾,只有最适合你需求的垃圾。 好了,那本期的踩坑分享就到此为止,如果说你觉得这期视频对你有帮助的话呢,千万别忘了给我们点赞投币,一键三连啊,这对我真的非常重要,那我们就下期再见了,Bye。

Need another transcript?

Paste any YouTube URL to get a clean transcript in seconds.

Get a Transcript