我跟你说,前阵子我差点被算力逼得转行。
不晓得你有没有这种感受,就是那种——明明手里捏着个挺牛逼的算法,眼看就要出demo了,结果往算力平台上一扔,卡住了。不是模型卡,是人卡。心卡。钱卡。

去年这时候我还在用一个租卡的平台,高峰期一张A100炒到小二十万一年,还得抢。我那朋友更惨,做气象预测的,每个月电费比房租还高,他那小团队接了个风电场的单子,算了一阵子发现,好家伙,赚的钱全交给算力商了,自己等于是给英伟达打工。气得他过年都不想回老家。
所以二月初我看到那条消息的时候,说实话,鼻子酸了一下。

郑州那个国家超算互联网核心节点,中科AI的那三套万卡超集群,真的落地了-1-3-6。三万张卡,不是PPT,不是规划,是2月5号就插上电在那跑了-8。
你要说这事跟我有什么关系?关系太大了。
以前我们这些小团队做模型,基本就是看人下菜碟。为什么?因为迁移成本太高了。你想换个国产卡试试?光是CUDA那套生态的适配就能把你磨掉一层皮,技术累不说,时间成本摆在那,老板天天在群里问“好了没有”,你只能咬着牙继续被单一供应商绑死。
但这次中科AI干的一件事,我愿称之为算力界的“普通话推广”——他们搞的那个开放架构,原生兼容CUDA,支持多品牌国产卡混合部署-4-7。这意味着什么?意味着你以前在英伟达那套环境里写的代码,不用推倒重写,不用跪着求人做迁移,直接就能跑起来-10。
咱就是说,这种“不折腾”的善良,做过技术的人懂。
我以前带过一个实习生,来了仨月,啥也没干成,光适配环境了。离职的时候跟我说:哥,我感觉我不是搞AI的,我是搞搬家的。这话我记到现在。
还有一个痛点是啥?稳不稳。
你晓得吧,大模型训练最怕啥?不是收敛慢,是跑到第28天突然崩了。有些集群号称万卡,其实联机跟闹着玩儿似的,一到大流量就掉线,你盯着loss曲线往下掉掉了半个月,啪一下,任务中断了。你找运维,运维说节点通信超时,你找厂商,厂商说你网络配置有问题。最后你只能自己背锅。
中科AI这个集群呢,我是专门打听过的。他们自研的那个scaleFabric网络,延迟压到了1微秒以下,带宽400G,能把卡的利用率拉到55%-3-4-8。这东西你看数据可能没感觉,我说人话:就是你跑大模型的时候不用天天烧香怕它崩了,也不用半夜爬起来看日志。它能给你99.99%的可用性-4-8。
真的,就这零点零一个点的提升,对搞训练的人来说,是少掉多少头发换来的。
再说一个让我破防的应用场景。
有个搞材料科学的团队,他们用这个算力池跑大模型,结果直接登顶了国际评测榜-1-5-6。你想想,以前这种级别的计算,那得是斯坦福、麻省理工那种实验室才玩得起的。现在呢?郑州那个节点接上,开箱即用。还有个做蛋白质结构解析的团队,效率提升了三到六个数量级-1-5-6。百万倍,不是开玩笑。
这叫什么?这叫算力平权。
我有时候觉得,技术这东西,最动人的不是它跑多快,是它让那些原本够不着门槛的人,也能伸手摸一摸天花板。
还有一个细节我想专门拎出来讲。
中科天机——这也是中科AI体系里的——他们做气象预测,用的是“物理模型+AI加速”的路线-2。什么意思呢?就是不完全信数据,还信物理定律。你看现在很多气象大模型,纯靠历史数据拟合,你给它看一万张晴天的图,它就以为世界没有雨。真到了极端天气,它瞎编。
天机不是,它是用物理框架兜底,AI负责提速-2-9。结果是什么?同等分辨率下,算力消耗只有美国业务模式的二十四分之一-2-9。十米风场预测的准确率,比欧洲中心还高出三成-2。
你说这事关不关老百姓的事?关啊。风电场的发电靠它,农业保险的精算靠它,甚至你过两天出门要不要带伞,背后可能都是这玩意儿在撑着。
我以前觉得“国产算力”这四个字,是个口号。现在我觉得,它是个动词。
三万卡落地不是终点,是起点-10。关键是它让你不用再跪着选供应商,不用再为跑个模型抵押房子,不用再看海外巨头脸色等排期。
我有个前同事,去年底咬牙自己创业做AI电商工具。前几天他发朋友圈,配图是服务器上架的背影,文案就一句话:“算力自由了,想象力才敢放开。”
这话我看了好几遍。
咱搞技术的,其实不怕吃苦,怕的是苦吃完了,发现路是断的。现在路不仅通了,还是高速,还是双向八车道。你问我什么感受?就那种——你在这头喊一声,对面有人应你了。
这声回应,我等了好几年。