第一百九十一章分成两段的人生_首富从AI浪潮开始路大头

这是一个免费发布论文的网站，尤其是在ai和计算机系统这个圈子，几乎所有的新研究都会先往上面发布。不用等期刊评审，不用等会议接收，写完了发上去，当天全世界就都能读到。

圈里人管这叫“挂上去”。

每天早晨刷一遍arxiv，看看自己关注的几个分类底下有没有新东西，是这个圈子里研究人员大部分人的基本习惯。

江松然这个习惯保留了十几年，从上学的时候到谷歌再到创业公司。

回国陪床这两个多月，工作上的事他已经全放掉了，但每天刷刷arxiv的习惯还保留着。

目光快速划过，一篇新发布的论文题目吸引了他的注意力。

《onadaptgory-efficientattentiontonon-cudaheterogeneoaelerators:asgle-operatorcasestudy》（非cuda硬件上的注意力算子适配：一个单算子的案例研究）

作者只有一个名字，wenyuanz。

江松然在脑子里把这个名字过了一遍，没什么印象。

他本来想直接划走。

非cuda适配这种东西arxiv上一搜一大把，大多是国产芯片厂出钱让自家工程师挂名做的样子工程，没什么真东西。

但他还是点开了。

因为是单作者。

非cuda适配这种活儿，正常挂名至少四五个：硬件厂的人挂、软件团队挂、算法挂、做评测的挂。

单作者意味着两种可能，要么是没团队，要么是作者把所有人都压下去了，只给自己署名。

这两种可能都挺有意思的，值得看看这篇论文。

pdf加载出来。

摘要的第一句话是：

“本文报告了一款国产的非cuda加速器上内存高效注意力机制的端到端实现：在单节点8卡配置下，吞吐达到对应cudnn参考实现的83，数值误差在23e-6以内。”

江松然把屏幕字体调大一点，接着往下翻。

背景写得简洁，没注水。

实现那一节贴了具体的优化方法和代码片段，不是泛泛而谈。

评估那一节有完整的对照、不同上下文长度下的吞吐曲线、还把每一项优化的贡献单独拆出来量化。这些是做评估的人最容易偷懒的几个地方，他都没偷懒。

最让江松然多看了两遍的，还是局限性那一节。

作者自己写道：“本工作只完成了单算子（sdpa），没涉及yernor、softax、各类optiizer等数十个其他算子；没涉及多卡通信库；也没涉及训练场景下的反向传播与混合精度，不构成一套可用的训练栈。”

非常诚实，不像是来刷脸的。

他又翻上去，看了一下团队，sourcetelligenceai。

是个没听过的公司。

江松然往后靠在折叠椅上，把眼睛揉了揉。

国内居然还真有人在做这种事。

这种吃力不讨好的事。

做出来发不了顶会，打不响知名度，也融

章节内容不完整，请退出阅读模式查看完整内容！