第一百九十一章 分成两段的人生 路大头
这是一个免费发布论文的网站,尤其是在ai和计算机系统这个圈子,几乎所有的新研究都会先往上面发布。不用等期刊评审,不用等会议接收,写完了发上去,当天全世界就都能读到。
圈里人管这叫“挂上去”。
每天早晨刷一遍arxiv,看看自己关注的几个分类底下有没有新东西,是这个圈子里研究人员大部分人的基本习惯。
江松然这个习惯保留了十几年,从上学的时候到谷歌再到创业公司。
回国陪床这两个多月,工作上的事他已经全放掉了,但每天刷刷arxiv的习惯还保留着。
目光快速划过,一篇新发布的论文题目吸引了他的注意力。
《onadaptgory-efficientattentiontonon-cudaheterogeneoaelerators:asgle-operatorcasestudy》(非cuda硬件上的注意力算子适配:一个单算子的案例研究)
作者只有一个名字,wenyuanz。
江松然在脑子里把这个名字过了一遍,没什么印象。
他本来想直接划走。
非cuda适配这种东西arxiv上一搜一大把,大多是国产芯片厂出钱让自家工程师挂名做的样子工程,没什么真东西。
但他还是点开了。
因为是单作者。
非cuda适配这种活儿,正常挂名至少四五个:硬件厂的人挂、软件团队挂、算法挂、做评测的挂。
单作者意味着两种可能,要么是没团队,要么是作者把所有人都压下去了,只给自己署名。
这两种可能都挺有意思的,值得看看这篇论文。
pdf加载出来。
摘要的第一句话是:
“本文报告了一款国产的非cuda加速器上内存高效注意力机制的端到端实现:在单节点8卡配置下,吞吐达到对应cudnn参考实现的83,数值误差在23e-6以内。”
江松然把屏幕字体调大一点,接着往下翻。
背景写得简洁,没注水。
实现那一节贴了具体的优化方法和代码片段,不是泛泛而谈。
评估那一节有完整的对照、不同上下文长度下的吞吐曲线、还把每一项优化的贡献单独拆出来量化。这些是做评估的人最容易偷懒的几个地方,他都没偷懒。
最让江松然多看了两遍的,还是局限性那一节。
作者自己写道:“本工作只完成了单算子(sdpa),没涉及yernor、softax、各类optiizer等数十个其他算子;没涉及多卡通信库;也没涉及训练场景下的反向传播与混合精度,不构成一套可用的训练栈。”
非常诚实,不像是来刷脸的。
他又翻上去,看了一下团队,sourcetelligenceai。
是个没听过的公司。
江松然往后靠在折叠椅上,把眼睛揉了揉。
国内居然还真有人在做这种事。
这种吃力不讨好的事。
做出来发不了顶会,打不响知名度,也融
章节内容不完整,请退出阅读模式查看完整内容!