返回第二百一十六章 要问你问,我反正不问  路大头首页

关灯 护眼     字体:

上一章 目录 下一页

这种报警信息倒是不急着处理,既然看到了,回去再处理也行。

——况且他也没带电脑出来。

大年初一,让显卡集群也放几个小时的假吧。

韩路一没有放下手机,而是打开微信,给张彪发了条消息:“彪哥,别在门口等我,你真出去转转,不然我妈那可不好糊弄。”

等到韩路一和周敏回到家,已经是两个小时以后了。

韩路一回到卧室,打开电脑,登入鼎盛云的账户。

看了看最近的活动日志,这两小时之间一直有访问记录,但是训练还没有重新开始。

看来赵文渊也看到了,正在检修。

但是卡住了。

韩路一皱了皱眉头,能让赵文渊卡两小时的bug,看来不简单。

他看了一眼飞书,赵文渊在线,于是他向对方发起了一个视频通话请求。

很快,视频接通了,赵文渊的脸出现在屏幕中。他穿着一件大红毛衣,看起来喜气洋洋的,但是表情很严肃,和衣服形成了反差。

“怎么样?问题定位了吗?”韩路一开门见山的问道。

“loss飘了,从一点多开始,回滚checkpot不行,重启不行,分布式检查没有问题,参数也没问题。我怀疑是数据问题,新加的过滤规则是小牛他们前几天加的批次,我现在正在对照规则文档看代码。”赵文渊的语速很快,但是并不慌张。

现在这个阶段,每个检查点之间一般间隔十个小时。也就是说,就算最后能修好,至少也要从十个小时前的检查点重跑,再加上这两小时的debug,至少十二个小时白费了。

“不急。”韩路一开口道,“异常batch的数据采样发我一份。”

“好。”

韩路一接收文件,快速的扫了一眼。

此前,韩路一用视界做出来的数据清洗管线,已经把最明显的污染样本打过一遍。

后来为了增加模型能力,赵文渊带着数据团队在这个基础上继续扩展,增加了规则集和数据源。

这是必要的,原始管线再强,也不可能覆盖所有新场景,随着训练数据来源扩大,团队自然会进行工程化。

但是扩大之后的规则集对新场景的覆盖程度比韩路一一开始设计的管线是要低很多的。

这种差异导致训练精度在某个进度的时候会突然发生大的偏离。

现在的关键是找到扩展规则集在哪个部分出了纰漏。

韩路一一边滑动样本一边在心里过了一遍管线结构。

屏幕另一头,赵文渊还在敲键盘,时不时停下来盯着输出皱眉。

这对普通人来说是很难的,因为数据量太大了,而所谓的数据的好与坏、干净与杂乱,都是人为定义的主观判断标准。

现在赵文渊唯一能看到的症状就是loss值突然剧烈波动,但是在他不熟悉的巨大规则集和更巨大的原始语料里找出问题,不啻于大海捞针。

唯一的办法就是现写脚本帮助诊断,这也是赵文渊正在做的事情。

但是对赵文渊来说难的事情,对韩路一来说却未必难。

或者说,对视界来说不难。

章节内容不完整,请退出阅读模式查看完整内容!
『加入书签,方便阅读』

上一章 目录 下一页