返回第一百二十八章 算我借你的  路大头首页

关灯 护眼     字体:

上一页 目录 下一页

不是“标得准”了。

是标注者理解了用户的工作场景。

赵文渊抬起头看韩路一。

“这是深加工标注?”赵文渊问,“用来继续提升天工的?”

“不是用来做天工的,算是示例。”

赵文渊皱了下眉,不是做天工,那做什么?天工是代码专项模型,这些开物数据的标注跟天工很贴合啊——

“如果用户行为的公开数据集也能有这个精度的标注呢?”韩路一说。

赵文渊直接摇头。

“不可能,你这个精度是因为有开物的行为闭环,用户怎么改的、重新生成了几次、最终保留了什么,这些全是客观信号。公开数据集没有这些,光靠人工标注就是在纯猜。”

韩路一没争辩。

他做不到,视界能做到。

他转了个方向:“做一个原型要多少数据?”

赵文渊愣了一下,反应过来韩路一在说的是什么,不是提升天工,是在开源的通用基座上跑意图理解方向的微调。

“通过微调,验证意图理解能力的变化?”赵文渊想了想,“五千到八千条这个质量的就够有很明显的提升了。”

顿了一下,他又补了一句:“但做出来也没意义,小模型微调的再好,拿去跟gpt-4一比,性能上不是一个量级。”

韩路一说:“我拿它去见投资人。”

赵文渊明白了。

原型不是产品,是proofofncept,证明可行性。到时候就这么说:你看我几千条数据在一个7b模型上就能做到这个效果,如果有了大算力和大数据呢?

“两到三周能给到吗?”赵文渊问。

“可以。”

赵文渊的目光又扫了一遍表格,两百八十七条,每条的标注质量都超过他见过的最顶级的标注团队的水准。

如果能用这种数据做训练……赵文渊自嘲的一笑,别痴心妄想了。

韩路一出差的时候一直在干标注?这看起来得有几十个小时的工作量。

赵文渊没问他怎么做到的,开物的行为数据闭环是最合理的解释,有用户操作日志在手,一个足够了解产品的人,再花足够的时间,确实可以做到高精度标注。

况且韩路一就是开物的设计者。

唯一的问题是这样拿到的数据太贵了,不划算。

这时,门被敲了两下。

苏念念推门进来,手里拎着一个便利店袋子。

“彪哥说你没吃午饭。”

她把袋子放在茶几上。一个三明治、一个饭团、一杯咖啡。

赵文渊肉眼可见地僵硬了。

他下意识看了韩路一一眼,嘴边的话咽回去了。他们正在聊的是新公司的核心数据策略,苏念念是源码的联合创始人,如果她不知道韩路一的计划——

“念念知道。”韩路一拆三明治的手没停。

赵文渊:“……知道什么?”

韩路一看了他一眼,没拆穿他蹩脚的掩饰:“都知道。”

苏念念在旁边的椅子上坐下来,扫了一眼屏幕上的表格,没细看。

“聊到哪了?”

赵文渊这才

章节内容不完整,请退出阅读模式查看完整内容!
『加入书签,方便阅读』

上一页 目录 下一页