返回第一百三十四章 远超预期  路大头首页

关灯 护眼     字体:

上一章 目录 下一页

两人来到韩路一的办公室,正准备就刚才的视频会议,谈谈应对策略。

这时,门外传来了急促的敲门声。

“韩总,在吗?”

是赵文渊的声音。

韩路一和苏念念对视了一眼。

韩路一走过去把门打开,赵文渊手里抱着笔记本电脑,一脸兴奋。

“韩总!真神了!”他一边说一边走进来,才突然注意到苏念念也在房间里,一愣。

随即他的表情放松下来,把笔记本电脑放在办公桌上。

“正好,苏总你也在,一起看看。”赵文渊说道,“第一轮训练的结果出来了。”

他翻开屏幕,手指在触控板上快速滑动,调出一个表格。

“先看基础数据。”赵文渊切到第一页,“7b的开源基座微调,参数量不到gpt-4的二十分之一。知识问答、逻辑推理、数学计算、代码生成,常规指标在同量级模型里中游偏上,没有惊喜。7b就是7b,没法跟几百b的大家伙比。”

他看了韩路一一眼,期待着他的反应。

“重点在下一页。”

赵文渊翻到第二页。

屏幕上是一张柱状图。横轴排列着十几个模型的名字,纵轴是分数。

韩路一认出了几个:gpt、rcury、gei。

这些名字旁边的柱子高度差不多,分数集中在71到78之间。

最右边有一根单独的浅蓝色柱子,明显高出一截。

模型名称是px-7b-post_traed-v01。

顶端的数字是837。

“意图理解维度的评测结果。”赵文渊的声音压低了,语速却很快。“评测集用的是ifeval标准框架加上我自己设计的深层意图还原测试,一共一千二百道题,覆盖十六个垂直场景。”

他拿手指点了点那根浅蓝色的柱子。

“837,断层领先。”

“第二名,gpt,782。”

“第三名,gei,769。”

韩路一自己看了一下rcury31——就是刚才瑞恩展示的那个,得分是748。

办公室安静了三秒钟。

韩路一没有说话。苏念念也没有。

“我跑了三遍验证。”赵文渊说。“第一遍以为评测代码写错了。第二遍换了评测框架,分数不同,但是结果排序一样。第三遍打乱评测集做交叉验证,误差在03个点以内。”

他往后翻了一页。屏幕上是具体的案例对比——左列是用户输入,中间是各模型的理解结果,右列是标注的真实意图。

赵文渊翻了几页案例对比,没有逐条讲解,但每一页停留的时间特意拉长了一些,像是在确认韩路一和苏念念有没有跟上。

韩路一跟上了。

意图理解,简单来说,就是模型能不能读懂用户真正想要什么。用户打字输入的内容是表面,表面之下是处境、是约束、是没说出口的真实需求。绝大多数模型在做的事情是理解字面意思,然后给出一个正确但泛泛的回答。而px-7b做到的,是从同样的输入中读出字面背后那个具体的人。

这是一个

章节内容不完整,请退出阅读模式查看完整内容!
『加入书签,方便阅读』

上一章 目录 下一页