返回第一百五十九章 这样下去你就废了!  路大头首页

关灯 护眼     字体:

上一章 目录 下一页

虽然韩路一刚说了苏念念,可是其实他也给自己安排了视频会议。

和赵文渊。

赵文渊自从请假之后就没来办公室上班了,最近一直在家搭数据管线,在鼎盛那边的程序走完之前做准备工作。

两人先把训练的策略过了一遍,会议结尾,韩路一问了一下时间线。

“文渊,鼎盛那边账户大概这两天就能配好,你这边什么时候能开跑?”

电话那头,赵文渊停顿了一会,似乎在组织语言,然后才开口道:“韩总,就算算力到位了,开跑之前还有一道坎。”

“什么坎?”

“上周五我和你说的,预训练数据的预清洗。”

韩路一坐在办公桌前想了想,是有这么回事。

“咱们现在手里有什么了?坎在哪?”韩路一问道。

“有oncrawl里的数据,还有公共版权的书籍资料,我想在清洗这块优化一下,但是搞了几天还没头绪。”赵文渊解释道。

“嗯……我晚上回去看看。”

挂断视频,韩路一在办公室里思索起来。

韩路一想起来赵文渊的属性面板。

【赵文渊】

【技术s(研究ss)|协作c|稳定a】

【特技:大模型训练|大模型后训练】

后训练是他的强项,预训练这边可能就没有那么熟悉了。

当然了,大模型现在也出来几年了,论文发了那么多,大家没吃过猪肉也见过猪跑了。技能是可以迁移过来的,摸索摸索,预训练也没有那么难。

想要从头做大模型,真正的瓶颈还在数据和算力。

数据也分两块,原始数据和标注数据。

标注数据这块,靠着视界,韩路一已经拿到了世界顶尖的标注。

数量还不太够,但是肝一肝总会有的。

但是原始数据还得想办法。

一般的厂商数据来源主要有几个,除了那些出版物或者特定行业的资料,还要去互联网上收集资料。

互联网的资料也有不同的来源:可以自己在互联网上爬——这就是各显神通了,爬到什么算你的本事;也可以用oncrawl。

oncrawl是开源的语料库,大模型时代的“数字公共图书馆”。

它是一个非营利组织,目标是“爬取和存档整个互联网”,并将这些数据免费提供给所有人。这个愿景很伟大,也确实帮助到了很多人。

现在市面上的大模型,做通用场景的,有一个算一个,训练语料里一定包含oncrawl,无非是有的多些有的少些。

但是oncrawl的问题是,它基本没有清洗,里面有互联网上各种各样的原始信息。

就拿中文互联网来说吧,上面最多的内容是什么?知识干货?生活小常识?人生感悟?感人的文学作品?

错了,是垃圾,各种各样的垃圾。

菠菜广告,瑟瑟广告,为了优化搜索结果的重复关键词堆砌。

如果把这些东西当原料直接去制作大模型,你可以期待会看到这样的场景。

你问它:“什么是大模型预训练?”

章节内容不完整,请退出阅读模式查看完整内容!
『加入书签,方便阅读』

上一章 目录 下一页