快手大模型专家交流纪要:规模和参数量?国产卡合作厂商?

本文首发于“君实财经”微信公众号,发布时间:2023-04-24

最新纪要研报请微信扫码关注“君实财经”

每天精选消费、医药、互联网、新能源等最新调研纪要和报告,缩小你与一线产业的信息差!

快手大模型专家交流纪要230423

Q:快手目前大模型的情况是什么样的?

A:我们的模型主要由两部分功能组成,一个是类似midjourney这样文生图的功能,另外一个是类似chatgpt这种对话似的这种AI工具,但是对话式聚焦的话题是内容生成和创作相关的内容。

Q:这个模型的规模和参数量有多大,目前是开源的还是自研的?

A:目前我们训练的数据量是上亿的规模,对话轮次达到了几十亿轮去训练,参数量在1200亿左右。目前的情况是服务对象的部分是开源的开放,面向创作者去调用这个模型来做创作。调用的底层模型是自研的,没有引入第三方模型来做底层,文生图和对话式这种模型都是自研的。

Q:1200亿参数也不小了,垂类也需要这么大的模型吗?

A:我们的理解是这样的,或者说行业理解是这样的,如果模型参数1000亿都达不到的话,模型的智能程度就很低,过了1000亿参数之后,每提升100亿,智能程度都会提升很大。所以我们的模型看着参数也在千亿以上,但智能化程度和chatgpt1750亿比的话还是有差距的。

Q:那和论文里面的趋势契合,达到一定量出现涌现后快速提升

A:对的,我们的理解是千亿是个门槛,过了千亿参数后智能的能力提升是挺快的。

Q:这个千亿参数的门槛不低,后面有可能会下降吗

A:用BD的结果来看吧,BD想做国内的第一名,他的实际参数只有700亿,所以当年发布会的时候也被吐槽。换言之现在的技术下千亿的规模是个门槛。长期有两个因素,第一个本身芯片算力,第二个是模型的基础算法。

Q:目前有看到这样的技术出现吗

A:我们觉得是有的,目前看最可能出现在芯片维度。英伟达说下一代训练和推理能力比现在A100要提升10倍以上,我们觉得参数量可能有所下降一点点。算法层面优化的话,目前都是小的迭代,算法很依赖底层的数学逻辑的变化,目前看2~3年内可能都不会有变化,所以我们理解芯片底层突破可能是个方向。

Q:英伟达说GPT-3的训练速度提升,这个提升讲的是训练时间缩短,因为计算能力变强了,但没看到说训练效果会有提升。这个该怎么理解呢?

A:对GPU的话,如果单个芯片性能不行的话,需要多个GPU堆叠。我理解下来的话不是简单的计算能力的提升,而是对模型训练和推理的能力也在提升。(PS:如果出现这种情况,不太符合硬件原理,有可能是单卡性能加强,互联需求降低,数据压缩损失率降低带来的,这个问题暂时无解,留待后续继续研究)

Q:快手的垂类模型和国内已发布的模型对比怎么样?

A:我们主要和midjourney比,我们目前稍弱一点,一个是语言描述的精准程度要求更高一些,第二个是文生图形成结果后,再进行微调的时候,微调能力还有待提高。目前在迭代优化。

Q:目前你们的模型在英伟达的卡和国产卡之间是如何配置的,是英伟达的卡做训练,国产卡做推理吗?

A:跟百度类似,训练部分用英伟达卡,部分用寒武纪的卡,我们也是类似的。一个是怕卡脖子,另外国产卡成本更低一些。

Q:国产卡也能跑这么大规模训练吗?

A:是的,国内的卡也在跑训练,并不是说只有英伟达的卡能跑训练。

Q:目前训练端的情况,有对比的结果吗?或者说用A100去训练和寒武纪590去训练,这个结果你们是怎么评价和对比的

A:我了解到的结果是跟英伟达的卡还是有一点差距,一个是稳定性上还不是特别的好。

Q:目前我了解到,国产的卡只是完成了芯片端的研发,互联上的研发还没有做完,目前国产的卡你们就选了寒武纪一家吗

A:对,我们目前就是跟寒武纪一家合作。

Q:寒武纪提供了多少卡跑训练?

A:应该有50张卡左右,不是30就是50

Q:用30~50张卡跑训练,对应英伟达的卡是几张?

A:英伟达的卡大概20~30张就可以了。

Q:训练的结果准确度怎么样?

A:我们内部有一套评价准确度的指标,按最新数据看,英伟达A100跑出来的结果准确率在92%左右,寒武纪590的结果准确率在85~87%左右。

Q:您说的是训练的结果还是推理的结果?

A:是推理的结果

Q:模型的训练是英伟达的卡做训练还是寒武纪的卡做训练?

A:训练的话两边是完全独立的,就是用英伟达的卡训练也用英伟达的卡推理,用寒武纪的卡训练也用寒武纪的卡推理。

Q:开发框架用的PyTorch或者TensorFlow吧,你们用的是PyTorch吗

A:是的

Q:总结一下:

1)1200亿参数的大模型开发统一用Pytorch

2)训练的数据集双方也是统一的

3)模型训练和推理都分开用英伟达A100和寒武纪590独立试验,然后按照统一内部标准打分

4)寒武纪590用30多张卡,英伟达A10020~30张卡左右

5)目前得到英伟达92分,寒武纪85~87分

是这样吗

A:是的,目前是这样的

Q:总体比较下来似乎还可以,您怎么看这个结果

A:这个看怎么站位了,目前看87和92结果差异不是很多,然后成本上寒武纪占优势,低不少。

Q:大概是什么样的价格

A:寒武纪每一张卡12~15万左右,英伟达的A100超过20万,应该20~25万之间。

Q:用的确定是A100还是A800?

A:是A100。

Q:买的是英伟达DGX还是普通智能服务器

A:是以前和国内服务器厂商买的,不是从英伟达买的

Q:我了解到寒武纪整个系统级的还没有调试好,你们如何判断寒武纪和英伟达卡的差异,另外看到卡的数量上有区别,你们是如何看待区别的原因的。

A:我们觉得实际上是因为国产卡目前效率和性能上有差异,所以在同样的样本上有差异。刚才讲的是训练,推理上也是要多一些,基本上能差7~8张卡。

Q:从训练时长上来说,跑完你们的训练数据,各需要多长时间?

A:英伟达的卡在16~18个小时跑完一轮,寒武纪在20~24个小时跑完一轮。

Q:寒武纪对这个情况是什么反馈?

A:寒武纪反馈说,系统还是调试初期,没有调试完。他们说等他们调试结束,价格会比英伟达的便宜,训练和推理在卡的使用数量上跟英伟达达到可比的程度,训练时长和准确率上也会接近。他们给我们的反馈是等调试完成后性价比会更高,是这么一种态度。

Q:基本match我了解到的情况,现在多卡互联听说还没有搞完,可能明年给你们出货的时候会好一些

A:那可能跟您说的时间匹配,寒武纪给的反馈也是可能到今年年底,明年年初就可以了。

Q:在模型优化上,有共同合作调优吗

A:目前有在聊深度优化,但现在还没有做,寒武纪是愿意一起做这个事。

Q:目前研发团队对寒武纪的评价怎么样

A:研发负责人觉得挺好的。

Q:寒武纪有推介过下一代产品的水平吗

A:说过,说是对标英伟达下一代H100,两边水平基本差不多。

Q:时间上大概是什么时候能提供

A:说是明年Q2,大概明年4~5月就差不多了。

Q:明年Q2就能提供对标H100的给你们吗?这个挺超预期的

A:我这边得到这个信息。

Q:寒武纪的软件目前用起来,稳定性怎么样?

A:软件的稳定性我觉得是完全OK的,目前没有什么我们不满意的地方。

Q:目前大模型开发商,软件是不是就是个编译器啊

A:我们研发团队老大给我的反馈是这样的,大模型上软件只是个编译器,更多的是靠芯片里面的硬件去堆上去。我们研发老大的说法是,大模型这件事最后成不成,软件其实没啥大贡献,基本还是看硬件。软件大家最后都是拉齐的水平,贡献度也极低,最终还是看硬件。

Q:软件所谓的生态,在这里有价值吗?

A:我个人理解只是个编译器功能,如果生态做的很大,比如功能丰富,在这里就有点十八般武艺用不上,我感觉增益不是很大。

Q:其他的多卡互联的功能,比如模型分发,数据并行,混合并行,这种偏调度和软件的功能,用起来有问题吗?

A:这块也是OK的,至少我们研发这边对寒武纪的芯片是满意的。

Q:你们是我了解的第一个完整的用寒武纪的590跑1200多亿大模型训练和推理的,其他家的使用情况您了解吗

A:其他家好像简单跑一跑推理,训练没怎么碰吧,应该还没有做对比实验。

Q:你们选择分开做的原因是什么?寒武纪给的建议还是你们自己决定的

A:寒武纪给了这样的建议,我们也有供应稳定性和成本上的考虑。所以我们研发团队决定要么在模型公布前就充分试验,模型公开后就不能随意的切换,不然体验下降会有不稳定因素会对口碑有打击。所以我们就分开做,看看结果怎么样,如果结果很拉胯就只能抛弃国产,如果结果能接受我们就主力用国产。

Q:和寒武纪在采购上有合作意向吗?

A:目前看肯定是要合作的,如果寒武纪到年底调好了,达到他们说的预期的话,那就更没有拒绝的理由了。

Q:数量上大概是什么样的计划?

A:目前来看会是大几百的规模,因为他说下一代会平齐英伟达最新产品,所以我们也想等下一代产品。

Q:370这样的小卡会采购吗?

A:目前我们研发给的反馈是不会,我们觉得不管是哪一家,大模型基本上不可能跑在小卡上。

Q:我觉得你们这个研发挺厉害的,是什么样的背景

A:您查也能查到,原来是谷歌在做大模型相关的人士。

Q:今年产品会开放给多少开发者使用?

A:大概今年6~7月会给开发者使用,最开始会邀请一些开发者,给几个垂类像摄影、旅游、摄影等百万粉创作者先用,大概在小几十人的规模。顺利的话Q4会大规模公开,可能会从百万粉降到十万粉或者一万粉左右,也可能扩展到其它垂类。

Q:有评估过开放多少用户,需要多少张卡吗

A:我们研发老大评估过,我们目前计划开放的垂类调用量大,第一批30~50人可能就50张上下就可以。如果开放到10万粉,大概在300~500张左右,或者大几百。

Q:人数和卡的数量是怎么映射的

A:如果说是限定在7~8个垂类,大概一张卡能对应10个人左右。开放给所有垂类,大概一张卡对应12~13人左右,因为他们调用量会小。

Q:全平台开发者有多少?

A:我们叫内容创作者,万粉以上的话整个规模在百万的量级,大概需要10万量级的卡,成本我们是hold不住的,所以目前大概率不会这么做。

最新纪要研报请微信扫码关注“君实财经”

每天精选消费、医药、互联网、新能源等最新调研纪要和报告,缩小你与一线产业的信息差!

注意:以上内容来源于网络,友情分享,仅是基于行业以及公司基本面的静态分析,非动态买卖指导。股市有风险,入市需谨慎,请勿跟风买卖!如造成不便,请联系后台删除

Related Posts