本文首发于“君实财经”微信公众号,发布时间:2023-04-24
最新纪要研报请微信扫码关注“君实财经”
每天精选消费、医药、互联网、新能源等最新调研纪要和报告,缩小你与一线产业的信息差!

快手大模型专家交流纪要230423
Q:快手目前大模型的情况是什么样的?
A:我们的模型主要由两部分功能组成,一个是类似midjourney这样文生图的功能,另外一个是类似chatgpt这种对话似的这种AI工具,但是对话式聚焦的话题是内容生成和创作相关的内容。
Q:这个模型的规模和参数量有多大,目前是开源的还是自研的?
A:目前我们训练的数据量是上亿的规模,对话轮次达到了几十亿轮去训练,参数量在1200亿左右。目前的情况是服务对象的部分是开源的开放,面向创作者去调用这个模型来做创作。调用的底层模型是自研的,没有引入第三方模型来做底层,文生图和对话式这种模型都是自研的。
Q:1200亿参数也不小了,垂类也需要这么大的模型吗?
A:我们的理解是这样的,或者说行业理解是这样的,如果模型参数1000亿都达不到的话,模型的智能程度就很低,过了1000亿参数之后,每提升100亿,智能程度都会提升很大。所以我们的模型看着参数也在千亿以上,但智能化程度和chatgpt1750亿比的话还是有差距的。
Q:那和论文里面的趋势契合,达到一定量出现涌现后快速提升
A:对的,我们的理解是千亿是个门槛,过了千亿参数后智能的能力提升是挺快的。
Q:这个千亿参数的门槛不低,后面有可能会下降吗
A:用BD的结果来看吧,BD想做国内的第一名,他的实际参数只有700亿,所以当年发布会的时候也被吐槽。换言之现在的技术下千亿的规模是个门槛。长期有两个因素,第一个本身芯片算力,第二个是模型的基础算法。
Q:目前有看到这样的技术出现吗
A:我们觉得是有的,目前看最可能出现在芯片维度。英伟达说下一代训练和推理能力比现在A100要提升10倍以上,我们觉得参数量可能有所下降一点点。算法层面优化的话,目前都是小的迭代,算法很依赖底层的数学逻辑的变化,目前看2~3年内可能都不会有变化,所以我们理解芯片底层突破可能是个方向。
Q:英伟达说GPT-3的训练速度提升,这个提升讲的是训练时间缩短,因为计算能力变强了,但没看到说训练效果会有提升。这个该怎么理解呢?
A:对GPU的话,如果单个芯片性能不行的话,需要多个GPU堆叠。我理解下来的话不是简单的计算能力的提升,而是对模型训练和推理的能力也在提升。(PS:如果出现这种情况,不太符合硬件原理,有可能是单卡性能加强,互联需求降低,数据压缩损失率降低带来的,这个问题暂时无解,留待后续继续研究)
Q:快手的垂类模型和国内已发布的模型对比怎么样?
A:我们主要和midjourney比,我们目前稍弱一点,一个是语言描述的精准程度要求更高一些,第二个是文生图形成结果后,再进行微调的时候,微调能力还有待提高。目前在迭代优化。
Q:目前你们的模型在英伟达的卡和国产卡之间是如何配置的,是英伟达的卡做训练,国产卡做推理吗?
A:跟百度类似,训练部分用英伟达卡,部分用寒武纪的卡,我们也是类似的。一个是怕卡脖子,另外国产卡成本更低一些。
Q:国产卡也能跑这么大规模训练吗?
A:是的,国内的卡也在跑训练,并不是说只有英伟达的卡能跑训练。
Q:目前训练端的情况,有对比的结果吗?或者说用A100去训练和寒武纪590去训练,这个结果你们是怎么评价和对比的
A:我了解到的结果是跟英伟达的卡还是有一点差距,一个是稳定性上还不是特别的好。
Q:目前我了解到,国产的卡只是完成了芯片端的研发,互联上的研发还没有做完,目前国产的卡你们就选了寒武纪一家吗
A:对,我们目前就是跟寒武纪一家合作。
Q:寒武纪提供了多少卡跑训练?
A:应该有50张卡左右,不是30就是50
Q:用30~50张卡跑训练,对应英伟达的卡是几张?
A:英伟达的卡大概20~30张就可以了。
Q:训练的结果准确度怎么样?
A:我们内部有一套评价准确度的指标,按最新数据看,英伟达A100跑出来的结果准确率在92%左右,寒武纪590的结果准确率在85~87%左右。
Q:您说的是训练的结果还是推理的结果?
A:是推理的结果
Q:模型的训练是英伟达的卡做训练还是寒武纪的卡做训练?
A:训练的话两边是完全独立的,就是用英伟达的卡训练也用英伟达的卡推理,用寒武纪的卡训练也用寒武纪的卡推理。
Q:开发框架用的PyTorch或者TensorFlow吧,你们用的是PyTorch吗
A:是的
Q:总结一下:
1)1200亿参数的大模型开发统一用Pytorch
2)训练的数据集双方也是统一的
3)模型训练和推理都分开用英伟达A100和寒武纪590独立试验,然后按照统一内部标准打分
4)寒武纪590用30多张卡,英伟达A10020~30张卡左右
5)目前得到英伟达92分,寒武纪85~87分
是这样吗
A:是的,目前是这样的
Q:总体比较下来似乎还可以,您怎么看这个结果
A:这个看怎么站位了,目前看87和92结果差异不是很多,然后成本上寒武纪占优势,低不少。
Q:大概是什么样的价格
A:寒武纪每一张卡12~15万左右,英伟达的A100超过20万,应该20~25万之间。
Q:用的确定是A100还是A800?
A:是A100。
Q:买的是英伟达DGX还是普通智能服务器
A:是以前和国内服务器厂商买的,不是从英伟达买的
Q:我了解到寒武纪整个系统级的还没有调试好,你们如何判断寒武纪和英伟达卡的差异,另外看到卡的数量上有区别,你们是如何看待区别的原因的。
A:我们觉得实际上是因为国产卡目前效率和性能上有差异,所以在同样的样本上有差异。刚才讲的是训练,推理上也是要多一些,基本上能差7~8张卡。
Q:从训练时长上来说,跑完你们的训练数据,各需要多长时间?
A:英伟达的卡在16~18个小时跑完一轮,寒武纪在20~24个小时跑完一轮。
Q:寒武纪对这个情况是什么反馈?
A:寒武纪反馈说,系统还是调试初期,没有调试完。他们说等他们调试结束,价格会比英伟达的便宜,训练和推理在卡的使用数量上跟英伟达达到可比的程度,训练时长和准确率上也会接近。他们给我们的反馈是等调试完成后性价比会更高,是这么一种态度。
Q:基本match我了解到的情况,现在多卡互联听说还没有搞完,可能明年给你们出货的时候会好一些
A:那可能跟您说的时间匹配,寒武纪给的反馈也是可能到今年年底,明年年初就可以了。
Q:在模型优化上,有共同合作调优吗
A:目前有在聊深度优化,但现在还没有做,寒武纪是愿意一起做这个事。
Q:目前研发团队对寒武纪的评价怎么样
A:研发负责人觉得挺好的。
Q:寒武纪有推介过下一代产品的水平吗
A:说过,说是对标英伟达下一代H100,两边水平基本差不多。
Q:时间上大概是什么时候能提供
A:说是明年Q2,大概明年4~5月就差不多了。
Q:明年Q2就能提供对标H100的给你们吗?这个挺超预期的
A:我这边得到这个信息。
Q:寒武纪的软件目前用起来,稳定性怎么样?
A:软件的稳定性我觉得是完全OK的,目前没有什么我们不满意的地方。
Q:目前大模型开发商,软件是不是就是个编译器啊
A:我们研发团队老大给我的反馈是这样的,大模型上软件只是个编译器,更多的是靠芯片里面的硬件去堆上去。我们研发老大的说法是,大模型这件事最后成不成,软件其实没啥大贡献,基本还是看硬件。软件大家最后都是拉齐的水平,贡献度也极低,最终还是看硬件。
Q:软件所谓的生态,在这里有价值吗?
A:我个人理解只是个编译器功能,如果生态做的很大,比如功能丰富,在这里就有点十八般武艺用不上,我感觉增益不是很大。
Q:其他的多卡互联的功能,比如模型分发,数据并行,混合并行,这种偏调度和软件的功能,用起来有问题吗?
A:这块也是OK的,至少我们研发这边对寒武纪的芯片是满意的。
Q:你们是我了解的第一个完整的用寒武纪的590跑1200多亿大模型训练和推理的,其他家的使用情况您了解吗
A:其他家好像简单跑一跑推理,训练没怎么碰吧,应该还没有做对比实验。
Q:你们选择分开做的原因是什么?寒武纪给的建议还是你们自己决定的
A:寒武纪给了这样的建议,我们也有供应稳定性和成本上的考虑。所以我们研发团队决定要么在模型公布前就充分试验,模型公开后就不能随意的切换,不然体验下降会有不稳定因素会对口碑有打击。所以我们就分开做,看看结果怎么样,如果结果很拉胯就只能抛弃国产,如果结果能接受我们就主力用国产。
Q:和寒武纪在采购上有合作意向吗?
A:目前看肯定是要合作的,如果寒武纪到年底调好了,达到他们说的预期的话,那就更没有拒绝的理由了。
Q:数量上大概是什么样的计划?
A:目前来看会是大几百的规模,因为他说下一代会平齐英伟达最新产品,所以我们也想等下一代产品。
Q:370这样的小卡会采购吗?
A:目前我们研发给的反馈是不会,我们觉得不管是哪一家,大模型基本上不可能跑在小卡上。
Q:我觉得你们这个研发挺厉害的,是什么样的背景
A:您查也能查到,原来是谷歌在做大模型相关的人士。
Q:今年产品会开放给多少开发者使用?
A:大概今年6~7月会给开发者使用,最开始会邀请一些开发者,给几个垂类像摄影、旅游、摄影等百万粉创作者先用,大概在小几十人的规模。顺利的话Q4会大规模公开,可能会从百万粉降到十万粉或者一万粉左右,也可能扩展到其它垂类。
Q:有评估过开放多少用户,需要多少张卡吗
A:我们研发老大评估过,我们目前计划开放的垂类调用量大,第一批30~50人可能就50张上下就可以。如果开放到10万粉,大概在300~500张左右,或者大几百。
Q:人数和卡的数量是怎么映射的
A:如果说是限定在7~8个垂类,大概一张卡能对应10个人左右。开放给所有垂类,大概一张卡对应12~13人左右,因为他们调用量会小。
Q:全平台开发者有多少?
A:我们叫内容创作者,万粉以上的话整个规模在百万的量级,大概需要10万量级的卡,成本我们是hold不住的,所以目前大概率不会这么做。
最新纪要研报请微信扫码关注“君实财经”
每天精选消费、医药、互联网、新能源等最新调研纪要和报告,缩小你与一线产业的信息差!

注意:以上内容来源于网络,友情分享,仅是基于行业以及公司基本面的静态分析,非动态买卖指导。股市有风险,入市需谨慎,请勿跟风买卖!如造成不便,请联系后台删除