下载
登录/ 注册
主页
论坛
视频
热股
可转债
下载
下载

未来视频生成对算力以及多模态将会形成极大的促进 值得重视

23-12-09 23:46 698次浏览
一生九世
+关注
博主要求身份验证
登录用户ID:
一、市场情况(结论)

GPTs应用数量突破3万,截止12月1日,最佳GPTs应用聚焦于多模态AIGC与效率工具
从最流行的10个GPTs应用来看,5个为包括图像和视频生成在内的多模态AIGC领域,3个为与包括写作在内的效率工具,其余2个为与Coding相关、主要面向开发者的网页设计。从排名靠前的应用中可以看出多模态AIGC与效率工具有可能是GPTs应用中的重要部分,多模态领域较高的比重也说明了图片与视频模态的生成是用户需求的主要方向之一。

文生视频是一个年轻的方向,该领域面临多方面的挑战,包括高算力成本、缺乏高质量的数据集等,但随着视频扩散模型技术的突破。看好未来 在视频多模态领域的应用机会,同时算力基础设施在视频模态技术的带领下也有望迎来快速增长。


二、目前主流多模态模型
纹身视频技术路径与纹身图类似,经历了从干模型到自回归再到扩散模型的生成阶段。目前主流模型仍然是扩散模型,在整体生成质量上优于其他两种模型。扩散模型通过对高斯噪声进行降噪来进行推断和生成模型。扩散模型是目 前较主流的模型之一,具备较高的稳定性和整体生成质量。在纹身视频领域,扩散模型能够生成更连贯且自然的视频。扩散模型的计算效率较高,但在实际应用中需要具备较高的算力成本。

备注:干模型和自回归模型介绍
干模型:由生成器和判别器构成。生成器负责生成图片,判别器负责判断图 片质量,即判断真实样本还是虚假样本。生成器和判别器进行无限次对抗 训练,生成器逐渐生成逼真图像。判别器能更精准地判断图像真假,最终输出相对真实的图片(优点:在于所需数据量相对较少,参数量较少,比较轻便,适用各个场景。缺点:训练过程中存在较强的不稳定性,容易出现模型坍塌现象。虽然输出的图片真实,但多样性不足,整体生成效果有劣势。)

自回归模型:基于 transformer 架构进行图像生成。Transformer 包括 encoder 和 decoder 两部分,能够模拟像素和高级属性之间的空间关系。该模型将文本和图像分别编码,转化为tokens 序列,再输入生成式的 transform 架构进行训练,能够从文本序列预测图像序列,并在输出后对图像序列解码,得到最终生成的图像。(优点:稳定性较高,生成图像逻辑较合理。缺点:对于数据和参数量要求较高,导致整体训练效率较低,生成速度慢,训练成本相对较高。)

三、多模态研究框架的优势以及应用在实际场景
多模态研究框架具备更准确地还原真实图像的能力,能够保持原始图片的细节和精准度。在应用策略上,可以结合 keep 模型和潜在空间模型。keep 模型通过输入大规模文本和图像学到文本和图像之间的关系, 潜在空间模型在有限算力下保持图像质量和灵活性,降低整体落地门槛。 在纹身视频领域的应用还面临技术难点,如缺乏高质量的文本和视频对子、 复杂的高维数据建模以及用户表达的不确定性等。未来随着技术进步和商业化的推进,纹身视频应用可能会有进一步突破。

四、纹身图和纹身视频的商业化模式及成本
纹身图的主要成本包括算力成本、运维成本、人力成本和销售费用。 商业化模式可以基于GPU时间或生成次数进行定价,也可以提供API接口调用。对于 mejourney 来说,大部分成本是算力成本,约占80%以上。 以扩散模型为基准,干模型的算力成本大约是扩散模型的1/4到1/3,自回归模型的算力成本大约是扩散模型的1.5倍。纹身视频的算力成本可能会更高,可能达到纹身图的24倍以上,因为视频需要每秒24帧以上的帧率。根据估算,mejourney 的毛利率在30%到40%,净利率接近20%。

五、纹身图推理算力的需求情况
纹身图的参数模型大部分在10亿到50亿之间,以10亿参数模型为例,根据参数量和显存容量的经验公式,计算出10亿参数模型对应的显存容量约为3.7GB。单次推理所需的显卡数量可通过显存容量来计算, 例如以A100 显卡为例,单个可扩展的GPU显存容量约为5.7GB, 大于10亿参数模型所需的3.7GB。10亿参数的纹身图模型单次推理所需的A100 显卡数量大约为1/7张。

六、纹身图的并发推理需求对算力的需求
以谷歌搜索为基准,纹身图的并发次数设计是谷歌搜索的10倍,即 100万纹身图的 DAU 对应的单次并发需求约为1000次。通常情况下纹身图不会对推理次数进行合并计算,因此最大的并发推理容量为1000次。最后通过将单次推理所需的显卡数量乘以最高并发推理次数,可以得到10亿参数的纹身图模型所需的显卡数量约为143张。目前H100和H800的算力服务器8张卡,整体算力在16P,A100和A800的算力服务器8张卡,整体算力在5P。

七、纹身图和纹身视频的当前市场的整体对比情况
在竞争格局方面,纹身图和纹身视频分为两类应用。对于头部应用来说, 一些具有突破技术产品或成本数据优势的应用可能率先实现变现,但整体行业的创业门槛不高,会出现中长尾应用。如果中长尾应用缺乏以上优势最终可能被淘汰。长期来看头部应用更重要的是开拓B 端能力,将技术输入到B端场景探索更多变现可能。而第二类应用是在现有应用中叠加Al 功能,主要是盘活现有用户、提升用户体验和粘性。长期来看这种类型的应用基于现有高频场景,用户已养成使用惯和壁垒,因此可以实现 APP 和付费率提升。

八、有关多模态及算力方面的相关公司
(1)基础层:大模型:三六零科大讯飞 ;数据服务:海天瑞声
(2)应用层:AI+工具:金山办公 ;AI+建筑:广联达 ;AI+法律:通达海 ;AI+医疗:创业慧康久远银海 ;AI+教 育:科大讯飞;AI+网安:安恒信息奇安信 ;AI+金融:同花顺 ;AI+交通:佳都科技 ;AI+政务:拓尔思 ;AI+遥感:航天宏图
(3)多模态应用:万兴科技美图公司易点天下网达软件焦点科技当虹科技
(4)AI视屏:奥飞娱乐上海电影华策影视捷成股份芒果超媒光线传媒唐德影视 等等
(5)游戏:巨人网络神州泰岳三七互娱恺英网络宝通科技 、掌趣等
(6)其他ai领域:南方传媒 /万兴科技/昆仑万维 /蓝色光标 /易点天下/天地在线 等。
(7)算力:(1)华为昇腾神州数码高新发展烽火通信拓维信息广电运通 ;(2)非华为国产AI芯片:海光信息寒武纪云天励飞景嘉微
(8)其他:浪潮信息云赛智联 、景嘉微、万马科技阿尔特恒为科技 、科大讯飞、润健股份等
打开淘股吧APP
2
评论(0)
收藏
展开
热门 最新
提交