下载
登录/ 注册
主页
论坛
视频
热股
可转债
基金
下载
下载

挖一挖鸿博的“搏博云”

23-06-25 15:57 661次浏览
pamaze
+关注
博主要求身份验证
登录用户ID:
今年做AI赚了一些钱,尤其是鸿博,是今年甚至开户以来赚得最多的一只票,所以到后面仓位基本都移到鸿博上面了,其他AI票偶尔小仓位打野做一下。

为了说服自己敢于买他,并安心持有,只好下手做研究,陆续写了一些文章。最初只发在别的平台上,这边慢慢同步过来,给有缘人看看。这些只是自己研究,不一定就是对,仅供参考。

——————

这篇是6.15写的,正好是股价收在最近几天低点。



今天(6.15)早上10:22,英博公号发了“简报”,内容超不超预期?股价是最好的反应,直接从水下-7%翻红。

早上竞价加完,就没什么好盯盘了,那就有时间来写一写搏博云。

其实这篇文章,之前基本写完,但还差点资料。正好,今天“简报”披露了搏博云的进展,稍微补充下就可以和你们分享了。


上对搏博云的讨论不多,下面我将结合挖掘的资料,从几个角度探讨。文章较长,大家可以按目录各取所需。

一、什么是搏博云
二、为什么需要搏博云
三、什么是跨云训练,为什么需要
四、如何理解GPU和CPU协调训练
五、搏博云的优势
六、博搏云进展
七、关于openan infra

再次强调,本文不构成投资建议,大家自行思考。
—————

一、什么是搏博云

搏博云,第一次出现在我们视野中,是在今年4月26日举办的第六届数字中国建设峰会上。
当时,英博数科总经理周韡韡说,“这里可以向大家介绍我们接下来工作中的重中之重:我们即将推出的搏博云服务(BOB Cloud)的解决方案。”

为什么叫搏博云?

5月18日,英博数科对此做了说明——取自英文Best of the Best Cloud,就是最好中的最好,顶好的意思。



二、为什么需要搏博云

这里,我们直接引用周总的介绍。

“算力需求是不会一直处于一个峰值状态的,就像在电力系统中,我们会对电力进行削峰填谷和平衡调度,这种方式在算力的服务上也同样适用。

我们在这个阶段搏博云上首先要满足的是通过善用弹性计算,来进行一个对GPU的云调度,例如在一台5P GPU算力的服务器上,就可以实现56个实例同时并行训练。

在下一个阶段,根据我们了解到的大模型客户的一些痛点,这些大模型客户在面对GPU计算需求的时候会把任务放在不同的云平台上进行,比如放在阿里云一个模型,同时另外一个是放在亚马逊 云的,这也是为了他们本身的项目安全。

在这样的情况下,跨云的沟通成为了一个刚性的需求,而且人工智能的算力在进行GPU训练的时候也要面临大量的CPU对数据的清洗和管理的工作。在这个时候如何协同CPU和GPU的高效协同和训练效果,就成为我们客户的一个必须的刚性需求,这个也是我们接下来的搏博云需要解决的跨云沟通,和在GPU和CPU上协调训练的需求。”

三、什么是跨云训练,为什么需要

跨云训练指在多个云计算平台之间进行AI训练。(感觉,在公司内部不同机房之间的跨云,还有同一个云计算商跨省也算?)
比如一个做自动驾驶的公司,要处理的数据非常多,同时在华为云、阿里云(甚至腾讯云……)都有数据,那他既可以在华为训练,也可在阿里训练。

为什么需要两个或以上的云?

1、计算资源的可扩展性:不同云计算资源(硬件配置、传输速度)有差别,大规模训练需要一起上。
2、数据的可用性:数据存储在不同云平台上,同时访问和使用,可以避免数据传输的复杂性和延迟。比方公司在杭州有一个训练,用阿里云是不是要比腾讯云快?
3、提高鲁棒性:在不同云上训练,可以减少对单个云的依赖,确保训练的连续性和稳定性。(鲁棒性指控制系统对特性或参数扰动的不敏感性,也就是系统的健壮性)
4、降低成本和增加灵活性:根据不同需求选择不同云,获得最佳的性能和成本效益。比如白天华为云便宜,晚间阿里云便宜,合理搭配,更省钱。
跨云难点在于,不同云的类型不一样,如何将不同的硬件资源组织起来是一个挑战。另外,如果数据集非常庞大,怎么在各个云之间自由地切换、调度、备份,也是一个挑战。

四、如何理解GPU和CPU协调训练

周总在分享中提到,“人工智能的算力在进行GPU训练的时候也要面临大量的CPU对数据的清洗和管理的工作”,怎么理解?



简单来说,CPU和GPU承担不同的功能。

GPU在深度学任务中负责大规模的并行计算,而CPU则更适合处理数据的预处理、加载、批处理、模型调度和内存管理等任务。通过将这些工作分配给CPU和GPU,可以充分利用各自的优势,提高训练效率和性能。

1、数据预处理:在进行机器学或深度学训练时,数据通常需要进行预处理和清洗,例如去除噪声、标准化数据等。这些操作通常需要在CPU上完成,因为CPU更适合处理较为复杂的逻辑和控制流程。

2、数据加载和批处理:在训练模型时,数据通常以批量的方式加载到GPU中。CPU负责从存储介质(如硬盘或内存)中读取数据,并进行批量处理,将数据传输到GPU内存中。这包括读取数据、划分批次、数据增强等操作,这些操作在CPU上执行通常更加高效。

3、模型调度和参数更新:在训练过程中,模型的参数需要被更新。这涉及计算梯度、优化算法的应用、参数更新等操作。这些计算通常在GPU上进行,但在更新模型参数之前,CPU负责调度这些操作,确保它们按照正确的顺序和时间进行。

4、内存管理:GPU通常拥有相对较小的内存容量,而训练所需的数据通常较大。因此,CPU负责管理GPU内存,包括在训练过程中将数据传输到GPU内存中,以及根据需要释放不再使用的内存。这可以帮助确保GPU内存的有效使用,并避免内存不足或溢出的问题。

五、搏博云的优势

优势1:高端云算力

鸿博有白名单,可以提供英伟达 高性能计算及 AI 推理训练的高端云算力。这是和其他云服务商最大的不同。
并且,后续如需要扩容,也不用担心——之前调研纪要提到,“公司已于 2023 年 2 月向原厂商完成了远超现阶段业务需求的算力设备订单锁定,由此获得硬件设备上的先发优势以及稳定的设备调货周期”。

优势2:算力普惠
优势3:贵阳

两条一起说。
之前一直不清楚会在哪个地方落地。
这次“简报”提到落到贵阳,一下清晰了。
为什么是贵阳?
贵阳有完善的大数据、网络基建。



贵阳有一个大数据科创城,我们知道苹果 、华为都在贵阳建立了数据中心




并且,贵阳还有三大运营商加持(就是上图中说的网络基建)

中国移动中国联通中国电信 三大运营商大数据中心的建立为贵阳奠定了产业发展的基础。三大运营商数据中心在贵安新区相继开工建设,其中:中国电信 云计算中心用地500亩,总投资70亿元;中国移动 (贵州)数据中心项目用地275亩,总投资20亿元;中国联通 (贵安)云计算基地用地500亩,总投资50亿元。

三大运营商数据中心在贵安新区相继建成后,将使贵阳周边特定区域集聚20-30万的机架、上百万台的服务器,数据存储规模可达EB以上,成为国内乃至全球最大的数据聚集地之一。

贵阳其他优势,还有政策扶持、地理位置和气候条件优渥,以及电力充足且稳定。

最后,数据中心并非是技术密度非常高的研发中心,而且很多还可以远程协作,所以不一定非要建在人才相对集中的北上广深,这样人才依然能满足,能匹配,同时还能降低人才成本。

所以这一切一切,都是博搏云可以提供普惠算力的原因。

同时,为AI初创型公司降低研发成本门槛,在当前经济复苏困难时期,符合国家倡导和鼓励的政府。

其实,当初英博去贵阳拜见当地政府领导,就应该想到把博搏云落地在这里,多么符合天道!



六、博搏云进展

正如“简报”所说,“快速跟进”,领导会见北京英博数科科技有限公司总经理周韡韡一行是5月26日,6.13相关人员就来北京考察,并达成合作意向了。



至于落地建成,这个恐怕还需要较长时间。

不过,参考之前周总说的,“这里可以向大家介绍我们接下来工作中的重中之重:我们即将推出的搏博云服务(BOB Cloud)的解决方案”,“重中之重”“即将推出”,进度可能超预期。

七、关于openan infra

“简报”最后说,学借鉴openAI Infra,为大模型开发客户提供更好的交付体验与增值服务。



Infra是Infrastructure for deep learning缩写,即深度学的基础设施,或称构建AI所需的基础设施。

根据官网介绍,包括写代码的软件,CPU服务器等硬件、配置(用来管理服务器)、协调、自动缩放器等。

这些东西比较术语,后面我再来写一篇介绍。

就这样,时间匆忙,有错漏后面再更正。

感谢阅读!

————
很久就注册了淘股吧账号,但很少发讨论。借助鸿博,借助这篇文章,也许是一个开始。

后续会继续同步更多关于鸿博的研究文章,欢迎大家留言讨论哈。

$鸿博股份(sz002229)$
打开淘股吧APP
2
评论(1)
收藏
展开
热门 最新
我好困呀

23-06-25 21:36

0
好文
刷新 首页上一页 下一页末页
提交