挖一挖鸿博的“搏博云”_pamaze

+关注

博主要求身份验证

登录用户ID：

今年做AI赚了一些钱，尤其是鸿博，是今年甚至开户以来赚得最多的一只票，所以到后面仓位基本都移到鸿博上面了，其他AI票偶尔小仓位打野做一下。

为了说服自己敢于买他，并安心持有，只好下手做研究，陆续写了一些文章。最初只发在别的平台上，这边慢慢同步过来，给有缘人看看。这些只是自己研究，不一定就是对，仅供参考。

——————

这篇是6.15写的，正好是股价收在最近几天低点。

今天（6.15）早上10：22，英博公号发了“简报”，内容超不超预期？股价是最好的反应，直接从水下-7%翻红。

早上竞价加完，就没什么好盯盘了，那就有时间来写一写搏博云。

其实这篇文章，之前基本写完，但还差点资料。正好，今天“简报”披露了搏博云的进展，稍微补充下就可以和你们分享了。

上对搏博云的讨论不多，下面我将结合挖掘的资料，从几个角度探讨。文章较长，大家可以按目录各取所需。

一、什么是搏博云
二、为什么需要搏博云
三、什么是跨云训练，为什么需要
四、如何理解GPU和CPU协调训练
五、搏博云的优势
六、博搏云进展
七、关于openan infra

再次强调，本文不构成投资建议，大家自行思考。
—————

一、什么是搏博云

搏博云，第一次出现在我们视野中，是在今年4月26日举办的第六届数字中国建设峰会上。
当时，英博数科总经理周韡韡说，“这里可以向大家介绍我们接下来工作中的重中之重：我们即将推出的搏博云服务(BOB Cloud)的解决方案。”

为什么叫搏博云？

5月18日，英博数科对此做了说明——取自英文Best of the Best Cloud，就是最好中的最好，顶好的意思。

二、为什么需要搏博云

这里，我们直接引用周总的介绍。

“算力需求是不会一直处于一个峰值状态的，就像在电力系统中，我们会对电力进行削峰填谷和平衡调度，这种方式在算力的服务上也同样适用。

我们在这个阶段搏博云上首先要满足的是通过善用弹性计算，来进行一个对GPU的云调度，例如在一台5P GPU算力的服务器上，就可以实现56个实例同时并行训练。

在下一个阶段，根据我们了解到的大模型客户的一些痛点，这些大模型客户在面对GPU计算需求的时候会把任务放在不同的云平台上进行，比如放在阿里云一个模型，同时另外一个是放在亚马逊云的，这也是为了他们本身的项目安全。

在这样的情况下，跨云的沟通成为了一个刚性的需求，而且人工智能的算力在进行GPU训练的时候也要面临大量的CPU对数据的清洗和管理的工作。在这个时候如何协同CPU和GPU的高效协同和训练效果，就成为我们客户的一个必须的刚性需求，这个也是我们接下来的搏博云需要解决的跨云沟通，和在GPU和CPU上协调训练的需求。”

三、什么是跨云训练，为什么需要

跨云训练指在多个云计算平台之间进行AI训练。（感觉，在公司内部不同机房之间的跨云，还有同一个云计算商跨省也算？）
比如一个做自动驾驶的公司，要处理的数据非常多，同时在华为云、阿里云（甚至腾讯云……）都有数据，那他既可以在华为训练，也可在阿里训练。

为什么需要两个或以上的云？

1、计算资源的可扩展性：不同云计算资源（硬件配置、传输速度）有差别，大规模训练需要一起上。
2、数据的可用性：数据存储在不同云平台上，同时访问和使用，可以避免数据传输的复杂性和延迟。比方公司在杭州有一个训练，用阿里云是不是要比腾讯云快？
3、提高鲁棒性：在不同云上训练，可以减少对单个云的依赖，确保训练的连续性和稳定性。（鲁棒性指控制系统对特性或参数扰动的不敏感性，也就是系统的健壮性）
4、降低成本和增加灵活性：根据不同需求选择不同云，获得最佳的性能和成本效益。比如白天华为云便宜，晚间阿里云便宜，合理搭配，更省钱。
跨云难点在于，不同云的类型不一样，如何将不同的硬件资源组织起来是一个挑战。另外，如果数据集非常庞大，怎么在各个云之间自由地切换、调度、备份，也是一个挑战。

四、如何理解GPU和CPU协调训练

周总在分享中提到，“人工智能的算力在进行GPU训练的时候也要面临大量的CPU对数据的清洗和管理的工作”，怎么理解？

简单来说，CPU和GPU承担不同的功能。

GPU在深度学任务中负责大规模的并行计算，而CPU则更适合处理数据的预处理、加载、批处理、模型调度和内存管理等任务。通过将这些工作分配给CPU和GPU，可以充分利用各自的优势，提高训练效率和性能。

1、数据预处理：在进行机器学或深度学训练时，数据通常需要进行预处理和清洗，例如去除噪声、标准化数据等。这些操作通常需要在CPU上完成，因为CPU更适合处理较为复杂的逻辑和控制流程。

2、数据加载和批处理：在训练模型时，数据通常以批量的方式加载到GPU中。CPU负责从存储介质（如硬盘或内存）中读取数据，并进行批量处理，将数据传输到GPU内存中。这包括读取数据、划分批次、数据增强等操作，这些操作在CPU上执行通常更加高效。

3、模型调度和参数更新：在训练过程中，模型的参数需要被更新。这涉及计算梯度、优化算法的应用、参数更新等操作。这些计算通常在GPU上进行，但在更新模型参数之前，CPU负责调度这些操作，确保它们按照正确的顺序和时间进行。

4、内存管理：GPU通常拥有相对较小的内存容量，而训练所需的数据通常较大。因此，CPU负责管理GPU内存，包括在训练过程中将数据传输到GPU内存中，以及根据需要释放不再使用的内存。这可以帮助确保GPU内存的有效使用，并避免内存不足或溢出的问题。

五、搏博云的优势

优势1：高端云算力

鸿博有白名单，可以提供英伟达高性能计算及 AI 推理训练的高端云算力。这是和其他云服务商最大的不同。
并且，后续如需要扩容，也不用担心——之前调研纪要提到，“公司已于 2023 年 2 月向原厂商完成了远超现阶段业务需求的算力设备订单锁定，由此获得硬件设备上的先发优势以及稳定的设备调货周期”。

优势2：算力普惠
优势3：贵阳

两条一起说。
之前一直不清楚会在哪个地方落地。
这次“简报”提到落到贵阳，一下清晰了。
为什么是贵阳？
贵阳有完善的大数据、网络基建。

贵阳有一个大数据科创城，我们知道苹果、华为都在贵阳建立了数据中心。

并且，贵阳还有三大运营商加持（就是上图中说的网络基建）

中国移动、中国联通和中国电信三大运营商大数据中心的建立为贵阳奠定了产业发展的基础。三大运营商数据中心在贵安新区相继开工建设，其中：中国电信云计算中心用地500亩，总投资70亿元；中国移动（贵州）数据中心项目用地275亩，总投资20亿元；中国联通（贵安）云计算基地用地500亩，总投资50亿元。

三大运营商数据中心在贵安新区相继建成后，将使贵阳周边特定区域集聚20-30万的机架、上百万台的服务器，数据存储规模可达EB以上，成为国内乃至全球最大的数据聚集地之一。

贵阳其他优势，还有政策扶持、地理位置和气候条件优渥，以及电力充足且稳定。

最后，数据中心并非是技术密度非常高的研发中心，而且很多还可以远程协作，所以不一定非要建在人才相对集中的北上广深，这样人才依然能满足，能匹配，同时还能降低人才成本。

所以这一切一切，都是博搏云可以提供普惠算力的原因。

同时，为AI初创型公司降低研发成本门槛，在当前经济复苏困难时期，符合国家倡导和鼓励的政府。

其实，当初英博去贵阳拜见当地政府领导，就应该想到把博搏云落地在这里，多么符合天道！

六、博搏云进展

正如“简报”所说，“快速跟进”，领导会见北京英博数科科技有限公司总经理周韡韡一行是5月26日，6.13相关人员就来北京考察，并达成合作意向了。

至于落地建成，这个恐怕还需要较长时间。

不过，参考之前周总说的，“这里可以向大家介绍我们接下来工作中的重中之重：我们即将推出的搏博云服务(BOB Cloud)的解决方案”，“重中之重”“即将推出”，进度可能超预期。

七、关于openan infra

“简报”最后说，学借鉴openAI Infra，为大模型开发客户提供更好的交付体验与增值服务。

Infra是Infrastructure for deep learning缩写，即深度学的基础设施，或称构建AI所需的基础设施。

根据官网介绍，包括写代码的软件，CPU服务器等硬件、配置（用来管理服务器）、协调、自动缩放器等。

这些东西比较术语，后面我再来写一篇介绍。

就这样，时间匆忙，有错漏后面再更正。

感谢阅读！

————
很久就注册了淘股吧账号，但很少发讨论。借助鸿博，借助这篇文章，也许是一个开始。

后续会继续同步更多关于鸿博的研究文章，欢迎大家留言讨论哈。

$鸿博股份(sz002229)$

打开淘股吧APP