为什么客户选择NBIS
Nebius Group (NASDAQ: NBIS)(前身为 Yandex N.V. 的国际部分,于 2024 年更名为 Nebius)是一家专注于 AI 基础设施的公司,主要提供大规模 GPU 集群、AI 云平台和相关工具服务。其客户主要来自 AI 开发、训练和推理领域,包括初创公司、研究机构和大型科技巨头。
根据公开信息和公司披露,Nebius 的已知主要客户或合作伙伴包括:
- Microsoft(微软):2025 年宣布的一项重大合作协议,价值最高达 194 亿美元(基础 174 亿美元 + 可选 20 亿美元),Nebius 为微软提供专属 GPU 云能力,用于应对 AI 算力需求,服务至 2031 年。
- Meta Platforms(Meta):最近宣布的一项协议,价值约 30 亿美元,持续 5 年,主要提供 AI 基础设施支持。
- Mistral AI:欧洲知名开源 AI 模型公司,是 Nebius 最著名的客户之一,使用其 GPU 集群进行模型训练和部署。
- 其他客户案例:公司官网(nebius.com/customer-stories)展示了多个客户故事,包括 AI 初创公司、研究团队和企业用户,但未全部公开具体名称。Nebius 的客户群正在快速增长,重点服务于需要高性能 AI 计算的实体。
Nebius 作为新兴的独立 AI 云提供商(脱离俄罗斯资产后重新定位),客户名单仍在扩展中,许多合同属于保密性质。公司强调与 hyperscaler(超大规模客户)和 AI 开发者的合作,需求强劲。目前公开的大客户以微软和 Meta 为代表,体现了其在全球 AI 基础设施市场的竞争力。
Nebius.com/customer-stories 页面展示的客户列表
Nebius(NBIS)官网的 Customer Stories 页面主要展示了一系列AI初创公司、研究机构和开源项目的案例。这些客户大多是AI/ML领域的开发者、生物科技或推理框架项目。他们选择Nebius的主要原因是其专为AI workload优化的基础设施(大规模NVIDIA GPU集群、高性能存储、InfiniBand网络、Managed Kubernetes/Slurm等),而非通用云平台。页面本身很少直接提及“为什么不选AWS”,但从描述和外部比较来看,核心优势总结如下:
主要客户列表及选择Nebius的原因(基于官网故事提取)
| 客户名称 | 主要业务领域 | 选择Nebius的关键原因(官网描述) | 隐含/外部提到的优于AWS等通用云的原因 |
|---|---|---|---|
| Stanford | CRISPR-GPT(基因编辑AI代理) | 使用Nebius基础设施开发和运行LLM-powered基因编辑系统 | – |
| vLLM | 开源LLM推理框架 | 在Nebius上测试和优化推理性能 | 高性能GPU集群,便于大规模测试 |
| Helical | 制药/生物科技虚拟实验 | 依赖Nebius专属集群的可靠互联和存储集成 | 存储/网络优化,适合科学计算 |
| Lynx Analytics | 企业AI解决方案 | 弹性AI基础设施,高GPU利用率,优化性能与成本 | 成本更优、利用率高 |
| SGLang | LLM推理框架 | 与Nebius合作提升DeepSeek R1性能,单节点吞吐量提升2倍、延迟显著降低 | 推理性能显著优于通用云 |
| Recraft | 设计师专用生成AI模型(20B参数) | 从零在Nebius上训练模型 | 大规模训练集群可用性高 |
| Krisp | AI语音转换(口音本地化) | 在Nebius上运行资源密集型任务 | 高性能计算支持 |
| Dubformer | AI配音/本地化 | 在Nebius上管理ML和模型部署 | 易部署、生产级支持 |
| Unum | 紧凑高效AI模型研究 | 与Nebius合作,利用本地高速存储避免虚拟化开销 | 本地磁盘I/O远优于S3类对象存储 |
| TheStage AI | 神经网络推理优化 | 测试多家提供商后,选择Nebius作为最稳定的训练环境;一键部署优化模型 | 明确测试过多家后选Nebius(稳定性胜出) |
| Converge Bio | 单细胞RNA测序+LLM | 用户友好平台、端到端支持、快速响应、专为生命科学优化的AI环境 | 减少运维开销、专注科研 |
| xAID | 医学影像AI助手 | 不间断高性能计算 + 专家MLOps支持(训练周期超5天) | 可靠性高、专家支持强 |
| Chatfuel | AI客服自动化平台 | 使用Nebius AI Studio运行Llama-405B级联,响应质量和速度显著提升 | 推理效率/成本更优 |
| SynthLabs | 开源推理数据集 | TractoAI分布式推理简化数百GPU调度 | Serverless/分布式易用 |
| TrialHub | 医学洞察RAG系统 | 专家支持下几天内部署250M向量数据库 | 快速上线 + 专家协助 |
| 其他(如StringZilla, SieveStack, Simulacra AI, Quantori, Positronic Robotics等) | 生物数据处理、药物发现、机器人等 | 普遍强调高性能GPU、分布式计算、专家支持 | – |
(列表基于2025年11月最新页面内容,Nebius定期更新故事,实际可能更多。)
为什么这些客户选择Nebius,而不是AWS(或Azure/CoreWeave等)?
官网Customer Stories页面不直接批评AWS(避免负面营销),但从描述和外部独立比较/用户反馈中,可以总结出以下核心差异点(这些是客户隐含或明确迁移/选择的原因):
| 优势维度 | Nebius (NBIS) 的特点 | 相对于AWS的典型痛点(客户反馈/比较) | 示例客户体现 |
|---|---|---|---|
| 价格 | H100/H200等GPU小时价显著更低(市场报价~2-3 USD/hr vs AWS P5实例常10+ USD/hr) | AWS GPU资源贵、额外网络/存储费用高 | Lynx Analytics、许多初创(成本优化) |
| GPU可用性和规模 | 专属大规模集群(万卡级),预约/现货更容易获取;自建数据中心+垂直集成 | AWS/CoreWeave等常排队数月,供应紧张 | Recraft(从零训练20B模型)、大客户如Microsoft/Meta |
| 性能/效率 | 优化整个栈(InfiniBand 3.2Tbit/s、本地高速存储、节点健康自动修复),MFU更高 | AWS虚拟化开销大、存储(如EFS/S3)延迟高 | SGLang(2x吞吐)、Unum(本地盘I/O) |
| 稳定性与可靠性 | 专为长时间训练设计(节点故障自动修复、无中断) | 通用云偶现预留实例中断或限流 | TheStage AI(测试多家后选最稳定)、xAID(5+天训练无中断) |
| 专家支持与上手 | 深度MLOps/架构师一对一指导,快速上线(几天内部署复杂环境) | AWS支持偏通用、自助文档为主,企业级支持贵 | TrialHub、Converge Bio、Reddit用户反馈 |
| AI-native设计 | 从硬件到软件全为AI优化(无通用服务负担),存储/网络专为训练/推理调优 | AWS是通用云,AI只是子集;配置复杂 | Helical、Simulacra AI(科学计算) |
| 欧洲/合规优势 | 数据中心在芬兰/巴黎(GDPR友好),部分客户偏好非美供应商 | AWS美系,地缘/合规顾虑 | 欧洲初创多 |
总结:这些客户(多为AI初创和研究团队)选择Nebius的主因是**“性价比最高 + 真正为AI训练/推理而生”**,而AWS虽生态完善,但对纯GPU重载场景往往更贵、更慢、更难获取资源。Nebius定位就是“AI专属云”,类似于CoreWeave但规模更大、支持更好。
Nebius (NBIS) vs AWS:AI基础设施全面对比(2025年11月最新)
Nebius(前Yandex国际业务)是AI专属云(Neocloud),专注于大规模GPU集群、训练/推理优化;AWS是通用云巨头,AI只是其子业务(EC2、SageMaker等)。Nebius在纯AI场景下性价比更高,许多初创/研究团队从AWS迁移到Nebius;但AWS在生态、可靠性和企业集成上仍占绝对优势。
核心对比表格
| 维度 | Nebius (NBIS) | AWS (EC2/SageMaker等) | 谁更胜一筹(针对AI workload) |
|---|---|---|---|
| 定位 | 纯AI基础设施(训练/推理专属) | 通用云,AI是其中一部分 | Nebius(更专注) |
| GPU类型(2025最新) | H100/H200/GB200/Blackwell Ultra,早批获取NVIDIA新卡 | P5/P6(H100/H200)、Trainium/Inferentia自定义芯片 | Nebius(更前沿NVIDIA卡) |
| 集群规模 | 万卡级+,InfiniBand 3.2Tbps,非阻塞网络;MLPerf基准近线性扩展(1024卡训练Llama 405B) | UltraClusters数千卡,EFA网络;规模更大但虚拟化开销高 | 平手(Nebius扩展性更好) |
| 定价(H100/H200示例) | On-demand ~$2-3/hr;预留更低(比AWS便宜40-60%) | P5实例 ~$10+/hr(含生态溢价);2025降价后仍较高 | Nebius(显著更便宜) |
| 性能/效率 | 本地高速存储、自动修复、健康检查;MFU更高,推理延迟/吞吐优于通用云 | 强大但虚拟化/存储(EFS/S3)延迟高;适合混合负载 | Nebius(纯AI优化) |
| 可用性/供应 | 现货/预约更容易,万卡集群快速交付;NVIDIA优先伙伴 | 常排队数月(尤其高峰期) | Nebius |
| 稳定性/可靠性 | 长时间训练(5+天)无中断;节点自动修复 | 企业级SLA,但偶现限流/中断 | Nebius(AI长训更稳) |
| 支持与上手 | 一对一MLOps专家指导、快速上线(几天内部署复杂环境);AI Studio一键推理 | 自助文档为主,企业支持贵;SageMaker生态完善但学习曲线陡 | Nebius(更亲初创/研究) |
| 生态/工具 | Managed Kubernetes/Slurm、AI Studio、Soperator(开源);集成MLflow等 | S3/SageMaker/EKS全家桶;最成熟 | AWS |
| 客户群体 | AI初创、研究机构、开源项目(Mistral、Recraft、Stanford等);大客户Microsoft/Meta | 企业巨头、混合负载 | Nebius(纯AI更强) |
| 增长(2025数据) | ARR增长700%+,Q2营收+625%;指导2025 ARR $750M-1B | AWS整体Q3营收$33B(+20%),但AI部分增长慢于Nebius | Nebius(爆发式) |
| 地域/合规 | 欧洲(芬兰/巴黎)+美国(Kansas City)、以色列;GDPR友好 | 全球最全;但美系地缘顾虑 | 视需求(欧洲用户偏Nebius) |
为什么越来越多AI团队选择Nebius而非AWS?
- 成本主导:训练大模型动辄数十万刀,Nebius可省40-60%(许多客户反馈“相同配置下Nebius只需AWS一半钱”)。
- 资源饥渴:2025 GPU仍紧缺,AWS常需排队数月;Nebius+NVIDIA紧密关系,集群交付更快。
- 纯AI优化:从硬件到软件全栈为训练/推理设计(本地盘I/O远超S3、InfiniBand无瓶颈)。
- 用户真实反馈(Reddit/论坛/Medium):
- “测试多家后,Nebius是最稳定的训练环境”(TheStage AI)。
- “AWS太贵、排队太久,Nebius性价比碾压”(多家初创迁移案例)。
- “Nebius支持像私人顾问,AWS是自助超市”。
什么时候还是选AWS?
- 需要S3/SageMaker/Lambda等全生态集成。
- 企业级合规、安全、全球低延迟(非纯AI负载)。
- 已有AWS深度绑定(迁移成本高)。
总结:如果你是纯AI重载(大模型训练、推理、生产部署),Nebius 2025年已是更优选——更便宜、更快、更稳、性能更高。AWS适合通用/企业混合场景,但在GPU密集AI上正被Nebius/CoreWeave等“AI原生云”蚕食份额。Nebius目前估值仍相对合理(远低于CoreWeave倍数),增长潜力巨大。