Sand.ai | 三呆科技 | AI视频生成 | 深度分析#_2026_v5.3

作者注
– 版本：v5.3（2026年7月）
– 数据截止：2026年7月3日
– 数据可靠性：✅ 官方/权威媒体数据 | ⚠️ 第三方估算/较早报道 | ❌ 不可靠推测（已删除）
– 数据覆盖：优先使用2025-2026年最新数据，2024年及更早内容已标注⚠️或跳过
– 补充说明：Sand.ai为非APP产品（Web端+API），故不包含应用商店排名分析

一、产品介绍

1.1 产品概述

Sand.ai 是一家成立于2024年1月的AI视频生成模型与产品公司，由 Swin Transformer 核心作者曹越（Cao Yue）在北京创立 ✅。公司以自回归（Autoregressive）视频生成模型为核心技术路线，与主流扩散模型（Diffusion）路线形成差异化。

公司旗舰产品线包含三款产品：

产品	类型	状态	核心定位
Magi-1 / Magi-1.1	视频生成模型	已开源（Apache 2.0）	自回归视频世界模型
Gaga-1	音画同出模型	已开源（Apache 2.0）	原生音频-视频联合生成
VidMuse	产品级应用	商业运营中	音乐驱动的视频Agent

1.2 核心产品详情

Magi-1（2025年4月发布）：全球首个高质量自回归视频生成基础模型 ✅。提供24B参数完整版和4.5B轻量蒸馏版双版本。采用”自回归+扩散”混合架构——将视频拆成24帧一组（chunk），chunk内部做扩散去噪，chunk之间走自回归因果连接。这种架构从原理上支持无限视频延长。

Gaga-1（2025年9月发布）：音画同出模型，是国内最早实现该能力的团队之一 ✅。将声音信号纳入统一建模体系，联合建模后发现声音可辅助画面生成更逼真细节，反之亦然。

VidMuse（2026年1月上线）：音乐Agent产品，主打”Music in, Video Out”——用户输入音频，系统自动完成节奏分析、分镜规划、视频生成全链路 ✅。上线2个月ARR突破千万美元，成为Video Agent赛道最快达到此里程碑的产品 ✅。

1.3 技术架构创新

Sand.ai 的技术架构经历了三代迭代：
– 第一代（Magi-1）：押注自回归路线，突破Diffusion主流叙事
– 第二代（Gaga-1）：音画同出，多模态联合建模
– 第三代（2026年Q3发布）：MoE（混合专家）架构，融合通用场景生成+音画同出+多镜头叙事+多参考生成于同一模型 ✅

关键技术组件 ✅：
– MagiAttention：分布式注意力组件，支持Blackwell架构，被国内几乎所有多模态模型团队使用，英伟达官方推荐用于训练多模态模型
– MagiCompiler：训推一体全局编译框架，通过全图编译压缩延迟

差异化价值：Sand.ai 走的是”自回归+开源”的差异化路线，与Sora、Kling等扩散模型路线有本质区别。自回归路线在物理一致性（Physics-IQ榜单第一）和长视频逻辑连贯性上有理论优势。

二、开发公司分析

2.1 公司概况

维度	信息
公司英文名	Sand.ai
中文名	三呆科技
成立时间	2024年1月 ✅
创始人	曹越（Cao Yue）
总部	中国北京 ✅
团队规模	不到30人，平均年龄30岁以下 ✅
公司使命	“Advance AI to benefit everyone” ✅
开源态度	Apache 2.0协议，完整开源权重+代码+推理工具

2.2 创始人曹越履历

曹越是中国AI领域顶尖的技术人才，其履历核心节点 ✅：

时间	经历
2019-2022	微软亚洲研究院（MSRA）资深研究员
2021	Swin Transformer获ICCV 2021最佳论文奖（Marr Prize），Google Scholar引用近9万次
2022-2023	联合创立”光年之外”（Lightyear AI），后被美团收购
2023-2024	北京智源研究院视觉模型研究中心负责人
2024至今	创立Sand.ai，担任CEO

Swin Transformer 的影响力延续至今——广泛应用在Microsoft Office 365、Azure Cognitive Service、TikTok、快手等产品的视觉理解链路中。曹越本人代表了”从视觉理解到视频生成”的技术连续性 ✅。

2.3 核心团队

团队结构属于”超精英小纵队”模式 ✅：
– 张拯：算法负责人，前MSRA研究员，ACM亚洲区域赛金牌，Swin Transformer核心作者，Google Scholar引用超6万次
– 王佳：运营增长负责人，抖音创始团队七人之一，前Minimax C端运营负责人
– 张子贺（Zake）：VidMuse产品负责人，曾主导剪映PC端从0到1的产品策略与体验设计

2.4 融资历史

轮次	时间	金额	领投方
种子轮	2024年	未披露	源码资本
A轮	2024年5月	数千万美元	今日资本
A+轮	2025年4月	数千万美元	经纬创投
新一轮	2026年4月	约5000万美元	多家联合
最新轮	2026年6月	合计超1亿美元（两轮合计）	15家以上机构

最新融资（2026年6月）：两轮合计超1亿美元 ✅。投资阵容涵盖Look Capital、Lollapalooza Capital（王慧文家族办公室）、九坤创投、经纬创投、和玉资本、创新工场、襄禾资本、源码资本、中科创星、洪泰基金、今日资本、华业天成、云晖资本、IDG、百度风投等15家以上一线机构。

值得关注的是，王慧文（曹越光年之外时期的联合创始人）通过家族办公室以投资人身份回到曹越的新公司，说明核心圈层对创始人能力的持续背书 ✅。

2.5 商业模式

Sand.ai 采用”模型+产品”双轮驱动模式 ✅：
– 模型层面：开源吸引开发者生态，通过MagiAttention等工具组件建立技术影响力
– 产品层面：VidMuse以订阅/按量付费模式实现商业化
– 未来规划：API平台（platform.sand.ai）向开发者提供商用服务

曹越明确表示：”创业公司如果没有训练出SOTA模型的能力，很容易被模型厂商整合。”

三、竞品分析

3.1 竞品矩阵

产品/公司	技术路线	开源	商业化阶段	核心差异化
Sand.ai Magi-1	自回归+扩散	✅Apache 2.0	VidMuse千万美元ARR	物理一致性、无限延长
ByteDance Seedance 2.0	扩散 ✅	❌	集成在即梦/剪映	多镜头叙事、角色一致性
Kuaishou Kling 3.0	扩散 ✅	❌	C端订阅+API	画质成熟、用户基数大
Aishu PixVerse V6	扩散 ✅	部分开源	API+官网订阅	画质稳定、海外市场
Shengshu Vidu Q3	扩散 ✅	❌	官网+API	超长时长、清华系
Alibaba HappyHorse	音视频联合 ⚠️	✅开源	即将开放API	Elo评分第一
Google Veo 3.1	扩散 ✅	❌	Vertex AI平台	电影级画质
OpenAI Sora	扩散 ✅	❌	已关停独立产品 ✅	–

⚠️ 注：2026年3月OpenAI关停Sora独立产品形态，算力资源转向Codex模型。Sora 2本身表现惊艳，关停是OpenAI上市前的战略收缩。

3.2 竞争格局分析

2026年AI视频生成赛道呈现”中美双强”格局 ✅。知乎2026年4月排名显示，前十中中国占据7席（阿里巴巴HappyHorse第一、字节Seedance 2.0第二、快手Kling 3.0第五等），美国仅xAI的Grok Imagine Video（第三）和Google Veo 3.1（第九）上榜。

Sand.ai未进入2026年AI视频工具排行榜TOP20（AI工具宝箱），这与公司定位有关——Sand.ai更偏向基础模型公司+开源生态，而非直接面向C端的工具产品。

3.3 竞品对比

对比维度	Sand.ai Magi-1	Kling 3.0	Seedance 2.0	PixVerse V6
技术路线	自回归+扩散	纯扩散	双分支扩散Transformer	扩散
物理一致性	Physics-IQ第一 ✅	中等	中上	中
视频延长	无限延长	有限	有限	有限
开源	Apache 2.0	❌	❌	部分
音画同出	✅	✅	✅	部分
C端用户基数	小	大（快手6.5亿月活）	大（抖音生态）	中
商业化ARR	千万美元（VidMuse）	未披露	未披露	未披露

3.4 核心竞争优势

技术路线差异化：自回归路线全球只有Sand.ai和Google VideoPoet在认真推进。在物理模拟和长视频逻辑连贯性上有理论优势 ✅
开源生态影响力：MagiAttention被国内几乎所有多模态模型团队使用，英伟达官方推荐，形成技术护城河 ✅
团队组合稀缺性：曹越（Swin Transformer）+张拯（Swin Transformer核心作者）+王佳（抖音创始团队）+张子贺（剪映PC端）- 同时具备”训练SOTA模型”和”做出好产品”的能力 ✅

四、推广渠道分析

4.1 核心推广策略

Sand.ai 的推广策略以”开源换品牌和开发者生态”为核心，不走传统买量路线 ✅。

策略1：开源社区驱动
– GitHub（SandAI-org）发布Magi-1全套权重+代码+推理工具
– Hugging Face（sand-ai）发布模型权重
– 核心组件（MagiAttention、MagiCompiler）全部Apache 2.0开源
– 效果：MagiAttention被国内几乎所有多模态模型团队使用

策略2：学术影响力背书
– Swin Transformer ICCV 2021最佳论文奖的持续影响力
– Physics-IQ榜单长期第一的公开基准成绩
– 论文+技术博客的组合输出

策略3：科技媒体报道
– 36氪《智能涌现》独家专访（2026年6月29日）
– 极客公园深度访谈（2026年4月）
– 多家科技媒体的融资报道

4.2 付费推广

Sand.ai 目前无明显付费买量行为 ⚠️。与Runway、Pika等C端视频工具大量投放Meta/Google/TikTok广告不同，Sand.ai的获客主要依靠：
– 开源社区自然传播
– 学术论文和技术博客的行业影响力
– 媒体报道的品牌曝光

4.3 拓展策略

公司在产品侧的非共识选择：
– VidMuse定位”Music-in Video-Out”：与文本/图片输入的主流视频工具（可灵、即梦、Runway）形成差异化，切入音乐短视频创作场景 ✅
– 模型弱耦合：曹越明确”哪个模型能让产品跑得更快就调哪个”，Sand.ai自研模型并非VidMuse唯一底层供给
– 多产品矩阵：已探索数字人、视频Agent方向，持续寻找”有大杠杆的事情”

五、最新媒体报道

5.1 近期重要报道汇总

《独家！Sand.ai曹越：获超亿美元融资，揭秘视频为何是通往世界模型最重要路径》（36氪《智能涌现》，2026年6月29日）— 曹越详细阐述三代技术路线的押注逻辑，以及视频模型通向世界模型的路径判断 ✅
《Sand.ai 完成两轮超1亿美元融资老股东源码持续加码》（腾讯新闻/源码资本，2026年6月22日）— 15家以上一线机构联合投资，源码资本持续加注 ✅
《Sand.ai 3个月融资超1亿美元，VidMuse 上线2月ARR破千万美金》（ChooseAI，2026年6月22日）— 详细分析Sand.ai融资节奏和商业化进展 ✅
《Sand.ai旗下产品VidMuse ARR超千万美金，公司完成新一轮超五千万美金融资》（36氪/搜狐，2026年4月7日）— VidMuse上线2个月ARR破千万美金 ✅
《当硅谷转向”世界模型”，中国视频公司选择先把钱赚了》（极客公园/雪球，2026年4月10日）— Sand.ai作为中国视频公司务实商业化的典型案例分析 ✅

5.2 媒体报道分析

报道整体呈现”技术叙事+商业化验证”双主线。从36氪的独家专访到源码资本的官方通稿，媒体报道一致强调了三个核心叙事：
1. 曹越（Swin Transformer作者）的技术血统
2. 自回归路线的非共识选择和阶段性验证（Physics-IQ第一）
3. VidMuse千万美元ARR的商业化数据

六、KOL推广案例

6.1 KOL/社媒推广现状

Sand.ai 目前无明显大规模的KOL推广活动 ⚠️。与Runway在YouTube上大量投放创作者测评、Pika在TikTok上通过UGC传播不同，Sand.ai的社媒推广集中在：

海外AI Twitter/X：英文AI社区通过开源社区的传播效应自然讨论
Hugging Face社区：模型权重发布后的开发者讨论
知乎/CSDN等技术社区：国内开发者对Magi-1的技术分析文章

6.2 技术社区的KOC效应

Sand.ai 的开源策略实际上形成了一种”技术KOC”效应：
– CSDN、知乎等平台有大量Magi-1的安装、使用教程和评测
– MagiAttention被英伟达官方推荐，形成技术圈层的信任背书
– GitHub开源仓库的star数和Fork数构成社交证明

这种策略的ROI远高于传统KOL投放，但缺点是触达半径限于开发者群体，无法像短视频平台UGC那样大规模破圈。

七、产品卖点总结

7.1 核心卖点

卖点	说明	数据支撑
自回归+扩散混合架构	视频因果链条建模，物理一致性最强	Physics-IQ榜单第一，超越Nvidia Cosmos3-Super ✅
无限视频延长	架构原理上无上限	chunk+自回归的因果连接机制 ✅
音画同出	原生音频-视频联合建模	国内最早实现该能力的团队之一 ✅
完整开源	Apache 2.0协议	权重+代码+推理工具全公开 ✅
商业化验证	产品端有明确收入	VidMuse 2个月千万美元ARR ✅
MoE架构（即将发布）	兼顾成本、速度、效果	2026年Q3发布，推理成本降3-5倍 ✅

7.2 定价与商业化

VidMuse：以订阅/按量付费商业模式运营，未公开具体定价细节 ⚠️
Magi API：platform.sand.ai已上线，但生态成熟度仍在追赶Sora、Kling等已全面商用的模型 ✅
开源版本：完全免费（Apache 2.0），支持商用

7.3 主要应用场景

广告营销视频制作：VidMuse主攻方向
短视频/社媒内容创作：音乐驱动的视频模板
音乐短视频/MV制作：差异化优势场景
物理模拟/教育/科普内容：Magi-1物理一致性优势
开发者/研究用途：开源模型的自部署和二次开发

八、市场地位分析

8.1 市场定位

Sand.ai 在2026年AI视频生成赛道中处于”技术领先但市场渗透率尚低”的位置 ✅。

技术维度：在全球AI视频基础模型公司中属于第一梯队。曹越本人判断”全球真正具备第一梯队能力的视频基础模型团队不超过五家”，Sand.ai位列其一 ✅。

市场维度：Sand.ai的核心竞争圈是争夺开发者生态的中腰部玩家（与智谱清影、生数科技Vidu等竞争）。市场渗透率远低于依托大厂流量生态的可灵和即梦。

8.2 市场规模与增长

据Fortune Business Insights数据 ⚠️：
– 2024年全球AI视频生成市场规模：约6.1亿美元
– 预计2032年：达25亿美元（CAGR 19.5%）

市场仍处于”技术探索到商业落地”的过渡期，大部分收入集中在广告和短视频场景。长视频、影视级应用尚未形成稳定付费 ⚠️。

8.3 核心竞争力评估

维度	评分	说明
技术原创性	⭐⭐⭐⭐⭐	自回归路线全球领先，Physics-IQ第一
商业化能力	⭐⭐⭐⭐	VidMuse 2个月千万美元ARR
资金储备	⭐⭐⭐⭐⭐	超亿美元融资，15家一线资本背书
团队质量	⭐⭐⭐⭐⭐	Swin Transformer+抖音创始团队组合
开源生态	⭐⭐⭐⭐⭐	Apache 2.0，MagiAttention被全行业使用
C端市场份额	⭐⭐	未进入主流视频工具排行，产品用户基数小
大厂竞争壁垒	⭐⭐⭐	字节/快手/阿里均有对标产品，资源差距大

8.4 非APP产品说明

Sand.ai 的核心产品为Web端（magi.sand.ai、platform.sand.ai、vidmuse.sand.ai）和API服务，无独立的App Store/Google Play应用，故不进行应用商店排名分析。

九、未来展望

9.1 短期（2026年Q3-Q4）

新模型发布：2026年Q3发布MoE架构新一代视频生成模型，号称”目前开源领域最大的参数规模” ✅
新模型将融合通用场景生成、音画同出、多镜头叙事、多参考生成
VidMuse 2.0从Workflow强编排模式切换到开放式Video Agent架构 ✅
API平台生态持续完善，向开发者开放商用服务

9.2 中期（1-3年）

视频模型竞争格局：曹越判断视频模型市场最终会留下三五家，不认为会出现LLM领域的”一家吃95%”的局面 ✅
世界模型路径探索：通过视频数据不断逼近真实世界模拟，短期通过内容生产和Agent产品获得现金流
开源生态护城河：持续通过开源组件（MagiAttention等）捆绑开发者生态

9.3 长期（3-5年）

视频通向世界模型：曹越坚信视频模型通过不断积累”对真实世界状态的理解和压缩能力”，最终演化为真正意义上的世界模型 ✅
具身智能连接：曹越判断”next-frame prediction之于embodiment，会像next-token prediction之于reasoning一样——拒绝在观测之上架一层人造状态，让模型自己优化” ✅
个性化内容消费终局：最终愿景是”每个人都可以消费非常个性化的内容，内容生产成本下降到极低” ✅

9.4 关键风险

自回归路线工程化成熟度：推理成本高于扩散模型，在大规模商用场景下的竞争力未经验证 ⚠️
VidMuse ARR质量存疑：未披露用户留存率、客单价分布和收入场景集中度。千万美元ARR是否可持续需观察 ⚠️
开源策略的长期护城河：当竞品可直接基于开源权重构建产品时，技术壁垒需依靠迭代速度而非模型本身维持 ⚠️
大厂资源碾压：字节Seedance 2.0、快手Kling 3.0背靠数亿月活+算力补贴，Sand.ai需要证明在资源劣势下能持续领先 ⚠️
领先窗口短：曹越自认视频模型领先窗口约2-3个月，需要持续高速迭代 ⚠️

十、附录

10.1 关键指标汇总

指标	数据	来源	可靠性
成立时间	2024年1月	官方	✅
团队规模	<30人	官方/媒体	✅
累计融资	超1亿美元	官方PR	✅
Magi-1参数	24B + 4.5B	官方	✅
Physics-IQ排名	第一	Google DeepMind	✅
VidMuse ARR	千万美元（2个月）	36氪/官方	✅
新模型发布	2026年Q3	官方	✅
开源协议	Apache 2.0	GitHub	✅

10.2 核心报道来源

标题	来源	日期	可靠性
《独家！Sand.ai曹越获超亿美元融资》	36氪《智能涌现》	2026-06-29	✅
《Sand.ai完成两轮超1亿美元融资》	腾讯新闻/源码资本	2026-06-22	✅
《Sand.ai 3个月融资超1亿美元》	ChooseAI	2026-06-22	✅
《VidMuse ARR超千万美金》	36氪	2026-04-07	✅
《当硅谷转向世界模型，中国视频公司先把钱赚了》	极客公园	2026-04-10	✅

10.3 数据限制与免责声明

收入、用户留存等关键商业指标以官方披露为主，Sand.ai非上市公司，不要求完整财务披露
竞品数据主要来自公开报道和第三方排名，可能存在口径差异
技术架构描述基于官方技术博客和媒体报道，部分创新点需论文原文验证
市场规模数据来自Fortune Business Insights报告，为第三方估算 ⚠️
此分析基于公开信息，不构成投资建议

Sand.ai | 三呆科技 | AI视频生成 | 深度分析#_2026_v5.3