Sand.ai | 三呆科技 | AI视频生成 | 深度分析#_2026_v5.3
作者注
– 版本:v5.3(2026年7月)
– 数据截止:2026年7月3日
– 数据可靠性:✅ 官方/权威媒体数据 | ⚠️ 第三方估算/较早报道 | ❌ 不可靠推测(已删除)
– 数据覆盖:优先使用2025-2026年最新数据,2024年及更早内容已标注⚠️或跳过
– 补充说明:Sand.ai为非APP产品(Web端+API),故不包含应用商店排名分析
一、产品介绍
1.1 产品概述
Sand.ai 是一家成立于2024年1月的AI视频生成模型与产品公司,由 Swin Transformer 核心作者曹越(Cao Yue)在北京创立 ✅。公司以自回归(Autoregressive)视频生成模型为核心技术路线,与主流扩散模型(Diffusion)路线形成差异化。
公司旗舰产品线包含三款产品:
| 产品 | 类型 | 状态 | 核心定位 |
|---|---|---|---|
| Magi-1 / Magi-1.1 | 视频生成模型 | 已开源(Apache 2.0) | 自回归视频世界模型 |
| Gaga-1 | 音画同出模型 | 已开源(Apache 2.0) | 原生音频-视频联合生成 |
| VidMuse | 产品级应用 | 商业运营中 | 音乐驱动的视频Agent |
1.2 核心产品详情
Magi-1(2025年4月发布):全球首个高质量自回归视频生成基础模型 ✅。提供24B参数完整版和4.5B轻量蒸馏版双版本。采用”自回归+扩散”混合架构——将视频拆成24帧一组(chunk),chunk内部做扩散去噪,chunk之间走自回归因果连接。这种架构从原理上支持无限视频延长。
Gaga-1(2025年9月发布):音画同出模型,是国内最早实现该能力的团队之一 ✅。将声音信号纳入统一建模体系,联合建模后发现声音可辅助画面生成更逼真细节,反之亦然。
VidMuse(2026年1月上线):音乐Agent产品,主打”Music in, Video Out”——用户输入音频,系统自动完成节奏分析、分镜规划、视频生成全链路 ✅。上线2个月ARR突破千万美元,成为Video Agent赛道最快达到此里程碑的产品 ✅。
1.3 技术架构创新
Sand.ai 的技术架构经历了三代迭代:
– 第一代(Magi-1):押注自回归路线,突破Diffusion主流叙事
– 第二代(Gaga-1):音画同出,多模态联合建模
– 第三代(2026年Q3发布):MoE(混合专家)架构,融合通用场景生成+音画同出+多镜头叙事+多参考生成于同一模型 ✅
关键技术组件 ✅:
– MagiAttention:分布式注意力组件,支持Blackwell架构,被国内几乎所有多模态模型团队使用,英伟达官方推荐用于训练多模态模型
– MagiCompiler:训推一体全局编译框架,通过全图编译压缩延迟
差异化价值:Sand.ai 走的是”自回归+开源”的差异化路线,与Sora、Kling等扩散模型路线有本质区别。自回归路线在物理一致性(Physics-IQ榜单第一)和长视频逻辑连贯性上有理论优势。
二、开发公司分析
2.1 公司概况
| 维度 | 信息 |
|---|---|
| 公司英文名 | Sand.ai |
| 中文名 | 三呆科技 |
| 成立时间 | 2024年1月 ✅ |
| 创始人 | 曹越(Cao Yue) |
| 总部 | 中国北京 ✅ |
| 团队规模 | 不到30人,平均年龄30岁以下 ✅ |
| 公司使命 | “Advance AI to benefit everyone” ✅ |
| 开源态度 | Apache 2.0协议,完整开源权重+代码+推理工具 |
2.2 创始人曹越履历
曹越是中国AI领域顶尖的技术人才,其履历核心节点 ✅:
| 时间 | 经历 |
|---|---|
| 2019-2022 | 微软亚洲研究院(MSRA)资深研究员 |
| 2021 | Swin Transformer获ICCV 2021最佳论文奖(Marr Prize),Google Scholar引用近9万次 |
| 2022-2023 | 联合创立”光年之外”(Lightyear AI),后被美团收购 |
| 2023-2024 | 北京智源研究院视觉模型研究中心负责人 |
| 2024至今 | 创立Sand.ai,担任CEO |
Swin Transformer 的影响力延续至今——广泛应用在Microsoft Office 365、Azure Cognitive Service、TikTok、快手等产品的视觉理解链路中。曹越本人代表了”从视觉理解到视频生成”的技术连续性 ✅。
2.3 核心团队
团队结构属于”超精英小纵队”模式 ✅:
– 张拯:算法负责人,前MSRA研究员,ACM亚洲区域赛金牌,Swin Transformer核心作者,Google Scholar引用超6万次
– 王佳:运营增长负责人,抖音创始团队七人之一,前Minimax C端运营负责人
– 张子贺(Zake):VidMuse产品负责人,曾主导剪映PC端从0到1的产品策略与体验设计
2.4 融资历史
| 轮次 | 时间 | 金额 | 领投方 |
|---|---|---|---|
| 种子轮 | 2024年 | 未披露 | 源码资本 |
| A轮 | 2024年5月 | 数千万美元 | 今日资本 |
| A+轮 | 2025年4月 | 数千万美元 | 经纬创投 |
| 新一轮 | 2026年4月 | 约5000万美元 | 多家联合 |
| 最新轮 | 2026年6月 | 合计超1亿美元(两轮合计) | 15家以上机构 |
最新融资(2026年6月):两轮合计超1亿美元 ✅。投资阵容涵盖Look Capital、Lollapalooza Capital(王慧文家族办公室)、九坤创投、经纬创投、和玉资本、创新工场、襄禾资本、源码资本、中科创星、洪泰基金、今日资本、华业天成、云晖资本、IDG、百度风投等15家以上一线机构。
值得关注的是,王慧文(曹越光年之外时期的联合创始人)通过家族办公室以投资人身份回到曹越的新公司,说明核心圈层对创始人能力的持续背书 ✅。
2.5 商业模式
Sand.ai 采用”模型+产品”双轮驱动模式 ✅:
– 模型层面:开源吸引开发者生态,通过MagiAttention等工具组件建立技术影响力
– 产品层面:VidMuse以订阅/按量付费模式实现商业化
– 未来规划:API平台(platform.sand.ai)向开发者提供商用服务
曹越明确表示:”创业公司如果没有训练出SOTA模型的能力,很容易被模型厂商整合。”
三、竞品分析
3.1 竞品矩阵
| 产品/公司 | 技术路线 | 开源 | 商业化阶段 | 核心差异化 |
|---|---|---|---|---|
| Sand.ai Magi-1 | 自回归+扩散 | ✅Apache 2.0 | VidMuse千万美元ARR | 物理一致性、无限延长 |
| ByteDance Seedance 2.0 | 扩散 ✅ | ❌ | 集成在即梦/剪映 | 多镜头叙事、角色一致性 |
| Kuaishou Kling 3.0 | 扩散 ✅ | ❌ | C端订阅+API | 画质成熟、用户基数大 |
| Aishu PixVerse V6 | 扩散 ✅ | 部分开源 | API+官网订阅 | 画质稳定、海外市场 |
| Shengshu Vidu Q3 | 扩散 ✅ | ❌ | 官网+API | 超长时长、清华系 |
| Alibaba HappyHorse | 音视频联合 ⚠️ | ✅开源 | 即将开放API | Elo评分第一 |
| Google Veo 3.1 | 扩散 ✅ | ❌ | Vertex AI平台 | 电影级画质 |
| OpenAI Sora | 扩散 ✅ | ❌ | 已关停独立产品 ✅ | – |
⚠️ 注:2026年3月OpenAI关停Sora独立产品形态,算力资源转向Codex模型。Sora 2本身表现惊艳,关停是OpenAI上市前的战略收缩。
3.2 竞争格局分析
2026年AI视频生成赛道呈现”中美双强”格局 ✅。知乎2026年4月排名显示,前十中中国占据7席(阿里巴巴HappyHorse第一、字节Seedance 2.0第二、快手Kling 3.0第五等),美国仅xAI的Grok Imagine Video(第三)和Google Veo 3.1(第九)上榜。
Sand.ai未进入2026年AI视频工具排行榜TOP20(AI工具宝箱),这与公司定位有关——Sand.ai更偏向基础模型公司+开源生态,而非直接面向C端的工具产品。
3.3 竞品对比
| 对比维度 | Sand.ai Magi-1 | Kling 3.0 | Seedance 2.0 | PixVerse V6 |
|---|---|---|---|---|
| 技术路线 | 自回归+扩散 | 纯扩散 | 双分支扩散Transformer | 扩散 |
| 物理一致性 | Physics-IQ第一 ✅ | 中等 | 中上 | 中 |
| 视频延长 | 无限延长 | 有限 | 有限 | 有限 |
| 开源 | Apache 2.0 | ❌ | ❌ | 部分 |
| 音画同出 | ✅ | ✅ | ✅ | 部分 |
| C端用户基数 | 小 | 大(快手6.5亿月活) | 大(抖音生态) | 中 |
| 商业化ARR | 千万美元(VidMuse) | 未披露 | 未披露 | 未披露 |
3.4 核心竞争优势
- 技术路线差异化:自回归路线全球只有Sand.ai和Google VideoPoet在认真推进。在物理模拟和长视频逻辑连贯性上有理论优势 ✅
- 开源生态影响力:MagiAttention被国内几乎所有多模态模型团队使用,英伟达官方推荐,形成技术护城河 ✅
- 团队组合稀缺性:曹越(Swin Transformer)+张拯(Swin Transformer核心作者)+王佳(抖音创始团队)+张子贺(剪映PC端)- 同时具备”训练SOTA模型”和”做出好产品”的能力 ✅
四、推广渠道分析
4.1 核心推广策略
Sand.ai 的推广策略以”开源换品牌和开发者生态”为核心,不走传统买量路线 ✅。
策略1:开源社区驱动
– GitHub(SandAI-org)发布Magi-1全套权重+代码+推理工具
– Hugging Face(sand-ai)发布模型权重
– 核心组件(MagiAttention、MagiCompiler)全部Apache 2.0开源
– 效果:MagiAttention被国内几乎所有多模态模型团队使用
策略2:学术影响力背书
– Swin Transformer ICCV 2021最佳论文奖的持续影响力
– Physics-IQ榜单长期第一的公开基准成绩
– 论文+技术博客的组合输出
策略3:科技媒体报道
– 36氪《智能涌现》独家专访(2026年6月29日)
– 极客公园深度访谈(2026年4月)
– 多家科技媒体的融资报道
4.2 付费推广
Sand.ai 目前无明显付费买量行为 ⚠️。与Runway、Pika等C端视频工具大量投放Meta/Google/TikTok广告不同,Sand.ai的获客主要依靠:
– 开源社区自然传播
– 学术论文和技术博客的行业影响力
– 媒体报道的品牌曝光
4.3 拓展策略
公司在产品侧的非共识选择:
– VidMuse定位”Music-in Video-Out”:与文本/图片输入的主流视频工具(可灵、即梦、Runway)形成差异化,切入音乐短视频创作场景 ✅
– 模型弱耦合:曹越明确”哪个模型能让产品跑得更快就调哪个”,Sand.ai自研模型并非VidMuse唯一底层供给
– 多产品矩阵:已探索数字人、视频Agent方向,持续寻找”有大杠杆的事情”
五、最新媒体报道
5.1 近期重要报道汇总
-
《独家!Sand.ai曹越:获超亿美元融资,揭秘视频为何是通往世界模型最重要路径》(36氪《智能涌现》,2026年6月29日)— 曹越详细阐述三代技术路线的押注逻辑,以及视频模型通向世界模型的路径判断 ✅
-
《Sand.ai 完成两轮超1亿美元融资 老股东源码持续加码》(腾讯新闻/源码资本,2026年6月22日)— 15家以上一线机构联合投资,源码资本持续加注 ✅
-
《Sand.ai 3个月融资超1亿美元,VidMuse 上线2月ARR破千万美金》(ChooseAI,2026年6月22日)— 详细分析Sand.ai融资节奏和商业化进展 ✅
-
《Sand.ai旗下产品VidMuse ARR超千万美金,公司完成新一轮超五千万美金融资》(36氪/搜狐,2026年4月7日)— VidMuse上线2个月ARR破千万美金 ✅
-
《当硅谷转向”世界模型”,中国视频公司选择先把钱赚了》(极客公园/雪球,2026年4月10日)— Sand.ai作为中国视频公司务实商业化的典型案例分析 ✅
5.2 媒体报道分析
报道整体呈现”技术叙事+商业化验证”双主线。从36氪的独家专访到源码资本的官方通稿,媒体报道一致强调了三个核心叙事:
1. 曹越(Swin Transformer作者)的技术血统
2. 自回归路线的非共识选择和阶段性验证(Physics-IQ第一)
3. VidMuse千万美元ARR的商业化数据
六、KOL推广案例
6.1 KOL/社媒推广现状
Sand.ai 目前无明显大规模的KOL推广活动 ⚠️。与Runway在YouTube上大量投放创作者测评、Pika在TikTok上通过UGC传播不同,Sand.ai的社媒推广集中在:
- 海外AI Twitter/X:英文AI社区通过开源社区的传播效应自然讨论
- Hugging Face社区:模型权重发布后的开发者讨论
- 知乎/CSDN等技术社区:国内开发者对Magi-1的技术分析文章
6.2 技术社区的KOC效应
Sand.ai 的开源策略实际上形成了一种”技术KOC”效应:
– CSDN、知乎等平台有大量Magi-1的安装、使用教程和评测
– MagiAttention被英伟达官方推荐,形成技术圈层的信任背书
– GitHub开源仓库的star数和Fork数构成社交证明
这种策略的ROI远高于传统KOL投放,但缺点是触达半径限于开发者群体,无法像短视频平台UGC那样大规模破圈。
七、产品卖点总结
7.1 核心卖点
| 卖点 | 说明 | 数据支撑 |
|---|---|---|
| 自回归+扩散混合架构 | 视频因果链条建模,物理一致性最强 | Physics-IQ榜单第一,超越Nvidia Cosmos3-Super ✅ |
| 无限视频延长 | 架构原理上无上限 | chunk+自回归的因果连接机制 ✅ |
| 音画同出 | 原生音频-视频联合建模 | 国内最早实现该能力的团队之一 ✅ |
| 完整开源 | Apache 2.0协议 | 权重+代码+推理工具全公开 ✅ |
| 商业化验证 | 产品端有明确收入 | VidMuse 2个月千万美元ARR ✅ |
| MoE架构(即将发布) | 兼顾成本、速度、效果 | 2026年Q3发布,推理成本降3-5倍 ✅ |
7.2 定价与商业化
VidMuse:以订阅/按量付费商业模式运营,未公开具体定价细节 ⚠️
Magi API:platform.sand.ai已上线,但生态成熟度仍在追赶Sora、Kling等已全面商用的模型 ✅
开源版本:完全免费(Apache 2.0),支持商用
7.3 主要应用场景
- 广告营销视频制作:VidMuse主攻方向
- 短视频/社媒内容创作:音乐驱动的视频模板
- 音乐短视频/MV制作:差异化优势场景
- 物理模拟/教育/科普内容:Magi-1物理一致性优势
- 开发者/研究用途:开源模型的自部署和二次开发
八、市场地位分析
8.1 市场定位
Sand.ai 在2026年AI视频生成赛道中处于”技术领先但市场渗透率尚低”的位置 ✅。
技术维度:在全球AI视频基础模型公司中属于第一梯队。曹越本人判断”全球真正具备第一梯队能力的视频基础模型团队不超过五家”,Sand.ai位列其一 ✅。
市场维度:Sand.ai的核心竞争圈是争夺开发者生态的中腰部玩家(与智谱清影、生数科技Vidu等竞争)。市场渗透率远低于依托大厂流量生态的可灵和即梦。
8.2 市场规模与增长
据Fortune Business Insights数据 ⚠️:
– 2024年全球AI视频生成市场规模:约6.1亿美元
– 预计2032年:达25亿美元(CAGR 19.5%)
市场仍处于”技术探索到商业落地”的过渡期,大部分收入集中在广告和短视频场景。长视频、影视级应用尚未形成稳定付费 ⚠️。
8.3 核心竞争力评估
| 维度 | 评分 | 说明 |
|---|---|---|
| 技术原创性 | ⭐⭐⭐⭐⭐ | 自回归路线全球领先,Physics-IQ第一 |
| 商业化能力 | ⭐⭐⭐⭐ | VidMuse 2个月千万美元ARR |
| 资金储备 | ⭐⭐⭐⭐⭐ | 超亿美元融资,15家一线资本背书 |
| 团队质量 | ⭐⭐⭐⭐⭐ | Swin Transformer+抖音创始团队组合 |
| 开源生态 | ⭐⭐⭐⭐⭐ | Apache 2.0,MagiAttention被全行业使用 |
| C端市场份额 | ⭐⭐ | 未进入主流视频工具排行,产品用户基数小 |
| 大厂竞争壁垒 | ⭐⭐⭐ | 字节/快手/阿里均有对标产品,资源差距大 |
8.4 非APP产品说明
Sand.ai 的核心产品为Web端(magi.sand.ai、platform.sand.ai、vidmuse.sand.ai)和API服务,无独立的App Store/Google Play应用,故不进行应用商店排名分析。
九、未来展望
9.1 短期(2026年Q3-Q4)
- 新模型发布:2026年Q3发布MoE架构新一代视频生成模型,号称”目前开源领域最大的参数规模” ✅
- 新模型将融合通用场景生成、音画同出、多镜头叙事、多参考生成
- VidMuse 2.0从Workflow强编排模式切换到开放式Video Agent架构 ✅
- API平台生态持续完善,向开发者开放商用服务
9.2 中期(1-3年)
- 视频模型竞争格局:曹越判断视频模型市场最终会留下三五家,不认为会出现LLM领域的”一家吃95%”的局面 ✅
- 世界模型路径探索:通过视频数据不断逼近真实世界模拟,短期通过内容生产和Agent产品获得现金流
- 开源生态护城河:持续通过开源组件(MagiAttention等)捆绑开发者生态
9.3 长期(3-5年)
- 视频通向世界模型:曹越坚信视频模型通过不断积累”对真实世界状态的理解和压缩能力”,最终演化为真正意义上的世界模型 ✅
- 具身智能连接:曹越判断”next-frame prediction之于embodiment,会像next-token prediction之于reasoning一样——拒绝在观测之上架一层人造状态,让模型自己优化” ✅
- 个性化内容消费终局:最终愿景是”每个人都可以消费非常个性化的内容,内容生产成本下降到极低” ✅
9.4 关键风险
- 自回归路线工程化成熟度:推理成本高于扩散模型,在大规模商用场景下的竞争力未经验证 ⚠️
- VidMuse ARR质量存疑:未披露用户留存率、客单价分布和收入场景集中度。千万美元ARR是否可持续需观察 ⚠️
- 开源策略的长期护城河:当竞品可直接基于开源权重构建产品时,技术壁垒需依靠迭代速度而非模型本身维持 ⚠️
- 大厂资源碾压:字节Seedance 2.0、快手Kling 3.0背靠数亿月活+算力补贴,Sand.ai需要证明在资源劣势下能持续领先 ⚠️
- 领先窗口短:曹越自认视频模型领先窗口约2-3个月,需要持续高速迭代 ⚠️
十、附录
10.1 关键指标汇总
| 指标 | 数据 | 来源 | 可靠性 |
|---|---|---|---|
| 成立时间 | 2024年1月 | 官方 | ✅ |
| 团队规模 | <30人 | 官方/媒体 | ✅ |
| 累计融资 | 超1亿美元 | 官方PR | ✅ |
| Magi-1参数 | 24B + 4.5B | 官方 | ✅ |
| Physics-IQ排名 | 第一 | Google DeepMind | ✅ |
| VidMuse ARR | 千万美元(2个月) | 36氪/官方 | ✅ |
| 新模型发布 | 2026年Q3 | 官方 | ✅ |
| 开源协议 | Apache 2.0 | GitHub | ✅ |
10.2 核心报道来源
| 标题 | 来源 | 日期 | 可靠性 |
|---|---|---|---|
| 《独家!Sand.ai曹越获超亿美元融资》 | 36氪《智能涌现》 | 2026-06-29 | ✅ |
| 《Sand.ai完成两轮超1亿美元融资》 | 腾讯新闻/源码资本 | 2026-06-22 | ✅ |
| 《Sand.ai 3个月融资超1亿美元》 | ChooseAI | 2026-06-22 | ✅ |
| 《VidMuse ARR超千万美金》 | 36氪 | 2026-04-07 | ✅ |
| 《当硅谷转向世界模型,中国视频公司先把钱赚了》 | 极客公园 | 2026-04-10 | ✅ |
10.3 数据限制与免责声明
- 收入、用户留存等关键商业指标以官方披露为主,Sand.ai非上市公司,不要求完整财务披露
- 竞品数据主要来自公开报道和第三方排名,可能存在口径差异
- 技术架构描述基于官方技术博客和媒体报道,部分创新点需论文原文验证
- 市场规模数据来自Fortune Business Insights报告,为第三方估算 ⚠️
- 此分析基于公开信息,不构成投资建议
出海广告投放与增长合作
本文由 Narku 出海流量玄学研究整理。我们长期跟踪 Google Ads、Meta Ads、TikTok Ads、KOL 流量、短剧出海、AI 产品和金融 App 的海外获客动态。
如果你正在做海外投放、竞品广告情报、素材测试、KOL/KOC 合作或出海增长,可以查看 海外广告代投与 KOL 合作服务。
业务合作请加微信 narkuh,也可以查看 About Me 了解更多背景。
引用来源:Narku 出海流量玄学研究,https://www.narku.com/