HappyHorse 1.0 是一个完全开源的AI视频生成模型,在全球最权威的 Artificial Analysis 排行榜上双赛道登顶,也是历史上首个击败所有闭源商业产品的开源模型。
2026年4月8日,一个名为 HappyHorse 的匿名模型悄然出现在 Artificial Analysis Video Arena 排行榜上。这个被业界公认为全球最权威的AI视频盲测平台,基于真实用户的双盲投票来评判模型的生成质量。没有任何预热、没有营销推广,HappyHorse 仅凭生成效果征服了评审者,在文本生成视频(T2V)和图像生成视频(I2V)两个核心赛道上同时登顶。随后,隐藏在 HappyHorse 背后的团队正式浮出水面。
HappyHorse 的团队来自前阿里巴巴淘天集团未来生活实验室,团队负责人为张迪——前快手副总裁、Kling AI 技术架构师。这意味着 HappyHorse 背后凝聚了当前中国AI视频领域最前沿的工程经验,也解释了 HappyHorse 为何能以匿名之姿一鸣惊人。HappyHorse 可以说是当前中国AI视频技术的顶尖代表。
在 HappyHorse 出现之前,全球AI视频排行榜一直被闭源商业模型垄断——字节跳动的 Seedance、快手的 Kling、OpenAI 的 Sora,研究者和开发者无法获取这些模型的核心技术细节。HappyHorse 的登顶打破了这一格局,证明了开源路线同样能达到甚至超越闭源水准。与此同时,HappyHorse 选择了彻底开源:模型权重、蒸馏版本、超分辨率模块和全套推理代码均已公开发布,支持商业授权。对于开发者和创作者来说,HappyHorse 代表了一个全新的起点。
HappyHorse 并非只擅长单一任务——作为一个统一的视频生成框架,HappyHorse 将多项前沿技术集成在单一模型中。
输入一段文字描述,HappyHorse 即可生成高达1080p分辨率的电影级视频。HappyHorse 的文本理解能力尤为突出,能精准还原复杂场景描述中的光影、运动和空间关系。凭借这一能力,HappyHorse T2V 在 Artificial Analysis 盲测中以 Elo 1357 分排名第一,超越 Seedance 2.0 近60分。
提供一张参考图片,HappyHorse 便能将其转化为流畅连贯的视频序列。HappyHorse 对视觉语义有极深的理解能力——不仅能捕捉图片中的物体和构图,还能推断合理的运动轨迹和时序变化。这使得 HappyHorse 在该项评测中以 Elo 1406 分创下了排行榜历史最高纪录。
多数AI视频模型只能生成无声画面,音频需要额外模型处理。HappyHorse 不同——它原生支持视频与音频的同步生成,包括人物对话、环境声效和拟音效果。使用 HappyHorse 只需单次前向传播即可完成多模态输出,这是 HappyHorse 区别于其他视频模型的关键差异化能力。
HappyHorse 目前支持普通话、粤语、英语、日语、韩语、德语和法语共七种语言的精准唇形同步。凭借这一多语言能力,HappyHorse 为全球化内容创作者提供了坚实的技术基础。
得益于仅需8步的去噪推理流程且无需 CFG(Classifier-Free Guidance),HappyHorse 在单张 NVIDIA H100 GPU 上仅需约38秒即可生成一段1080p视频。这一速度在同等画质的AI视频模型中处于领先水平,使得 HappyHorse 在实际生产场景中具备了极高的性价比。无论是广告制作、影视预览还是社交媒体内容创作,HappyHorse 都能高效胜任。
以下是 HappyHorse 在 Artificial Analysis Video Arena 全球盲测中的排名数据(2026年4月)。Elo 是一种竞技评分体系,分差越大代表实力差距越明显——60分的差距意味着 HappyHorse 在正面对决中约有 58%-59% 的胜率。
| 评测类别 | Elo 分数 | 排名 | 对比 Seedance 2.0 |
|---|---|---|---|
| T2V(无音频) | 1,333 – 1,357 | No.1 | 领先约 60 Elo |
| I2V(无音频) | 1,391 – 1,406 | No.1(历史新高) | 大幅领先 |
| T2V(含音频) | 1,205 | No.2 | 差距极小 |
| I2V(含音频) | 1,161 | No.2 | 差距极小 |
在无音频的纯视频生成赛道上,HappyHorse 的表现压过了所有竞争者,包括字节跳动 Seedance 2.0、快手 Kling 3.0 Pro 和 PixVerse V6。在含音频的类别中,HappyHorse 紧随 Seedance 2.0 排名第二,差距极小。考虑到排行榜上数十个模型的激烈角逐,HappyHorse 取得的这一领先幅度已经相当显著。
此前 Artificial Analysis 排行榜的冠军无一例外都是闭源商业产品。HappyHorse 是历史上首个以开源身份登顶的AI视频模型,这也是 HappyHorse 最具标志性的成就。HappyHorse 的成功证明,开源社区完全有能力与商业巨头正面竞争。
HappyHorse 凭什么登顶?深入了解 HappyHorse 的模型设计理念与工程实现。
HappyHorse 采用了单流 Transformer 架构设计。与许多依赖交叉注意力(Cross-Attention)来融合文本和视觉信息的模型不同,HappyHorse 将所有模态的信息统一编码在同一个序列中进行处理。这种设计使得模型结构更加简洁,同时也有利于不同模态之间的深度融合。整个模型包含 40层 Transformer Block,总参数量约为 15B(150亿)。
HappyHorse 不需要为文本生成视频和图像生成视频维护两套独立的模型。通过精心设计的输入编码策略,同一个 HappyHorse 模型可以同时处理纯文本输入和图像+文本的复合输入,大幅降低了部署和维护的复杂度。
传统的扩散模型通常需要数十步迭代才能生成最终结果,而 HappyHorse 通过知识蒸馏技术将去噪步骤压缩到仅 8步。同时,HappyHorse 在推理阶段无需使用 Classifier-Free Guidance(CFG),这进一步将计算开销降低了约50%。两项技术的结合使得 HappyHorse 成为当前生成速度最快的高质量AI视频模型之一。
HappyHorse 团队发布了完整的开源组件包,包括:完整模型权重、蒸馏版本权重、视频超分辨率模块以及全套推理代码。所有 HappyHorse 组件均通过 GitHub 公开发布,并附带商业友好的授权许可。无论是独立开发者、学术研究人员还是企业用户,都可以直接基于 HappyHorse 构建自己的视频生成应用。
一个名为 HappyHorse 的匿名模型出现在 Artificial Analysis Video Arena。由于 HappyHorse 表现过于强劲,社区对 HappyHorse 的真实身份展开了广泛猜测。
经过数千次盲测投票,HappyHorse 在 T2V 和 I2V 两个无音频类别中均排名第一。HappyHorse I2V 成绩更是创下了排行榜历史最高 Elo 纪录。
HappyHorse 团队正式公开身份,并在 GitHub 上发布了完整的 HappyHorse 模型权重和推理代码,开源社区为之振奋。