本周 AI 领域迎来了一波“核弹级”更新,从底层大模型到应用层的视频生成工具,各大厂商仿佛商量好了一般集体发力。以下是本周值得关注的 6 大核心 AI 资讯汇总。

1. 字节跳动:豆包大模型 1.8 正式发布

字节跳动火山引擎正式推出了 豆包大模型 1.8 版本。

  • 核心升级: 本次更新面向 多模态 Agent 进行了特定优化。
  • 能力提升: 新模型在工具调用、复杂指令遵循以及复杂任务处理方面的能力得到了显著加强。
  • 现状: 目前新模型已在火山引擎上线,API 也已正式对外开放,开发者可以开始接入测试。

2. 美团:发布并开源 Long Cat Video Avatar

美团在视频生成领域又有新动作,发布并开源了 Long Cat Video Avatar

  • 技术基座: 基于 Long GF Video 模型。
  • 功能亮点: * 支持“音频 + 文本”生成视频。
    • 支持“音频 + 文本 + 图片”生成视频。
    • 支持视频续写功能。
  • 开源情况: 目前项目代码及模型已在各主流开源平台上线,适合二创和开发者研究。

3. Google:Gemini 3.0 Flash Preview 上线

谷歌放出了 Gemini 3.0 Flash Preview 版本,主打极速体验。

  • 性能反馈: 据社区反馈,响应速度非常快。
  • 参数细节: * 支持最大 1000K 上下文窗口。
    • 采用与 Gemini 3.0 Pro 同款架构。
    • 知识库截止日期大概在 2024 年第二季度。
  • 体验: 这是一个预览版(Preview),主要用于展示速度和架构能力。

4. 腾讯:混元世界模型 1.5 发布

腾讯发布了 混元世界模型 1.5,并首次开源了业界最系统、最全面的实时世界模型框架。

  • 核心突破: 涵盖全链路环节及众多核心算法模块,支持生成基于混元核心的自回归扩散模型。
  • 性能指标: * 支持 24 帧/秒 的生成速度。
    • 生成 720P 高清视频。
    • 支持分钟级的内容几何一致性。
    • 能创造实时可交互的 3D 世界。
  • 体验: 目前可在混元 3D 官方平台在线体验,开源模型也已上线。可以说,今天的“原神奖”非它莫属。

5. 阿里:通义万象 2.6 系列模型升级

阿里通义万象迎来了 2.6 版本的大更新,重点强化了视频叙事能力。

  • 功能升级:
    • 新增角色扮演功能与智能分镜。
    • 叙事音画同步稳定性大幅提升。
    • 支持最长 15 秒 视频生成。
    • 多图融合一致性升级,支持图文混排一体化生成。
  • 福利活动: 目前可在通义万象官网体验。12月16日至12月21日期间,每天赠送 30 灵感值,羊毛党不要错过。

6. 工具平台更新:可灵视频 & TNKR

可灵视频 O1 模型升级

  • 画质提升: 新增标准 720P 模式。
  • 控场能力: 新支持 首尾帧 3~10 秒可控叙事 功能,实现秒级转场,让创作者能更自由地掌控视频内容。

TNKR 平台正式上线

号称“机器人界的 GitHub”,旨在解决机器人研发碎片化的难题。

  • 痛点解决: 以往机器人开发文档散落、工具切换繁琐。TNKR 提供端到端解决方案。
  • 功能: 用户上传项目包,其他人即可一键重建,集成主流工具。
  • 资源: 平台现已有四足机器狗、双足人形平台等热门开源项目,官网即可体验。

总结:本周无论是对于开发者(豆包、Gemini、开源模型)还是内容创作者(通义万象、可灵),都是极其充实的一周。特别是视频生成领域的竞争进入了“长时长、可控性、叙事性”比拼的新阶段。