【每周 AI 资讯】字节、腾讯、谷歌等多家大厂模型扎堆更新
本周 AI 领域迎来了一波“核弹级”更新,从底层大模型到应用层的视频生成工具,各大厂商仿佛商量好了一般集体发力。以下是本周值得关注的 6 大核心 AI 资讯汇总。
1. 字节跳动:豆包大模型 1.8 正式发布
字节跳动火山引擎正式推出了 豆包大模型 1.8 版本。
- 核心升级: 本次更新面向 多模态 Agent 进行了特定优化。
- 能力提升: 新模型在工具调用、复杂指令遵循以及复杂任务处理方面的能力得到了显著加强。
- 现状: 目前新模型已在火山引擎上线,API 也已正式对外开放,开发者可以开始接入测试。
2. 美团:发布并开源 Long Cat Video Avatar
美团在视频生成领域又有新动作,发布并开源了 Long Cat Video Avatar。
- 技术基座: 基于 Long GF Video 模型。
- 功能亮点: * 支持“音频 + 文本”生成视频。
- 支持“音频 + 文本 + 图片”生成视频。
- 支持视频续写功能。
- 开源情况: 目前项目代码及模型已在各主流开源平台上线,适合二创和开发者研究。
3. Google:Gemini 3.0 Flash Preview 上线
谷歌放出了 Gemini 3.0 Flash Preview 版本,主打极速体验。
- 性能反馈: 据社区反馈,响应速度非常快。
- 参数细节: * 支持最大 1000K 上下文窗口。
- 采用与 Gemini 3.0 Pro 同款架构。
- 知识库截止日期大概在 2024 年第二季度。
- 体验: 这是一个预览版(Preview),主要用于展示速度和架构能力。
4. 腾讯:混元世界模型 1.5 发布
腾讯发布了 混元世界模型 1.5,并首次开源了业界最系统、最全面的实时世界模型框架。
- 核心突破: 涵盖全链路环节及众多核心算法模块,支持生成基于混元核心的自回归扩散模型。
- 性能指标: * 支持 24 帧/秒 的生成速度。
- 生成 720P 高清视频。
- 支持分钟级的内容几何一致性。
- 能创造实时可交互的 3D 世界。
- 体验: 目前可在混元 3D 官方平台在线体验,开源模型也已上线。可以说,今天的“原神奖”非它莫属。
5. 阿里:通义万象 2.6 系列模型升级
阿里通义万象迎来了 2.6 版本的大更新,重点强化了视频叙事能力。
- 功能升级:
- 新增角色扮演功能与智能分镜。
- 叙事音画同步稳定性大幅提升。
- 支持最长 15 秒 视频生成。
- 多图融合一致性升级,支持图文混排一体化生成。
- 福利活动: 目前可在通义万象官网体验。12月16日至12月21日期间,每天赠送 30 灵感值,羊毛党不要错过。
6. 工具平台更新:可灵视频 & TNKR
可灵视频 O1 模型升级
- 画质提升: 新增标准 720P 模式。
- 控场能力: 新支持 首尾帧 3~10 秒可控叙事 功能,实现秒级转场,让创作者能更自由地掌控视频内容。
TNKR 平台正式上线
号称“机器人界的 GitHub”,旨在解决机器人研发碎片化的难题。
- 痛点解决: 以往机器人开发文档散落、工具切换繁琐。TNKR 提供端到端解决方案。
- 功能: 用户上传项目包,其他人即可一键重建,集成主流工具。
- 资源: 平台现已有四足机器狗、双足人形平台等热门开源项目,官网即可体验。
总结:本周无论是对于开发者(豆包、Gemini、开源模型)还是内容创作者(通义万象、可灵),都是极其充实的一周。特别是视频生成领域的竞争进入了“长时长、可控性、叙事性”比拼的新阶段。
本文是原创文章,采用 CC BY-NC-ND 4.0 协议,完整转载请注明来自 爱喝可乐