Google AI,解码17种濒危物种基因组:生命备份开始启动

更新 (2026-02-03): 扩展到17种,添加了具体物种名称和EBP 4,386种数据

Google AI,解码17种濒危物种基因组:生命的备份开始了

  • Google利用AI解码了17种濒危物种的基因组
  • DeepVariant、DeepConsensus、DeepPolisher三件套是核心
  • 地球生物基因组计划,已完成4,386种

发生了什么事?

Google利用AI解码了17种濒危物种的基因组。在最初的13种基础上增加了4种。[Google Blog] 简单来说,就是在灭绝之前备份基因。

具体是什么物种呢?包括生活在哥伦比亚西北部森林的棉顶狨猴(cotton-top tamarin),马达加斯加的金色曼蛙(golden mantella frog),以及南非-纳米比亚沿岸的非洲企鹅。[Google Blog]

Google.org正在向洛克菲勒大学的AI for Science基金提供支持,并扩大项目。与Vertebrate Genomes Project、Earth BioGenome Project(EBP)合作。[New Atlas]

为什么重要?

有了基因组数据才能制定保护策略。新西兰的鸮鹦鹉(夜行性不会飞的鹦鹉)正在通过基因组分析摆脱灭绝危机。[Google Blog]

核心是速度和准确性。DeepVariant将基因变异检测错误减少了22~52%。[DeepVariant] DeepConsensus将高质量测序吞吐量提高了250%。[GitHub] 加上DeepPolisher,将基因组组装错误减少了50%。[Blockchain News]

我个人认为,这比LLM更能体现Google AI的真正价值。

今后会怎样?

EBP已获得约4,386种基因组,2026年的首要目标是1万种。[EBP] 最终目标是解码全部180万种。费用估计约为50亿美元。[Wikipedia]

常见问题 (FAQ)

Q: 基因组解码能阻止灭绝吗?

A: 不能直接阻止。但可以通过遗传多样性分析来设计繁殖计划。就像鸮鹦鹉一样,它可以识别近亲繁殖的风险,并成为维持健康种群的关键工具。

Q: DeepVariant、DeepConsensus、DeepPolisher有什么不同?

A: DeepVariant是基于CNN的工具,用于在测序数据中寻找基因变异。DeepConsensus是用于校正PacBio长读数据的错误的Transformer模型。DeepPolisher可以进一步捕获基因组组装阶段的错误。一起使用可以同时提高准确性和吞吐量。

Q: 普通人也能贡献吗?

A: 这三个工具都是开源的。研究人员可以直接在GitHub上使用。普通人可以通过参与EBP公民科学项目或资助保护组织来做出贡献。


如果这篇文章对您有帮助,请订阅AI Digester。

参考资料

Anthropic 30亿美元诉讼:涉嫌非法下载2万首歌曲

Anthropic 30亿美元诉讼:涉嫌非法下载2万首歌曲

  • Concord·UMG以30亿美元起诉Anthropic
  • 诉讼歌曲从500首激增至2万首
  • AI学习合法,但获取方式被指为非法复制

发生了什么事?

Concord和UMG以30亿美元的规模起诉了Anthropic。[TechCrunch] 声称未经授权下载了超过2万首歌曲。 最初是500首,但在Bartz事件的证据调查中,又发现了数千首。[The Wrap]

为什么重要?

这次诉讼针对的不是“AI学习”,而是“资料获取”。 法官判决用受版权保护的资料进行AI学习是合法的。[WebProNews] 但问题在于获取方式是非法下载。

我个人认为,这将改变AI版权诉讼的局面。 “AI学习=侵权”在法庭上屡战屡败。 但“获取非法”则不同。 Bartz事件中支付了15亿美元的和解金。 如果是30亿美元,那么音乐行业就掌握了向AI企业施压的武器。

今后会怎样?

Anthropic很有可能再次和解。 继15亿美元之后,如果再损失数十亿美元,投资者的信任将会动摇。 OpenAI、Google似乎也会感到紧张。 一直没有公开学习数据的来源,但出现了因“非法获取”嫌疑而被起诉的先例。

常见问题 (FAQ)

Q: 使用受版权保护的资料进行AI学习不是合法的吗?

A: 学习是合法的。 但问题在于如何获取资料。 这次诉讼主张未经许可大量下载属于盗窃。

Q: 30亿美元会不会导致Anthropic破产?

A: 企业价值350亿美元,所以不会立即破产。 但已经支付了15亿美元,如果再损失数十亿美元,信任将会动摇。

Q: 其他AI企业也会被起诉吗?

A: 有可能。 OpenAI、Google都没有公开学习数据的来源。 如果音乐·出版行业集体行动,AI产业可能会动摇。


如果这篇文章对您有帮助,请订阅AI Digester。

参考资料

英伟达CEO正面驳斥暂停投资千亿美元OpenAI传闻

英伟达 CEO 正面驳斥 1000 亿美元 OpenAI 投资中断传闻

  • 黄仁勋发表官方声明: “报道内容不实”
  • 1000 亿美元 OpenAI 投资是 AI 芯片市场最大交易之一
  • 重新审视英伟达-OpenAI 关系:合作还是制衡?

发生了什么?

英伟达 CEO 黄仁勋亲自驳斥了关于该公司 1000 亿美元 OpenAI 投资中断的报道。[TechCrunch]

此前,一些媒体报道称,英伟达和 OpenAI 之间的大规模投资谈判遇到了困难。 1000 亿美元是 AI 芯片市场有史以来最大的交易之一。

黄仁勋在一份声明中表示:“报道的内容不属实。” 英伟达是 OpenAI 的主要 GPU 供应商和战略合作伙伴。

为什么重要?

坦率地说,这次反驳的时机很有趣。 最近有报道称,OpenAI 正在与亚马逊进行 500 亿美元的投资谈判。[TechCrunch]

我个人认为,英伟达公开捍卫与 OpenAI 的关系本身就是一个信号。 这项投资不仅仅是钱的问题,甚至有猜测称英伟达在 AI 芯片市场的地位正在动摇。

英伟达几乎独家供应 OpenAI 的 GPT 模型学习所需的 H100、H200 等高性能 GPU。 如果这种关系真的出现问题,那么 AMD 或谷歌 TPU 等竞争对手可能会有机会。

但问题是 OpenAI 现在需要钱。 ChatGPT 的运营成本每天高达数百万美元。 从英伟达的角度来看,它不能失去 OpenAI,而从 OpenAI 的角度来看,它必须继续获得 GPU。 这是一个相互依存的关系。

未来会怎样?

英伟达和 OpenAI 之间的实际谈判内容尚未公开。 但由于黄仁勋亲自出面反驳,至少在短期内,这种关系似乎将得以维持。

从长远来看,我们必须关注 OpenAI 是否会开发自己的 AI 芯片或寻求其他供应商。 亚马逊可能会投资 500 亿美元,并推动其自己的芯片(Trainium、Inferentia)。

在报道发布后,英伟达的股价略有下跌,但其在整个 AI 芯片市场的份额仍然超过 80%。 虽然格局不会立即改变,但像 OpenAI 这样的大客户的选择将对整个行业产生重大影响。

常见问题 (FAQ)

问:1000 亿美元的投资是以现金形式支付的吗?

答:不是。 通常,这种规模的交易是 GPU 硬件供应协议、股权投资和战略合作伙伴关系的结合。 英伟达将在几年内向 OpenAI 提供价值 1000 亿美元的芯片,并获得 OpenAI 的股权或优先合作权。 实际的现金投资规模尚未公开。

问:英伟达是否支持 OpenAI 以外的其他 AI 公司?

答:当然。 Meta、Google、Amazon 和 Microsoft 都使用英伟达 GPU。 但 OpenAI 是使用 GPU 最多的客户之一,用于训练 GPT-4 等超大型模型。 从英伟达的角度来看,OpenAI 既是技术展示,也是最大的收入来源。

问:是否可以使用 AMD 或其他公司的芯片来训练 GPT?

答:从技术上讲,这是可能的。 AMD 的 MI300X、谷歌的 TPU 和亚马逊的 Trainium 都可以进行 AI 学习。 但问题在于软件生态系统。 英伟达的 CUDA 平台已经优化了 10 多年,并且大多数 AI 框架(PyTorch、TensorFlow)都基于 CUDA。 如果要切换到其他芯片,则需要修改代码、调整性能和重新培训工程师。 这是一个难以改变的结构。


如果这篇文章对您有帮助,请订阅 AI Digester。

参考资料

TMK提示将LLM规划能力提高3倍:从31%到97%

LLM 计划性能从 31% 飙升至 97%

  • TMK 提示使推理模型准确率提高 3 倍以上
  • 通过认知科学框架突破了现有 Chain-of-Thought 的局限性
  • 引导从语言推理转向形式化代码执行路径

发生了什么?

佐治亚理工学院的研究团队将源于认知科学的 Task-Method-Knowledge(TMK) 框架应用于 LLM 提示,从而大幅提高了计划性能。[arXiv] 在 PlanBench 基准的 Blocksworld 领域进行的实验结果表明,现有 31.5% 的准确率上升至 97.3%。 Erik Goh, John Kos, Ashok Goel 进行了这项研究。[arXiv]

与仅处理做什么 (Task)、如何做 (Method) 的现有分层框架不同,TMK 明确地表达了为什么要做 (Knowledge)。 它捕捉了 HTN 或 BDI 等现有方法遗漏的因果和目的论结构。[arXiv]

为什么重要?

这项研究是在对 LLM 的推理能力本身持怀疑态度的情况下进行的。 Chain-of-Thought(CoT) 提示被广泛使用,但关于它到底是真正的推理还是模式匹配的争论仍在继续。 TMK 在结构上绕过了这个限制。

尤其值得注意的是“性能逆转”现象。 推理模型在以前随机失败的不透明和符号化任务中表现出最佳性能。 研究团队解释说,TMK 使模型脱离了基本的语言模式,并激活了形式化代码执行路径。

从实用的角度来看,这意味着仅通过提示工程就可以将计划能力提高 3 倍以上,而无需重新训练模型。 它可以立即应用于代理系统或自动化工作流程设计。

未来会怎样?

TMK 提示是一种首先在教育领域得到验证的方法。 可以说,它将 AI 辅导系统中有效的方法扩展到了 LLM 推理。 推广到其他领域将是下一个研究课题。

目前的实验仅限于 Blocksworld 这个经典的计划问题。 需要验证 TMK 效果是否在更复杂的现实世界场景中仍然有效。 但是 97.3% 这个数字已经足够令人印象深刻了。

从提示设计的角度来看,还可以研究自动生成 TMK 结构的元提示技术。 即使使用者不直接编写 TMK,模型也可以自行创建任务分解结构。

常见问题 (FAQ)

Q: TMK 提示比 Chain-of-Thought 更好吗?

A: CoT 列出了顺序思维过程,但 TMK 明确地构建了分层分解和因果关系。 尤其是解释为什么执行特定行为的 Knowledge 元素激活了推理模型的形式化处理路径,从而提高了符号操作能力。

Q: 哪种类型的任务最有效?

A: 研究表明,在语义上不透明的符号操作任务中,效果最大化。 在像堆积木块这样规则明确但语言意义较少的问题中,性能从 31% 提高到 97%。 它比可以用日常语言解释的任务更适合抽象计划问题。

Q: 如何在实际项目中应用 TMK?

A: 在提示中明确三个要素即可。 Task 是目标状态,Method 是子任务分解和执行顺序,Knowledge 是每个行为的原因和前提条件。 它可以应用于需要复杂计划的代理系统或工作流程自动化。


如果这篇文章对您有帮助,请订阅 AI Digester。

参考资料

皮毛:Claude Code 替代 AI 编码代理 5.9k 星

pi-mono:在终端中直接创建 AI 编码代理

  • GitHub Stars: 5.9k
  • 语言: TypeScript 96.5%
  • 许可证: MIT

这个项目火爆的原因

一位开发者觉得 Claude Code 太复杂了。Mario Zechner 在试验了 3 年的 LLM 编码工具后,最终决定自己创建一个。[Mario Zechner]

pi-mono 是一个以“不需要就不创建”的哲学诞生的 AI 代理工具包。它从 1000 个 token 的系统提示和 4 个核心工具(read、write、edit、bash)开始。与 Claude Code 数千 token 的提示相比,它极其轻量。[GitHub]

能做什么?

  • 集成 LLM API:使用一个接口来使用 OpenAI、Anthropic、Google、Azure、Mistral、Groq 等 15 个以上的提供商
  • 编码代理 CLI:在终端中以交互方式编写、测试和调试代码
  • 会话管理:可以中断任务并继续,也可以像分支一样进行分支
  • Slack 机器人:将 Slack 消息委托给编码代理
  • vLLM Pod 管理:部署和管理 GPU Pod 上的自定义模型
  • TUI/Web UI 库:可以创建自己的 AI 聊天界面

快速开始

# 安装
npm install @mariozechner/pi-coding-agent

# 运行
npx pi

# 或者从源代码构建
git clone https://github.com/badlogic/pi-mono
cd pi-mono
npm install && npm run build
./pi-test.sh

在哪里使用比较好?

如果 Claude Code 每月 20 万韩元的费用让你感到负担,并且你是一个以终端为中心工作的开发者,那么 pi 可以成为一个替代方案。因为你只需要支付 API 费用。

如果你想使用自托管的 LLM,但现有的工具不支持,那么 pi 就是答案。它甚至内置了 vLLM Pod 管理功能。

我个人认为“透明性”是最大的优点。Claude Code 内部运行着你看不到的子代理。而 pi 可以让你直接确认所有模型交互。

注意事项

  • 极简主义是其哲学。有意省略了 MCP(模型上下文协议)的支持
  • 默认情况下是被称为“YOLO 模式”的完全访问权限。权限检查比 Claude Code 更宽松,请注意
  • 文档仍然不足。必须仔细阅读 AGENTS.md 文件

类似的项目

Aider:同样是开源终端编码工具。与模型无关这一点很相似,但 pi 涵盖了更广泛的范围(UI 库、Pod 管理等)。[AIMultiple]

Claude Code:功能更多,但需要每月订阅,并且定制性有限。pi 可以通过 TypeScript 扩展自由地添加功能。[Northflank]

Cursor:AI 集成到 IDE 中的形式。如果你更喜欢 GUI 而不是终端,那么 Cursor 更好。

常见问题 (FAQ)

Q: 可以免费使用吗?

A: pi 本身是 MIT 许可证,完全免费。但是,如果使用 OpenAI、Anthropic 等外部 LLM API,则会产生相关费用。如果在本地使用 Ollama 或自托管的 vLLM,则无需 API 费用即可使用。

Q: 性能足以替代 Claude Code 吗?

A: 在 Terminal-Bench 2.0 基准测试中,附加了 Claude Opus 4.5 的 pi 显示出与 Codex、Cursor、Windsurf 竞争的结果。这证明了极简的方法不会降低性能。

Q: 支持韩语吗?

A: UI 是英文的,但如果连接的 LLM 支持韩语,则可以用韩语进行对话和编码。如果连接 Claude 或 GPT-4,则可以使用韩语提示编写代码。


如果这篇文章对您有帮助,请订阅 AI Digester。

参考资料

AI专用社交平台 Moltbook:150万机器人背后隐藏着1.7万人类

150万 AI 代理,1.7万人类:隐藏的真相

  • AI 专用 SNS Moltbook 上有 150 万个代理在活动,但实际人类只有 1.7 万人
  • Wiz 安全团队发现数据库漏洞,导致 150 万个 API 密钥暴露
  • 创始人承认“一行代码也没亲自写过”——整个平台都是 AI 制作的 ‘vibe-coded’ 平台

发生了什么事?

AI 代理专用社交网络 Moltbook 遭遇了安全惨剧。Wiz 安全团队发现,150 万个 AI 代理账号背后只有 1.7 万名人类。平均每人运营 88 个机器人。[Wiz]

更严重的问题是,Moltbook 的 Supabase 数据库完全暴露。客户端 JavaScript 中直接暴露了 API 密钥,并且完全没有 Row Level Security 策略。任何人都可以读取/写入整个数据库。[Axios]

泄露的信息令人震惊。包括 150 万个 API 认证令牌、3.5 万个电子邮件地址,以及 4,060 个代理之间的非公开 DM。一些对话中甚至以明文形式共享了 OpenAI API 密钥。[Techzine]

为什么重要?

Moltbook 的真实面目暴露了。“只有 AI 的自主社交网络”的概念实际上更像是人类在背后操纵的戏剧。

坦率地说,这是一场可以预见的灾难。正如创始人 Matt Schlicht 亲自承认的那样,这个平台是一个 ‘vibe-coded’ 项目,他“一行代码也没亲自编写”,而是将整个开发工作交给了 AI 助手。[Engadget] 安全自然被抛在了脑后。

我个人认为这是 AI 代理时代的警钟。Moltbook 生动地展示了在代理相互通信、处理外部数据并自主行动的系统中,安全性可能有多么脆弱。

MIRI(机器智能研究所)的 Harlan Stewart 分析了病毒式传播的屏幕截图后发现,三分之二与营销 AI 消息应用程序的人类帐户相关联。[Live Science]

今后会怎样?

在 Wiz 的立即举报下,Moltbook 团队在几个小时内修复了漏洞。但根本问题并没有解决。

AI 代理专家 Gary Marcus 称 Moltbook 为“等待发生的灾难”。他认为,AI 模型只是在重现学习数据中的科幻场景。[Gary Marcus]

另一方面,Andrej Karpathy 评价 Moltbook 为“最近见过的最令人惊叹的科幻事件”,而埃隆·马斯克则称其为“奇点的非常早期阶段”。[Fortune]

但冷静地看,现在的 Moltbook 不是 AI 自主性的证据,而是人类可以多么容易地操纵 AI 系统的证据。

常见问题 (FAQ)

Q: Moltbook 到底是什么?

A: 2026 年 1 月 Matt Schlicht 创建的 AI 代理专用社交网络。结构类似于 Reddit,人类只能观察,只有 OpenClaw 等 AI 代理才能发帖和评论。目前已注册超过 150 万个代理。

Q: OpenClaw 是什么?

A: 是一款在用户设备上本地运行的开源 AI 个人助理软件。最初于 2025 年 11 月以 Clawdbot 的名义发布,后因 Anthropic 的商标权要求而更名为 Moltbot,并在 2026 年初再次更名为 OpenClaw。

Q: 我的数据可能泄露了吗?

A: 如果你在 Moltbook 上注册了 OpenClaw 代理,那么有可能。API 密钥、电子邮件、代理之间的对话都曾被暴露。安全研究人员不建议使用 OpenClaw 本身。如果重视设备安全或数据隐私,请避免使用。


如果这篇文章对您有帮助,请订阅 AI Digester。

参考资料

克劳德代码故障:90天内62起,开发者们又?

Claude Code 故障:90天内62起,开发者们 “又?”

  • 2月3日上午10点24分(东部时间)Claude Code 连接故障
  • 90天内62起故障 — 平均持续1小时19分钟
  • Claude API, claude.ai 也受影响

发生了什么?

Claude Code 又宕机了。2月3日上午10点24分(美国东部时间)Downdetector上的报告激增。[DesignTAXI] 前一天也发生了故障。

Claude API 和 claude.ai 也受到了影响。开发者们在社交媒体上抱怨。

为什么重要?

90天内,Anthropic 总共经历了62起故障。平均持续时间为1小时19分钟。[IsDown]

1月14日,Opus 4.5 和 Sonnet 4.5 的错误率急剧上升,收到了超过1,500份报告。[NewsBytes] 恢复花了4个小时。

说实话,每月支付200美元 Max 订阅费的用户们可能会最郁闷。

未来会怎样?

Anthropic 表示已修复配置问题并添加了安全措施。[Claude Status] 但90天内62起故障意味着迫切需要提高基础设施的稳定性。

常见问题 (FAQ)

Q: Claude Code 故障时的替代方案是什么?

A: 可以临时使用 GitHub Copilot、Cursor、开源 Goose。最好掌握一个备份工具。

Q: Anthropic 服务的稳定性如何?

A: 官方90天正常运行时间为99.67%。但62起故障,平均1小时19分钟,总停机时间相当长。

Q: 如何确认故障情况?

A: 可以在 status.claude.com 上查看官方状态,在 Downdetector 上查看用户报告。


如果这篇文章对您有帮助,请订阅 AI Digester。

参考资料

OpenAI 公开 Sora 信息流哲学: “不让人沉迷末日滚动”

OpenAI, Sora 信息流哲学公开:“不让人沉迷刷屏”

  • 创作优先,消费最小化是核心原则
  • 可用自然语言调整算法的新概念推荐系统
  • 从生成阶段开始的安全装置,与 TikTok 完全相反的战略

发生了什么?

OpenAI 正式发布了 AI 视频生成应用 Sora 的推荐信息流设计哲学。[OpenAI] 核心信息很明确。“不是让人沉迷刷屏,而是为了创作的平台”。

在 TikTok 因优化观看时间而引发争议期间,OpenAI 选择了完全相反的方向。不优化信息流停留时间,而是优先展示用户更有可能受到启发并亲自制作视频的内容。[TechCrunch]

为什么重要?

坦率地说,这是社交媒体历史上相当有意义的实验。现有的社交平台为了广告收入,最大限度地延长了停留时间。用户停留时间越长,就越赚钱。其结果是令人上瘾的算法和精神健康问题。

OpenAI 已经通过订阅模式 (ChatGPT Plus) 盈利。不依赖广告,所以没有必要“留住用户”。简单来说,因为商业模式不同,信息流设计也可能不同。

我个人很好奇这是否真的可行。“鼓励创作”的信息流是否真的能维持用户参与度?还是最终会回到优化停留时间?

Sora 信息流的 4 个原则

  • 优化创作:引导参与而不是消费。目标是积极创作而不是被动滚动。[Digital Watch]
  • 用户控制权:可以用自然语言调整算法。可以发出“今天只显示喜剧”之类的指示。
  • 连接优先:优先展示关注的人、认识的人的内容,而不是病毒式传播的全球内容。
  • 安全-自由平衡:所有内容都在 Sora 内生成,因此在生成阶段阻止有害内容。

技术上有什么不同?

OpenAI 利用现有的 LLM 开发了一种新型的推荐算法。核心差异点是“自然语言指示”。用户可以直接用语言向算法描述想要的コンテンツ类型。[TechCrunch]

个性化信号包括 Sora 活动(点赞、评论、混音)、基于 IP 的位置、ChatGPT 使用记录(可以关闭)、作者粉丝数等。但同时也包含安全信号,有害内容会被抑制展示。

今后会怎样?

Sora 应用在发布 48 小时后就登上了应用商店榜首。第一天 5.6 万次下载,第二天增加了 3 倍。[TechCrunch] 初期的反应很热烈。

但问题是持续性。正如 OpenAI 所承认的那样,这个信息流是“活的系统”。会根据用户反馈不断变化。如果以创作为中心的哲学与实际用户行为发生冲突会怎么样?值得关注。

常见问题 (FAQ)

Q: Sora 信息流和 TikTok 有什么不同?

A: TikTok 的目标是优化观看时间,留住用户。Sora 正好相反,优先展示用户更有可能受到启发并亲自制作视频的内容。是侧重于创作而不是消费的设计。

Q: 用自然语言调整算法是什么意思?

A: 现有的应用只根据点赞、观看时间等行为数据来决定推荐。Sora 是用户可以直接输入“今天只显示科幻视频”之类的指示,算法会根据指示进行调整。

Q: 有青少年保护功能吗?

A: 有。可以通过 ChatGPT 父母控制来关闭信息流个性化或限制连续滚动。青少年账户默认限制每天可以生成的视频数量,Cameo(他人登场视频)功能也适用更严格的权限。


如果这篇文章对您有帮助,请订阅 AI Digester。

参考资料

文本到图像 AI 学习,这样做 FID 降低 30%

核心 3 行:200K 步秘密、Muon 优化器、令牌路由

  • REPA 对齐只是初始加速器,200K 步后必须移除
  • 仅用 Muon 优化器就实现了 FID 18.2 → 15.55 (15% 改进)
  • 在 1024×1024 高分辨率下,TREAD 令牌路由将 FID 降低至 14.10

发生了什么?

Photoroom 团队公开了文本-图像生成模型 PRX 的学习优化指南 Part 2。[Hugging Face] 如果说 Part 1 涉及架构,那么这次则具体地倾泻了实际学习时应该如何操作的 ablation 结果。

说实话,这种类型的技术文档大多以“我们的模型很好”结尾,但这次不同。它公开了失败的实验,并以数字形式展示了每种技术的权衡。

为什么重要?

从头开始学习文本-图像模型成本非常高。一个错误的设置就会浪费数千小时的 GPU 时间。Photoroom 公开的数据减少了这种试错。

就我个人而言,最引人注目的发现是关于 REPA(表示对齐)的。使用 REPA-DINOv3 会使 FID 从 18.2 降至 14.64。但存在一个问题。吞吐量减少 13%,并且在 200K 步之后反而会妨碍学习。简单来说,它只是一个早期的助推器。

还有,BF16 权重保存错误。如果不知道这一点,用 BF16 代替 FP32 保存,FID 会从 18.2 跳到 21.87。上升了 3.67。出乎意料的是,许多团队都陷入了这个陷阱。

实战指南:按分辨率划分的策略

技术 256×256 FID 1024×1024 FID 吞吐量
Baseline 18.20 3.95 b/s
REPA-E-VAE 12.08 3.39 b/s
TREAD 21.61 ↑ 14.10 ↓ 1.64 b/s
Muon Optimizer 15.55

在 256×256 下,TREAD 反而会降低质量。但在 1024×1024 下,结果完全不同。分辨率越高,令牌路由效果就越明显。

未来会怎样?

Photoroom 将在 Part 3 中公开整个学习代码,并进行 24 小时“速通”。它将展示如何快速创建一个不错的模型。

我个人认为,这次公开将对开源图像生成模型生态系统产生重大影响。这是自 Stable Diffusion 以来,学习诀窍首次如此具体地公开。

常见问题 (FAQ)

Q: 应该何时移除 REPA?

A: 大约 200K 步之后。初期会加速学习,但之后反而会妨碍收敛。Photoroom 的实验清楚地表明了这一点。错过时机将降低最终模型质量。

Q: 应该使用合成数据还是真实图像?

A: 两者都使用。初期使用合成图像学习全局结构,后期使用真实图像捕捉高频细节。仅使用合成图像,即使 FID 很好,也没有照片的感觉。

Q: Muon 优化器比 AdamW 好多少?

A: 以 FID 为基准,大约改进 15%。从 18.2 降至 15.55。计算成本相似,因此没有理由不使用。但超参数调整有点棘手。


如果这篇文章对您有帮助,请订阅 AI Digester。

参考资料

深海时刻一周年:Qwen 衍生模型 11.3 万个,Llama 四倍

深搜时刻 1年,数字证明的3种变化

  • Qwen 衍生模型突破 11.3 万个 — Meta Llama(2.7 万个)的 4 倍
  • Hugging Face 最多关注者第 1 名 DeepSeek,第 4 名 Qwen
  • 中国 AI 组织们,“开源即战略”方向转变

发生了什么事?

Hugging Face 发布了 ‘深搜时刻’ 1 周年分析报告。[Hugging Face] 这是整理了 2025 年 1 月 DeepSeek 登场后中国开源 AI 生态系统如何发展的数据的三部曲系列的最后一篇。

从核心数据开始看。以 Qwen(阿里巴巴)为基础制作的衍生模型截至 2025 年年中超过了 11 万 3 千个。如果加上标记 Qwen 的存储库,则超过 20 万个。[Hugging Face] 与 Meta 的 Llama(2.7 万个)或 DeepSeek(6 千个)相比,这是一个压倒性的数字。

为什么重要?

说实话,一年前很多人还把中国 AI 看作是 ‘山寨’。但现在不同了。

Hugging Face 人气论文上位圈有字节跳动、DeepSeek、腾讯、Qwen 等。关注者数 DeepSeek 排名第 1,Qwen 排名第 4。如果以阿里巴巴整体来看,衍生模型数量与 Google 和 Meta 加起来的差不多。[Hugging Face]

我个人关注的是阿里巴巴的战略。Qwen 不是单一的旗舰模型,而是由 ‘家族’ 构成。支持多种大小、工作、模态。简单来说就是 “把我们的模型当作通用 AI 基础设施来使用”。

今后会怎么样?

Hugging Face 分析说 “开源是中国 AI 组织们的短期支配战略”。解释说,不仅共享模型,还共享论文、发布基础设施,旨在实现大规模整合和发布。

深搜时刻不是一次性事件,这一点在 1 年后通过数字得到了确认。全球 AI 开源生态系统的重心正在转移。

常见问题 (FAQ)

Q: Qwen 衍生模型比 Llama 多的理由是?

A: 阿里巴巴以多种大小和模态公开 Qwen,适用范围扩大。特别是中国开发者 많이 活用한다. 持续更新 Hugging Face 和 ModelScope 两者的战略也奏效了。

Q: DeepSeek 仍然重要吗?

A: 是的。在 Hugging Face 中拥有最多关注者的组织是 DeepSeek。但是,在衍生模型数量上落后于 Qwen。DeepSeek 在论文和研究贡献方面有优势,Qwen 则专注于生态系统扩展,存在差异。

Q: 对韩国开发者有什么意义?

A: 基于 Qwen 的模型正在加强韩语支持。由于是开源的,因此可以自由进行本地发布和微调。成为了一个适合无负担地进行实验的环境。但是,许可条件因模型而异,因此需要确认。


如果这篇文章对您有帮助,请订阅 AI Digester。

参考资料