Text→Image AI训练,通过此方法FID降低30%

Core Line 3: 200K step secret, Muon optimizer, token routing

  • REPA sort只是早期加速器,200K steps之后应该删除
  • 仅Muon optimizer就实现了FID 18.2 → 15.55(15%提升)
  • 在1024×1024高分辨率下,TREAD token routing将FID降低到14.10

What happened?

Photoroom团队发布了text-to-image generation模型PRX Part 2的优化指南。[Hugging Face] Part 1讨论的是架构,这次分享了实际训练时应该做什么的具体ablation结果。

说实话,这类技术文档大多以我们的模型是最好的结束,但这次不同。他们也公开了失败的实验,并用数字展示了每种技术的trade-off。

Why is it important?

从头训练text-image模型的成本是巨大的。仅仅一个错误的设置就可能浪费数千GPU小时。Photoroom公开的数据减少了这种试错。

个人认为最值得注意的发现是关于REPA(Representation Alignment)。使用REPA-DINOv3可以将FID从18.2降到14.64。但有个问题。throughput下降13%,200K steps之后训练实际上会退化。简单来说,它只是一个早期助推器。

BF16 weight storage的另一个bug。如果不知道这一点,用BF16而不是FP32保存,FID会从18.2飙升到21.87。上升了3.67。令人惊讶的是,很多团队都掉进了这个陷阱。

Practical Guide: Strategies by Resolution

Technique 256×256 FID 1024×1024 FID Throughput
Baseline 18.20 3.95 b/s
REPA-E-VAE 12.08 3.39 b/s
TREAD 21.61 ↑ 14.10 ↓ 1.64 b/s
Muon Optimizer 15.55

在256×256下,TREAD实际上会降低质量。但在1024×1024下,会得到完全不同的结果。分辨率越高,token routing效果越大。

What will happen in the future?

Photoroom将在Part 3提供完整的训练代码。他们计划发布后进行24小时speed run。目标是展示能多快构建一个好模型。

个人认为,这次发布将对开源图像生成模型生态系统产生重大影响。自Stable Diffusion以来,这是第一次如此详细地公开训练经验。

Frequently Asked Questions (FAQ)

Q: REPA应该什么时候删除?

A: 大约200K steps之后。一开始会加速学习,但之后实际上会阻碍收敛。这在Photoroom实验中清楚地显示出来。错过时机会降低最终模型的质量。

Q: 应该使用synthetic data还是real images?

A: 两者都用。首先使用synthetic images学习global structure,然后在后期阶段使用real images捕捉high-frequency details。只使用compositing的话FID很好,但看起来不像真实照片。

Q: Muon optimizer比AdamW好多少?

A: FID标准约15%提升。从18.2降到15.55。由于computational cost相似,没有理由不使用。但是,hyperparameter tuning稍微有点麻烦。


如果这篇文章对你有帮助,请订阅AI Digester。

References

AI专用社交网络Moltbook:150万机器人背后隐藏的1.7万人类

150万AI agents,1.7万人类:隐藏的真相

  • AI专用社交网络Moltbook上活跃的agents有150万,但实际人类只有1.7万人。
  • Wiz安全团队发现了数据库漏洞,150万个API keys被泄露。
  • 创始人承认没有亲自写过一行代码。整个项目完全由AI Platform vibe-coded完成。

发生了什么?

AI agents专用社交网络Moltbook发生了安全灾难。据Wiz安全团队发现,150万个AI agent账户背后只有1.7万人类。平均每人运营88个机器人。[Wiz]

还有更严重的问题。Moltbook的Supabase数据库完全暴露。API key在客户端JavaScript中泄露,完全没有Row Level Security策略。任何人都对整个数据库拥有读写权限。[Axios]

泄露的信息令人震惊。包括150万个API认证令牌、3.5万个电子邮件地址、4060条agent之间的私信。部分对话中,OpenAI API keys以纯文本形式共享。[Techzine]

为什么重要?

Moltbook的真面目被揭示。AI自主社交网络的概念实际上更接近于幕后由人类控制的木偶戏。

坦白说,这是一场预见的灾难。正如创始人Matt Schlicht自己承认的,这个平台是vibe-coded项目,整个开发没写一行代码就交给了AI assistant。[Engadget] 安全自然被忽视了。

个人认为,这是AI agent时代的警示灯。Moltbook生动地展示了在agents相互通信、处理外部数据、自主行动的系统中,安全可以多么脆弱。

Machine Intelligence Research Institute(MIRI)的Harlan Stewart分析了病毒式传播的截图,发现三分之二与推销AI消息应用的人类账户相关联。[Live Science]

接下来会发生什么?

由于Wiz的及时报告,Moltbook团队在几小时内修复了漏洞。但根本问题并未解决。

AI agent专家Gary Marcus称Moltbook是等待发生的灾难。AI模型只是在重现训练数据中的科幻场景。[Gary Marcus]

另一方面,Andrej Karpathy称Moltbook是最近见过的最惊人的科幻,Elon Musk称之为奇点的非常早期阶段。[Fortune]

但冷静地看,当前的Moltbook不是AI自主性的证据,而是人类可以多么容易操纵AI系统的证据。

常见问题

Q: Moltbook到底是什么?

A: 2026年1月由Matt Schlicht创建的AI agents专用社交网络。结构类似Reddit,人类只能观察,只有OpenClaw等AI agents才能发帖和评论。目前已有超过150万agents注册。

Q: OpenClaw是什么?

A: 在用户设备上本地运行的开源AI个人助手软件。最初于2025年11月以Clawdbot名称发布,因Anthropic的商标请求改名为Moltbot,2026年初再次改名为OpenClaw。

Q: 我的数据可能泄露了吗?

A: 如果你在Moltbook上注册了OpenClaw agent,有可能。API keys、电子邮件、agents之间的对话都被泄露了。安全研究人员不建议使用OpenClaw本身。如果关注设备安全或数据隐私,请避免使用。


如果这篇文章对你有帮助,请订阅AI Digester。

参考资料

DeepSeek的一年:113,000个Qwen衍生模型,是Llama的4倍

Deep Chic Moment一年,数字证明的3个变化

  • Qwen衍生模型超过113,000个 – 是Meta Llama(27,000个)的4倍
  • DeepSeek在Hugging Face粉丝数排名第一,Qwen排名第四
  • 中国AI组织转向:开源是战略

发生了什么?

Hugging Face发布了Deep Chic Moment一周年分析报告。[Hugging Face] 这是一个三部曲系列的最后一部分,总结了自2025年1月DeepSeek出现以来,中国开源AI生态系统如何发展的数据。

先看核心指标。截至2025年中期,基于Qwen(阿里巴巴)的衍生模型数量超过了113,000个。包括带有Qwen标签的仓库在内,数量超过20万。[Hugging Face] 与Meta的Llama(27,000个)或DeepSeek(6,000个)相比,这是一个压倒性的数字。

为什么重要?

坦白说,就在一年前,很多人还把中国AI视为copycat。但现在不同了。

ByteDance、Deepseek、Tencent和Qwen在Hugging Face的热门论文排名中占据前列。在粉丝数方面,DeepSeek排名第一,Qwen排名第四。从阿里巴巴整体来看,衍生模型数量相当于Google和Meta的总和。[Hugging Face]

我个人关注的是阿里巴巴的战略。Qwen不是单一的旗舰模型,而是以家族形式构建的。它支持各种大小、任务和模态。简单来说,就是:把我们的模型当作通用AI基础设施来使用。

未来会发生什么?

Hugging Face分析认为开源是中国AI组织的短期主导战略。其解读是,通过共享模型、论文和部署基础设施,目标是大规模集成和部署。

仅仅一年,数字就证实了DeepSeek moment不是一次性事件。全球AI开源生态系统的重心正在转移。

常见问题(FAQ)

Q: Qwen衍生模型比Llama多的原因是什么?

A: 阿里巴巴以各种大小和模态发布Qwen,扩大了应用范围。特别是中国开发者经常用于本地部署。与Hugging Face持续更新模型范围的策略也很有效。

Q: DeepSeek还重要吗?

A: 是的。在Hugging Face上拥有最多粉丝的组织是DeepSeek。但在衍生模型数量上落后于Qwen。DeepSeek在论文和研究贡献方面有优势,而Qwen专注于生态系统扩展。

Q: 对开发者意味着什么?

A: 基于Qwen的模型正在加强多语言支持。因为是开源的,本地部署和fine tuning是免费的。这成为了一个可以无成本负担进行实验的良好环境。但是,许可条款因模型而异,需要确认。


如果这篇文章有用,请订阅AI Digester。

参考资料

pi-mono: Claude Code替代AI编程代理 5.9k stars

pi-mono: 在终端创建你自己的AI编程代理

  • GitHub Stars: 5.9k
  • Language: TypeScript 96.5%
  • License: MIT

这个项目为何崛起

一位开发者觉得Claude Code变得太复杂了。Mario Zechner实验LLM编程工具3年,最终决定打造自己的工具。[Mario Zechner]

pi-mono是以不需要就不造的哲学打造的AI代理工具包。它从1000个token的系统提示和4个核心工具(read、write、edit、bash)开始。与Claude Code数千token的提示相比非常轻量。它有什么?

  • Integrated LLM API: 在一个界面使用OpenAI、Anthropic、Google、Azure、Mistral、Groq等15+供应商
  • Coding Agent CLI: 在终端交互式地编写、测试和调试代码
  • Session Management: 暂停和恢复工作,像git一样分支
  • Slack bot: 将Slack消息委托给编程代理
  • vLLM pod management: 在GPU pod上部署和管理自己的模型
  • TUI/Web UI library: 构建自己的AI聊天界面

Quick Start

# Install
npm install @mariozechner/pi-coding-agent

# run
npx pi

# or build from source
git clone https://github.com/badlogic/pi-mono
cd pi-mono
npm install && npm run build
./pi-test.sh

可以在哪里使用?

如果Claude Code每月200美元负担太重,而你偏好终端工作,pi可以是替代方案。你只需支付API费用。

如果你想使用自托管LLM但现有工具支持不好,pi是答案。它甚至内置了vLLM pod管理功能。

个人认为透明度是最大优点。Claude Code在内部运行不可见的子代理来执行任务。pi让你直接看到所有模型交互。

注意事项

  • 极简主义是哲学。MCP(Model Context Protocol)支持被有意省略
  • 被称为YOLO模式的完全访问是默认值。权限检查比Claude Code宽松,请注意
  • 文档仍然不足。仔细阅读AGENTS.md文件

类似项目

Aider: 同样是开源终端编程工具。在不依赖特定模型方面相似,但pi覆盖更广的范围(UI库、pod管理等)。[AIMultiple]

Claude Code: 功能更多但需要月订阅,定制有限制。pi允许通过TypeScript扩展自由添加功能。[Northflank]

Cursor: 集成到IDE的AI形态。如果你偏好GUI而非终端,Cursor更好。

常见问题(FAQ)

Q: 可以免费使用吗?

A: pi在MIT许可证下完全免费。但如果使用OpenAI或Anthropic等外部LLM API,会产生相应费用。使用本地Ollama或自托管vLLM可以无API费用使用。

Q: 性能足以替代Claude Code吗?

A: 在Terminal-Bench 2.0基准测试中,使用Claude Opus 4.5的pi与Codex、Cursor和Windsurf显示出有竞争力的结果。证明了极简主义方法不会降低性能。

Q: 支持中文吗?

A: UI是英文的,但如果连接的LLM支持中文,你可以用中文交流和编程。连接Claude或GPT-4后可以用中文提示写代码。


如果这篇文章对你有用,请订阅AI Digester。

References

OpenAI公开Sora Feed哲学:”不允许无限刷屏”

OpenAI公开Sora Feed哲学:”不允许无限刷屏”

  • 创作优先,消费最小化是核心原则
  • 可以用自然语言调整算法的新型推荐系统
  • 从创作阶段就有安全措施,与TikTok策略相反

发生了什么?

OpenAI正式公布了AI视频制作应用Sora的推荐Feed设计哲学。[OpenAI] 核心信息很明确:”这是一个用于创作的平台,而不是无限刷屏。”

当TikTok因优化观看时间而引发争议时,OpenAI选择了相反的方向。他们不是最大化Feed停留时间,而是优先展示最有可能激发用户创作自己视频的内容。[TechCrunch]

为什么重要?

说实话,这是社交媒体历史上相当重要的一次实验。现有社交平台为了产生广告收入而最大化停留时间。用户停留越久,赚的钱越多。这导致了成瘾性算法和心理健康问题。

OpenAI已经通过订阅模式(ChatGPT Plus)获得收入。因为不依赖广告,所以不需要”留住用户”。简单来说,因为商业模式不同,Feed设计也可以不同。

个人而言,我很好奇这是否真的有效。”鼓励创作”的Feed真的能让用户持续参与吗?还是最终会回归到停留时间优化?

Sora Feed的4个原则

  • Creative Optimization:引导参与而不是消费。目标是主动创作,而不是被动滚动。[Digital Watch]
  • User control:可以用自然语言调整算法。可以使用”今天只给我看喜剧”这样的指令。
  • Connection priority:优先展示关注的人和认识的人的内容,而不是病毒式全球内容。
  • Safety-freedom balance:由于所有内容都在Sora内生成,有害内容在创建阶段就被阻止。

技术上有什么不同?

OpenAI与现有LLM不同。使用这种方法开发了一种新型推荐算法。核心差异化因素是”自然语言指令”。用户可以用文字直接向算法说明他们想要什么类型的内容。[TechCrunch]

Sora使用活动(点赞、评论、混音)、基于IP的位置、ChatGPT使用历史(可以关闭)和创作者粉丝数作为个性化信号。但是,安全信号也包含在内,以抑制有害内容的曝光。

未来会怎样?

Sora应用仅用48小时就发布了。它在App Store排名第一。第一天下载56,000次,第二天增加了3倍。[TechCrunch] 初期反应非常热烈。

但问题是可持续性。正如OpenAI承认的,这个Feed是一个”活的系统”。它将根据用户反馈不断变化。当创作哲学与实际用户行为发生冲突时会怎样?我们需要观察。

常见问题(FAQ)

Q: Sora Feed和TikTok有什么不同?

A: TikTok的目标是优化观看时间来留住用户。Sora恰恰相反,优先展示最有可能激发用户创作自己视频的内容。它被设计为专注于创作而不是消费。

Q: 用自然语言调整算法是什么意思?

A: 现有应用只根据点赞和观看时间等行为数据进行推荐。Sora允许用户输入”今天只给我看科幻视频”这样的文字指令,算法会相应调整。

Q: 有青少年保护功能吗?

A: 有。使用ChatGPT的家长控制功能,可以关闭Feed个性化或限制连续滚动。青少年账户默认每天可创建的视频数量有限,Cameo(以他人为特色的视频)功能也有更严格的权限。


如果这篇文章对你有用,请订阅AI Digester。

参考资料