MiniCPM-o 4.5 — 9B超越GPT-4o的端侧多模态模型 [GitHub]

MiniCPM-o 4.5:可在智能手机上运行的多模态 AI

  • GitHub Stars: 23.6k
  • 语言: Python
  • 许可证: Apache 2.0

该项目受欢迎的原因

MiniCPM-o 4.5 以 9B 参数超越 GPT-4o,接近 Gemini 2.5 Flash。是由 OpenBMB 于 2026 年 2 月发布的开源多模态 LLM。[GitHub]

几乎没有支持全双工直播的开源模型。它可以在智能手机上同时处理观看、收听和说话。[HuggingFace]

它能做什么?

  • 视觉理解:最大 180 万像素图像和 OCR 处理。OpenCompass 得分为 77.6。
  • 实时语音对话:英语·中文双语对话。支持语音克隆。
  • 全双工流式传输:同时处理视频·音频输入和文本·语音输出。
  • 先发制人的互动:基于场景识别,提前发送通知。

快速开始

# 使用 Ollama 运行
ollama run minicpm-o-4_5

# 使用 Docker 进入全双工模式
docker pull openbmb/minicpm-o:latest

它适合用在哪些地方?

实时视频翻译助手是首选。用相机展示文档,即可立即翻译。它也适用于辅助工具。可以创建一个实时描述周围环境的应用程序。它还可以用作在本地运行的 AI 助手,无需云 API 费用。[GitHub]

注意事项

  • 完整模型需要 20GB 以上的 VRAM。int4 量化版本可以降低要求。
  • 语音功能仅支持英语和中文。不支持韩语语音。
  • 全双工模式处于实验阶段。

常见问题 (FAQ)

问:MiniCPM-o 4.5 可以在哪些硬件上运行?

答:完整模型需要 20GB 以上 GPU 的 VRAM。int4 量化版本可以用 8GB 进行推理。您可以使用 Ollama 或 llama.cpp 在 Mac 上本地运行,并提供官方 Docker 镜像。

问:与 GPT-4o 相比,它处于什么水平?

答:OpenCompass 基准测试得分为 77.6,超过了 GPT-4o。MMBench 记录为 87.6,MathVista 记录为 80.1,OCRBench 记录为 876。这是基于视觉性能,文本专用任务可能会有所不同。

问:可以商业使用吗?

答:Apache 2.0 许可证允许商业使用。您可以自由修改和重新分发源代码。学习数据中的内容版权需要单独确认,因此建议在生产前务必确认许可证。


如果这篇文章对您有帮助,请订阅 AI Digester。

参考资料

AI视频生成工具对比:Sora 2 vs Veo 3.1 vs Kling 3.0 — 2026年谁将称霸?

2026年,AI视频生成市场正式进入三强争霸局面。OpenAI的Sora 2、Google的Veo 3.1以及中国快手的Kling 3.0正在激烈竞争。本文将基于实际性能,对比分析各工具的优势与劣势。

首先,在视频质量方面,Veo 3.1目前被认为能够生成最逼真的视频。Powtoon的对比分析表明,Veo 3.1在人物表情和手势表现方面优于其他工具。皮肤纹理、光线反射等细节都接近真实。另一方面,Sora 2在创意表达和电影构图方面具有优势。它具有出色的提示词理解能力,能够将抽象概念转化为视频。Kling 3.0在性价比方面值得关注。WaveSpeedAI的对比测试显示,Kling 3.0的生成速度最快,且性价比高。

语音和音频集成也是重要的差异点。Veo 3.1配备了原生音频生成功能,可以自动创建与视频同步的音效和背景音乐。Sora 2最近也增加了音频功能,但仍然采用单独生成后合成的方式,自然度较低。InVideo的评论分析称,Kling 3.0的唇音同步准确度在三个工具中最高。在价格政策方面,Sora 2包含在ChatGPT Plus订阅中,每月20美元,易于访问。Veo 3.1需要Google AI Pro订阅,成本更高。Kling 3.0采用基于积分的计费方式,对少量用户有利。

总之,没有绝对的赢家。PXZ AI的实际使用测试结果也表明,推荐工具因用途而异。如果需要逼真的视频,Veo 3.1是首选;对于创意内容,Sora 2更合适;而对于快速且低成本的任务,Kling 3.0则更具优势。预计2026年下半年,这三个工具都将进行大规模更新,竞争将更加激烈。这个市场真正的赢家最终将是用户。

FAQ

Q: 最推荐初学者使用的AI视频生成工具是什么?

A: Sora 2是最容易上手的。只需订阅ChatGPT Plus即可立即使用,并且其出色的提示词理解能力使初学者也能轻松获得所需的结果。

Q: 三个工具中,哪个可以生成最长的视频?

A: Kling 3.0支持最长2分钟的视频,是三者中最长的。Veo 3.1最长可生成1分钟的视频,而Sora 2最长只能生成20秒的视频。但是,视频越长,就越难保持一致性。

Q: 用于商业用途是否存在版权问题?

A: 这三个工具都在付费计划中授予商业使用权。但是,如果生成的视频包含真实人物或品牌,则需要进行单独的法律审查。必须仔细阅读各项服务的使用条款。

谷歌公开的三项儿童在线安全功能 [2026]

Google 安全互联网日发布 — 核心 3 点

  • SafeSearch 和 Family Link 基础保护强化
  • YouTube 青少年管理账户引入质量原则
  • AI 学习安全指南新设

Google 为保护儿童青少年所做的努力

2026 年 2 月 10 日,Google 在安全互联网日 (Safer Internet Day) 宣布了面向儿童和青少年的在线安全功能。[Google Blog] 今年的主题是“Smart tech, safe choices”。

SafeSearch 在儿童账户中默认启用。通过 Family Link,可以在一处管理屏幕时间、应用审批和内容过滤器。[Google Blog]

YouTube 管理账户和质量原则

YouTube 管理账户允许父母查看子女的上传、订阅和评论活动。在保持青少年自主性的同时,让父母了解情况。

今年新引入的质量原则,旨在更好地向青少年展示适合年龄的高质量内容。[Google Blog] 重点是推荐优质内容,而不是屏蔽不良内容。

AI 时代,孩子们需要指导

Google 表示,AI 的使用目的正在从娱乐转向学习。青少年希望通过 AI 学习,但他们需要指导,而不是独自摸索。[The Hans India]

“School time”功能限制上课期间的设备使用。Be Internet Awesome 提供数字公民意识教育资料。

常见问题 (FAQ)

Q: Family Link 提供哪些功能?

A: 在一个应用中管理屏幕时间、应用安装审批、内容过滤和隐私设置。SafeSearch 默认启用,过滤不适当的搜索结果。有助于了解孩子的设备使用模式。

Q: YouTube 管理账户与普通账户有什么不同?

A: 父母可以查看子女的上传、订阅和评论数量。在保持青少年自主性的同时,让父母了解情况。今年开始增加质量原则,更好地展示适合年龄的内容。

Q: 安全互联网日的主题是什么?

A: “Smart tech, safe choices”。鉴于 AI 已经深入孩子们的日常生活,重点关注如何安全地使用聊天机器人、算法和学习应用程序。强调批判性思维和成人的指导。


如果这篇文章对您有帮助,请订阅 AI Digester。

参考资料

GitHub 一天三次故障,开发者工作流程瘫痪 [2026]

GitHub,一天发生3次故障事件整理

  • 2月9日,GitHub在同一天发生了3起故障
  • Actions、Copilot等几乎所有服务都受到了影响
  • 最近2周频繁的故障导致不满情绪日益增加

2月9日,GitHub发生了什么

2月9日(UTC),GitHub一天内至少发生了3起故障。最大的故障始于19:01 UTC。Git Operations、Issues、Actions检测到性能下降,几分钟后蔓延到Copilot、Pull Requests、Webhooks、Pages、Codespaces。[GitHub Status]

19:29 UTC采取了缓解措施,20:09 UTC完全恢复。故障时间约为1小时。[GitHub Status]

一天3次故障,最近2周重复发生

根据EagleStatus的数据,除了这起事件外,上午11:26、下午12:12也记录了单独的故障。[EagleStatus] 2月2日,Actions Runner中断了5个小时,2月3日,Copilot请求的4%失败。[GitHub Status]

对开发工作流程的影响

GitHub故障会导致CI/CD管道中断、PR审查延迟、Webhook联动服务瘫痪。如果Copilot受到影响,依赖AI编码工具的流程也会中断。

GitHub表示将分享根本原因分析。一天3次故障,很可能是基础设施问题。

常见问题 (FAQ)

Q: 2月9日GitHub故障影响了哪些服务?

A: Git Operations、Issues、Actions、Pull Requests、Packages、Pages、Codespaces、Webhooks、Copilot等核心服务大部分都受到了影响。最大的故障始于19:01 UTC,于20:09 UTC恢复。

Q: GitHub故障对CI/CD的影响是什么?

A: Actions中断会导致构建、测试、部署全部延迟。Webhooks也会受到影响,导致Slack通知或外部联动服务也一起中断。

Q: 在哪里可以查看GitHub故障状态?

A: 可以在官方状态页面(githubstatus.com)上实时查看。也可以订阅邮件。EagleStatus等第三方监控服务也可以参考。


如果这篇文章对您有帮助,请订阅AI Digester。

参考资料

ChatGPT免费版和Go套餐出现广告 — 仅付费版无广告 [2026]

ChatGPT 广告,3 个核心要点

  • 免费·Go 订阅计划已开始实际显示广告
  • Plus·Pro·Enterprise 订阅者无广告
  • OpenAI 声明 AI 回答不受广告影响

ChatGPT 上线广告

OpenAI 已开始在 ChatGPT 免费版本和每月 8 美元的 Go 订阅计划中投放广告。目前正在美国成人用户中进行测试。[The Verge] 广告显示在回复底部,内容为与对话主题相关的产品。[OpenAI]

广告带有 Sponsored 标签,可以区分。但对于免费用户来说,可能会感到不便。

付费订阅者无广告

每月 20 美元的 Plus、200 美元的 Pro 和 Enterprise 订阅没有广告。[CNBC] 如果不喜欢广告,付费订阅是解决方案。以每月 8 美元的价格在 171 个国家/地区推出 Go 订阅计划也是低价订阅 + 广告收入的组合策略。

OpenAI 声明不会将用户数据出售给广告商。18 岁以下的用户不会看到广告,政治和健康主题旁边也不会出现广告。

AI 聊天机器人广告时代开启?

OpenAI 的年度收入目标为 250 亿美元。[Bloomberg] 仅靠订阅费不足以实现目标。这类似于 Google 搜索广告,他们正在尝试在对话式 AI 中使用广告模式。

AI 回答中混入广告令人担忧。虽然他们声称“对回答没有影响”,但长期来看会如何发展还有待观察。希望对您有所帮助。

常见问题 (FAQ)

Q: ChatGPT 广告会在哪些订阅计划中显示?

A: 在美国成人用户中,免费和每月 8 美元的 Go 订阅计划用户会看到广告。Plus、Pro、Enterprise 付费订阅者不会看到广告。如果不想看到广告,至少需要订阅 Plus 或更高级别的计划。

Q: 广告会影响 AI 回答吗?

A: OpenAI 声明广告不会影响回答内容。广告会带有 Sponsored 标签,单独显示在回答底部。他们还表示不会将用户数据出售给广告商。

Q: ChatGPT Go 订阅计划是什么?

A: 这是 2025 年 8 月推出的低价订阅计划。在美国,价格为每月 8 美元,可在 171 个国家/地区使用。它比 Plus 便宜,但包含广告。


如果这篇文章对您有帮助,请订阅 AI Digester。

参考资料

SaaS 时代的终结?Databricks CEO 的 3 个展望

Databricks CEO的SaaS展望核心3点

  • SaaS并未消亡,但AI将使其变得无关紧要
  • AI催生新的竞争者,对现有SaaS构成压力
  • 订阅型软件模式本身可能被重塑

Databricks CEO阿里·戈德西的发言

Databricks CEO阿里·戈德西提出了一个颇具争议的展望。他认为SaaS“并未消亡,但AI将很快使其变得无关紧要”。[TechCrunch]

核心并非“消灭”,而是“转变”。逻辑在于,随着基于AI的竞争者出现,现有模型的价值将会下降。

AI撼动SaaS市场的结构

AI正在降低开发门槛。小型团队也能快速实现只有大型SaaS企业才能提供的功能。[TechCrunch]

未来将不再是订阅型SaaS,而是AI即时生成所需功能的世界。Databricks本身就是数据·AI平台,这一展望与其自身定位相符。[Databricks]

哪些SaaS面临风险

单纯功能型SaaS风险最高。项目管理、基本CRM等领域可以被AI快速替代。

相反,数据管道、安全等基础设施型SaaS则相对安全。最终,命运取决于“是哪种SaaS”。[TechCrunch]

常见问题 (FAQ)

Q: SaaS真的会消失吗?

A: 不会完全消失。但AI降低开发成本的同时,订阅型SaaS的价值可能会减弱。功能越简单的SaaS,被替代的风险越高,复杂的基建型SaaS影响较小。

Q: Databricks是怎样的公司?

A: 是一家数据湖仓平台企业。由Apache Spark的创始人创立,整合处理数据和AI工作负载。2024年末,公司估值达到620亿美元。

Q: AI替代SaaS后会怎样?

A: 将会普及AI根据需求即时生成软件的方式,取代按月订阅。这对小型企业和个人有利,但对大型SaaS企业构成威胁。


如果这篇文章对您有帮助,请订阅AI Digester。

参考资料

Anthropic进军印度引发商标纠纷 [2026]

Anthropic 进军印度,三大要点

  • 印度公司 Anthropic Softwares 对美国 Anthropic 提起商标诉讼
  • 印度公司成立于 2017 年,比美国公司早 4 年抢占名称
  • Anthropic 正在推进印度市场,并在班加罗尔设立办事处

印度本土公司先行一步

位于印度贝尔高姆的 Anthropic Softwares 是一家成立于 2017 年的小型软件公司。[Tracxn] 主要从事电脑维修和应用开发。美国 Anthropic PBC 成立于 2021 年。印度公司早了 4 年。

据 TechCrunch 报道,这家印度公司已提起商标权纠纷。[TechCrunch] 这是海外扩张时经常发生的商标冲突案例。

Anthropic 的印度战略

Anthropic 计划于 2026 年初在班加罗尔开设其在亚太地区的第二个办事处。[Anthropic] 印度是 Claude 使用量全球第二的国家。

1 月,Anthropic 聘请了微软印度前总经理伊琳娜·戈塞担任总经理。[TechCrunch] 预计将支持包括印地语在内的 10 多种印度语言。

商标纠纷的教训

在本国知名的名称在其他国家已被注册的情况很常见。 解决这场纠纷成为 Anthropic 印度业务的首要任务。

常见问题 (FAQ)

Q: 印度的 Anthropic Softwares 是一家什么样的公司?

A: 是一家 2017 年在印度贝尔高姆成立的软件企业。主要业务是电脑维修和应用开发,是一家小公司。比美国 Anthropic 早 4 年成立,并在印度国内率先使用该商标。

Q: Anthropic 为什么要进军印度?

A: 印度是继美国之后 Claude 使用量全球第二的国家。技术领域的使用比例很高。计划在班加罗尔开设办事处,并在教育、医疗、农业领域利用 AI。

Q: 商标纠纷如何解决?

A: 可以通过协商、许可协议、更改本地品牌名称、法律诉讼等方式解决。 由于印度公司首先注册了该名称,因此协商的可能性很高,但结果尚未公布。


如果这篇文章对您有帮助,请订阅 AI Digester。

参考资料

Claude 代码插件 73 个合集 [GitHub]

Claude Code 自动化插件 73 个总览

  • GitHub Stars: 28,200+
  • 语言: Markdown, JSON
  • 许可证: MIT

该项目受欢迎的原因

随着 Claude Code 用户激增,自动化需求也随之增加。wshobson/agents 是一个开源市场,汇集了 73 个插件、112 个代理和 146 个技能[GitHub]。它采用按需安装的结构,因此不会过于臃肿。

能做什么?

  • 多代理编排: 多个代理并行执行代码审查、调试和安全扫描
  • 渐进式披露: 技能仅在激活时加载。避免浪费 Token
  • Agent Teams: 7 个预设允许团队协作[GitHub]
  • 4 级模型策略: 从 Opus 到 Haiku,根据任务重要性自动分配模型

快速开始

# 添加市场
/plugin marketplace add wshobson/agents

# 安装所需插件
/plugin install python-development

适用场景

全栈项目中同时运行前端、后端和测试的场景非常适合。如果团队需要安全审计,可以使用安全扫描插件在代码审查期间自动捕获漏洞。

对于经常创建 Python 微服务的开发者也很有用。代理可以协助完成从脚手架搭建到 CI/CD 设置的整个过程[Plugin Reference]

注意事项

  • 需要 Claude Code 付费订阅
  • 大量使用 Opus 代理可能会迅速消耗 Token
  • 全部安装反而会造成混乱。只使用需要的插件

常见问题 (FAQ)

Q: wshobson/agents 是免费的吗?

A: 项目本身是 MIT 许可,因此是免费的。但是,需要 Claude Code 订阅。由于它是 Anthropic 的付费服务,因此会产生额外费用。安装插件不收取额外费用,但代理使用的 Token 包含在订阅限额中。

Q: 是否需要安装所有 73 个插件?

A: 不需要安装所有插件。您可以只安装您需要的插件。如果您只进行 Python 开发,那么 python-development 插件就足够了。每个插件平均由 3.4 个组件组成,可以轻松上手。

Q: 是否与现有的 Claude Code 设置冲突?

A: 它是在现有设置之上构建的。它被设计为不与 CLAUDE.md 或个人设置冲突。卸载插件后,它会恢复到原始状态。如果安装了多个相同领域的插件,可能会出现优先级问题。


如果这篇文章对您有帮助,请订阅 AI Digester。

参考资料

用ESP8266将4000韩元手表变成Wi-Fi项目 [GitHub]

ESP8266 Wi-Fi 模拟时钟:核心要点

  • GitHub Stars: 131
  • 语言: C++ 64.1%, C 35.9%
  • 许可证: MIT

从沃尔玛 4000 韩元时钟到 NTP 时钟

ESP8266_WiFi_Analog_Clock 是一个将沃尔玛售价 3.88 美元的模拟时钟改装成 Wi-Fi 时钟的项目。[GitHub] 它利用 WEMOS D1 Mini 从 NTP 服务器获取时间。每 15 分钟自动同步一次,并自动处理夏令时。

ESP8266 直接控制时钟内部的拉贝特步进电机。它每秒执行 10 次时间比较,如果落后,则发送脉冲以使秒针前进。[GitHub README] 因为不能向后转动,所以如果超前,它会等待实际时间赶上。

断电也能记住时间

使用 Microchip 47L04 EERAM 是其核心设计。[GitHub] SRAM 中有 EEPROM 备份,即使断电也不会丢失指针位置。恢复供电后,它会立即从保存的位置恢复同步。

初始设置通过 Web 界面进行。首次通电时,只需在 Web 上告知指针位置即可。之后,EERAM 会持续跟踪位置。Web 还支持状态监控和 SVG 可视化。

制作方法

只需要 WEMOS D1 Mini、47L04 EERAM 和一个廉价的模拟时钟。将其焊接在万用板上即可完成。它基于 Arduino Sketch,易于修改,并且采用 MIT 许可证,可以自由使用。

常见问题 (FAQ)

Q: 整个制作成本是多少?

A: 沃尔玛时钟约 3.88 美元,WEMOS D1 Mini 约 3~5 美元,47L04 EERAM 约 2 美元。整个零件成本约为 10~15 美元。如果回收利用现有的模拟时钟,可以进一步降低成本。焊接设备需要单独准备。

Q: NTP 同步失败会怎么样?

A: 即使 NTP 连接暂时失败,时钟也会继续运行。ESP8266 内部定时器会保持时间,并在下一个周期(15 分钟)重试。如果长时间断网,可能会累积误差,但重新连接后会立即校正。

Q: 没有编程经验也能制作吗?

A: 需要了解基本的焊接和 Arduino IDE 的使用方法。代码已在 GitHub 上完成,可以直接上传。硬件组装时,具备电子电路基础知识会有所帮助。README 非常详细,可以参考。


如果这篇文章对您有帮助,请订阅 AI Digester。

参考资料

2026年超级碗AI广告的3个失败点

超级碗 2026 AI 广告,3 个失败点

  • 今年超级碗上 AI 生成广告大量涌现,但反响冷淡
  • Artlist、Svedka 等品牌反而适得其反
  • 没用 AI 的广告也受到“AI 粗制滥造”的怀疑

30 秒 1000 万美元,却用 AI 制作

今年超级碗 30 秒广告的单价为 800 万~1000 万美元。 以前,高制作成本意味着高质量。 但今年,随着生成式 AI 广告的涌现,廉价感十足[The Verge]

AI 视频模型有所改进,但仍然不足。“勉强能用”的水平导致多个品牌同时涌入,这是个问题。

Artlist 和 Svedka 的失败

Artlist 自豪地宣称“5 天内制作了超级碗广告”。 结果是一系列动物行为怪异的片段[The Verge]。 也没有故事性。

Svedka 推出了 AI 机器人角色广告。 机器人喝伏特加并出现故障的场景看起来像 AI 视频错误[The Hollywood Reporter]。 母公司 CMO 声称其“对人类友好”,但缺乏说服力。

即使没用 AI 也会被怀疑的时代

Xfinity 的侏罗纪公园广告由 ILM 负责面部修复。 然而,却涌现了“AI 粗制滥造”的反应[The Verge]。 Dunkin’ 的广告也是如此。 对话的重点不是咖啡,而是“这是 AI 吗?”。

这是 AI 广告泛滥造成的副作用。 看到不自然的视频,人们会下意识地怀疑是 AI。

常见问题 (FAQ)

Q: 今年超级碗的 AI 广告品牌有哪些?

A: Artlist、Svedka 是代表。 Artlist 在 5 天内制作完成,Svedka 则使用了 AI 机器人角色。 Dunkin’ 和 Xfinity 使用了传统的 VFX,但受到了 AI 嫌疑。 百事可乐针对了可口可乐的 AI 广告。

Q: AI 广告是否降低了成本?

A: Svedka 母公司 Sazerac 的 CMO 承认 AI 并未大幅降低成本。 他表示,选择 AI 是出于主题原因。 Artlist 将制作时间缩短至 5 天,但普遍认为质量较低。

Q: 为什么没用 AI 的广告也会被怀疑?

A: 对生成式 AI 的反感日益增加,导致人们看到不自然的视觉效果时会立即怀疑是 AI。 Xfinity 的面部修复由 ILM 和 Lola VFX 负责,但社交媒体上出现了 AI 粗制滥造的反应。 AI 广告的泛滥本身就造成了副作用。


如果这篇文章对您有帮助,请订阅 AI Digester。

参考资料