ChatGPT模型更新与Adobe集成#
OpenAI即将发布新款ChatGPT模型“Garlic”,预计将包含最新的图像视觉模型、语音模型以及全新的GPTs商店。与此同时,Adobe已登陆ChatGPT,用户现在可以通过聊天直接使用Photoshop、Adobe Express和Acrobat等应用,实现智能化的图像与文案创作。这些功能已陆续在Android客户端上线,预示着GPTs商店的即将推出,将极大提升AI工具的易用性和集成度。
ChatGPT记忆系统逆向工程揭秘#
一项对ChatGPT记忆系统的逆向工程研究发现,其设计比预想的更为简洁高效。该系统并未采用复杂的向量数据库或RAG(检索增强生成)技术,而是通过四层结构实现个性化和高性能:会话元数据、长期存储的明确事实、近期聊天的轻量级摘要以及当前对话的滑动窗口。这种工程智慧在个性化、性能和计算成本之间取得了平衡,为服务8亿用户提供了最佳体验。
Nano Banana Pro图像生成与提示词经验分享#
在Nano Banana Pro图片生成领域,作者分享了创作数百万流量提示词的经验。Nano Banana Pro以其卓越的美学表现力,能够一键生成电影或小说场景海报。虽然目前主流大模型直接生成Nano Banana Pro专属提示词仍有难度,但通过参考DALL-E或其他模型(如MJ或SD)的提示词并进行人工调整,可以达到近似效果。此外,阿里巴巴6B模型的论文解读也为理解Nano Banana Pro的训练方法提供了参考。
豆包AI原生手机体验#
“豆包手机”被评价为首款真正的AI原生国产手机,其体验令人惊艳。用户可通过一句话指令安装常用App,左侧物理按键可随时唤起“豆包”AI助手,并支持双击进行视频通话。其简洁流畅的Onboarding设计,展现了AI与手机深度融合的未来感。
多款新型AI模型发布与趋势#
AI模型领域近期活跃。新的Hermes 36B模型在Hugging Face上排名第三,备受关注。Essential AI发布了其首款Rnj-1 8B基础和指令模型,可通过GRPO与TRL进行轻松微调。NousResearch开源了Nomos 1 (30B参数) 模型,该模型在今年的Putnam数学竞赛中取得了87/120的高分,同时还推出了一款专门用于数学解题和证明编写的Qwen3-30B-A3B-Thinking-2507模型。此外,“Harness”与模型配对的理念也成为近期热议话题。
Medeo:语音驱动的视频AI Agent产品#
Medeo作为一款领先的视频AI Agent产品,能够通过自然语言对话生成和修改视频。该产品内置强大的在线编辑器,支持快速替换台词、语音和字幕,甚至可以根据指令自动对齐时间轴,极大简化了视频制作流程。有用户表示,视觉提示词的泛化能力使其微缩模型提示词也能有效应用于Medeo这类动态视频生成和编辑Agent,显著提升了视频表现力。
nanoGPT在太空微调模型,推动AI普及#
nanoGPT成为首个在太空进行训练和推理的LLM,这一里程碑事件表明,借助nanoGPT、Hugging Face数据集和分词器等工具,企业在地球上训练和微调自己的模型已不再是技术难题。AI领域的专家Clement Delangue强调,在当前阶段,未能训练自有模型可能仅仅是“技能问题”。
Waymo无人驾驶服务将于2026年登陆伦敦#
自动驾驶公司Waymo宣布将于2026年进驻伦敦,这标志着其无人驾驶技术在国际扩张方面迈出了重要一步。此举有望为伦敦带来创新的交通解决方案。
LeRobot社区数据集v3发布:机器人研究里程碑#
LeRobot社区数据集v3已正式发布,该版本包含5万个情景、支持46种机器人类型,并汇集了全球235位贡献者的力量。这一大规模数据集的推出,将为机器人学习和研究领域提供宝贵资源,加速相关技术的进步。
Gemini Ultra与Claude 4.5提供高级用户福利#
订阅了“Antigravity”服务的Ultra用户,可享受Gemini 3和Claude 4.5超高的使用额度。此外,Ultra用户还能组建家庭组,与五位朋友共享相同的特权,包括Gemini额度提升、YouTube去广告以及谷歌云盘扩容,极大提升了AI服务的使用性价比。
DeepMind关注机器人开放式推理挑战#
Google DeepMind指出,对于机器人而言,真正的挑战在于实现开放式推理能力,而非仅仅是预编程的后空翻等动作。这强调了未来机器人发展应侧重于更深层次的智能和适应性。
Skywork移动端APP 5.0发布,集成多功能AI Agent#
Skywork正式推出了其移动端APP 5.0,支持iOS和安卓平台。新版本亮点在于强大的语音笔记功能,可将语音内容迅速转换为文本,并自动格式化生成To-Do列表、要点和行动摘要,甚至脑图。此外,APP还支持同时运行多个AI Agent,用户可一键将内容输出为PPT、社交媒体文案、播客或海报,使Agent的实际应用变得更加具体和高效。
ListenHub PPT助用户打造爆款视频#
ListenHub PPT帮助用户创作的视频取得了巨大成功,一条用户制作的视频在X平台上获得了4600次转发。这表明ListenHub PPT在内容创作方面的强大能力,为用户带来了显著的流量和曝光。
Vibe Coding键盘概念设计#
一款专为“Vibe Coding”设计的键盘概念被提出。该键盘内置麦克风阵列,仅有四个按键:语音输入、复制、粘贴和回车,旨在满足Vibe Coding、Vibe Design或Vibe Clip等场景下的所有需求,强调通过语音交互简化工作流程。