每日AI资讯、热点、动态、融资、产品发布 | AI工具集
AI工具集每日实时更新 AI 行业的最新资讯、新闻、热点、融资、产品动态、爆料等,让你随时了解人工智能领域最新趋势、更新突破和热门大事件。加入AI工具集官方社群,获取最新一手信息!
📰 每日更新AI行业资讯,包含技术突破、产品发布、融资动态等热点内容
11月14·周五
4条登顶!GLM-4.6获LMArena代码榜全球并列第一
全球权威 AI 评测平台 LMArena 更新 Code Arena (编程与代码生成) 专项榜单,智谱GLM-4.6与 Anthropic Claude、OpenAI GPT-5 等顶尖模型一同位列全球榜首。
AI编程神器Cursor(母公司Anysphere)完成23亿美元D轮融资
AI编程神器Cursor(母公司Anysphere)完成23亿美元D轮融资,投后估值达293亿美元,成为全球首家估值超2000亿元人民币的AI编程创企。此轮融资由Accel和Coatue领投,英伟达、谷歌等跟投。过去一年,Anysphere估值增长超10倍,年化收入突破10亿美元。
ChatGPT 群聊功能上线部分地区:人机共同决策讨论
OpenAI宣布在韩国、新西兰等部分地区试点ChatGPT群聊功能。功能基于GPT-5.1模型,支持用户与ChatGPT共同协作,可邀请亲友或同事进入共享空间,用于策划方案、决策讨论或头脑风暴。
AI PPT神器 Gamma 完成6800万美元B轮融资
美国生成式AI创企Gamma完成6800万美元B轮融资,估值达21亿美元。Gamma创立于2020年,是一个生成式AI设计平台,可快速创建演示文稿、文档和社交媒体帖子,支持22种AI图像模型和60多种语言。
11月13·周四
4条OpenAI 正式发布 GPT-5.1系列双版本,ChatGPT 情商大涨
OpenAI发布的AI升级版本GPT-5.1,重点优化了对话体验而非单纯性能指标。新版本包含Instant和Thinking两大模型,前者更注重人性化交流(如自适应思考、八种风格预设),后者强化专业推理能力(简化术语表达)。相比前代,GPT-5.1在情感互动、指令理解上显著改善。
百度发布文心大模型 5.0:参数规模超 2.4 万亿,原生全模态
百度在世界大会上正式发布文心大模型5.0。模型参数量达2.4万亿,采用原生全模态统一建模技术,支持文本、图像、音频、视频等多模态输入输出,在多模态理解、创意写作、指令遵循等方面表现突出,综合能力达全球领先水平。
全新升级、全面开放的 TRAE SOLO 正式版,限时免费
字节旗下TRAE团队正式发布TRAE SOLO正式版。版本定位为“响应式编程智能体”,支持复杂项目开发,新增内置智能体SOLO CODER与SOLO BUILDER,具备上下文压缩、多任务并行、可视化工具调用等功能,可高效应对从0到1的项目搭建及从1到100的迭代优化,现面向全球用户开放,限时免费体验。
李飞飞宣布正式开放首款商用世界模型产品 Marble
“AI教母”李飞飞创立的World Labs公司正式推出首款商用多模态世界模型产品Marble,用户可通过文本、图像、视频或3D布局生成高保真、可编辑的3D虚拟世界,支持导出为高斯溅射、网格或视频格式。
11月12·周三
5条腾讯开源百亿参数模型KaLM-Embedding,登顶MTEB多语言榜单全球第一
腾讯微信团队推出的KaLM-Embedding-Gemma3-12B-2511模型,在MTEB多语言通用Embedding模型权威评测中综合成绩位列全球第一。模型参数量达120亿,支持3840至64等多种向量维度,具备卓越的跨语言语义理解与检索能力,在多语言语义对齐、数据质量优化及训练策略创新方面表现突出,为多语言应用场景提供了强大的语义基础支持。
OiiOii:全球首个动画创作Agent系统上线
OiiOii是革命性的动画创作工具,作为全球首个动画创作Agent系统,内置艺术总监、编剧、分镜师等7大智能体,用户只需输入创意或上传参考图,即可一键生成剧本、分镜、角色设计及完整动画短片,支持161种风格,涵盖剧情短片、MV、漫画转视频等多种场景,大幅降低动画创作门槛,现处于内测阶段,限时免费使用。
华为投资物理AI:“极佳视界”完成新一轮亿元级 A1 轮融资
极佳视界完成亿元级A1轮融资,由华为哈勃和华控基金联合投资,这是其在两个月内完成的第三轮融资。极佳视界的技术解决了物理AI领域数据稀缺和仿真误差等问题,其CEO预测“物理世界ChatGPT时刻”将在2-3年内到来。
主打“Database-First”的全栈AI应用构建平台——ZOER.AI
Chat2DB 团队创始人姬朋飞及其团队正式发布主打“Database-First”(数据库优先)的全栈应用构建平台ZOER.AI,专注于解决传统 AI 编程工具在后端能力上的短板,通过智能设计数据库结构、自动生成安全的后端逻辑和前端界面,实现从数据层到底层服务的全流程自动化。
Lovart推出“元素拆分”功能 革新AI设计编辑体验
AI设计平台Lovart正式上线“Edit Elements 元素拆分”功能,用户上传成品海报后,AI可自动拆解为文字、主体、背景等独立可编辑图层,支持修改文本、替换元素及实时预览
11月11·周二
5条字节发布Doubao-Seed-Code编程模型
字节跳动正式推出Doubao-Seed-Code,专为复杂编程任务优化。模型支持256k长上下文,兼容Anthropic API与主流IDE,性能仅次于Claude Sonnet 4.5,综合使用成本降低62.7%,并登顶SWE-Bench Verified榜单。
月之暗面开源Kosong框架 降低AI AAgent开发门槛
月之暗面(Moonshot AI)开源全新AI代理开发框架Kosong,以“简化复杂性、释放创造力”为核心理念,为下一代智能体应用提供轻量且高可扩展的底层支持。框架通过统一LLM抽象层,封装标准化组件并搭载异步工具编排引擎,有效解决工具碎片化、接口不兼容等开发痛点。
商汤日日新开源模型实现空间智能性能突破,多项评测领先 GPT-5
商汤日日新在空间智能领域实现重要突破,正式发布并开源SenseNova-SI系列模型。在多项权威评测的空间理解和推理任务上,SenseNova-SI 不仅大幅度领先同量级开源多模态大模型,还超越了 GPT-5 和 Gemini 2.5 Pro 等国际顶尖闭源模型的表现。
Meta发布Omnilingual ASR:覆盖1600+语言的语音识别系统
Meta AI团队推出Omnilingual ASR,是全球首个支持超1600种语言的自动语音识别系统,其中500种语言首次获得AI语音识别支持。系统通过大规模预训练模型和上下文学习技术,仅需少量音频-文本样本即可扩展新语言,字符错误率低于10%的语言占比达78%。
百度AI眼镜开售!2199元,今天定明天到手
百度旗下小度AI眼镜Pro正式开售,售价2299元,是继阿里巴巴夸克AI眼镜S1后,国内第二家正式开售AI眼镜的互联网大厂,小度AI眼镜Pro是一款AI拍摄眼镜,与小米AI眼镜类型相同,并非当下更为“完全体”版本的AI+AR眼镜,融合多模态AI大模型,产品功能包括拍照、听歌识曲、智能匹配歌单、AI翻译、AI识物、AI备忘、AI录音等。
11月10·周一
3条堆友「全能画布」来了!是天花板级的AI设计智能体
堆友AI反应堆正式上线AI创作全能画布,堆友用户可免费体验。堆友AI集成文生图、图生图、智能滤镜、矢量编辑、字体设计、高清放大、智能抠图、局部重绘等功能,提供一站式AI设计解决方案,实现从灵感到交付的全流程自动化。
全球第二、国内第一!最强百度的文心5.0 Preview
百度文心5.0 Preview在LMArena全球文本竞技场排名中以1432分并列第二、国内第一,与OpenAI GPT‑4.5、Anthropic Claude等顶尖模型实力相当。实测显示其在创意写作、长文本理解及复杂指令遵循方面表现卓越,生成内容兼具诗意与逻辑严谨性。
OpenAI 推出 GPT-5-Codex-Mini:“经济高效型”AI 编程模型
OpenAI推出GPT-5-Codex-Mini,是GPT-5-Codex的“经济高效型”版本。开发者可获得约4倍的使用额度。在SWE-bench Verified测试中,GPT-5-Codex-Mini得分71.3%。版本适用于轻量级工程任务或接近速率上限的情况。
11月07·周五
3条阶跃星辰开源首个 LLM 级音频编辑大模型Step-Audio-EditX
阶跃星辰团队开发的首个开源大语言模型驱动的音频编辑工具Step-Audio-EditX,专注于通过迭代方式控制音频的情感、说话风格和副语言特征。核心技术采用大规模合成数据训练,无需依赖嵌入式先验或辅助模块,能实现零样本文本转语音功能。
美团推出出AI IDE编程工具:CatPaw
美团发布AI编程工具CatPaw,支持Python、Java等主流语言,具备实时代码补全、问答生码、预览调试及项目级分析功能,目前兼容macOS,Windows版将上线。新用户注册获500次免费对话额度,旨在提升开发效率。
AI大牛刘威视频创业公司Video Rebirth,完成5000万美元融资
AI视频初创公司Video Rebirth宣布完成5000万美元种子轮融资,投资方包括启明创投、韩国游戏公司Actoz Soft等。公司由前腾讯杰出科学家刘威创立,致力于打造“视频原生的世界模型”,计划于12月发布1.0版本产品,目标是为专业创作者提供高保真、高可控性的视频生成平台,挑战现有市场格局。
11月06·周四
4条即梦无限画布上线,创作更自由
即梦AI上线无限画布,提供更自由的创作空间。新功能包括无限空间、Agent共创、多会话并行和多模态创作。用户可自由延展画布,轻松处理复杂项目;通过对话即创作,一句话生成灵感;一个项目可开启多个会话并行创作;支持图片和视频等多类型素材混合创作,实现一体化完成。
月之暗面Kimi发布思考模型:Kimi-k2 Thinking
月之暗面公司最新发布的具备通用Agent能力和深度推理能力的AI模型Kimi-k2 Thinking,支持多轮工具调用和256k上下文长度。模型通过新增的reasoning_content字段展示思考过程,能自主规划任务并调用外部工具完成复杂操作,例如自动拆解指令、分析数据并生成报告。
美团 LongCat 团队发布全模态一站式评测基准UNO-Bench
美团 LongCat 团队推出全模态大模型评测基准UNO-Bench,精准衡量模型在图像、音频、视频和文本等单模态与全模态任务上的表现。基准通过高质量、多样化的数据构建,首次验证全模态大模型的“组合定律”,揭示单模态与全模态能力的复杂关系。
科大讯飞星火 X1.5 深度推理大模型发布
科大讯飞在2025全球1024开发者节上发布讯飞星火X1.5深度推理大模型。模型基于全国产算力,攻克MoE模型全链路训练效率,端到端性能达国际竞品93%以上。其语言理解、文本生成等能力对标国际主流大模型,数学能力国际领先,多语言能力支持130多种语言,性能达GPT-5的95%以上。
11月05·周三
4条360发布:FG-CLIP2登顶全球最强图文跨模态模型
360 推出的FG-CLIP2模型在图文跨模态领域取得重大突破。模型在八大类任务、29 项测试中全面超越 Google 与 Meta,成为目前最强的图文跨模态 VLM 模型。FG-CLIP2 能实现像素级的图像理解,精准识别细节,如毛发、斑点、色彩等,具备强大的中英文细粒度理解能力。
银河通用发布环视导航基座大模型 NavFoM
银河通用联合多所高校推出全球首个跨本体全域环视导航基座大模型NavFoM。支持全场景、多任务、跨本体,可适配多种机器人形态,如机器狗、轮式人形等。NavFoM 通过创新的 TVI Tokens 和 BATS 策略,实现时空理解与高效算力利用,基于庞大训练数据体系,其在多个国际基准上达 SOTA 水平,可直接部署于真实机器人,无需任务微调。
AI医疗独角兽Hippocratic AI完成8亿融资,估值250亿
美国生成式AI医疗独角兽Hippocratic AI完成1.26亿美元C轮融资,估值达35亿美元,较年初翻超一倍。此轮融资由谷歌母公司Alphabet旗下CapitalG等参投,资金将用于并购、产品开发和拓展国际业务等。
软银与 OpenAI 宣布成立合资公司,明年推出企业级 AI 解决方案
软银集团与OpenAI宣布成立合资公司“SB OAI Japan”,计划于2026年推出企业级AI解决方案“Crystal Intelligence”。该方案将结合OpenAI技术与定制化服务,助力日本企业提升生产力和管理效率。软银将率先部署该技术,积累经验后向其他企业推广。
11月04·周二
3条AI视频创作平台SkyReels正式焕新上线
昆仑万维旗下AI视频创作平台SkyReels焕新上线。其Web端与移动端APP全面登陆,聚合全球顶尖AI多模态模型,提供图片生成、视频生成、数字人、音乐生成等多种创作方式。SkyReels V3模型更新,新增无限画布、数字人、模板功能、专家Agent、视频延长和风格化等能力,让专业创作更简单。
OpenAI与亚马逊达成380亿美元算力合作
OpenAI与亚马逊宣布达成合作,OpenAI将在未来7年向亚马逊采购价值380亿美元(约合人民币2704.6亿元)的云计算服务。亚马逊云科技将为OpenAI提供亚马逊弹性计算云超级服务器,预计明年年底前部署完毕。
零一万物联合开源中国推出OAK平台“Open AgentKit”
零一万物与开源中国联合发布“Open AgentKit平台”(OAK),打造Agent世界的“生态适配器”。OAK平台支持多种开源大模型,提供一站式解决方案,助力开发者实现“Agent开发自由”。平台四大核心模块,包括OAK Framework、Builder、Runtime和Studio,将逐步推出并邀请社区共建。
11月03·周一
2条LongCat-Flash-Omni 正式发布并开源:开启全模态实时交互时代
美团 LongCat 团队正式发布并开源LongCat-Flash-Omni模型。模型基于 LongCat-Flash 系列架构,集成多模态感知与语音重建模块,总参数达 5600 亿,激活参数 270 亿,实现低延迟实时音视频交互。
阿里通义千问Qwen3-Max上线深度思考模式
阿里 Qwen 团队宣布Qwen3-Max Thinking在 Qwen Chat 上线。模型是万亿参数的 MoE 模型,曾在 AIME25、HMMT25 数学测试中获满分。用户可在 Qwen Chat 中选择该模型并开启 Thinking 模式,免费体验。
10月31·周五
5条MiniMax Music 2.0:让音乐创作属于每一个人
MiniMax发布最新音乐模型Music 2.0。模型在音乐理解与表达上实现飞跃,能精准捕捉人声情绪与器乐张力。支持多种唱法和情感风格,可精准控制人声音色,实现一声千变。在旋律创作上,可生成结构完整、抓耳的歌曲,能独立控制多种乐器,编曲层次丰富。音质全面升级,带来沉浸式听觉体验。
美团LongCat团队发布WOWService:打造卓越智能交互体验
美团LongCat团队发布WOWService大模型交互系统技术报告,针对本地生活服务领域大模型落地的“三重困境”,提出四大核心技术框架。系统融合多智能体协同、强化学习等技术,通过人机协同标注等方式降低成本,已在美团智能客服等数十个业务场景落地。
月之暗面全新的注意力架构Kimi Linear横空出世
月之暗面推出全新注意力架构Kimi Linear,有望成为下一代Agent LLM基石技术。架构核心是Kimi Delta Attention(KDA),通过精细化门控机制和硬件高效算法,实现性能与效率大幅提升。
OpenAI发布找Bug智能体Aardvark:全自动读代码找漏洞写修复
OpenAI 发布了由 GPT-5 驱动的Agent——Aardvark,能自动在大规模代码库中发现并修复安全漏洞。Aardvark 可识别 92% 的已知与人工注入漏洞,还能定位复杂条件下的问题。通过监控代码提交、分析、验证漏洞并生成修复建议,与 OpenAI Codex 深度集成,为漏洞生成修复补丁。
智源悟界·Emu3.5:开启多模态世界大模型新纪元
北京智源人工智能研究院发布“悟界·Emu3.5”,开启多模态世界大模型新纪元。Emu3.5是340亿参数的稠密自回归Transformer模型,将图像、文本和视频等多模态数据统一建模,实现从“下一Token预测”到“下一状态预测”的能力跃迁。
10月30·周四
5条MiniMax Speech 2.6:最强 Voice Agent 来袭
MiniMax Speech 2.6发布,全面升级Voice Agent场景。模型端到端延迟低于250毫秒,支持多种语言的网址、邮箱等非标准文本格式直接转换,提供Fluent LoRA功能,即使原始素材不完美,也能生成流利自然的语音。
Cursor 2.0来了!多agent并行,自研模型30秒跑完多数任务
AI编程平台Cursor发布2.0版本及自研编程模型Composer。Composer专为低延迟编程设计,速度达同等模型4倍,每秒输出超200个token,智能水平超开源编程模型。新版本界面以Agent为核心,支持并行运行最多8个Agent,可并行处理任务并择优选择。新增原生浏览器工具,实现代码修改“指哪儿改哪儿”,代码审查功能升级,聚合修改细节。
Adobe推出最强图像生成模型Firefly Image 5!原生400万像素
Adobe发布其最先进的图像生成与编辑模型Firefly Image 5,支持400万像素原生输出,具备文本指令编辑、分层图像编辑等功能,还新增视频和音频生成工具。Adobe还为Photoshop、Premiere Pro和Lightroom等应用推出全新生成式AI工具,并支持更多第三方模型。
智谱清言全新推出「研究模式」
智谱清言推出全新「研究模式」,帮助用户高效深入地开展研究。模式可围绕问题全网搜索并整合分析,自动生成结构化、可引用的研究报告,适用于学术研究、商业洞察、生活决策和热点追踪等多种场景。
英国AI视频生成独角兽Synthesia完成2亿美元融资
英国AI视频生成独角兽Synthesia完成2亿美元(约14亿元人民币)融资,估值达40亿美元(约284亿元人民币),由谷歌风投领投,英伟达可能参与。Synthesia成立于2017年,专注于为企业生成虚拟形象视频,用于营销、培训等,已有6万家企业使用其平台,覆盖约70%的全球财富100强企业。
10月29·周三
5条Flowith发布 Agent 操作系统 FlowithOS,超越 OpenAI Altas
Flowith正式发布FlowithOS,为AI Agent打造的全新操作系统。解决AI普遍存在的“思考与执行脱节”问题,如跨网页、跨环境执行困难等。FlowithOS通过整合浏览器,为AI Agent提供思考与行动的环境。附:FlowithOS邀请码
混元推出国内首个交互式AI播客,听播客可以“举手”提问了
腾讯混元推出国内首个交互式AI播客,用户可在收听过程中随时打断并提问。播客基于大模型意图识别、长上下文理解等能力,结合上下文和背景信息给出准确答案。用户能自主选择播客风格、主持人数及音色,支持快速创作播客内容。
GitHub 推出 Agent HQ,目标统一管理所有智能体
GitHub推出Agent HQ平台,统一管理AI编程智能体并集成至工作流中。Agent HQ核心为Mission Control指挥中心,可协调多智能体任务分配与管理,支持跨平台操作。其Plan Mode功能可提升代码质量。开发者可通过AGENTS.md创建自定义智能体。
OpenAI股改完成,非营利主体更名
OpenAI完成资本结构重组,上市道路铺平。非营利主体更名为OpenAI Foundation,掌控营利实体26%股份,目前估值约1300亿美元。员工和投资者持有47%股份,微软持有32.5%股份。OpenAI还同意购买2500万美元微软Azure云服务,微软股价一度上涨3.5%。
Google Labs推出一款AI营销工具:Pomelli
Google Labs推出AI营销工具Pomelli,帮助中小型企业快速创建符合品牌气质的社交媒体活动。用户只需提供公司网站,Pomelli会自动提取品牌信息,建立“商业DNA”,并生成活动创意和视觉素材。用户可编辑调整后直接使用。
10月28·周二
4条ChatDB直接对话数据库!ChatExcel全新升级
ChatExcel推出全新升级版ChatDB,用户无需SQL基础和复杂BI工具,仅通过对话即可连接数据库,快速处理百万数据并生成可视化报告。登录chatexcel.com,进入工作台即可使用ChatDB模块,连接数据库后,可一键提取、分析数据,并生成数据看板。
Mistral AI 推出企业级 AI 应用开发平台AI Studio
法国 AI 初创公司 Mistral AI 推出企业级 AI 应用开发平台Mistral AI Studio,帮助企业将 AI 从原型开发过渡到可靠、可扩展的生产系统。平台具备深度可观察性、Agent 运行时和 AI 注册表三大核心功能,支持混合、本地和 VPC 部署,满足企业对 AI 应用的安全、合规和隐私要求。
MiniMax Hailuo 2.3 视频复杂表现新高度
MiniMax发布视频模型Hailuo 2.3,升级动态表现力,肢体动作、风格化、微表情效果显著提升,运动指令响应优化。支持多种画风,真人面部表演更自然,物体运动响应出色。性能提升的同时保持原价格,新增Hailuo 2.3 Fast模型,降低成本。
xAI推出开源知识库Grokipedia,收录超88.5万篇文章
埃隆·马斯克旗下的xAI团队推出Grokipedia,AI驱动的百科全书正式上线测试版。平台收录超88.5万篇文章,主打“无偏见”特性,通过Grok AI模型自动审核内容真实性,部分条目源自维基百科但标注为“改编内容”。
10月27·周一
6条豆包视频生成模型1.0 pro fast正式发布:提速3倍,价格直降72%
火山引擎发布豆包视频生成模型1.0 Pro Fast(Doubao – Seedance – 1.0 – pro – fast),模型在火山引擎的Seedance 1.0 Pro模型基础上,生成速度提升约3倍,价格直降72%。其生成720P的5秒视频仅需10秒,生成5秒1080P视频成本仅1.03元。
Skywork AI 的网页复刻(Web Clone)功能正式上线
昆仑万维集团旗下的Skywork AI推出网页复刻功能,用户仅需提供网页链接、上传文件或输入文字描述,AI便能在数分钟内生成功能完备、结构清晰、风格相近的网页原型。通过深度算法解析网页逻辑与层级,实现结构级复构,而非简单复制外观。
谷歌 Gemini 获得新技能:一个提示词、一份文件就能生成 PPT
谷歌Gemini的免费互动工作区Canvas推出新功能,可基于一个提示词或上传的文件(文档、电子表格、研究论文等)生成PPT幻灯片,并自动配上主题和相关图片。用户能将生成的幻灯片直接导出到Google Slides进行编辑、优化或团队协作。
LongCat-Video 视频生成模型正式发布,探索世界模型的第一步
美团开源了LongCat-Video的通用视频生成模型,参数量达 13.6B。模型能实现文生视频、图生视频以及视频续写等功能,能在几分钟内生成 720p、30fps 的长视频,画面连贯、人物稳定、物理逻辑合理。
月之暗面开源 Agentic Coding 工具:Kimi CLI
月之暗面科技有限公司推出开源 Agentic Coding 工具Kimi CLI技术预览版,采用 Shell-like UI,支持 ACP 协议。可在 GitHub 交流反馈。
MiniMax发布最新大语言模型MiniMax M2
MiniMax公司发布最新大语言模型MiniMax M2。目前基于M2的agent免费使用,支持开发代码、研究、制作PPT等多种功能,还可接入日常编程工具。从测试数据来看,其coding能力接近Claude 4.5 Sonnet,工具使用流畅。用户可通过设置MiniMax-M2-Preview使用该模型
10月24·周五
5条OpenAI收购Sky,面向Mac的自然语言交互界面
OpenAI收购了SAI公司,该公司开发了Sky——一款面向Mac的自然语言交互界面。OpenAI将把Sky技术整合进ChatGPT,并吸纳SAI约12人的团队。SAI的三位联合创始人均出身苹果,其CEO和CTO曾创立被苹果收购的Workflow,演化为如今的Shortcuts技术。此次收购不仅是看中Sky的技术,更是为ChatGPT入局操作系统铺路。
支付宝推出多模态AI应用“灵光”
支付宝推出多模态AI应用“灵光”,已上线腾讯应用宝、vivo应用商店等平台并开启邀约内测。其核心功能AGI相机可通过镜头识别场景内容,实现拍摄即问、实时理解与回答,强调认知层理解,具备强场景分析与多模态推理能力。
蚂蚁集团投的灵巧手公司,又融了数亿元
灵心巧手宣布完成数亿元A轮融资,由京国瑞管理公司和博佳资本领投,老股东蚂蚁集团继续加注。本轮融资将助力其加速量产能力升级、加快全场景技术研发与全球化布局。
谷歌官方学习平台 Google Skills 来了,免费还实用
谷歌推出AI技能学习平台Google Skills,整合Google Cloud、DeepMind等团队资源,提供近3000门课程、实验室及认证,覆盖AI基础、生成式AI、数据分析等领域。平台面向全职场人群,零门槛接入,每月免费提供35个学习点数用于实操实验。
豆包编程升级,新增创作模式,让创意轻松实现
豆包编程完成重大升级,让零基础用户也能轻松开发网站和应用。此次升级引入多模态输入功能,支持文字、图片、文件、画板等多种输入形式,AI可自动理解并补全逻辑。新增Agent多工具协作系统,自动联网搜索素材、配图、检查代码,确保生成内容的准确性和可用性。
10月23·周四
3条LiblibAI融资1.3亿美金,红杉CMC领投
LiblibAI近期完成1.3亿美元B轮融资,由红杉中国、CMC资本及大厂战投联合领投,是今年中国AI应用领域最大一笔融资。LiblibAI上月发布2.0版本,从模型社区进化为AI创作Studio。
Seed3D 1.0 发布,一张图生成高精度 3D 模型,纹理生成能力 SOTA
字节跳动Seed团队推出3D生成大模型Seed3D 1.0,可从单张图像生成高精度3D模型,兼具物理模拟精确性与可扩展性。其基于Diffusion Transformer架构,通过大规模数据训练,具备高保真资产生成、物理引擎兼容性和可扩展场景组合能力,在几何与纹理生成方面表现优异。
百川发布最强循证增强大模型 M2 Plus,打造“医生版 ChatGPT”
百川发布了循证增强医疗大模型Baichuan-M2 Plus,并升级应用百小应及开放API。模型首创六源循证推理范式,构建从原始研究到真实世界的完整知识体系,通过循证检索与推理,显著降低医疗幻觉率,其幻觉率较DeepSeek低约3倍,优于美国医疗产品OpenEvidence,可信度比肩资深临床医生水准。
10月22·周三
6条OpenAI首款ChatGPT Atlas浏览器发布!免费下载使用
OpenAI发布首款AI原生浏览器ChatGPT Atlas。浏览器基于谷歌开源的Chromium内核打造,整合了ChatGPT对话能力,每个标签页都能直接聊天。具备浏览器上下文助手能力,可直接在浏览页面提问;内置记忆功能,记录用户浏览关键内容;“Cursor Chat”功能可选中文本进行编辑润色;Agent模式能完成网页操作,如填写表单、预订等。
混元世界模型1.1开源:支持多视图及视频输入,单卡部署,秒级生成
腾讯发布并开源了混元世界模型1.1(HunyuanWorld-Mirror)。模型新增支持多视图及视频输入,可在单张显卡上部署,秒级生成3D世界。突破了1.0版本仅支持文本或单图输入的局限,首次实现了多模态先验注入和多任务统一输出的端到端3D重建,支持点云、深度图、相机参数等多种3D几何预测,性能大幅领先现有方法。
AipexBase,中国首个AI原生后端基础设施正式开源!
北京跨赴科技(KuaFuAI)正式开源中国首个AI原生后端即服务(Backend-as-a-Service)平台AipexBase。让开发者“不写后端,也能拥有完整后端”,所有后端能力如数据存储、鉴权等均被自动封装,开发者可通过前端SDK或MCP协议一键调用。AipexBase原生兼容MCP,统一上下文与数据层,支持码上飞、Cursor等AI产品接入,深度适配中国开发生态,兼容飞书、钉钉、微信等生...
2B、32B!更适合开发者体质的Qwen3-VL来啦
Qwen3-VL家族新增2B与32B两个密集模型尺寸,从轻量级到甜品级,覆盖视觉语言理解场景。两种版本可选:Instruct适合对话与工具调用,Thinking强化长链推理与复杂视觉理解。Qwen3-VL-32B在多个领域表现优于GPT-5 mini等,仅用32B参数匹敌235B模型。Qwen3-VL-2B小体量但表现惊人,可在极限端侧设备上运行。
Anthropic 公司推出Claude 桌面版
Claude桌面版正式发布,支持Mac和Windows系统。版本有四项核心功能:全局快捷键(Mac双击Option唤醒)、分享工作(截图、窗口分享、拖拽文件)、语音输入(按Caps Lock说话)和连接工具(可调用代码编辑器、本地文件、数据库)。
灵巧手公司星际光年完成Pre-A轮融资
深圳星际光年科技有限公司发布新品五指灵巧手Pantheon 22,并完成Pre-A轮融资。本轮融资由赛纳资本、普华资本领投,柯熙创投跟投,深渡资本担任财务顾问。资金将主要用于灵巧操作底层技术攻关、灵巧手操作系统(小脑模型)研发及核心团队扩张。
10月21·周二
6条Vidu Q2 参考生视频全球上线,高一致性,速度更快,价格更优惠
Vidu Q2参考生视频全球上线,本次升级聚焦于高一致性,速度更快,价格更优惠三大核心,满足专业及半专业创作者日益增长的高想象力内容创作需求。目前Vidu Q2参考生视频已在全球同步上线,用户可以在Vidu网页端,或各大应用商店搜索Vidu AI APP,体验最新功能。
Anthropic正式上线网页版Claude Code
Anthropic发布Claude Code 网页版,用户无需部署即可在浏览器中使用其代码生成功能。核心功能包括连接 GitHub 仓库、自动写代码、并行处理多个任务、实时查看进度以及完成后自动创建 PR。
CodeBuddy IDE 1.0 正式版焕新发布!支持Web Fetch、自定义指令
CodeBuddy IDE 1.0正式版发布,国际版全面支持 GPT-5-Codex,新增自定义指令、Web Fetch 实时获取网络信息等功能,MCP 市场正式开放,支持完整 DiffView 功能。
5000元不限席位,Cherry Studio 企业版击穿底价,让每家公司都用上专属AI
Cherry Studio企业 Express 版正式发布,以 5000 元买断价、不限员工席位,为企业提供一站式 AI 落地解决方案。该版本内置顶级闭源与开源模型,无需申请 API Key,解决网络问题,简化计费流程,支持私有化和云应用部署。
智谱推出GLM Coding Plan企业版:以最强Agentic Coding赋能千行百业
智谱发布 GLM Coding Plan 企业版,基于GLM-4.6模型,为企业提供全面智能编程解决方案。产品在国际 API 平台 OpenRouter 趋势榜中名列第一,融合多模态理解、联网搜索及智能编排能力,提供从代码生成到全链条开发协同的一站式服务。企业版具备高用量、低成本、高性能和高安全性,无缝适配 10 余款主流编程工具,支持灵活成员管理和使用数据分析。
美团发布面向复杂问题的大模型智能体评测基准——VitaBench
美团 LongCat 团队发布VitaBench,是面向复杂问题的大模型智能体评测基准。以外卖点餐、餐厅就餐、旅游出行三大生活场景为载体,构建了包含 66 个工具的交互式评测环境。VitaBench 从深度推理、工具使用与用户交互三大维度量化任务复杂性,通过真实用户模拟器和原子化评估准则实现细粒度评估。
10月20·周一
3条DeepSeek 再开源:发布 3B MoE OCR 模型DeepSeek-OCR
DeepSeek推出全新视觉文本压缩模型DeepSeek-OCR。模型参数仅3B,采用混合专家架构,视觉token数量减少20倍,压缩比达20倍,20个节点每天可处理3300万页数据。在Fox benchmark测试中,各文本长度区间准确率超85%。支持多种分辨率配置、多语言处理、复杂图表解析等多模态能力,可在多轮对话中实现10倍压缩效率。
宇树发布180cm仿生人形机器人!会跳芭蕾能打功夫
宇树发布第四款人形机器人H2,高180cm,重70kg。相比前代H1,H2在运动流畅性和仿生特征上有显著提升。H2拥有31个关节,分布在双臂、双腿和躯干,能完成芭蕾舞、中国武术等高难度动作。还被赋予了类似人类的面部特征,外观和运动姿态更接近人类。
全球榜首!百度最新开源模型PaddleOCR-VL
百度自研多模态文档解析模型PaddleOCR-VL发布仅16小时就登顶HuggingFace Trending全球第一。模型参数仅0.9B,轻量高效,能精准识别文本、手写汉字、表格等多种复杂元素,支持109种语言。
10月17·周五
4条李飞飞世界模型新成果RTFM 「Real-Time Frame Model」震撼问世
斯坦福大学教授李飞飞的创业公司World Labs推出了实时生成式世界模型RTFM。模型可在单个H100 GPU上运行,输入2D图像后,能生成不同视角下的新2D图像,实现3D一致性和持久性。RTFM基于大规模视频数据训练,无需显式构建3D表示,而是通过端到端学习模拟3D几何、反射等特征。
美团开源 LongCat-Audio-Codec,高效语音编解码器助力实时交互落地
美团LongCat团队开源了语音编解码方案LongCat-Audio-Codec。专为语音大语言模型(Speech LLM)设计,通过语义与声学双Token并行提取机制,兼顾语音的语义和声学特征,解决了传统方案中语义与声学信息难以平衡的问题。低延迟流式解码器支持实时交互,满足车载语音助手、实时翻译等场景的需求。
一键开发完整 Web 应用:Manus 1.5 正式发布,速度提升近四倍
Manus宣布推出Manus 1.5版本。在任务执行速度、可靠性和输出质量方面显著提升,任务平均完成时间缩短至不足4分钟,速度提升近四倍。Manus 1.5提供两种模型:Manus-1.5适用于高复杂度任务,Manus-1.5-Lite则针对成本效率优化。新版本具备全栈Web应用开发功能,用户可通过对话完成从开发到部署的全过程。
爱诗科技完成B+轮1亿元融资,ARR突破4000万美金
AI视频企业爱诗科技宣布完成1亿元人民币B+轮融资,由复星锐正、同创伟业、顺禧基金等共同投资。爱诗科技旗下产品PixVerse与拍我AI服务于C端大众与专业创作者,用户规模已突破一亿,ARR超过4000万美元,MAU超过1600万。
10月16·周四
7条谷歌推出新款视频生成模型 Veo 3.1
谷歌发布AI视频生成模型Veo 3.1,带来更丰富的音频、叙事控制及逼真的质感还原。Veo 3.1在Veo 3基础上,提升提示词遵循度,增强视听质量。其驱动的AI电影创作工具Flow更新,支持原生音频生成,用户可将静态图像转视频、整合多图像元素、延展视频时长等,实现更精细的视频编辑与颗粒化控制。
讯飞星火升级的「深度研究」全新上线
讯飞星火“深度研究”功能全新升级,实现底层思维链路、信息融合与内容呈现的全方面进化。功能通过多轮思考和搜索迭代,深度理解用户意图,提升内容质量;支持输出高质量图片,新增HTML网页导出与一键转PPT功能;结合外部搜索信源和本地文档,实现个性化思考。
通义千问正式推出 Qwen Chat Memory 功能
Qwen Chat Memory正式上线,赋予了Qwen“长记忆”能力。能理解上下文、保留重要信息并回忆过往对话,使交流更具延续性。让Qwen在对话中主动关联过往互动,更好地理解用户需求,为用户提供更个性化的服务。
豆包发布四款大模型:能理解情感、调节音调风格、准确读出公式
火山引擎全新发布和升级了四款豆包大模型,包括豆包大模型1.6升级版、豆包大模型1.6 lite、豆包语音合成模型2.0和豆包声音复刻模型2.0。豆包大模型1.6升级版原生支持四种思考长度,是国内首个原生支持“分档调节思考长度”的模型,可平衡效果、时延和成本。豆包大模型1.6 lite更轻量、推理速度更快、性价比更高。
Anthropic 发布了 Claude Haiku 4.5,速度翻倍价格大砍
Anthropic发布了Claude Haiku 4.5模型。模型在保持高性能的同时,速度翻倍且价格大幅降低。在SWE-bench Verified测试集中,Haiku 4.5取得了73%的成绩,与Claude Sonnet 4和OpenAI的GPT-5处于同一水平线,在某些任务上甚至超过Sonnet 4。
阿里Qoder产品家族再增一员,Qoder CLI 将智能拓展到终端
阿里推出全新AI编程工具Qoder CLI,专为命令行环境打造的AI Coding Agent。集成顶尖编程模型,设计轻量级Agent框架,具备强大代码生成与理解能力,同时降低内存消耗和命令响应时间,提升开发效率。Qoder CLI无需复杂初始化,安装即用,支持文件编辑、命令运行等功能,并可通过MCP扩展或自定义开发工具。
智元精灵 G2 新一代工业级交互式具身作业机器人发布
智元机器人发布新一代工业级交互式具身作业机器人——智元精灵G2。机器人以工业标准打造,搭载NVIDIA Jetson Thor芯片,配备高精度力控双臂和19自由度的灵巧手,具备3D触觉感知和5自由度腰腿搭配全向底盘。支持多人连续语音对话与知识库问答,采用双电池热插拔换电技术,配备360环视鱼眼和前后双激光雷达,可主动避障。
10月15·周三
2条仅4B!阿里千问最强视觉模型新开源
阿里通义千问团队推出Qwen3-VL系列4B与8B版本,提供Instruct和Thinking版本。新版本资源门槛低,核心能力不减配,在多模态性能上表现优异,多个基准测试中超越谷歌Gemini 2.5 Flash Lite、OpenAI GPT-5 Nano等同级别顶尖模型,甚至媲美阿里此前旗舰模型Qwen2.5-VL-72B。
谷歌 NotebookLM 视频概览支持 Nano Banana
NotebookLM视频概览功能发布更新升级,新增了六种由 Nano Banana 提供配图支持的视觉风格:Watercolor、Papercraft、Anime、Whiteboard、Retro Print 和 Heritage。更新彻底告别了以往固定主体动态颜色的限制,效果提升明细。目前仅支持 Pro 用户。
10月14·周二
5条Karpathy最新开源项目“nanochat”爆火,一夜近5k star
前特斯拉AI总监Karpathy推出开源项目“nanochat”,仅用约8000行代码复现ChatGPT全流程。项目在GitHub上线不到12小时,星标数已破4.2k。用户只需一台GPU、约4小时和100美元成本,就能训练出一个能写诗、回答基础问题的“小型ChatGPT”。
蚂蚁正式发布万亿思考模型Ring-1T,发布即开源
百灵团队正式发布万亿思考模型Ring-1T,宣布开源。模型基于Ling 2.0架构,具备1T总参数和50B激活参数,支持最高128K上下文窗口。通过大规模可验证奖励强化学习(RLVR)训练,Ring-1T在数学竞赛、代码生成、逻辑推理等高难度任务上表现优异,达到开源领先水平。
微软推出的首款自研图像生成模型MAI-Image-1
微软宣布推出首款完全自主研发的图像生成模型MAI-Image-1,模型在LMArena的文本到图像模型排行榜上首次进入前十。微软AI致力于为所有人创造AI,MAI-Image-1为创作者提供真正的价值,避免重复或泛泛的输出。专注于生成逼真的图像,如光影效果和风景,并在速度和质量上表现出色。
OpenAI再出手!与博通双方达成AI芯片合作
OpenAI与定制ASIC厂商博通宣布合作,共同开发10吉瓦的定制人工智能加速器。博通将从2026年下半年开始部署相关系统,并于2029年年底完成。受此消息影响,博通盘中股价涨超10%。
腾讯优图推出高性能通用文本嵌入模型Youtu-Embedding
腾讯优图实验室开源了高性能通用文本嵌入模型Youtu-Embedding。模型面向企业级应用,可胜任文本检索、意图理解等六大任务,在中文文本嵌入评测基准CMTEB上以77.46分登顶。采用“LLM基础预训练→弱监督对齐→协同-判别式微调”的三阶段训练,结合创新微调框架与精细化数据工程,解决了多任务学习难题。
10月13·周一
3条多模态模型社区全新升级,LiblibAI 2.0正式上线
LiblibAI 2.0正式上线,是中国最大的多模态模型社区的全新升级。自2023年起步,LiblibAI已汇聚2000万创作者,在新版本中,从单纯的工具集合转变为创作者的AI专业工作室。新版本具备极简生成器,可同时完成视频与图像生成;兼容开源与闭源模型,整合全球最大图片风格开源模型库,支持AI工作流批量化处理。
工业AI智能体公司「设序科技」获数千万元Pre B轮融资
工业AI智能体公司“设序科技”完成数千万元Pre-B轮融资,投资方为涌铧投资和广发信德。过去一年,公司已连续完成三轮融资,累计金额超亿元。设序科技成立于2020年,旗下产品“闪设”是一款工业智能生成式设计软件,可快速生成3D设计方案和2D工程图纸,已应用于汽车、3C、能源等领域,客户包括比亚迪、本田等。
未来智能完成亿元级A轮融资,蚂蚁集团领投
中国AI硬件公司未来智能完成亿元级A轮融资,由蚂蚁集团领投,启明创投超额跟投。是其今年第三次融资,累计融资规模进一步扩大。本轮融资将用于丰富AI办公硬件产品矩阵、加速海外自主品牌viaim建设和市场推广,以及加大对AI Agent等前沿技术的投入。
10月10·周五
5条吴恩达官宣新课《Agentic AI》,手把手教你构建AI智能体
吴恩达宣布推出新课程《Agentic AI》,教授构建AI智能体的技能。课程已在deeplearning.ai上线。学习者将掌握反思、工具使用、规划和多智能体协作等四种关键智能体设计模式。课程强调规范化评估和错误分析流程的重要性,帮助学员高效改进智能体工作流。
Sand.AI 团队推出的 AI 视频生成平台Gaga,国产的 Sora2
国产AI视频生成产品Gaga上线。Gaga由Sand.ai团队开发,专注于对话场景的视频生成,用户上传一张照片和一段台词,3分钟内即可生成包含声音、表情、情绪和背景音的视频。与Sora2相比,Gaga专精于胸部以上的对话演绎,成本不到Sora2的1/20。
Figure AI 发布最新人形机器人——Figure 03
Figure AI发布第三代人形机器人Figure 03,号称全球最强大。机器人配备全新传感系统和手部结构,搭载自研“视觉 – 语言 – 动作”AI系统Helix,能思考而非仅执行指令。以家庭场景优先,采用柔性材质、无线充电等,零部件制造成本降低90%,目标是帮用户做家务。
镜识科技获数千万元融资,做出全球首款双形态家庭机器人
镜识科技完成数千万元A轮融资,由常春藤资本独家投资。公司成立于2024年,专注于具身智能技术的研发与应用。其研发的“黑豹2.0”四足机器人以10.9米/秒的速度打破波士顿动力Wildcat尘封十余年的纪录。
谷歌加入CUA战场,发布Gemini 2.5 Computer Use模型
谷歌DeepMind发布Gemini 2.5 Computer Use模型,可让AI直接控制浏览器,执行点击、滚动、输入等操作。模型基于Gemini 2.5,与OpenAI的CUA类似,通过视觉理解和推理能力帮助用户完成任务。在基准测试中,其性能达到SOTA水平,速度优于其他模型。
10月09·周四
10条快手推出AI原生IDE工具:CodeFlicker,对标Cursor
快手正在开发一款名为“CodeFlicker”的集成开发环境工具,支持AI问答、代码自动补全、基于Agent的AI编程等功能,可帮助程序员自动化完成开发任务,实现端到端开发。工具提供Jam模式和Duet模式等交互模式,能将复杂任务拆解为清晰可追踪的待办步骤,还通过MCP灵活集成不同数据源、工具和服务,拓宽应用场景边界。
蚂蚁百灵正式发布Ling 2.0系列的首款旗舰非思考模型——Ling-1T
百灵团队正式发布Ling 2.0系列的首款旗舰非思考模型——Ling-1T。模型拥有万亿参数,基于Ling 2.0架构,每个token激活约500亿参数。Ling-1T在20T+ token的高质量、高推理浓度语料上完成预训练,支持最高128K上下文窗口,通过“中训练+后训练”的演进式思维链(Evo-CoT)极大提升模型高效推理能力,在多项复杂推理基准中取得SOTA表现。
OpenAI 与流媒体音乐平台 Spotify 达成合作
OpenAI与流媒体音乐平台Spotify达成合作,用户可在ChatGPT网页版或移动端中提到Spotify后登录账号,获取个性化音乐和播客推荐。ChatGPT会根据对话内容调用Spotify控件,推荐歌曲、艺人、专辑等,点击后自动打开Spotify应用。
首个全自动AI科学家诞生!西湖大学最新成果:DeepScientist系统
西湖大学自然语言处理实验室发布DeepScientist系统,是首个具有完整科研能力的AI科学家。能在无人工干预下,主动识别研究局限、提出新构想、编写代码、执行实验、撰写论文。在AI文本检测任务中,DeepScientist两周完成人类三年的科研进展,取得7.9%的AUROC提升,超越人类SOTA方案。
滴滴悄悄上线了一个 AI 图寻产品「在哪儿问问」
滴滴上线AI图寻产品「在哪儿问问」,目前仅支持微信小程序。该产品具有地点查找、相似地点推荐及相关产品推荐功能。用户上传照片,AI可识别大致位置并提供相应服务。
Anthropic 发布 AI Agent 上下文工程指南
Anthropic发布AI Agent上下文工程指南,强调上下文工程的重要性。上下文工程是提示词工程的自然演进,关注在LLM推理过程中策划和维护最优token集合。指南指出,LLM的注意力资源有限,上下文应被视为有限资源,需精心设计。
Thinking Machines Lab推出首款产品「Tinker」
Thinking Machines Lab推出首款产品「Tinker」,是一个专为语言模型微调而生的API。允许开发者通过简单的Python代码进行模型微调,无需担心底层架构的复杂性。Tinker支持从小到大的各类开放权重模型,包括大型专家混合架构,并集成了基于LoRA的微调方法。
谷歌新世界模型Dreamer 4纯靠「想象」训练
谷歌DeepMind发布Dreamer 4,一种可扩展的智能体,通过在快速且准确的世界模型中进行想象训练来解决控制任务。它是首个仅从离线数据集在《我的世界》中获得钻石的智能体。Dreamer 4利用shortcut forcing目标和高效Transformer架构,准确学习复杂交互,实现实时人机交互和高效想象训练。
Opera Neon 正式发布:首款 AI Agent 浏览器
昆仑万维集团正式发布Opera Neon浏览器。Opera Neon是Opera浏览器家族的新成员,也是首款AI Agent浏览器,采用付费订阅制,专为大量使用AI的用户设计。具备“任务”功能,可创建独立工作空间,支持AI辅助操作;“卡片”功能可让用户自定义指令,提高效率;“Neon Do”功能可主动执行任务,如购物、预订等;“制作”功能则支持用户创作内容并分享。
豆包大模型1.6-vision正式发布!
火山引擎发布豆包大模型1.6-vision。大模型具有多模态能力,可处理文本、图像、视频等多种数据。豆包大模型1.6-vision在多个领域有广泛的应用前景,如智能客服、内容创作、图像识别等。
10月07·周二
1条OpenAI开发者大会重磅发布:AgentKit、Codex正式版、Sora 2 API
OpenAI开发者大会发布多项重要产品:包括AgentKit智能体开发工具(含可视化构建器、连接器注册表和ChatKit)、Codex正式版(集成Slack并提升十倍日活)、ChatGPT内置应用及开源Apps SDK。同时推出实时音频gpt-realtime-mini、图像生成gpt-image-1-mini、视频生成Sora 2 API以及GPT-5 pro API。所有功能均纳入标准API计...
10月01·周三
1条OpenAI 正式发布 Sora 2 ,称“视频生成进入ChatGPT时刻”
OpenAI 正式发布Sora 2,称“视频生成进入ChatGPT时刻”。新模型可一次性生成20秒1080p音视频同步短片,物理真实度与多镜头叙事大幅提升;配套iOS社交应用“Sora APP”同步上线,支持AI虚拟形象“客串”及社区混剪,仅限邀美国、加拿大用户试用,API与安卓版将随后推出。附:Sora 2邀请码
09月30·周二
4条智谱旗舰模型GLM-4.6上线,代码能力全面进阶
智谱清言发布新一代大模型GLM-4.6,代码能力全面升级,对齐Claude Sonnet 4,成为国内最强Coding模型。模型在真实编程任务中表现优异,平均token消耗较上一代降低30%。上下文长度提升至200K,推理、搜索、写作能力显著增强。
Claude 4.5 发布,史上最强AI编程模型诞生
Anthropic发布Claude Sonnet 4.5,AI模型在编程能力上取得重大突破。在SWE-bench Verified测试中,Claude Sonnet 4.5登顶业界第一,能连续工作超30小时,可一次性写出约1.1万行代码。其在OSWorld测试中拿下61.4%的成绩,同样位居第一。Claude Sonnet 4.5还增加了“检查点”功能,可随时保存进度,终端界面翻新,并发布了原生V...
蚂蚁百灵发布Ring-1T-preview,深思不必久等
Ling Team发布万亿规模语言基座模型Ring-1T-preview。模型在AIME 2025等竞赛中表现优异,接近GPT-5水平。在IMO 2025测试中,Ring-1T展现出强大的推理能力。为探索其上限,团队提前开源Ring-1T-preview,模型在20T语料上预训练,结合强化学习训练。
OpenAI 推出“即时结账”功能,ChatGPT 变身购物支付一体机
OpenAI宣布推出“即时结账”功能,用户可在ChatGPT内直接购物。目前,美国地区的ChatGPT用户可在对话界面内完成Etsy平台购物及Shopify平台下单。该功能已面向ChatGPT Pro、Plus付费用户及登录状态下的免费用户开放,现阶段支持从美国本土Etsy卖家处购物,超100万家Shopify商户将“很快”支持该功能。
09月29·周一
3条DeepSeek-V3.2-Exp 发布,训练推理提效,API 同步降价
DeepSeek团队发布实验性模型DeepSeek-V3.2-Exp。模型在V3.1-Terminus基础上引入DeepSeek Sparse Attention(DSA)机制,大幅提升长文本训练和推理效率,性能与V3.1-Terminus持平。目前,DeepSeek-V3.2-Exp已更新至官方App、网页端和小程序,API价格大幅下降,调用成本降低50%以上。
乐享科技完成2亿元“天使++”轮融资,天使轮融资总额近5亿元
苏州乐享智能科技有限公司宣布完成2亿元“天使++”轮融资,是其9个月内第三轮融资,天使轮总金额近5亿元。本轮融资由钟鼎资本领投,IDG资本加注,资金将用于核心零部件自研、机器人本体与运动控制技术研发等。
苹果自研多模态 AI 模型 Manzano:兼具理解与生成能力
苹果正在研发名为Manzano的多模态AI模型,兼具图像理解和生成能力,目标是解决现有模型在处理图像任务时的取舍问题。Manzano采用混合图像分词器,通过共享编码器输出连续标记和离散标记,减少任务冲突。其架构包括混合分词器、统一语言模型和独立图像解码器,参数规模从9亿到35.2亿不等,支持多种分辨率。
09月28·周日
3条混元图像3.0正式发布:开源,免费使用
腾讯混元图像3.0正式发布并开源。模型是首个工业级原生多模态生图模型,参数规模达800亿,是目前测评效果最好、参数量最大的开源生图模型。混元图像3.0具备强大的语义理解能力、极致美学质感,可生成高质感图片,并能解析复杂语义,生成长文本和小文字。
Qoder CLI 开启邀测:把 Qoder 的智能带到每一个终端
Qoder团队宣布推出Qoder CLI,开启邀测。Qoder CLI是一款轻量级、AI原生的命令行工具,为开发者提供更高效、更智能的编码体验。支持自然语言交互,可生成代码、调试、重构、自动化任务等,与Qoder IDE深度集成,同时支持无头模式,便于CI/CD流程调用。
腾讯混元3D开源+2:瞄准游戏建模、3D 打印痛点
腾讯混元发布并开源3D生成模型混元3D-Omni和混元3D-Part。混元3D-Omni是业界首个统一支持多条件控制的3D生成框架,突破图像输入局限,支持多种模态输入,可精细控制物体几何结构等。混元3D-Part实现灵活可控的部件拆分和生成,让3D模型像乐高一样可拆卸,便于游戏制作、3D打印等。
09月26·周五
4条全球首个动漫制作神器“萌动AI”国内登场,免费不限次
全球首款二次元/动漫专用AI创作工具“萌动AI”在国内上线。用户可通过官网免费不限次数使用文字/图片、首尾帧及视频续写功能创作优质动漫图片和视频。其生图板块支持文生图和图生图,有多种风格可选,人物一致性编辑效果好。视频生成功能可将图片转为视频,并进行续写和首尾帧生成。
AI陪伴硬件公司珞博智能(Robopoet)宣布完成数千万元天使+轮融资
AI陪伴硬件公司珞博智能(Robopoet)完成数千万元天使+轮融资,由红杉中国领投,金沙江创投、零一创投跟投。首款产品“Fuzozo芙崽”定位AI电子宠物,凭借可爱外观与好玩的AI体验,深受20-30岁一线女性喜爱,本轮融资后,公司将强化AI能力,拓展销售渠道,构建品牌认知及IP世界观,并计划推出联名款新品。
OpenAI推出ChatGPT Pulse,奥特曼:这是我最喜欢的功能
OpenAI推出ChatGPT Pulse预览版,目前仅限Pro用户使用,未来将逐步扩展。该功能会在用户睡觉时根据其聊天记录、反馈及连接应用进行研究,第二天以主题卡片形式推送个性化内容,如旅游攻略、育儿贴士等。它旨在成为AI版私人助理和个性化资讯流,且不会让用户沉迷刷屏。
Kimi 全新 Agent 模式 OK Computer 启动测试
月之暗面的Kimi发布全新Agent模式OK Computer并开启灰度测试。模式延续“模型即Agent”理念,通过端到端训练Kimi K2模型,提升智能体及工具调用能力。用户下达需求后,Kimi可操作虚拟电脑,完成多功能网站开发、海量数据分析、图片视频生成及高品质PPT制作等复杂任务。
09月25·周四
5条生数科技全球发布Vidu Q2,推动“视频生成”走向“演技生成”时代
生数科技发布新一代图生视频大模型Vidu Q2。模型以“Vidu Q2 看AI演戏”为主题,核心在于“细微表情生成”,在表情变化、运镜、生成速度及语义理解等方面取得突破,实现了从“生成视频”到“生成演技”的跨越。Vidu Q2能够生成复杂表情变化的文戏、多人打斗的武戏及炫酷特效场景,推动AI视频生成从“形似”到“神似”。
智能编程助手 Neovate Code 正式开源
蚂蚁集团支付宝体验技术部开源智能编程助手Neovate Code。工具可深度理解代码库,遵循编码习惯,实现功能开发、Bug修复和代码重构等功能。支持对话式开发、自定义规则文件、会话继续与恢复等,兼容OpenAI、Anthropic、Google等模型和提供商。
Meta FAIR推出了代码世界模型:CWM(Code World Model)
Meta FAIR推出全球首个代码世界模型CWM。是一个参数量为32B、上下文大小达131k token的密集语言模型,专为代码生成和推理打造。CWM不仅能生成代码、理解语义,还能模拟代码运行过程中的变量状态变化与环境反馈,具备接近人类程序员的思考能力。
英伟达开源 Audio2Face 模型:AI 实时生成面部动画
英伟达开源生成式AI面部动画模型Audio2Face,涵盖模型、SDK及完整训练框架,加速游戏和3D应用中AI智能虚拟角色开发。通过分析音频特征,实时驱动虚拟角色面部动作,生成精准口型同步和自然情感表情,广泛应用于游戏、影视制作等领域。
阿里云推出创业者的AI数字员工“万小智”
阿里云在云栖大会上推出面向中小微企业及个人创业者的AI数字员工“万小智”。集成AI开发、设计、客服与内容创作能力,帮助企业解决从品牌官网搭建到持续运营的问题。万小智依托通义大模型,具备四大核心功能:通过对话搭建官网、生成设计师级视觉效果、提供7×24小时智能客服以及生成SEO优化的内容。
09月24·周三
4条6款模型和1个全新品牌,云栖大会一口气全发了!
云栖大会上通义大模型团队一口气发布了6款模型和1个全新品牌。Qwen MAX是万亿参数旗舰模型,Coding能力和工具调用能力登顶国际榜单。Qwen3-VL是视觉理解模型,支持2小时视频精确定位和多种语言OCR。Wan2.5-Preview是音画同步创意引擎,支持音画同步和多种图像生成编辑功能。通义百聆是企业级语音基座大模型,解决语音识别和合成中的痛点。
夸克全新AI图像与视频创作平台「造点AI」正式上线!
夸克全新AI图像与视频创作平台「造点AI」正式上线。平台拥有AI生图、AI生视频、P图、编辑一体化等功能,搭载通义万相Wan2.5等多个模型,更懂中国元素,更具实用性。「AI生图」可生成真实亚洲人像、准确中文内容,驾驭多种艺术风格;「AI生视频」支持原生音画同步生成等,助力普通人实现导演梦。
阶跃AI的新朋友:桌面伙伴「小跃」开启邀测
阶跃AI推出桌面伙伴“小跃”并开启邀测。小跃常驻桌面右上角,可同时执行多任务,连接本地操作系统,支持查看管理本地文件、访问互联网、执行复杂任务等。其“妙计”功能可复用操作步骤,“定时任务”可到点自动执行。小跃能自主完成任务规划与执行,可与本地文件交互,一键处理文件。
ProcessOn发布:Calicat AI ,人人都是产品专家!
ProcessOn团队推出一站式产设研协作平台Calicat,整合原型设计、需求管理和任务管理功能,并融合AI能力。Calicat的AI设计助理可实现零门槛画高保真原型图,支持多种设计需求,如整套页面设计、组件模块设计、草图转原型、从网页提取设计等。
09月23·周二
5条智元机器人GO-1通用具身基座大模型全面开源!
智元机器人宣布其通用具身基座大模型GO-1正式在GitHub开源。是全球首个采用Vision-Language-Latent-Action(ViLLA)架构的具身智能模型,可降低技术门槛,推动行业发展。GO-1通过引入隐式动作标记,弥合了图像-文本输入与机器人执行动作之间的语义鸿沟,能更好地理解人类意图并转化为精确动作执行。
ChatExcel生成PPT功能上线,10秒,100M表格秒变数据报告PPT
ChatExcel一键生成PPT功能正式上线,仅需10秒,即可将100M表格转化为数据报告PPT。可自动分析表格和聊天上下文,生成逻辑严谨、结论清晰的专业数据报告PPT,支持单元格级溯源,准确率高达100%。用户只需上传表格、对话并点击“生成PPT”按钮,即可获得排版精美、逻辑完整、可直接汇报的PPT。
英伟达1000亿美元投资OpenAI!一切从算力开始
英伟达与OpenAI宣布签署战略合作意向书,计划未来数年建设至少10GW的AI数据中心,部署数百万颗英伟达GPU。英伟达将按每1GW交付进度,逐步向OpenAI投资最高1000亿美元,换取非投票股权。这是AI行业迄今最大规模的资金与硬件捆绑交易,被视为全球算力格局的重塑。
DeepSeek-V3.1 现已更新至 DeepSeek-V3.1-Terminus 版本
DeepSeek-V3.1版本已更新为DeepSeek-V3.1-Terminus。此次更新优化了语言一致性,缓解中英文混杂等问题,同时提升了Code Agent与Search Agent的表现,输出效果更稳定。新版本已在官方App、网页端、小程序及DeepSeek API同步更新。
Qwen3-Omni 和 Qwen3-TTS 同时发布!
Qwen团队发布Qwen3-TTS和Qwen3-Omni两款模型。Qwen3-TTS-Flash支持17种音色和10种语言,包括多国语言和中国方言,延迟低至97毫秒,性能卓越。Qwen3-Omni发布三个版本,包括全模态描述模型、标准版和思考版,支持119种文本语言交互、19种语音理解语言和10种语音生成语言。
09月22·周一
5条LongCat-Flash-Thinking 正式发布,更强、更专业,保持极速!
美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking。模型在保持极速的同时,推理能力显著提升,达到全球开源模型领先水平。具备深度思考与工具调用结合、非形式化与形式化推理融合等创新功能,在逻辑、数学、代码、智能体等多领域推理任务中表现出色。
全球首个「推理视频模型」Ray3发布!
Luma AI发布了全球首个推理视频模型Ray3,模型具备强大的推理能力,能理解复杂指令并实时评估改进生成效果。Ray3支持10位、12位和16位HDR视频生成,提供电影级质感,可将SDR视频转换为HDR,支持16位EXR帧导出,方便后期制作。Ray3推出草稿模式,生成速度提升5倍,成本降低5倍,方便用户快速迭代创意。
华为、浙大发布 DeepSeek-R1-Safe 基础大模型
华为与浙江大学在华为全联接大会2025上联合发布了DeepSeek-R1-Safe基础大模型。模型基于昇腾千卡算力平台,构建了全流程安全后训练框架,首次实现千亿级参数满血版大模型安全训练。
高德TrafficVLM模型重磅升级:AI赋予天空视角,可预知超视距路况
高德导航宣布TrafficVLM模型升级,赋予用户“天眼”视角,助力全局交通掌控。升级后的TrafficVLM依托空间智能架构,可实时感知交通态势,为用户提供超视距路况预知。例如,能提前识别前方3公里的拥堵点并推送最优通行建议,能通过导航界面切换实时呈现前方车流动态与高清实景图像。
Teable 宣布完成数百万美元天使轮融资,让数据库「长出耳朵和手」
Teable宣布完成数百万美元天使轮融资,投资方包括真格基金、BV百度风投与祥峰投资。此前,Teable于9月16日在X平台发布全球首款多维表格智能体AI Database Agent(Teable 2.0)。Teable 2.0具备对话式建库、生成应用、自动化流程、数据分析与批量内容生成的一体化能力,用户可用自然语言完成复杂数据工作。
09月19·周五
6条一个模型支持两种场景!Wan2.2-Animate开源发布
阿里开源全新动作生成模型通义万相Wan2.2-Animate。可同时支持动作模仿和角色扮演两种模式,输入角色图片和参考视频,能将视频角色动作迁移到图片角色中,也可在保留原视频动作、表情及环境基础上替换角色。构建大规模人物视频数据集,实现单一模型兼容两种推理模式,精准复刻动作和表情,设计光照融合LoRA保证光照融合效果。
小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio
小米开源首个原生端到端语音大模型Xiaomi-MiMo-Audio。模型基于创新预训练架构和上亿小时训练数据,首次在语音领域实现基于ICL的少样本泛化,展现出跨模态对齐能力。Xiaomi-MiMo-Audio在多项标准评测中超越同参数量开源模型及Google、OpenAI的闭源模型。
2025H1大模型公有云服务,火山引擎占比49.2%中国第一
IDC发布《中国大模型公有云服务市场分析,2025H1》报告。报告显示,2025年上半年,中国公有云上大模型调用量达536.7万亿Tokens,火山引擎以49.2%的份额位居中国第一。相比2024年全年114万亿Tokens的市场规模,2025年上半年调用量增长近400%。火山引擎推出多个多模态大模型,助力AI应用落地。
Notion重磅发布AI智能体!自动生成会议笔记、竞品分析
Notion发布了首个 AI Agent。能以用户的页面与数据库为上下文,自动生成会议纪要、竞品分析、反馈汇总等内容,能新建或更新页面、整合 Slack/邮箱/Google Drive 等外部信息。相比已有的 Notion AI,新 Agent 具备多步骤执行能力,可完成跨数百页、耗时 20 分钟的复杂任务。用户可为 Agent 设置 profile 来定义引用规则、风格与记忆信息。
生数科技完成新一轮数亿元人民币规模的A轮融资
生数科技于2025年9月完成数亿元人民币A轮融资,由博华资本领投,百度战投等跟投。公司成立于2023年,核心团队由顶尖高校技术人才和产业界人才组成,专注于多模态大模型及应用的自主研发。新一轮融资将用于模型研发、技术创新和全球商业布局。
Chrome 迎来大更新,刚刚登顶 App Store 的 AI 可以直接用了
谷歌浏览器Chrome迎来自2008年发布以来最大更新,引入Gemini模型,新增多项AI功能。用户可通过点击右上角Gemini图标,实现跨标签页对话,解决找不到标签页等问题。Gemini还能整合多标签页信息,如对比产品优缺点、生成旅行计划等,提升信息处理效率。此外,Chrome新增智能体能力,可自动完成网页操作,如预订餐厅、购物等。
09月18·周四
6条面壁小钢炮迎新:VoxCPM 语音生成媲美真人、声音复刻超像!
面壁智能推出0.5B参数语音生成基座模型VoxCPM。模型由面壁智能与清华大学深圳国际研究生院联合研发,具备高自然度、高音色相似度和强韵律表现力。VoxCPM在权威语音合成评测中达SOTA水平,支持零样本声音克隆,可生成独特个人声音。
具身操作大模型InternVLA·A1上线,助力实现高动态场景下的多机器人协作
上海人工智能实验室推出首个理解、想象、执行一体化具身操作大模型InternVLA·A1。模型基于自研虚实混合操作数据集InternData·A1、国地中心实训场数据及互联网多源数据联合训练而成。在真机评测中,InternVLA·A1显著优于π0及GR00T N1.5,尤其在高动态场景下表现出强适应能力。
AI芯片黑马Groq融资狂吸7.5亿美元 估值直冲69亿
美国人工智能芯片初创公司Groq在最新一轮融资中筹集了7.5亿美元,估值达到69亿美元。本轮融资由Disruptive领投,贝莱德、路博迈、DTCP等参与,三星、思科等现有投资者也继续参与。Groq计划利用这笔资金扩大数据中心容量,包括今年和明年的新地点,并计划在年内宣布首个亚太地区的选址。
AI代码审查初创公司CodeRabbit获6000万美元B轮融资
AI代码审查初创公司CodeRabbit获6000万美元B轮融资,估值达5.5亿美元。本轮融资由Scale Venture Partners领投,英伟达企业风投等跟投。CodeRabbit通过云端与本地工具为开发团队提供自动化代码审查、安全检测和修复建议,帮助开发者提升代码质量与上线效率。
可调节思考时长,ChatGPT 网页端新增 GPT-5 Thinking 调整功能
OpenAI宣布为ChatGPT网页版的Plus、Pro和Business用户推出“Thinking”调整功能,用户可自由选择GPT-5模型的思考时长。功能包括标准模式(默认)、扩展模式、轻量模式和重度模式,分别对应不同的思考深度和回复速度。用户设置将保持不变,直至手动更改。
天工超级智能体海外版上线Vibe Coding Agent:AI Developer
昆仑万维集团宣布天工超级智能体(Skywork Super Agents)海外版上线全新Vibe Coding Agent——AI Developer。功能帮助非专业开发人员,如白领、营销人员、教师、学生等,通过自然语言与Agent交互,快速构建、部署和管理全栈Web应用程序。用户通过几轮交互即可得到专属网站,支持自动收发邮件、对接支付系统等后端能力,能自动部署上线。
09月17·周三
5条李飞飞发布世界模型新成果:Marble!一张图生成 3D 世界
斯坦福大学教授李飞飞的创业公司World Labs上线空间智能新成果Marble。Marble是限量访问的Beta测试版平台,用户可在官网浏览和创建3D世界。技术通过给AI一张照片,让其生成场景的几何结构等,创建可探索的3D世界。
不止SOTA!通义 DeepResearch模型、框架、方案全开源
阿里巴巴通义实验室发布通义DeepResearch模型、框架及方案,全部开源。研究针对AI“做研究”能力,进行系统性创新。自研全流程合成数据方案,无需人类干预,构造高质量数据集。提出智能体增量预训练阶段,提供大规模数据合成方案。在后训练数据合成、形式化建模、自动化生成高难度学科数据等方面均有创新。模型支持多种推理形式,革新Agent模型训练流程。
首个数字界面生产级Agent:MasterGo Agent 正式发布
莫高设计(MasterGo)宣布正式发布MasterGo Agent,是全球首个数字界面生产级AI Agent。自MasterGo AI整页生成上线以来,团队不断听取设计师的需求,包括调用设计规范、在画布中直接生成和灵活修改设计,以及AI融入生产协作流程。
全球估值最高的机器人公司,刚刚融了71亿,黄仁勋又投了
美国人形机器人公司Figure宣布完成超10亿美元(约合人民币71亿元)C轮融资,投后估值达390亿美元(约合人民币2774亿元)。本轮融资由Parkway Venture Capital等多家知名机构领投,英伟达、英特尔资本等参投。Figure计划将资金用于人形机器人在家庭和商业的扩展、构建下一代GPU基础架构以及先进数据收集。
通用奖励模型VLAC上线,机器人在真实世界强化学习的“好搭子”
上海人工智能实验室上线具身奖励大模型VLAC。VLAC基于InternVL多模态大模型,融合多种数据,为机器人在真实世界强化学习提供过程奖励和完成情况估计,同时输出动作指令。能有效区分正常与异常行为,支持小样本快速泛化。
09月16·周二
3条OpenAI 发布 GPT‑5-Codex 新模型,专为编程而生
OpenAI 发布了GPT-5-Codex,是一个专为编程优化的全新模型,全面应用于 Codex CLI、IDE 扩展、网页端、移动端及 GitHub 代码审查。该模型沿用了 GPT-5 的动态调整思考时间特性,根据任务复杂度自动分配计算资源,简单任务秒回,复杂任务深度思考。
真人手办建模自由!腾讯混元3D 3.0来了
腾讯发布混元3D 3.0模型,建模精度提升3倍,几何分辨率高达1536³,支持36亿体素超高清建模,细节表现力显著增强。该模型面向用户免费开放,上线腾讯云API,助力游戏、影视、电商等行业实现专业级3D内容创作。混元3D 3.0专项优化人物生成,提升建模精度,使五官轮廓更清晰立体,体态更自然流畅。
宇树开源 UnifoLM-WMA-0 世界模型动作架构
宇树科技宣布开源UnifoLM-WMA-0世界模型架构,专为通用机器人学习设计的跨多类机器人本体的开源架构。核心是能理解机器人与环境交互物理规律的世界模型,具备两大功能:一是作为交互式仿真器运行,为机器人学习提供合成数据;二是与动作头对接,通过预测未来与物理世界的交互过程来优化决策性能。
09月15·周一
6条FunAudio-ASR:解决语音大模型企业落地的“最后一公里”
阿里巴巴推出FunAudio-ASR语音识别大模型,专为解决企业落地难题。模型通过创新的Context增强模块,有效优化了“幻觉”“串语种”等关键问题。在高噪声等复杂场景下,其识别准确率显著提升,幻觉率从78.5%降至10.7%。
Mureka上线「Agent Studio」新功能,让每个人都拥有私人音乐工作室!
昆仑万维旗下AI音乐创作平台Mureka上线新功能“Agent Studio”,让音乐创作变得轻松。用户只需说出想法,如一句话、情绪或梗,Agent可自动生成歌词、匹配风格并输出完整歌曲。目前有六个场景,如创作专辑、热点写歌、以歌致礼等,覆盖多种生活场景。
火山引擎veCLI发布,开启智能开发新模式
火山引擎发布命令行AI Agent:veCLI,无缝集成豆包大模型1.6,助力开发者在终端直接访问火山方舟大模型及火山云产品。veCLI采用“思考-行动”循环机制,集成多种模型,降低技术门槛,提升开发效率。
金山办公与华为联合发布 WPS 365 一体化 AI 办公解决方案
金山办公与华为在珠海联合发布WPS 365一体化AI办公解决方案。方案整合WPS 365的协同办公优势与华为的全栈技术能力,通过AI、软件与云计算、硬件的协同创新,解决组织在知识资产管理、协同办公、安全合规等方面的核心需求。
小米AI团队发布ZipVoice:高效零样本语音合成模型
小米集团AI实验室发布ZipVoice系列语音合成模型,包括零样本单说话人语音合成模型ZipVoice和零样本对话语音合成模型ZipVoice-Dialog。ZipVoice通过技术创新,解决了现有模型参数大、速度慢的问题,实现轻量化建模和推理加速。ZipVoice-Dialog则突破对话语音合成的稳定性和速度瓶颈,提供又快又稳又自然的语音对话合成。
腾讯开源Youtu-GraphRAG:让图检索增强生成更准确、更省钱!
腾讯优图实验室开源图检索增强生成框架Youtu-GraphRAG。框架主打大语言模型+RAG模式,将知识组织成图谱,帮助大模型在处理复杂问答任务时更精准、可追溯,适用于知识密集型场景。其创新点包括四层知识树、社区检测升级和智能迭代检索,可减少“胡言乱语”。
09月12·周五
4条阿里通义正式发布:Qwen3-Next-80B-A3B 双模型!
Qwen3-Next-80B-A3B双模型正式发布,包含擅长指令理解和执行的Instruct版本以及擅长多步推理和深度思考的Thinking版本。模型采用混合动力引擎,75%高效处理长文本,25%精准召回关键信息,实现长文处理的稳与快。
美团正式发布首个生活类AI Agent——小美
美团上线了首个生活类Agent——小美。小美可快速完成外卖点单、支付等操作,能记住用户过往订单和收货地址,支持跨地区点单。小美能设置定时任务,如定时点咖啡等。
MiniMax音乐模型新突破:MiniMax Music 1.5上线
MiniMax发布新一代音乐生成模型Music 1.5,开启“一人即乐队”新时代。模型生成时长升至4分钟,具备四大突破:强控制力,可对歌曲风格、情绪、场景等进行自定义;人声自然饱满,转音顺畅;编曲层次丰富,支持中国小众及民族乐器;歌曲结构清晰,带来“叙事级”听觉体验。
微软 Copilot 新增音频表达式功能
微软为Copilot工具新增“Copilot音频表达式”功能,基于自研MAI-Voice-1模型。用户可从三种语音模式中选择:有感染力模式,适合传递情感;故事模式,适合多角色故事讲述;脚本模式,适合精准传递信息。每种模式还提供多种语音类型与风格,如莎士比亚朗读风、体育解说风等。
09月11·周四
4条蚂蚁百宝箱正式发布“Tbox”, 智能体告别 “单打独斗”,直接把成果送到手!
蚂蚁百宝箱在2025 Inclusion·外滩大会上正式发布新产品Tbox超级智能体。Tbox采用多智能体协同架构,可自动形成工作小组完成用户任务,如生成PPT、报告、网页等,将AI应用从“卖工具”推进到“卖成果”阶段。动态编排引擎能根据任务复杂度调整智能体协作,用户无需技术知识,只需描述需求即可获得成果。
快手AI超级员工Kwali上线!一句话剪出完整短视频
快手推出AIGC超级员工Kwali,正在内测阶段。用户只需在对话框中说出需求,Kwali能在几分钟内生成完整的短视频,包括脚本、字幕和背景音乐。背后是强大的云端多Agent框架,可将需求拆解并分配给不同Agent完成,如意图解析、脚本生成、镜头匹配和剪辑合成等。
阿联酋开源“最快推理模型”K2-Think,撞名Kimi
阿布扎比穆罕默德·本·扎耶德人工智能大学与AI创企G42推出低成本推理模型K2-Think,基于阿里巴巴开源模型Qwen 2.5构建,参数量320亿,性能超过参数规模20倍的OpenAI和DeepSeek旗舰推理模型。模型在复杂数学任务基准测试中表现优异,部署在Cerebras晶圆级芯片上,性能提升10倍。
北京智源研究院孵化的具身大脑公司星源智获2亿元天使轮融资
北京星源智机器人科技有限公司完成2亿元人民币天使轮融资,投资方包括中科创星、高瓴、元禾原点等知名机构。公司成立于2025年8月1日,由北京智源研究院孵化,致力于构建物理世界的通用具身大脑。
09月10·周三
4条即梦上线图片4.0模型,首次支持多模态生图
即梦AI图片模型4.0正式上线。模型基于字节跳动自研的seedream4.0,融合常识和推理能力,是业界领先的多模态创意引擎。支持多参考图输入、生成系列组图、指令编辑、交互框选编辑等功能,可高度还原原图特征,实现无损编辑。
爱诗科技完成6000万美元B轮融资,阿里巴巴领投
AI视频生成领军企业爱诗科技宣布完成6000万美元B轮融资,阿里巴巴领投,达晨财智、深创投、北京市人工智能产业投资基金等跟投。自研PixVerse V5模型位居Artificial Analysis图生视频榜首,产品PixVerse(拍我AI)入选a16z“全球Top 50生成式AI消费移动应用”榜单第25位。此轮融资将助力公司技术研发和市场拓展,推动AI视频生成技术的普惠。
混元生图模型开源升级2.1版本:支持写字、2k分辨率
腾讯混元发布开源文生图模型“混元图像2.1(HunyuanImage 2.1)”。模型支持原生2K生图,在复杂语义理解、跨领域泛化、美学表现和适用场景多样性等方面显著提升。支持中英文输入,可生成高保真插画、海报、漫画等,能对图像文字进行精细控制。
具身智能关节厂商「灵足时代」连续完成Pre-A&Pre-A+千万元融资
具身智能关节厂商灵足时代已完成Pre-A&Pre-A+两轮数千万元融资,Pre-A轮由红杉种子领投,弘晖基金和兴牛资本等跟投;Pre-A+轮由弘晖独家投资。灵足时代成立于2023年11月,主营业务为一体化关节模组产业应用。
09月09·周二
8条腾讯发布自研AI CLI:CodeBuddy Code,国内首家支持全形态AI编程工具
腾讯发布全新AI CLI工具CodeBuddy Code,腾讯云成为业内首家同时支持插件、IDE和CLI三种形态的AI编程工具厂商。CodeBuddy Code支持在命令行中用自然语言驱动开发全流程,实现极致自动化。无缝融入现有流程,开箱即用,扩展性强,可自动化复杂任务。
星火电脑版全新升级!年轻人的AI“硬核装备”
讯飞星火电脑版全新上线。升级聚焦垂直场景,涵盖AI写作、解题答疑、AI阅读、深度研究等实用功能。新版本界面简洁流畅,操作便捷,成为用户的“有颜有才”AI伙伴。解题答疑功能可逐步引导思考或展示完整解题步骤;AI写作覆盖60+场景;AI阅读能一键总结网页或文档内容;深度研究可自动搭建研究框架,输出专业报告。
生数科技全球上线Vidu Q1参考生图,打造真正可用生产力工具
生数科技正式向大众用户开放其视频大模型Vidu的Q1参考生图功能。功能以“参考够多,还原够真”为核心,支持最多7张参考图输入,可实现多主体一致性、高还原度、自由创作等五大亮点。Vidu Q1参考生图覆盖合成、替换、变换三大生成模式,适配多主体复杂场景,大幅降低AI内容生产门槛。
听得清,识得准,语音识别模型Qwen3-ASR-Flash来了
通义千问团队发布了Qwen3-ASR-Flash语音识别模型。模型基于Qwen3基座模型,经海量数据训练而成,支持11种语言及多种口音,支持歌声识别。核心特性包括领先的识别准确率、惊艳的歌声识别能力、定制化识别、语种识别与非人声拒识以及高鲁棒性。
Seedream 4.0 全量上线,扣子空间100+官方模版打包送!
Seedream 4.0全量上线扣子空间,带来多种玩法。用户可实现多图无缝融合,创作手办、周边、装潢装置设计等,还能穿越多种场景、融入指定图片、出演漫画主角、制作系列表情包。在文字能力提升方面,可精准修改海报,生成不同风格作品。
百度最强深度思考模型文心大模型X1.1来了!性能追平GPT-5
在百度Wave Summit深度学习开发者大会上,百度发布文心大模型X1.1、飞桨框架V3.2、文心快码3.5S等。文心大模型X1.1事实性能力提升34.8%,指令遵循能力提升12.5%,智能体能力提升9.6%,在多项基准测试中超越DeepSeek-R1-0528,效果与GPT-5和Gemini 2.5 Pro基本持平。
告别服务中断焦虑!LongCat API 开放平台为开发者保驾护航
美团LongCat团队推出「LongCat API开放平台」,为受美国大模型公司Anthropic停止服务影响的在华企业和开发者提供平滑迁移方案。平台每日提供10万免费tokens,支持OpenAI API和Anthropic API两种格式,开发者可轻松从Claude切换至LongCat-Flash-Chat模型。
专为“超大模型而生”,新一代训练引擎 XTuner V1 开源
上海人工智能实验室开源了书生大模型新一代训练引擎XTuner V1。XTuner V1基于PyTorch FSDP开发,针对超大规模稀疏混合专家(MoE)模型训练进行了优化,可支持1T参数量级MoE模型训练,在200B以上量级混合专家模型上实现训练吞吐超越传统3D并行训练方案。
09月08·周一
7条跨赴科技完成数千万元Pre-A轮融资
AI Coding初创公司跨赴科技完成数千万元Pre-A轮融资,由复星锐正领投,奇绩创坛跟投。跨赴科技成立于2023年,专注于端到端全流程智能开发,其平台“码上飞”可让用户通过自然语言生成应用程序,已生成超160亿行代码。本轮融资将用于技术研发、人才引进和海外市场拓展,推动普惠数字化和全球市场布局。
首款能交付真实法律任务的AI律师智能体——吾律AI律师
幂律智能推出首款能交付真实法律任务的AI律师智能体吾律AI律师。吾律能模拟专业律师的沟通逻辑与思维模式,实现多轮深度对话,为用户提供定制化法律服务。可直接交付可执行成果,如合同审查、函件发送、律师函盖章、案情分析报告等,让法律事务像点外卖一样简单。
基座上新:MiniCPM 4.1 将「高效深思考」引入端侧
面壁智能发布MiniCPM 4.1基座模型。模型在MiniCPM 4.0基础上新增8B参数的原生稀疏架构深思考模型,推理速度比同尺寸开源模型快3倍以上,综合能力达同级SOTA水平。MiniCPM 4.1支持高效双频换挡,长文本用稀疏,短文本用稠密,推理效能高,长文本缓存锐减,端侧友好。
自变量机器人宣布完成近10亿元A+轮融资,阿里云首次出手具身创企
自变量机器人宣布完成近10亿元A+轮融资,由阿里云、国科投资领投,国开金融、红杉中国等跟投。是阿里云首次投资具身智能公司。资金将用于其全自研通用具身智能基础模型的持续训练及硬件产品研发迭代。
「Ropet萌友智能」完成数千万A1轮融资
AI机器萌宠公司萌友智能(Ropet)完成数千万人民币A1轮融资,由北京市人工智能产业投资基金领投,峰瑞资本跟投。公司成立于2022年,致力于打造AI情感化陪伴机器萌宠产品。其首代桌面机器萌宠“kamomo”在Kickstarter众筹40万美元,入选年度最佳AI消费硬件之一。
阿里云通义发布Qwen3-Max-Preview 强得不止一点
阿里云发布Qwen3-Max-Preview,参数量达1T,性能显著提升。新版本在中英文理解、复杂指令遵循和工具调用等方面大幅增强,知识幻觉大幅减少。在Arena-Hard v2基准测试中领跑,在AIME25测试中获80.6分,展现强大逻辑思维。
字节跳动发布即梦图片 4.0 首次支持多模态生图
字节跳动即梦AI发布即梦图片4.0。是首次支持多模态生图的版本,同一模型可实现文生图、图像编辑和组图生成。文生图功能有更强指令遵循、更高分辨率和更快生成速度;图像编辑可通过自然语言指令对单/多张图片进行修改;组图生成可一次性生成多张关联图像。
09月05·周五
4条Kimi K2-0905正式发布,带来更强的代码能力、更快的 API
月之暗面科技有限公司正式发布Kimi K2-0905。新版本在真实编程任务中表现提升,具体包括:Agentic Coding能力增强,在基准测试和实际任务中性能更好;前端编程体验升级,代码更美观实用;上下文长度从128K扩展到256K,支持复杂长线任务;新增高速版API,输出速度达60-100 Token/s。
智谱推出「Claude API 用户特别搬家计划」
美国大模型公司Anthropic宣布停止向多数股权由中国资本持有的集团出售Claude服务。智谱推出“Claude API用户特别搬家计划”,帮助开发者无缝切换至智谱GLM模型API。智谱已全面兼容Claude协议,用户只需替换API URL即可完成迁移。智谱为新用户提供2000万Tokens免费体验,开发者可享受更低价格、更高性能的GLM-4.5编码专属套餐。
Atlassian以 6.1 亿美元全现金收购The Browser Company
全球首家AI浏览器公司The Browser Company被软件公司Atlassian以6.1亿美元全现金收购。公司曾开发Arc浏览器,后转向打造AI原生浏览器Dia。Dia主打将浏览与对话结合,能跨标签搬运数据、总结文档等。收购后,Dia将继续独立运营,Atlassian计划将其打造成“AI时代知识型工作浏览器”。
Anthropic加强服务限制:禁止受中国等地区控制的实体使用其技术
Anthropic更新了其服务条款,加强对不受支持地区的销售限制。此前,尽管条款禁止某些地区(如中国)使用其服务,但仍有公司通过在其他国家设立子公司等方式获取Anthropic的服务。Anthropic指出,这些公司可能面临法律要求,迫使其共享数据或与情报机构合作,从而带来国家安全风险。
09月04·周四
3条杨植麟又发大模型!Kimi K2-0905登场,更强编程、创意写作
北京大模型独角兽月之暗面发布新版本Kimi K2-0905模型。模型在编程能力上进行了升级,上下文长度提升至256K,创意写作能力也有所增强,同时兼容Claude Code,支持前端功能解锁,让网页和图表更美观。
MetaGPT发布新型AI开发能力评估基准RealDevWorld
MetaGPT推出用户智能体,开启端到端自主软件测试新范式。智能体具备双重身份,既是产品经理严格验收,又是不知疲倦的AI测试工程师,实现全链路自主化。研究团队发布RealDevWorld框架,包含194个软件开发任务数据集RealDevBench和评估智能体AppEvalPilot。
瑞士发布国家级开源大语言模型Apertus
瑞士发布国家级开源大语言模型Apertus。模型由瑞士洛桑联邦理工学院等机构联合打造,完全开源,训练数据涵盖超1000种语言,总token量达15万亿,非英语数据占比40%。目前推出80亿参数和700亿参数两个版本。
09月03·周三
2条Anthropic宣布完成130亿美元(约928亿元)F轮融资
AI独角兽Anthropic完成130亿美元F轮融资,估值达1830亿美元,成为全球第三大AI独角兽,仅次于字节跳动和OpenAI。AI编程工具Claude Code是增长主力,3个月使用量增长超10倍,创造超5亿美元年收入。本轮融资由多家知名风投和主权基金领投,将用于扩大企业采用规模、深化安全研究及支持国际扩张。
谷歌垄断案获“阶段性胜利”,Alphabet盘后涨近7%
美国地区法官作出关键裁定,在谷歌母公司Alphabet的反垄断审判中,谷歌无需剥离Chrome浏览器与安卓系统,也可继续向苹果等合作伙伴支付默认搜索引擎费用。消息发布后,Alphabet股价在盘后交易中大涨近6.7%。法院仅要求谷歌向竞争对手共享部分搜索数据,以改善市场竞争环境。
09月02·周二
3条混元世界模型上新:混元Voyager,综合能力问鼎WorldScore排行榜
腾讯发布混元3D世界模型系列新成员——HunyuanWorld-Voyager。模型是业界首个支持原生3D重建的超长漫游世界模型,可生成长距离、世界一致的漫游场景,突破传统视频生成局限。支持3D输入输出,与混元世界模型1.0高度适配,可扩展漫游范围、提升生成质量,支持多种3D应用。
开发更可控,部署更便捷:AgentScope 迈入1.0时代
通义实验室推出新一代智能体开发框架AgentScope 1.0。解决智能体构建、运行和管理中的难题,提供覆盖“开发、部署、监控”全生命周期的生产级解决方案。采用三层技术架构:AgentScope核心框架负责智能体构建与应用编排;AgentScope Runtime提供安全可靠的运行和部署环境;AgentScope Studio提供可视化开发与监控工具。
拿下30个第1名的腾讯混元翻译模型Hunyuan-MT-7B,开源
腾讯混元Hunyuan-MT-7B翻译模型开源。模型参数量仅7B,支持33个语种及5种民汉语言/方言互译。在国际机器翻译比赛WMT2025中拿下30个第1名,推出业界首个翻译集成模型Hunyuan-MT-Chimera-7B,可生成更优翻译结果。Hunyuan-MT-7B计算效率高、部署友好,已接入腾讯多个业务,助力产品体验提升。
09月01·周一
5条美团正式发布并开源 LongCat-Flash-Chat,动态计算开启高效 AI 时代
美团发布并开源 LongCat-Flash-Chat,采用混合专家模型架构的 AI 模型,总参数量达 560B,平均激活参数 27B。在性能上比肩主流模型,尤其在智能体任务中表现突出,推理速度更快,适合复杂智能体应用。可以访问官方平台Longcat AI,与 LongCat-Flash-Chat 开启对话。
GLM-4.5编码套餐:20元包月,人人畅享全球顶级Claude Code编码体验
智谱推出限时「GLM Coding Plan」套餐,月费低至20元,降低AI编码工具使用门槛。GLM-4.5在前端开发、跨文件修改、全栈项目构建等场景表现出色,性能接近Claude Sonnet 4,成本仅为其1.5%。在CC-Bench评测中,GLM-4.5在开源模型中表现优异,性价比高。
开源SOTA:阶跃发布端到端语音大模型Step-Audio 2 mini!
阶跃星辰发布开源端到端语音大模型Step-Audio 2 mini,模型在多个国际基准测试集上取得 SOTA 成绩。将语音理解、音频推理与生成统一建模,在音频理解、语音识别、跨语种翻译、情感与副语言解析、语音对话等任务中表现突出,率先支持语音原生的 Tool Calling 能力,可实现联网搜索等操作。
微软推出自研 AI 模型:MAI-Voice-1 秒级生成音频
微软推出首批两款自研 AI 模型MAI-Voice-1和MAI-1-preview。MAI-Voice-1 仅需单块 GPU,1 秒内可生成 1 分钟音频,已应用于“Copilot Daily”等,用户可在 Copilot Labs 平台体验并自定义音色与风格。MAI-1-preview 专为特定需求用户设计,训练使用约 1.5 万块英伟达 H100 GPU,具备遵循指令的能力。
智平方完成新一轮A系列融资,由深创投领投
智平方完成新一轮A系列融资,由深创投领投,金额超亿元。老股东敦鸿资产、国投创盈等持续加码,华熙生物等产业资本参与。本轮融资将用于GOVLA大模型及AlphaBot系列机器人的迭代、产线扩容与市场拓展。
08月29·周五
5条OpenAI发布语音AI Agent专用模型GPT-realtime
OpenAI发布语音模型GPT-realtime。模型是专用于语音AI Agent的多模态模型,可生成自然流畅语音,完美模仿人类语调、情感和语速,支持图像理解并与语音或文本对话结合。新增Marin与Cedar两种语音,升级原有8种语音,具备智力、推理和理解能力,能捕捉非语言信号、切换语言和调整语气。
真·深度长文写作,上扣子空间!
扣子空间推出深度长文写作加速器,助力高效创作。用户可一键生成从选题到排版的全链路内容,涵盖研究论文、行业报告等多类型。平台提供高质信息源,支持深度思考与真实数据引用。其生成内容抛弃模板化,搭配专属洞察,风格多样,如专业分析、散文游记等。用户还可二次修改,管理文档版本。
海螺首尾帧正式上线,「AI海龟汤·帧间宇宙」挑战赛来袭!
海螺AI全球上线首尾帧功能,接入Hailuo 02模型,支持复杂指令遵循、极限物理动态、大幅度运镜、超预期想象力及仅尾帧玩法。
美团 M17 团队开源 Meeseeks 评测集:揭秘大模型的 “听话”能力
美团M17团队推出全新评测基准Meeseeks,专注于大模型指令遵循能力的系统化研究与精准评估。该评测基准基于真实业务数据构建,采用精细化的三级评测框架,从任务核心意图、具体约束类型到细粒度规则,全面衡量模型的指令遵循能力。Meeseeks还引入“多轮纠错”模式,首次将模型的自我纠错能力纳入评测范畴。
xAI 推出智能代码生成模型 Grok Code Fast 1
埃隆·马斯克旗下xAI发布智能代码生成模型Grok Code Fast 1。模型采用全新架构,擅长TypeScript、Python等语言,可处理从新项目构建到漏洞修复的多种任务。定价为每百万输入token 0.20美元,输出token 1.50美元,缓存输入token 0.02美元,限时免费开放给主流智能编程平台用户。
08月28·周四
5条问小白5 重磅发布:国产大模型实力对标 GPT-5
问小白团队发布最新旗舰模型——问小白5。模型在智能水平上取得重大突破,成为国产大模型中智能水平最接近GPT-5的标杆之作。在AA-Index综合性能评测中,问小白5以64.7分超过Gemini2.5 Pro,接近GPT-5。其在STEM能力、前沿知识能力、代码编程能力以及指令遵循能力等多个维度均展现出卓越表现,分别获得86分、17.7分、79.2分和58.1分的高分。
混元开源又+1:HunyuanVideo-Foley,视频音效可以自动生成了
腾讯混元宣布开源端到端视频音效生成模型HunyuanVideo-Foley。只需输入视频和文字,能为视频匹配电影级音效,解决了AI生成视频只能“看”不能“听”的问题。HunyuanVideo-Foley具有三大核心亮点:强大的泛化能力,可适配多种视频类型;多模态语义均衡响应,结合视频画面和文字描述生成复合音效;专业级音频保真度,提升音效质量。
阿里巴巴发布首个数据分析Agent:Quick BI,人人拥有AI分析师
阿里巴巴旗下瓴羊发布首个数据分析Agent,Quick BI里的“智能小Q”升级为由问数、解读和报告三大核心Agent组成的“超级数据分析师”。Agent可快速获取、解读数据并输出洞察报告,将数据获取时间从一天缩短至10秒,报告生成时间从数天缩短至20分钟。
PixVerse V5 全新模型上线:把创作门槛再拍下去几厘米
PixVerse V5全球同步上线,此次更新聚焦于提升用户高频生成场景的视频效果,如复杂运动中主体不再违背重力、动漫同人创作细节更到位、广告制作文案不再“横飞”等。根据权威独立测评平台Artificial Analysis的最新测试结果,PixVerse V5在图生视频项目中排名全球Top2,在文生视频项目中位列Top3,保持在全球第一梯队。
全球首款!浙大一院、阿里发布“平扫CT+AI”主动脉急诊模型iAorta
浙江大学医学院附属第一医院与阿里巴巴达摩院发布全球首款“平扫CT+AI”主动脉急诊模型iAorta。模型可在几秒内识别急性主动脉综合征,将确诊时间缩短至2小时内,显著降低漏诊率。研究团队通过回顾性分析发现,传统方法初诊漏诊率达48.8%,iAorta可将漏诊率降至4.8%。
08月27·周三
7条Claude for Chrome来了!可作为浏览器扩展程序直接使用
Anthropic发布Claude for Chrome,一款作为浏览器扩展程序的AI工具。可在Chrome侧边窗口与用户对话,执行任务如设置日历、回复邮件等。目前仅向1000名Max套餐用户开放,月费100至200美元。安全是其重点,用户可限制其访问特定网站,且高风险操作需用户许可。
字节跳动推出新一代AI视频生成模型Waver 1.0
字节跳动推出了新一代AI视频生成模型Waver 1.0,基于修正流Transformer架构,支持文本到视频、图像到视频和文本到图像的生成,无需切换模型。支持最高1080p分辨率和2-10秒的灵活视频长度,擅长捕捉复杂运动,生成的视频在运动幅度和时间一致性上表现出色。
多模态新旗舰MiniCPM-V 4.5:高刷视频理解又准又快
面壁科技开源了8B参数多模态旗舰模型MiniCPM-V 4.5,是首个具备高刷视频理解能力的端侧多模态模型。模型在高刷视频理解、长视频理解、图片理解、OCR、文档解析等多个领域表现优异,甚至在一些榜单上超越了72B参数的Qwen2.5-VL。
谷歌推出图像生成与编辑模型Gemini 2.5 Flash Image(代号nano banana)
谷歌正式推出最新的图像生成与编辑模型Gemini 2.5 Flash Image(代号nano banana),模型在多个榜单上名列前茅,表现出色。主要特点包括保持角色一致性、基于提示的图片编辑、利用Gemini的现实世界知识进行推理以及多幅图像融合。已通过Gemini APP、API、Google AI Studio和Vertex AI开放访问,每张图片生成成本约0.039美元。
Wan2.2-S2V开源!图片+音频丝滑生成电影级视频
通义万相开源了全新多模态视频生成模型「Wan2.2-S2V」。模型仅需一张静态图片和一段音频,能生成电影级数字人视频,视频时长可达分钟级,大幅提升数字人直播、影视制作等行业的视频创作效率。模型支持真人、卡通、动物等多种图片类型,可通过文本控制视频画面。
文心快码多项升级更新,新增Zulu-CLI终端编码能力
文心快码进行了多项升级更新,新增了Zulu-CLI,允许开发者在终端中使用Zulu的智能编码能力,无需离开命令行界面。企业版支持自定义模型,可根据不同场景灵活切换模型。
微软开源TTS模型:VibeVoice,可生成 90 分钟语音
微软开源了文本转语音(TTS)模型VibeVoice-1.5B,可生成最长90分钟、最多4位说话者的自然语音,支持跨语言及歌声合成。模型基于1.5B参数的Qwen2.5语言模型,结合声学与语义双分词器,以7.5Hz低帧率处理。
08月26·周二
4条“杭州六小龙”又开源了!SpatialGen一句话爆改空间设计
“杭州六小龙”之一的群核科技宣布开源3D场景生成模型SpatialGen,并即将开源空间语言模型SpatialLM 1.5。模型能通过文字描述或户型图生成可交互的3D室内空间设计,支持动态漫游和细节编辑,甚至可用于具身智能机器人的虚拟训练。
英伟达全新的机器人计算平台Jetson Thor正式发售
英伟达推出全新机器人计算平台Jetson Thor,基于Blackwell GPU架构,AI算力达2070 TFLOPS,比上一代提升7.5倍,能效提高3.5倍,配备128GB超大内存。该平台支持多种生成式AI框架,助力开发者构建与物理世界交互的机器人系统。
哈工大深圳具身智能黑马,拿下亿元级融资,东方精工领投
若愚科技宣布完成新一轮亿元级天使 + 轮融资,由东方精工领投,深圳汉清达投资发展有限公司跟投。本轮融资将用于具身智能机器人大脑在垂直场景的产业化落地。若愚科技孵化自哈尔滨工业大学(深圳),专注于具身智能机器人大脑研发,通过多模态大模型整合感知、规划与执行模块,构建高效智能交互体系。
钉钉CEO无招:为AI时代打造一个全新的钉钉
钉钉在十周年发布会上推出8.0版本,代号“蕨”,标志着其正式走向AI原生。AI方面,钉钉推出五大产品,包括钉钉ONE、DingTalk A1、AI听记、AI搜问和AI表格,全面升级语音智能、搜索和表格功能,同时在客服、营销、教育等场景中深度应用AI,提升效率与体验。
08月25·周一
6条会头脑风暴的 AI — 国内首个并行思考模型 问小白o4 来啦!
国内首个并行思考模型问小白o4上线。模型可同时开启8条思考路径,自动筛选最优解,大幅提升答案精准度。问小白o4采用第四代开源推理范式,融合强化学习与过程奖励学习机制,具备深度推理与高质量思考筛选能力。
Looki L1 国行版上市计划
Looki L1国行版计划于2025年第四季度上市。自全球上线以来,产品受到广泛关注,尤其在国内,众多用户表达了对它的喜爱与期待。目前,Looki L1 正在进行本地化部署与适配工作,以确保国内用户获得成熟、流畅且贴合本地使用习惯的体验。
打造“AI版Labubu”,深圳AI硬件创企跃然创新获2亿融资
国内AI玩具龙头企业跃然创新(Haivivi)宣布完成2亿元A轮融资,由中金资本旗下基金、红杉中国等领投。跃然创新成立于2021年,由前锤子手机营销总监李勇创办,打造AI玩具。2024年6月,推出全球首款AI玩具BubblePal,融合多语言对话、AI故事共创等功能,首月售出超万台,总销量突破20万台。
首款类人决策智能体Bloom,获高瓴光速数千万美元投资
前阿里云高管占超群创立的质变科技发布首款类人决策智能体Bloom。获得高瓴创投与光速光合数千万美元投资。Bloom解决复杂数据分析和决策场景中的准确性、可解释性和可用性问题,采用智能体团队协作、可解释性技术栈和端到端结果级交付等创新方式,推动AI成为更可靠的生产力工具。
马斯克开源Grok 2.5:中国公司才是xAI最大对手
马斯克宣布xAI开源Grok 2.5,Grok 3也将在半年后开源。Grok 2.5可在HuggingFace下载,包含42个文件,大小约500GB,需8个超40GB显存的GPU运行。模型曾在LMSYS排行榜上超越Claude和GPT-4,在多领域表现优异。开源协议较严格,仅限非商业用途。
Meta 与 Midjourney 达成美学技术授权合作
Meta与AI文生图片/视频研究团队Midjourney达成授权合作。Meta未来AI模型和产品将使用Midjourney的美学技术。Meta首席AI官Alexandr Wang在Threads上宣布了这一合作,称赞Midjourney在AI技术和美学表现上的成就。此次合作是Meta联合其他AI参与者实现优势互补的策略之一,也是其扩大AI技术资源储备的行动的一部分。
08月22·周五
4条阿里云和五所高校一起,共同打造了一门免费AI课程!
阿里云联合超星尔雅及北京大学、南京大学、复旦大学、上海交通大学、浙江大学五所高校名师,共同推出 AI 通识公益系列课程「动手学 AI:人工智能通识与实践」,将于 9 月 1 日正式开放。课程依托阿里云技术,采用“学 – 练 – 评 – 管”模式,分为理论课和在线实践课,涵盖 AI 发展历程、核心技术等内容,设置 8 个实验环节。
CodeBuddy IDE 国内版正式开放公测!无需邀请码
CodeBuddy IDE国内版正式开放公测,支持最新 DeepSeek V3.1 模型,无需邀请码即可免费使用。IDE 提供一站式开发体验,涵盖产品设计、研发编码和部署验证等功能。DeepSeek V3.1 在编程能力、Agent 能力、思考效率和长文本处理能力上均有显著提升,尤其在 Aider 编程基准测试中超越多个开源模型。
阿里巴巴推出 AI Agentic 编程工具:Qoder,预览阶段全功能免费开放
阿里巴巴推出AI编程工具Qoder,具备代码库语义搜索、架构洞察、持续记忆、动态模型路由等功能,支持自然语言任务委派与一键“维基化”代码库。预览阶段全功能免费开放。传统编程工具只是帮你“写代码”,Qoder 则像一个“读过你全部代码、记得你全部习惯、能跨系统替你干活”的资深同事。
钉钉联手通义推出Fun-ASR语音识别大模型,可听懂十大行业黑话
钉钉与通义实验室语音团队联合推出新一代语音识别大模型Fun-ASR。模型经过上亿小时音频数据训练,可精准识别家装、畜牧等十大行业的专业术语,实测在保险、家装等行业准确率提升 15%-20%。Fun-ASR 能结合企业信息优化转写结果,支持企业专属定制训练,已集成至钉钉会议字幕、智能纪要等功能模块。
08月21·周四
7条字节跳动Seed开源Seed-OSS-36B模型,512k上下文
字节跳动Seed团队开源了Seed-OSS系列模型,包含360亿参数的Base和Instruct版本,支持最长512k上下文窗口,是目前开源模型中最长的。模型使用12万亿tokens训练,在多个基准测试中表现优异,如AIME24上达91.7%。其推理预算功能允许用户灵活调整推理长度,提升效率。
轻量级易开发,8B参数释放大实力!科学多模态模型Intern-S1-mini开源
上海人工智能实验室推出轻量化科学多模态模型Intern-S1-mini。模型参数为8B,兼具通用与专业科学能力,适合快速部署和二次开发。Intern-S1-mini在多项权威基准测试中表现卓越,尤其在化学、材料等领域显著领先,强大的跨领域泛化能力。轻量化设计降低了对高端计算设备的依赖,仅需24GB单卡即可完成微调。
vivo首款MR头显vivo Vision,硬刚苹果,全球最轻,眼手交互,预约名额秒空
vivo正式发布首款MR头显——vivo Vision探索版,正式进军XR赛道。该头显重量仅398克,比苹果AirPods Max耳机还轻,搭载双目8K Micro-OLED屏幕,支持眼动追踪和手势交互,VST全彩透视延迟低至13ms。vivo Vision探索版支持PC VR无线连接、多窗口办公等功能。
前美团硬件负责人创业,做了一款项链式的“AI相机”:Looki L1
前美团硬件负责人孙洋创立的「光智时空Looki」发布首款多模态AI穿戴设备——Looki L1。这是一款仅重30克的AI生活相机,可磁吸或佩戴于脖子上,具备视觉和听觉感知能力,结合云端大模型为用户提供主动式服务。
金数据发布 Jiri AI表单助手,把想法变成专业表单
金数据推出名为Jiri的AI表单助手。Jiri能根据用户描述秒懂需求,自动生成表单字段组合,自动撰写专业文案,智能匹配高清头图,能根据用户反馈随时修改调整。用户可以通过一句话描述、粘贴内容、上传图片或链接等多种方式生成表单。
百度推出蒸汽机MuseSteamer 2.0版本
百度将推出蒸汽机MuseSteamer 2.0版本,包括Turbo、Lite、Pro和有声版全系模型,具备多人音视频一体化生成、复杂运镜、电影级人物表演等能力,将在影视创作、客户营销等多场景应用。官方应用平台为绘想,自7月2日上线以来,注册用户超30万。
腾讯开源ToonComposer:能生成一部完整的动画短片
腾讯 ARC 实验室联合北京大学、香港中文大学开源了ToonComposer。仅需 1 张关键帧草图和 1 张彩色参考图,能生成完整的上色动画,能通过文本、草图、图片混合输入,一键转换为多种卡通风格动画。
08月20·周三
4条ChatExcel获近千万天使轮融资,打造数据全链路商业闭环平台
ChatExcel团队宣布完成近千万天使轮融资,投资方为上海常垒资本和武汉东湖天使基金。ChatExcel由北京大学团队创立,是国内领先的生成式AI表格处理与数据智能体,累计服务用户超千万次。此次融资将用于加速产品研发迭代和全球化市场推广。
DeepSeek 开源新模型 V3.1,上下文长度拓展至 128K
DeepSeek宣布开源新基础模型DeepSeek-V3.1-Base。模型在Hugging Face发布后迅速冲上热门模型榜第4位。DeepSeek-V3.1-Base采用混合专家(MoE)架构,上下文长度拓展至128k,与V3版本参数量相同。
智谱AutoGLM上线:给每个手机都装上通用Agent
智谱AutoGLM 2.0正式上线,作为全球首个手机Agent,开创了Agent+云手机/云电脑的新技术范式,不占用用户本地设备资源,可在任何设备和场景下运行。AutoGLM 2.0由国产模型GLM-4.5和GLM-4.5V驱动,具备推理、代码与多模态能力,可完成多样化任务,如在生活场景中操作美团、京东等应用,或在办公场景中完成全流程工作。
Firecrawl融资1450万美元:AI爬虫独角兽盈利突围,百万美元悬赏“AI员工”
AI爬虫公司Firecrawl完成1450万美元A轮融资,由Nexus Venture Partners领投,Shopify首席执行官Tobias Lütke和Y Combinator跟投。Firecrawl为开发者和AI智能体提供开源网络爬虫工具,通过API提供商业支持版本。
08月19·周二
5条哪里不对改哪里!全能图像编辑模型Qwen-Image-Edit来啦
Qwen团队推出全能图像编辑模型Qwen-Image-Edit。模型基于20B参数的Qwen-Image模型进一步训练,具备语义与外观双重编辑能力,支持中英文双语文字精准编辑,可实现原创IP创作、视角转换、风格迁移、元素增删改等功能。
淘天集团发布首个 3D 动作游戏专用 VLA 模型
淘天集团未来生活实验室团队发布了首个3D动作游戏专用的视觉-语言-动作(VLA)模型CombatVLA,模型在动作角色扮演游戏的战斗任务中,成功率超越了人类玩家和GPT-4o。CombatVLA基于3B参数规模,通过动作追踪器收集的视频-动作对进行训练,采用渐进式学习范式,逐步从视频级到帧级优化动作生成。
AI 助手理想同学MindGPT 3.1来了,模型即Agent,就是现在!
理想汽车旗下AI助手理想同学MindGPT 3.1升级为端到端智能体模型,引入模型即Agent功能,将智能体能力融入大模型,支持边想边搜,提升推理能力。新版本通过自主思考、调用工具、进一步推理的循环机制优化复杂任务处理,显著提高任务完成率。
快手Klear-Reasoner登顶8B模型榜首,GPPO算法双效强化稳定性与探索能力!
快手 Klear 团队推出Klear-Reasoner语言大模型,在 8B 模型中登顶,数学与代码推理能力突出。模型基于 Qwen3-8B-Base 打造,采用 GPPO(Gradient-Preserving Clipping Policy Optimization)算法,有效平衡训练稳定性和探索能力。
淘宝灰度测试“AI 万能搜”新功能
淘宝正在灰度测试“AI 万能搜”新功能,功能位于淘宝 App 搜索页面,支持用户通过自然语言提问,AI 将生成包含文字、商品、图片和视频的“答案报告”,帮助解决购物攻略、口碑评测、优惠咨询等问题。
08月18·周一
5条逗逗AI 1.0发布:为了实现HER中的AI陪伴体验,我们做了三件事
逗逗AI1.0版本正式上线。打造“陪你游戏的AI伙伴”,通过无扰陪伴、实时感知和长效记忆三大创新功能,为用户提供深度陪伴体验。逗逗AI采用桌宠和悬浮球双模式,支持实时语音交互,具备视觉和听觉感知能力,能将多模态信息融合为场景记忆。
腾讯AI Lab团队推出的多模态音频生成工具AudioGenie
腾讯团队提出了一种全新的多智能体框架AudioGenie,用于从多模态输入(如视频、文本、图像)生成多样化且上下文对齐的音频类型(如音效、语音、音乐和歌曲)。采用双层架构,包含生成团队和监督团队。
智元机器人全系产品正式开售!领衔人机共生新时代
智元机器人宣布其全系产品正式开售,涵盖六大机器人产品线。精灵G1通用具身智能机器人售价45万元,具备高质量数据集和软硬件开发支持,适用于科研教育、数据采集和垂域场景训练。智元远征A2青春版售价16.8万元,具备文娱表演、展厅讲解等功能。
上交投资的首家语音大模型宇生月伴完成数千万元融资
情感语音交互模型初创公司宇生月伴完成新一轮融资,由靖亚资本和小苗朗程领投,上海交大母基金跟投。本轮融资将用于语音模型优化、产品矩阵拓展及国际化商业落地。
Anthropic为Claude赋予“结束聊天”能力
Anthropic宣布为Claude Opus 4及4.1版本推出新功能,模型可在极少数情况下主动结束对话。功能针对持续性有害或辱骂性互动,如用户索取可能导致大规模暴力或恐怖行动的信息。Anthropic强调,此举旨在保护AI模型本身,同时与模型对齐和安全措施相关。
08月15·周五
6条Mureka V7.5模型上线,AI音乐创作水平再迎新高度
昆仑万维正式上线Mureka V7.5模型。模型在中文歌曲创作上取得重大突破,提升了音色与演奏技法,优化了咬字和情感表现。通过ASR技术精准捕捉演唱细节,使AI演绎的歌曲更贴近真人演唱,显著增强了自然度和情感深度。
消费级显卡就能跑的世界模型来了,腾讯混元3D世界模型推出Lite版本
腾讯混元3D世界模型1.0推出Lite版本,大幅降低显存开销,支持消费级显卡运行。模型是业界首个开源可编辑的世界生成模型,用户可通过文本或图片输入生成可漫游的3D世界。Lite版本采用动态FP8量化、SageAttention量化及Cache算法优化,显存需求从26GB降至17GB以下,推理速度提升3倍以上。
会记住你说的每句话:谷歌 AI Gemini App 上线记忆功能
谷歌Gemini AI助手App新增“记忆”与“临时聊天”功能。开启“记忆”功能后,Gemini可记住用户对话内容及偏好,实现更自然的交流,目前该功能已向部分国家或地区的Gemini 2.5 Pro用户开放,将在未来几周内推广至欧盟、英国、瑞士等地区的Gemini 2.5 Flash用户。
Meta视觉基座DINOv3王者归来:自监督首次全面超越弱监督,商用开源
Meta推出并开源了DINOv3,基于自监督学习的SOTA级视觉基础模型。DINOv3在多个视觉任务中首次超越弱监督学习模型,训练数据量达17亿张图像,模型参数规模达70亿,创新的自监督学习技术摆脱了对标注数据的依赖,降低了训练成本。
智元推出首个机器人世界模型开源平台 Genie Envisioner
智元机器人推出行业首个机器人世界模型开源平台Genie Envisioner(GE)。GE基于约3000小时真实机器人操控视频数据,整合未来帧预测、策略学习与仿真评估,形成闭环架构,使机器人实现从“看”到“想”再到“动”的端到端推理与执行。
解锁任意模态模型训练,字节跳动Seed开源VeOmni框架
字节跳动Seed团队开源了全模态PyTorch原生训练框架VeOmni,推动全模态大模型的研究与应用。VeOmni采用以模型为中心的分布式训练方案,将复杂的分布式并行逻辑与模型计算解耦,大幅降低工程开销,提升训练效率和扩展性。
08月14·周四
2条混元最新开源:Hunyuan-GameCraft,一张图,秒变游戏大片
腾讯混元开源新工具Hunyuan-GameCraft,可将一张图片结合文字描述和动作指令生成高清动态游戏视频。工具基于 HunyuanVideo 底模,支持第一人称跑酷、第三人称探险等多种场景,具备自由流畅的动作控制、记忆增强的历史一致性以及低成本生产优势。
昆仑万维正式发布Skywork Deep Research Agent v2
昆仑万维发布Skywork Deep Research Agent v2,是天工超级智能体的核心引擎。新版本首次整合多模态检索、理解和生成能力,推出“多模态深度调研”Agent,可将图文信息完整整合到深度研究中,提升交付物质量。
08月13·周三
4条「Skywork UniPic 2.0」开源,统一多模态模型再迎新突破
昆仑万维正式开源「Skywork UniPic 2.0」模型,是面向统一多模态建模的高效训练和推理框架。模型由生图编辑、统一模型能力和生图编辑后训练三个核心模块组成,具备生成模块轻量高效、引入强化学习提升性能和一体化灵活切换等核心优势。
Anthropic宣布Claude Sonnet 4支持高达100万Token的上下文窗口
Anthropic宣布Claude Sonnet 4API支持高达100万Token的上下文窗口,容量是之前的5倍。开发者可在单次请求中处理大型代码库或数十篇研究论文。
OpenAI ChatGPT 更新:GPT-5 引入三种模式,4o 模型回归
OpenAI CEO 萨姆・奥尔特曼宣布ChatGPT重大更新。GPT-5 新增“自动”“快速”“思考”三种模式,用户可按需选择。“思考”模式每周限 3000 条消息,超限可用 mini 版,上下文限制为 196,000 个 token。4o 模型回归,付费用户可在网页设置中切换多款模型。
Perplexity想花345亿美元收购谷歌Chrome
美国AI搜索初创公司Perplexity计划以345亿美元全现金收购谷歌Chrome浏览器。收购动机在于AI搜索领域增长焦虑,传统浏览器仍是重要流量入口。Perplexity承诺若收购成功,将投资30亿美元维持Chrome开源并保留默认搜索引擎。
08月12·周二
6条Seele AI:全球首个端到端AI 3D游戏生成工具上线
Seele AI是全灵公司推出的全球首个端到端AI 3D游戏生成工具。用户可通过自然语言描述生成3D游戏,如FPS、飞行模拟等,实现零代码开发。工具支持多模态交互,涵盖文本、3D建模和物理引擎。Seele AI已开放全球公测。
全球多模态推理新标杆,GLM-4.5V正式上线并开源
智谱发布并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V,总参数106B,激活参数12B。模型基于智谱新一代文本基座模型GLM-4.5-Air,综合效果在41个公开视觉多模态榜单中达到SOTA水平,支持图像、视频、文档理解及GUI Agent等任务。
Vercel 推出全栈应用构建AI工具——v0.app
Vercel 推出全栈应用构建工具v0.app,可根据用户输入的文本提示,快速生成基于 React、Shadcn UI 和 Tailwind CSS 的网页用户界面代码,提供三种界面选择。用户能直接复制代码,可以对生成的 UI 进行微调和优化。目前处于免费内测阶段,可以访问官网加入等候名单。
昆仑万维发布「Matrix-Game 2.0」,国产开源的Genie 3来啦!
昆仑万维发布自研世界模型Matrix系列的升级版本「Matrix-Game 2.0」。实现通用场景下的交互式实时长序列生成,支持25 FPS速度生成连续视频内容,时长可达分钟级,具备高帧率、低延迟、强物理一致性和多场景泛化能力。与依赖文本语义的模型不同,「Matrix-Game 2.0」通过视觉驱动和物理规律学习构建虚拟世界,避免语义偏置。
达摩院开源具身智能“三大件” 机器人上下文协议首次开源
阿里达摩院宣布开源具身智能“三大件”:视觉 – 语言 – 动作模型RynnVLA-001-7B、世界理解模型RynnEC和机器人上下文协议RynnRCP。RynnVLA-001-7B可从第一人称视频中学习人类操作技能并迁移到机器人手臂操控;RynnEC能从多维度解析场景物体并精准定位;RynnRCP打通了从传感器数据采集到机器人动作执行的完整工作流,支持多款热门模型和机械臂。
昆仑万维开源Matrix-3D大模型,树立3D世界生成新标杆
昆仑万维开源了Matrix-3D大模型,用于3D世界的生成与探索。Matrix-3D是融合全景视频生成与三维重建的统一框架,能从单张图像生成高质量、轨迹一致的全景视频,还原可漫游的三维空间。模型具有场景全局一致、生成范围大、高度可控、泛化能力强和生成速度快等优势,支持文本和图像输入,生成的3D场景可自由探索。
08月11·周一
3条昆仑万维正式发布SkyReels-A3模型,让数字人“说话”的魔法
昆仑万维发布SkyReels-A3模型,是基于“DiT视频扩散模型+插帧模型+强化学习动作优化+运镜可控”的音频驱动人像视频生成模型。用户只需上传人像图片和音频,可生成自然同步的视频,支持照片“活”起来、创作新视频、改台词等功能。
百川开源大模型Baichuan-M2,医疗能力登顶世界第一
百川智能发布开源医疗增强大模型Baichuan-M2。该模型在HealthBench评测中以60.1分超越OpenAI的gpt-oss120b等众多开源模型,成为全球医疗能力最强的开源大模型。Baichuan-M2通过AI患者模拟器和端到端强化学习,实现了医疗场景的高度还原和模型性能的大幅提升。
Grok 4 现已免费开放,非订阅用户每天可限量使用
马斯克宣布AI模型Grok 4向所有用户免费开放,非订阅用户每天可限量使用。Grok 4号称“全球最强”AI模型,具备深度推理能力,经过xAI的Colossus超级计算机训练,逻辑推理和文本生成能力出色。
08月08·周五
1条GPT-5 正式发布!奥特曼:这是全球最好的模型
OpenAI正式发布GPT-5,CEO Sam Altman称其为全球最佳模型。GPT-5引入“智能路由”系统,能自动判断问题难度,快速或深度思考作答。全面取代并超越GPT-4等前代模型,免费用户即可使用。GPT-5 Pro(付费)则具备“扩展推理”能力,适合高难度问题。
08月07·周四
7条讯飞星火代码画布上线!「动嘴开发」的时代到了
科大讯飞推出星火代码画布,标志着“动嘴开发”时代的到来。工具通过语音指令、草图、链接或文字描述,快速生成交互网页。
MiniMax Speech 2.5上线:多语种表现力更强,音色复刻更“像”
MiniMax发布新一代语音生成模型Speech 2.5,再次刷新全球最强语音模型记录。Speech 2.5在多语种表现力、音色复刻和语种覆盖范围上实现三大突破。支持40种语言,中文表现全球最强,英文相似度显著提升,音色复刻精度行业领先,可跨语种保留口音和风格。
灵心巧手完成数亿元天使轮融资,蚂蚁集团领投
全球高自由度灵巧手领军企业灵心巧手完成数亿元天使轮融资,由蚂蚁集团领投,多家知名机构跟投,老股东红杉中国种子基金加注。本轮融资将用于技术储备提升和具身智能数据采集场建设,加速灵巧手落地应用。
通义千问推出Qwen-Flash,全员拥抱1 M上下文!
Qwen API 迎来重大更新,推出Qwen-Flash、Qwen3-Coder-Flash 两款新模型,升级了 Qwen-Plus。三款模型均支持 1M 超长上下文,理解力大幅提升。Qwen-Flash 以极速响应著称,适合轻快任务。
谷歌正式推出异步 AI 编程智能体工具 Jules
谷歌正式推出异步AI编程智能体工具Jules,由Gemini 2.5 Pro驱动。Jules支持集成GitHub,可克隆代码库至Google Cloud虚拟机,在GitHub仓库中异步处理任务,助力开发者提升效率。Jules定价分免费版(每日15任务,3并发)和付费版(Google AI Pro每月19.99美元,Ultra套餐124.99美元)。
Qwen3-4B超顶小模型更新登场!手机也能轻松跑!
Qwen3-4B-Instruct-2507 和 Qwen3-4B-Thinking-2507 两款小尺寸语言模型更新发布。Qwen3-4B-Instruct-2507 通用能力大幅提升,超越闭源的 GPT4.1-Nano,支持多语言长尾知识,上下文理解能力扩展至 256K。Qwen3-4B-Thinking-2507 推理能力显著增强,AIME25 测评获 81.3 分。
谷歌 Gemini AI 推出“引导式学习”功能
谷歌Gemini AI推出“引导式学习”功能,通过提问和逐步指导帮助用户理解问题,答案形式包括图片、视频和互动小测验等。促进学习而非简单提供答案,谷歌与教育专家合作确保其科学性。
08月06·周三
7条OpenAI首次推出开源语言模型——gpt-oss
OpenAI开源大模型gpt-oss,包含1200亿和200亿参数两种版本,支持Apache 2.0商业化。模型针对AI Agent进行特殊训练,支持函数调用、网络搜索等功能,可助力快速开发智能体。
小红书 hi lab 开源多模态大模型 dots.vlm1,效果接近闭源 SoTA 模型
小红书hi lab开源了多模态大模型dots.vlm1。模型基于12亿参数的NaViT视觉编码器和DeepSeek V3 LLM构建,具备强大的视觉感知和文本推理能力。视觉编码器从零训练,支持动态分辨率,引入纯视觉监督提升感知能力。
谷歌DeepMind推出通用世界模型Genie 3,首个可实时交互世界模型
谷歌DeepMind推出通用世界模型Genie 3,是首个可实时交互的世界模型。基于文本提示,Genie 3能以每秒24帧、720p分辨率生成长达数分钟的交互式3D环境,相比Genie 2的10到20秒有了显著提升。Genie 3在模拟世界物理特性、自然世界、动画和小说建模等方面表现出色,能突破时空限制生成内容。
Anthropic发布Claude Opus 4.1模型,全面超越OpenAI o3
Anthropic发布Claude Opus 4.1模型,Pro/Max/Team用户可在网页端使用,API也已开放。Claude Opus 4.1性能更强,价格不变。在Agent能力、高级编程、搜索和写作等方面全面提升,能准确处理长时程任务和复杂企业工作流程,完成上千步骤的长程编程任务。
谷歌Gemini上线 AI 生成故事书功能——Storybook
谷歌Gemini AI聊天机器人上线“Storybook”功能,可生成10页图文并茂的故事书。用户只需简单描述,能生成带插图的故事,Gemini能朗读内容。用户可定制故事风格,如黏土动画、动漫等,可上传图片,如孩子的画作,让Gemini以此编故事。
美国AI Agent营销平台Clay完成1亿美元C轮融资
美国AI营销平台Clay完成1亿美元C轮融资,投后估值达31亿美元。本轮融资由Alphabet旗下CapitalG领投,Meritech Capital Partners、红杉资本等参投。Clay成立于2017年,总部位于纽约,最初聚焦“让编程民主化”,后转型为AI营销工具,帮助销售和市场团队寻找潜在客户并推动转化。
ElevenLabs推出AI音乐生成工具:Eleven Music
ElevenLabs推出AI音乐生成工具Eleven Music,可根据文本提示快速生成高质量、定制化的音乐作品。用户通过自然语言描述调整歌曲风格、节奏、歌词等,支持逐段编辑,实现无缝过渡和精确情绪转换。
08月05·周二
4条告别文字乱码!全新文生图模型Qwen-Image来咯
通义千问团队开源了20B参数的文生图模型Qwen-Image。作为通义千问系列首个图像生成基础模型,Qwen-Image在复杂文本渲染和精确图像编辑方面表现出色,支持多行布局、段落级文本生成及细粒度细节呈现,英语或是中文,能实现高保真输出。
腾讯混元「AI播客」来了,ima、腾讯新闻都在用
腾讯混元正式发布AI播客功能,功能可将文本、网页、文档一键转化为自然流畅的双人对谈式音频,将晦涩难懂的内容转化为有逻辑、有节奏的对话。用户可通过主题描述、网页URL和文档上传三种模式输入内容,平均90秒即可完成转换。
京东战略领投!帕西尼4个月狂揽10亿元
帕西尼完成新一轮A系列融资,由京东战略领投,浦耀信晔等多家机构跟投,老股东持续加码,4个月内融资达10亿元人民币。帕西尼凭借高精度多维触觉感知技术及亿级全模态数据集,构建具身智能核心生态闭环,推进具身智能模型落地。
松延动力半年订单破亿,两年六轮融资狂飙突进
成立不足两年的松延动力近日完成数亿元A++轮融资,由金浦投资领投,北汽产投等跟投。是其今年上半年的第三轮融资,累计已达六轮。松延动力上半年斩获超2000台人形机器人订单,合同额破亿,成为国内第二家迈入“千台销量”门槛的公司。
08月04·周一
6条继续开源:腾讯混元 0.5B、1.8B、4B、7B模型发布
腾讯宣布开源四款小尺寸混元模型,参数分别为0.5B、1.8B、4B、7B,可在消费级显卡上运行,适用于低功耗场景,支持垂直领域低成本微调。这些模型在语言理解、数学、推理等领域表现优异,具备agent能力和超长上下文窗口(256k),可处理超长内容。
小米开源声音理解大模型 MiDashengLM-7B
小米开源了声音理解大模型MiDashengLM-7B。模型基于Xiaomi Dasheng音频编码器和Qwen2.5-Omni-7B解码器,采用创新训练策略,实现语音、环境声和音乐的统一理解,性能在22个公开评测集上刷新最佳成绩。
全球首个!纳米AI多智能体蜂群上线
360集团宣布纳米AI完成品牌焕新,升级为“多智能体蜂群”,成为全球首个迈入L4级别的智能体系统。实现了从“单兵作战”到“群体协同”的进化,突破以往智能体在跨领域复杂问题上的瓶颈。纳米AI独创的“蜂群协作框架”可让多个推理型智能体灵活拉群、多层嵌套、组队协作,完成超长复杂任务,如制作10分钟电影级大片仅需20分钟。
小红书推出首个社交大模型RedOne
小红书推出首个社交大模型RedOne。模型采用“继续预训练→监督微调→偏好优化”的三阶段训练策略,针对社交网络服务(SNS)领域的复杂数据特征和多元场景进行优化。
谷歌推出 Gemini 2.5 Deep Think 模型
谷歌推出Gemini 2.5 Deep Think,面向 Google AI Ultra 订阅者开放。模型基于在国际数学奥林匹克竞赛中获得金牌标准的版本改进,具备更快的推理速度和日常可用性,达到 2025 年 IMO 铜牌水平。Deep Think 通过并行思考技术,延长推理时间,生成多种想法并逐步优化,适用于复杂问题解决、科学发现、算法开发等场景。
昆仑万维发布并开源全新推理大模型 MindLink
昆仑万维推出并开源全新推理大模型Skywork MindLink,基于Qwen3-32B和Qwen2.5-72B后训练而成。模型采用新的推理范式Plan-based Reasoning,去掉了“think”标签,能根据任务难度自适应整合推理和非推理生成回复,降低推理成本且提升多轮对话能力。
08月01·周五
5条Manus 推出 Wide Research,支持上百个 Agents 同时工作
Manus AI 上线以来最大更新,推出Wide Research功能。功能支持用户一键开启大规模并行 Agent 协作,可同时启动多达100个 Agent 处理复杂任务。
Black Forest Labs开源新版Flux模型:FLUX.1 Krea dev
Flux开源模型新版本FLUX.1 Krea dev正式发布。模型由Black Forest Labs与krea_ai联合开发,专为照片级写实而生,具备业界领先的开源文本生成图像能力,图像质量卓越且真实感强,能有效避免常见的“AI感”和过度饱和纹理问题。
Kimi K2 高速版发布:kimi-k2-turbo-preview
kimi-k2-turbo-preview是 kimi-k2 的高速版,模型参数与 kimi-k2 一致,但输出速度由每秒 10 Tokens 提升至每秒 40 Tokens。目前限时 5 折特惠,9月1日恢复原价,折扣后的价格:模型每百万 tokens 输入价格(缓存命中)¥2.00,输入价格(缓存未命中)¥8.00,输出价格 ¥32.00。
阿里通义千问发布 Qwen3-Coder-Flash 编程模型
编程模型Qwen3-Coder-Flash正式发布。模型全称 Qwen3-Coder-30B-A3B-Instruct,性能出色,具备超强的 Agentic 能力,超越当前顶级开源模型,仅次于顶配版 Qwen3-Coder 和部分领先闭源模型。原生支持 256K tokens,可通过 YaRN 扩展至 1M tokens,能理解整个项目库代码,避免上下文断层。
字节跳动发布实验性扩散语言模型 Seed Diffusion
字节跳动Seed团队发布实验性扩散语言模型Seed Diffusion Preview。验证离散扩散技术作为下一代语言模型基础框架的可行性,通过两阶段扩散训练、约束顺序学习与强化高效并行解码等关键技术,实现了每秒2146 tokens的推理速度,相比同等规模的自回归模型提升5.4倍。
07月31·周四
6条通义千问推出全新推理模型 Qwen3-30B-A3B-Thinking-2507
Qwen3-30B-A3B模型迎来重大升级,新版本Qwen3-30B-A3B-Thinking-2507在推理能力、通用能力及上下文长度上显著提升。在数学和代码能力评测中超越Gemini2.5-Flash和Qwen3-235B-A22B,在写作、Agent能力、多轮对话等通用能力上也表现优异。新模型原生支持256K tokens,可扩展至1M tokens,思考长度增加,适合复杂推理任务。
Ollama发布桌面客户端,本地AI从此告别命令行
Ollama推出适用于macOS和Windows的桌面应用。应用支持下载并聊天模型,具备文件拖拽功能,可处理文本或PDF文件,能通过增加上下文长度处理大型文档(需更多内存)。新应用支持多模态功能,可向支持该功能的模型(如Google DeepMind的Gemma 3)发送图像。能处理代码文件以帮助理解文档。
零次方机器人再获两轮亿元级融资 加速具身基础模型突破与量产爬坡
零次方机器人宣布完成天使+轮和天使++轮亿元级融资,半年内已获三轮融资。资金将用于深化具身智能基础模型研发、加速量产交付以及生态布局。零次方已发布专项场景操作基础模型Zerith-V0和轮臂人形机器人Zerith-H1,成为国内首家实现超长序列多任务连贯操作的企业。
阿里巴巴旗下1688推出“1688 AI版”AI生意助手应用
阿里巴巴集团旗下1688在浙江省“平台+产业”AI对接会上推出“1688 AI版”App及多项AI产品。1688 AI版聚焦创业与拿货场景,集成AI搜索、选品、创款、图搜、查企等核心功能,覆盖商机发现到产品创新全链路。
阿里推出 AI 医学助手“氢离子”,收录千万级医学核心期刊文献
阿里健康发布 AI 医学助手“氢离子”。收录千万级医学核心期刊文献,支持权威指南查阅、AI 总结、全文翻译及智能问答,能查询疾病和药品信息。AI 研读功能可总结外文文献重点并标注出处。
京东健康推出 AI 情绪漫画生成应用“小星绪”
京东健康团队推出 AIGC 产品“小星绪”,用户可通过语音或文字输入情绪或讲述故事,AI 将生成个性化漫画及故事解读。帮助用户表达情绪、激发创意并构建社交关系链。
07月30·周三
6条拒绝代做作业:OpenAI 发布 ChatGPT Study 学习模式
OpenAI发布ChatGPT Study学习模式,面向教育领域,提供交互式提示、支架式回应、个性化教育和知识点检查等功能,深度解读难题解题思路,培养学生的批判性思维和自主学习能力。
RoboScience 完成近 2 亿元天使轮融资,京东领投
RoboScience宣布完成近2亿元天使轮融资,由京东领投,招商局创投、商汤国香资本跟投,老股东零一创投继续追投。RoboScience专注于具身智能技术,采用快慢脑分层端到端模型,自主研发仿真物理引擎和具身操作大模型,实现机器人操作的高精度和高泛化能力。
昆仑万维开源多模态统一预训练模型「Skywork UniPic」
昆仑万维推出并开源了多模态统一预训练模型Skywork UniPic。模型融合图像理解、文本生成图像和图像编辑三大核心能力,采用自回归路线,基于大规模高质量数据进行端到端预训练。1.5B参数规模实现轻量级与高性能的平衡,具备指令遵循、复杂指令生图和图像编辑的领先能力。
无影AgentBay来了!给AI智能体装上“超级大脑”
阿里云在上海世界人工智能大会上推出首款AI Agents“超级大脑”——无影AgentBay。是一款云端电脑,具备视觉理解、自然语言控制等AI技能,可在多系统间无缝切换,调用云端算力与资源,仅需三行代码即可接入。
豆包·图像编辑模型3.0上线火山方舟
豆包·图像编辑模型SeedEdit 3.0正式上线火山方舟。模型基于强大的文生图模型Seedream 3.0,支持高清图像生成与处理,可精准锁定编辑区域,实现人物姿态调整、文字修改、光影变换等功能,同时保留图像细节。
谷歌AI笔记应用NotebookLM,新增“视频概览”功能
谷歌宣布升级AI笔记应用NotebookLM,新增“视频概览”功能。功能可根据用户输入的主题自动创建带有旁白的幻灯片视频,从用户上传的图片、图表、引用和文档中提取数据以丰富内容。
07月29·周二
5条GLM-4.5发布:面向推理、代码与智能体的开源SOTA模型
智谱旗舰模型GLM-4.5重磅发布并开源,作为首款SOTA级原生智能体模型,国产综合评测第一,性能媲美全球最强旗舰模型。参数效率翻倍,API价格仅为Claude的1/10,速度最快可达100tokens/秒。率先在一个模型中实现多能力原生融合并取得重要技术突破——单个模型同时具备强大的推理、代码、智能体等能力,已上线智谱清言和Z.ai开放免费体验。
通义万相2.2开源!首创电影级美学控制系统
阿里正式开源通义万相Wan2.2,含文生、图生及统一视频三模型,首次在扩散模型中引入MoE架构,降耗50%,并首创电影级美学控制系统,光影色彩媲美专业片。小模型5B可在消费级显卡22G显存跑5秒720P视频,代码已上架GitHub、Hugging Face与魔搭。
阶跃 AI 有了一个研究小助手:阶跃深研
阶跃星辰推出了“阶跃深研”研究小助手,开启邀测。阶跃深研能在约十分钟内完成复杂问题的研究任务,生成深度、专业的研究报告,适用于金融、咨询、医疗、法律、政策与学术研究等多个领域。在红杉中国发布的xbench-DeepSearch评测中以70%的通过率位列第一,在OpenAI的BrowseComp基准测试中也达到行业领先水平。
微软为 Edge 浏览器引入 Copilot 模式,变为“AI 原生”浏览器
微软在 Edge 浏览器中推出实验性功能“Copilot 模式”,将其从传统网页浏览器转变为“AI 原生”浏览器。Copilot 被定位为用户的“浏览智能体”,能看懂所有打开的标签页,帮助总结、对比信息,甚至未来可预订行程、处理琐事。
Runway推出多任务视频生成与编辑模型——Aleph
Runway 近日宣布推出Runway Aleph,是多任务视频生成与编辑模型。Aleph 能对输入视频进行多种编辑操作,包括添加、移除和转换对象、生成任意角度的场景,以及修改风格和灯光等。
07月28·周一
7条腾讯正式发布混元3D世界模型 1.0,全面开源
腾讯在世界人工智能大会上正式发布并开源混元3D世界模型1.0。是业界首个开源的可沉浸漫游、可交互、可仿真的3D世界生成模型,融合全景视觉生成与分层3D重建技术,支持文字和图片输入,能在几分钟内生成高质量3D场景。
快手可灵 AI 发布全新创意工作台「灵动画布」
快手可灵 AI 发布全新创意工作台「灵动画布」和升级后的「多图参考」功能。「灵动画布」支持最多 5 人协同创作,素材共享且可实时联动;「多图参考」功能则大幅提升了 AI 视频生成中角色、主体和场景的一致性,解决了以往角色形象前后不一致、画风突变等痛点。
千问推出Qwen3升级版:Qwen3-235B-A22B-Thinking-2507
Qwen3-235B-A22B推理模型升级版本Qwen3-235B-A22B-Thinking-2507正式发布。版本在推理性能和通用能力上取得巨大飞跃,可比肩Gemini-2.5 Pro、O4-mini等顶尖闭源模型,创下全球开源模型SOTA最佳性能表现。
阶跃星辰发布新一代基模Step 3,推理效率创行业新高
阶跃星辰在上海发布新一代基础大模型Step 3。模型总参数量321B,激活参数量38B,采用MoE架构,具备强大的视觉感知和复杂推理能力,性能达到开源SOTA水平。Step 3在推理效率上实现行业领先,尤其在国产芯片上效率显著提升。
上海AI实验室开源发布『书生』科学多模态大模型Intern-S1
上海人工智能实验室在世界人工智能大会(WAIC 2025)上发布并开源了“书生”科学多模态大模型Intern-S1。模型是首个融合专业科学能力的开源通用模型,具备跨模态科学解析能力,可精准解读多种复杂科学模态数据,如化学分子式、蛋白质结构、地震波信号等,并在化学、材料、地球等多学科专业任务基准上超越顶尖闭源模型Grok-4。
商汤科技发布「悟能」具身智能平台,官宣入局具身智能
在世界人工智能大会(WAIC 2025)大模型论坛上,商汤科技发布「悟能」具身智能平台,正式入局具身智能领域。商汤凭借十年多模态技术积累和世界模型经验,推出日日新V6.5多模态推理大模型,其图文交错思维链显著提升了跨模态推理精度,性价比提升5倍。
扣子开源:扣子开发平台Coze Studio和扣子罗盘Coze Loop
Coze宣布开源两款核心产品:零代码开发平台Coze Studio和调试工具Coze Loop。扣子开发平台采用Apache 2.0开源协议,支持零代码开发,用户可通过拖拽组件快速搭建智能体工作流程。Coze Loop提供全生命周期管理工具链,涵盖开发、评测、观测和优化四大阶段,助力开发者高效调试和优化智能体。
07月25·周五
7条从灵感到网站,只要5分钟,扣子空间网页设计功能上线
扣子空间推出了一键生成网页设计的新功能。用户只需输入需求,即可快速生成现代、响应式的网站,支持自然语言编辑和上传设计稿复刻。功能适用于招聘网站、活动营销页面、机构主页、个人主页、生活网页和前端工具等多种场景。
讯飞星火X1升级版正式上线!
科大讯飞宣布其深度推理大模型讯飞星火X1升级版正式上线。此次升级实现了综合能力的大幅提升,对标OpenAI等一流大模型,在翻译、推理、文本生成、数学等方面保持领先。星火X1在幻觉治理方面取得显著进步,多语言能力覆盖130多种语种,为全球提供自主可控的大模型底座。
快手 AutoThink 大模型 KAT-V1 正式开源,40B 性能逼近 R1-0528
快手开源了KAT-V1自动思考大模型,包含40B和200B两个版本。40B版本性能追平DeepSeek-R1(6850亿参数),200B版本在多项基准测试中超越Qwen、DeepSeek和Llama等旗舰模型。KAT-V1通过长短思考混合训练范式、新型强化学习方法Step-SRPO等技术创新,实现了根据问题难度自动切换思考模式。
宇树科技发布双足人形机器人新品Unitree R1,售价3.99万元起
宇树科技发布双足人形机器人新品Unitree R1,售价3.99万元起,重量仅25千克。R1具备出色的运动控制能力,可下坡、翻跟头、倒立,支持开发与定制。
ChatGPT Agent 正式推送至所有 Plus、Pro 与团队用户
ChatGPT Agent功能现已正式向所有 Plus、Pro 与团队用户 推出。Agent 能在内置“虚拟电脑”环境中自主执行多步骤任务,包括上网浏览、填写表单、运行代码、生成表格与幻灯片等,用户通过对话中的“agent mode”菜单激活,可随时中断或确认 AI 操作。当前 Pro 用户每月可用 400 次,Plus 和团队用户为 40 次。
阿里云通义千问宣布 Qwen-MT 机器翻译模型:支持 92 种语言互译
基于Qwen3模型的机器翻译模型Qwen-MT正式发布。该模型支持92种语言互译,覆盖全球95%以上人口,具备高度可控性,提供术语干预、领域提示等功能。采用轻量级MoE架构,低延迟、低成本,API调用价格低至每百万输出token 2元。
Lovart 正式版上线,用 ChatCanvas 改写 AI 设计交互范式
AI 设计智能体Lovart正式版发布,推出全新交互系统 ChatCanvas,实现从“工具”到“设计伙伴”的升级,首次将“评论系统”用于 AI 交互,用户可直接在画布上点击、标注、对话式修改图像;支持多图联动、Frame 管理、评论追踪与复用,像用 Figma 那样精细控制设计流程。
07月24·周四
5条字节跳动 Seed 团队发布端到端同声传译模型 Seed LiveInterpret 2.0
字节跳动Seed团队推出了Seed LiveInterpret 2.0,是支持中英双向翻译的端到端同声传译模型。具备接近真人水平的翻译准确率和极低的延迟(仅3秒),能实时处理多人语音输入并进行“边听边说”翻译。零样本声音复刻功能可实时复刻说话人的音色,无需提前采集样本。
免费不限量,通义灵码已经全面支持 Qwen3-coder 模型
阿里云宣布开源其AI编程大模型Qwen3-Coder,全面接入AI编程产品“通义灵码”,向全球开发者免费提供不限量服务。
微软发布一键生成全栈应用工具——GitHub Spark
微软发布GitHub Spark,可将自然语言描述一键生成全栈应用并部署上线。GitHub Spark遵循微应用理念,支持多种功能,如交互式预览、自动历史记录、托管运行时环境等,深度集成GitHub平台。
像素绽放PixelBloom完成B3轮融资
像素绽放PixelBloom近日宣布完成B3轮战略融资,由国内领先国有产业投资平台亦庄国投领投,国科投资、英诺天使基金、水木清华校友种子基金及探路者创始人盛发强先生参与投资。融资将支持PixelBloom加速全球化布局,确立AiPPT.com在全球AI演示软件领域的领导地位,扩展其独特的AI Venture Studio模式。
加速进化宣布完成超亿元A+轮融资
加速进化宣布完成超亿元A+轮融资,由北京市机器人产业发展投资基金领投,北京市人工智能产业投资基金和博华资本跟投。专注于双足人形机器人研发,其产品Booster T1在2025年RoboCup机器人世界杯上助力清华火神队获得成人组冠军。
07月23·周三
6条通义千问 Qwen3-Coder 宣布开源:480B 参数、原生支持 256K 上下文
Qwen团队正式发布Qwen3-Coder,是迄今为止最具代理能力的代码模型。Qwen3-Coder-480B-A35B-Instruct是其最强大的版本,拥有480B参数激活35B参数,原生支持256K token上下文并可通过YaRN扩展到1M token,在Agentic Coding等任务上达到开源模型SOTA效果。
昆仑万维发布最新AI音乐模型——Mureka V7
昆仑万维发布AI音乐模型Mureka V7。模型通过核心技术MusiCoT(音乐思维链)实现了先规划整体音乐结构再生成细节的功能,解决了传统AI音乐模型“走一步看一步”的问题,生成的音乐作品更具连贯性和感染力。Mureka V7支持10种语言,可创作流行、摇滚等多种风格音乐,最长单曲时长5.5分钟。
讯飞星火X1将于7月25日全新升级!
科大讯飞宣布讯飞星火X1升级版将于7月25日正式上线。此次升级的核心亮点包括综合能力大幅提升,在数学、翻译、推理、文本生成等方面保持领先;幻觉治理显著进步,慢思考模式的幻觉治理准确率大幅领先;多语言能力全面扩展,支持130+语种。
阿里本周将发布首款自研AI眼镜,加入“百镜大战”
阿里巴巴将于本周发布首款自研AI眼镜,加入“百镜大战”。产品具备语音助手、音乐播放、电话通话、实时翻译等功能,整合了阿里巴巴生态内的地图、支付、购物等功能。硬件上,分为不带显示的AI智能眼镜和带显示的AI+AR智能眼镜,采用双芯片架构。
通用机器人模型GR-3发布!支持高泛化、长程任务、柔性物体双臂操作
字节跳动Seed团队发布通用机器人模型GR-3。模型具备高泛化能力、长程任务处理能力和柔性物体双臂操作能力,能理解抽象语言指令并快速适应新环境和新任务。GR-3采用Mixture-of-Transformers网络结构,融合了视觉、语言和动作信息,通过遥操作机器人数据、人类VR轨迹数据和大规模视觉语言数据联合训练,提升了泛化性和灵活性。
零一万物发布万智企业大模型一站式平台2.0
零一万物在北京发布万智企业大模型一站式平台2.0版本,并推出企业级Agent智能体,定位为“超级员工”。该Agent具备深度思考和任务规划能力,能访问手机和Web端,连接各类企业服务。
07月22·周二
5条字节跳动TRAE推出SOLO模式,从需求到交付“一站式完成”
字节跳动发布AI编程助手TRAE SOLO模式,主打全流程自动化开发体验。从需求输入到部署交付“一站式完成”,支持自然语言或语音输入需求,AI自动完成PRD撰写、代码生成、调试验证并直接上线。引入“实时跟随”功能,动态展示AI操作阶段,用户可随时切换AI主导与手动主导模式。
首款本地大模型办公本来了!讯飞智能办公本X5正式发布
科大讯飞发布全新旗舰级智能办公本X5。作为首款本地大模型办公本,具备离线AI能力,支持离线语音转写、多人识别、中英互译及会议纪要等功能,构建“全链路安全”体系。配备10.65英寸墨水屏,仅重355克,薄至4.6毫米,搭载6nm AI芯片和8核CPU,支持300PPI高清显示与GPU快刷技术,书写体验接近真实纸笔。
Qwen3深夜升级,全面告别混合思维模式
阿里通义千问推出Qwen3-235B-A22B-Instruct-2507-FP8版本,通用能力显著增强,涵盖指令遵循、逻辑推理、文本理解等多领域。在多项测评中超越Kimi-K2、DeepSeek-V3等顶级模型。新版本在多语言长尾知识、主观任务契合能力及长文本处理方面进步显著,上下文理解能力提升至256K。
腾讯推出全栈开发AI IDE——CodeBuddy IDE
腾讯推出CodeBuddy IDE的AI助手,专为零基础用户设计,助力无经验者轻松开发互联网产品。用户只需输入简单指令,工具可完成产品构想、设计、开发及调试等全流程操作。CodeBuddy IDE支持多种AI模型,内嵌Figma设计工具,可一键将设计稿转为代码,现已开启内测。
专为开发者设计的AI源码解读工具——Zread
Zread是帮助开发者快速掌握项目核心知识的AI工具,能一键生成清晰易懂的仓库Guide,快速梳理复杂代码,生成API文档和用户手册。支持多仓库对比学习,解读GitHub Trending热门项目,提供深度研究功能,助力开发者提升技能。
07月21·周一
5条千寻智能完成近6亿元PreA+轮融资,京东领投
具身智能领域头部企业千寻智能宣布完成近6亿元PreA+轮融资,由京东领投,中网投、浙江省科创母基金等知名机构跟投,老股东P7、顺为资本等超额追加投资。本轮融资由高鹄资本担任独家财务顾问。
Le Chat再一次升级,全方面对标ChatGPT
Mistral AI推出升级版Le Chat,全方位对标ChatGPT。Le Chat新增深度研究模式,可生成结构化研究报告;语音模式借助新发布的Voxtral模型实现语音输入;原生多语言推理功能提供更精准回答;项目管理功能可组织对话内容;高级图像编辑功能支持复杂图像修改。
宇树科技,开启上市辅导
中国证监会官网显示,宇树科技已正式开启上市辅导,中信证券担任辅导机构。辅导备案报告披露,宇树科技控股股东及实际控制人为王兴兴,直接持有公司23.8216%股权,通过上海宇翼企业管理咨询合伙企业(有限合伙)控制10.9414%股权,合计控制公司34.7630%股权。
「众擎机器人」连续完成Pre-A++与A1轮融资,京东领投
众擎机器人连续完成两轮融资,Pre-A++轮由星航资本投资,A1轮由京东领投,宁德时代旗下溥泉资本、银泰集团等参投,老股东中东资本等也参与增资。
逐际动力获京东战略领投,以IDS生态协同加速具身智能技术落地
具身智能机器人公司逐际动力LimX Dynamics宣布完成新一轮融资,由京东战略领投。逐际动力将推进全尺寸人形机器人量产与销售,深化具身大模型技术研发及IDS生态平台建设。其全尺寸人形机器人将于下半年公开销售,双足机器人TRON 1持续升级。
07月18·周五
4条OpenAI正式发布ChatGPT Agent!
OpenAI正式发布ChatGPT Agent功能。功能整合了Operator、Deep Research和ChatGPT本体,用户只需描述任务,Agent能自主调用工具,完成网页访问、信息提取、代码运行、PPT生成等操作,支持任务中断与修改。ChatGPT Agent支持手机端使用,可连接Gmail、GitHub等应用,深度嵌入工作流。
全球首个A股金融博弈智能体应用FinGenius开源
由00后团队创建的全球首个A股金融博弈智能体应用FinGenius在GitHub开源。项目在内测阶段吸引了4000+用户申请体验。FinGenius通过16个超级智能体分工协作,结合多智能体博弈机制,30秒内生成分析报告,解决传统金融工具信息加工过度、数据不真实、大模型局限性等问题。
Perplexity 向印度 3.6 亿用户免费赠送一年 Pro 服务
AI搜索企业Perplexity与印度第二大电信运营商Bharti Airtel达成独家合作,向其3.6亿用户免费提供原价200美元的12个月Perplexity Pro订阅服务。合作具有排他性,印度其他电信商不得提供Perplexity服务。
AI初创公司DecartAI发布全球首个实时视频生成模型MirageLSD
初创公司DecartAI发布全球首个视频直播模型MirageLSD,获Andrej Karpathy天使投资。模型可实时将摄像头画面转化为其他风格和内容,支持24FPS稳定运行,延迟低于40毫秒。通过英伟达CUDA Megakernels和抗漂移训练实现效率提升,能重塑观看体验、革新游戏世界、赋能内容创作者等。
07月17·周四
5条Kimi Playground: 一站式体验 Kimi K2 的工具调用能力
Kimi开放平台宣布正式上线Kimi Playground,为开发者提供一站式工具调用能力体验。平台支持直观的工具调用界面和便捷的调试体验,可快速选择不同工具并实时调整参数。
普林斯顿团队领衔发布最强开源数学定理证明模型:Goedel-Prover-V2
普林斯顿大学联合清华大学、北京大学等顶尖高校及英伟达等机构,发布了新一代开源数学定理证明模型Goedel-Prover-V2。32B旗舰模型在自动数学定理证明基准测试中大幅超越前代SOTA模型DeepSeek-Prover-V2-671B,8B小尺寸模型性能也与之持平。
无界方舟连续完成Pre-A & Pre-A+轮亿元级别融资
无界方舟(AutoArk)宣布连续完成Pre-A & Pre-A+轮亿元级融资。公司基于自研多模态大模型,打造AI应用的“超级感官”与“真大脑”。无界方舟的EVA多模态模型在性能上对标OpenAI的GPT-4o,具备高智商分析、真人般交互、全自动数据合成等优势,已实现商业化落地。
Mistral首个开源语音模型Voxtral,全面碾压Whisper
Mistral AI发布首个开源语音模型Voxtral,包含24B和3B参数规模版本,基于Apache 2.0许可证开源并提供API接口。Voxtral支持8大主流语言,可处理30分钟音频转录或40分钟语义理解任务,全面超越Whisper,在多语言基准测试中表现优异,语音翻译成绩占据榜首,语音理解能力追平GPT-4o-mini。
MiniMax Agent全栈开发能力“靠谱”上新
MiniMax Agent发布全栈开发功能,用户仅需一句话即可生成复杂全栈应用,无需编程基础。功能支持Supabase后端托管、Stripe支付、定时任务等,可快速开发演唱会选座系统、实时金融看板、出海独立站、企业数据看板等应用。
07月16·周三
9条观猹正式发布,打造AI产品的专业点评平台
由特工宇宙团队打造的AI产品点评社区「观猹」正式发布,用真实用户视角判断产品PMF。面向AI爱好者,观猹提供真实、可信的产品评分与交流社区。创作者可分享AI作品,获取反馈;创业者能冷启动项目,连接用户与投资人。
亚马逊推出Kiro AI编程工具,正式开放公测
亚马逊云科技宣布推出KiroAI编程工具,正式开放公测。Kiro是Agentic IDE,提供AI编码辅助,能帮助开发者从想法到上线的全过程。Specs可将模糊需求转化为具体用户故事和边界条件,Hooks能在代码提交前自动完成测试、文档更新和安全扫描等任务。
百度上线TizzyAI,主打无广告智能搜索
百度上线全新AI搜索App“Tizzy.ai”,定位为无广告的AI智能搜索助手。应用基于百度多个大模型能力开发,界面简洁,无弹窗和信息流推荐,仅设“搜索”和“资源库”两个核心入口。TizzyAI支持自动和深度搜索模式,能快速回答问题并提供深度分析。
Grok 推出交互式「数字伴侣」,基于Grok 4大模型
马斯克旗下GrokAPP推出基于Grok 4大模型的“智能伴侣”功能,付费用户可优先体验。功能提供动漫头像Ani、卡通小熊猫Rudy等3D形象,支持更换背景和动作。
ChatExcel·桌面版全新上线、AI提示词优化、常用提示词保存功能
ChatExcel桌面版全新上线,支持Mac和Windows平台,用户可直接在桌面处理Excel数据、生成图表等,无需浏览器。新增AI优化提示词功能,点击“魔术笔”可一键优化提示词内容,更规范、准确。上线常用提示词保存功能,方便用户在重复场景中快速使用。
华为携手云南交投发布“绿美通道·交通大模型”
云南省交通投资建设集团有限公司与华为、长安大学合作研发的“绿美通道·交通大模型”在昆明正式发布。模型历时两年研发,涵盖智算中心底座、高质量数据集、AI平台工具链、行业模型集及AI场景应用等成果。
OpenAI正在开发基于Chromium的AI浏览器——“Aura”
OpenAI正在开发一款基于Chromium的AI驱动浏览器,内部代号为“Aura”。浏览器将利用生成式和代理式AI能力,彻底改变用户的网络浏览体验。
百度AI助手全新功能「视频通话」上线!
百度AI助手推出全新功能「视频通话」。用户可通过百度APP进入「AI+」选择「视频通话」,开启与AI的视频互动。覆盖多种生活场景:可识别花草、解答难题;提供专业穿搭建议;解读宠物行为;倾听烦恼、提供慰藉。
LG 推出韩国首个混合推理 AI 模型 EXAONE 4.0
LG AI Research研究所推出韩国首个混合推理AI模型EXAONE 4.0。模型融合通用自然语言处理与高级推理能力,在数学、科学及编程等高难度领域表现优异,支持多语言并提供32B专业版和1.2B端侧版。
07月15·周二
6条TRAE 自定义模型新增 Kimi-K2,国际版支持Grok-4
TRAE自定义模型服务商宣布新增Kimi-K2模型,支持通过API Key接入,满足开发者对模型多样性和专业性的需求。TRAE国际版新增超级模型Grok-4(Beta),进一步丰富了模型阵容,支持全球主流大模型一站式调用。
秘塔AI搜索推出“深度研究”模块,动态展示研究过程
秘塔AI搜索宣布其“深度研究”模块正式上线。秘塔通过优化数据和算法,降低了算力成本,提升了准确率,在中文搜索上表现突出。秘塔版“深度研究”免费开放,增加了“问题链”功能,可动态展示研究过程,为复杂问题提供结构化报告。
华人团队Cognition收购Windsurf剩余团队
编程助手公司 Cognition 宣布收购编程初创公司Windsurf剩余员工和资产,获得其银行账户中超过 1 亿美元资金。此次收购后,Windsurf 将短期独立运营,继续开发其 AI 驱动的 IDE,Cognition 提供资金支持并计划将 Windsurf 的 IP 和功能集成到自身产品中。
ima 网页版正式上线,随时进入知识库
ima网页版正式上线,用户无需下载,打开浏览器即可使用。访问 ima.qq.com 并登录账号,可基于全网或知识库内容提问,能逛知识库广场、加入感兴趣的知识库。
MiniMax已基本完成近 3 亿美元新一轮融资
大模型公司MiniMax近期已完成近 3 亿美元新一轮融资,估值超 40 亿美元。本轮融资新增上海国资等出资方,成为今年 AI 六小虎中仅有的两家获得融资的公司之一。
智源全面开源RoboBrain 2.0与RoboOS 2.0:刷新10项评测基准
智源研究院发布RoboBrain 2.0和RoboOS 2.0,RoboBrain 2.0 是集感知、推理与规划于一体的通用具身大脑,32B 版本刷新多项权威评测基准,7B 版本适配边缘设备。RoboOS 2.0 是全球首个具身智能 SaaS 开源框架,集成 MCP 协议与无服务器架构,支持多机协作,推出单机版及技能商店。
07月14·周一
6条通义千问推出Qwen Chat桌面端,一键使用MCP
阿里巴巴旗下通义千问发布Qwen Chat桌面端,目前支持macOS端,支持多模型PK及MCP协议,可通过插件实时调用地图、搜索、本地文件等外部数据,实现更精准回答。
美图推出专注于影像与设计的AI智能体RoboNeo
美图公司正式推出专注于影像与设计的AI智能体RoboNeo,用户可通过自然语言交互轻松完成修图、设计和视频制作等任务。RoboNeo具备智能修图、AI设计生成、视频智能处理及多模态创作等多项功能
奥尔特曼宣布延期 OpenAI 首个开源权重 AI 模型
OpenAI CEO山姆·奥尔特曼7月12日宣布,再次推迟发布其首个开源权重AI模型,理由是需要更多时间进行安全测试及高风险内容审查,但未给出新的发布日期。该模型原计划下周亮相,已是年内第二次延期。
「汉阳科技Yarbo」近日完成超亿元B+轮融资
消费级扫雪机器人公司「汉阳科技Yarbo」完成逾亿元B+轮融资,由国科投资、中金资本、九阳创投联合注资。本轮资金将用于技术研发、供应链优化及北美、欧洲市场拓展,借助九阳SharkNinja渠道加速全球化布局。
OpenAI 收购 Windsurf 计划告吹,后者 CEO 及创始人已被谷歌招入麾下
OpenAI收购AI编码助手Windsurf的交易正式取消。谷歌迅速出手,Windsurf CEO Varun Mohan、联合创始人Douglas Chen及核心团队集体加入DeepMind,谷歌以约24亿美元获其技术非独家授权。原30亿美元收购价落空,Windsurf高层换血,业务由临时CEO接手。
CAMEL-AI与Gemini官宣合作,实现数据可视化和自动化
开源多智能体框架CAMEL-AI宣布与Google DeepMind合作,集成Gemini 2.5 Pro模型,推出OWL系统。用户只需一句自然语言指令,OWL即可自动完成搜索、提取、分析并生成可视化图表,支持在线数据、本地文件及浏览器操作。
07月11·周五
5条月之暗面Kimi正式发布k2模型,具备超强代码和 Agent 能力
月之暗面发布MoE架构基础模型k2,总参1T、激活32B,上下文128k tokens,支持ToolCalls、JSON/Partial/联网,无视觉。输入价¥1.00/1M tokens,输出¥4.00/1M,缓存命中¥16.00/1M,性能领先开源模型。
拍我AI(PixVerse)上线多关键帧生成功能,从“片段”迈向“故事性表达”
拍我AI(PixVerse)上线“多关键帧生成”功能,用户可上传最多7张图,在首尾帧模式下生成长达30秒的叙事视频,实现动作、场景及景别自然衔接,助力短剧、广告等高效创作。
欧盟公布最终版《通用人工智能行为准则》,8 月 2 日起正式实施
欧盟发布最终版《通用人工智能行为准则》,8月2日实施,涵盖安全、透明、版权三方面,由13位专家联合1000多利益方制定,企业可自愿签署以减轻负担,旧模型有2年调整期,新模型1年。
墨刀AI重磅上线:原型图,现在可以自动生成了!
墨刀AI上线全新原型生成能力,从灵感到可交付界面只需30秒,面向产品经理和设计师提供零门槛体验。支持文字/草图/截图转原型,自动识别布局与组件;多轮对话优化设计,像“聊天”一样改原型;自动生成产品文档与页面逻辑,规范输出流程。
微软发布 Phi-4-mini-flash-reasoning 端侧 AI 模型:10 倍吞吐量
微软发布Phi-4-mini-flash-reasoning端侧AI模型,采用SambaY架构与GMU组件,推理吞吐量提升10倍、延迟降至1/3,专注数学与逻辑推理,已上线Azure AI Foundry等平台。
07月10·周四
5条马斯克发布 Grok 4,处理学术问题达到博士级别
马斯克旗下xAI发布新一代大模型Grok 4,推理能力较前代提升10倍,在多项基准测试中超越现有模型,达到“博士后水平”。Grok 4支持工具调用、语音交互、多模态任务,并在ARC-AGI等高难度测试中刷新纪录。
办公小浣熊 · 桌面版全新上线!
商汤科技推出“办公小浣熊”桌面版,支持Windows和Mac平台,用户无需浏览器即可一键唤醒AI助手,实现任务拆解、数据分析、图表生成等办公功能。老用户可同步历史内容。
智谱Z.ai推出的实验性大模型GLM-Experimental
智谱AI推出全新实验模型GLM-Experimental,主打“AI Presentation”功能,可一键生成网页版PPT,支持多种风格与互动效果。用户只需输入简单Prompt,模型可自动生成内容、设计排版,实现弹幕、动画等高级效果。
Perplexity推出 AI 浏览器——Comet
Perplexity发布AI浏览器Comet,主打“从浏览到思考”,整合网页解释、任务执行等功能,成为用户的“思考伙伴”。Comet目前仅向高价订阅用户开放。
抖音快手前高管创业,上线AI图片工具 KIRA
由抖音、TikTok、快手前核心成员创立的 AI 图片生成工具KIRA正式亮相。产品由 ILLA Cloud 孵化,支持一键替换/移除背景、修补、画质增强、扩图等操作,并具备 AI 生成图片能力。创始团队包括曾任抖音 & TikTok 研发、快手孵化业务大前端负责人陈龙博,及抖音、快手多项战略项目设计负责人吴晓松。
07月09·周三
7条谷歌Veo 3逆天升级,照片秒变活人开口讲话!
谷歌AI视频生成模型Veo 3近日升级,用户只需上传一张照片,即可生成角色一致、配有音频的视频,实现“照片开口说话”。新功能支持多种运镜和风格,适用于广告、动漫等创作场景。
字节旗下小荷健康推出AI医疗助手——小荷AI医生
字节跳动推出首款AI医疗助手App“小荷AI医生”,提供健康咨询、报告解读、药品查询等服务,强调“先求证、再建议”的诊疗逻辑。用户可通过拍照上传报告或病灶图片,获取个性化分析和用药建议。
昆仑万维发布并开源 Skywork-R1V 3.0,刷新开源模型性能上限
昆仑万维正式开源多模态推理模型Skywork-R1V 3.0,模型在高考数学中取得142分,在多学科多模态评测MMMU中获得76分,刷新开源模型性能上限。Skywork-R1V 3.0通过强化学习策略提升跨模态推理能力。
具身智能星海图再获超 1 亿美元融资,美团龙珠、今日资本领投
具身智能公司星海图完成A4轮及A5轮融资,总额超1亿美元,由美团、美团龙珠、今日资本领投,老股东持续加码。公司专注于“整机+智能”战略,推出多款机器人平台及开发工具,服务全球开发者生态。
钉钉重磅发布全新“AI表格”
钉钉发布全新“AI表格”,将AI能力深度融入表格工具,支持智能数据分析、自动化流程和多模态内容生成。新增“表格即文档”功能,实现结构化数据与非结构化信息融合,提升协作效率。
Vidu Q1 参考生视频全球上线:重新定义叙事
AI视频模型Vidu Q1推出“参考生”功能,用户只需上传参考图,可快速生成高质量视频素材,省去传统分镜、拍摄和特效流程,大幅降低创作门槛和成本。
通义开源 HumanOmniV2 比你还懂“社交潜台词”!
通义大模型推出多模态推理模型HumanOmniV2,能更好理解人类社交潜台词。模型引入强制上下文总结机制,结合视觉、听觉和语言信息,提升对复杂意图的理解能力。通过多维度奖励机制和优化训练策略,HumanOmniV2在多个基准测试中表现优异。
07月08·周二
4条混元3D再升级,推出业界首个美术级3D生成大模型Hunyuan3D-PolyGen
腾讯混元3D宣布升级,推出业界首个美术级3D生成大模型Hunyuan3D-PolyGen。模型结合自研高压缩率表征BPT技术,可生成上万面复杂几何模型,布线精度高,细节丰富,支持三边面和四边面,满足不同专业需求。
它石智航完成1.22亿美元天使+轮融
具身智能公司它石智航(TARS)宣布完成1.22亿美元天使+轮融资,由美团战投领投,钧山投资、碧鸿投资、国汽投资、临港科创投、赛富投资基金、建发新兴投资跟投,老股东线性资本、襄禾资本持续加码。
强化学习新范式!元石提出“自反思生成范式”MetaStone-S1
元石科技发布新一代反思型生成式模型MetaStone-S1,采用“自反思生成范式”,融合Long-CoT强化学习与过程评分学习,实现深度推理与推理链路筛选能力统一。模型在多个基准测试中性能对标OpenAI o3-mini,具备更长思考长度与更低推理成本。
云深处科技完成近5亿元新融资 加速具身智能产业化布局
由浙大博导朱秋国创立的云深处科技宣布完成近5亿元融资,由达晨财智、国新基金等联合领投。本轮融资将用于四足机器人产线扩建、人形机器人技术研发及高端人才引进。
07月07·周一
6条通义网络智能体WebSailor开源,检索性能登顶开源榜单!
阿里云通义实验室开源网络智能体WebSailor。智能体具备强大的推理和检索能力,在智能体评测集BrowseComp上超越DeepSeek R1、Grok-3等模型,登顶开源网络智能体榜单。WebSailor通过创新的post-training方法和强化学习算法DUPO,大幅提升了复杂网页推理任务的表现。
字节跳动开源 AI IDE 工具核心组件 Trae-Agent
字节开源TRAE Agent在 SWE-bench Verified 排行榜上取得 75.2% 的求解率,位居第一。TRAE Agent 是基于大语言模型的智能助手,专为软件工程任务设计,能自主完成代码理解、问题复现、修复方案制定、高质量代码编写等任务。
星动纪元完成近5亿元A轮融资!通用具身技术突破驱动商业化落地
星动纪元宣布完成近5亿元A轮融资,由鼎晖VGC和海尔资本联合领投。公司成立于2023年,是清华大学唯一持股的具身智能企业,致力于打造通用智能体。目前,星动纪元已向全球科技巨头批量交付超200台产品,订单中50%以上来自海外客户,在工业物流、连锁零售等行业加速落地。
通义实验室开源首个音频生成模型 ThinkSound
通义实验室开源首个音频生成模型ThinkSound,专为打破“静音画面”局限而生。模型通过引入思维链(CoT)技术,让AI学会结构化推理画面与声音的关系,实现高保真、强同步的空间音频生成。基于2531.8小时高质量多模态数据训练,包含对象级和指令级样本,支持交互式编辑。
AIGC独角兽硅基智能完成D轮融资,数字人业务营收数亿
AIGC独角兽硅基智能完成数亿元D轮融资,投资方为嘉兴高新区产业基金。本轮资金将用于研发创新、技术落地及产品市场化。自2017年成立以来,硅基智能已完成10轮融资,投资方包括腾讯、红杉中国等。
TNG推出DeepSeek“野生版”R1T2:速度碾压官方,开源
德国AI公司TNG推出“DeepSeek R1T2”模型。基于DeepSeek R1、R1-0528和V3三大模型开发,采用专家组合(AoE)技术,速度比R1快20%,推理能力显著提升。与初代模型相比,R1T2的智力大幅提升,解决了token一致性缺陷,在无系统提示时也能提供自然对话体验。
07月04·周五
5条京东内测“宠TA”与“聊愈小宇宙”AI设计产品
京东APP悄然上线两款AI社交产品,“宠TA”和“聊愈小宇宙”。“宠TA”围绕宠物数字人提供陪聊、换装、问诊及一键购粮等闭环消费;“聊愈小宇宙”则通过情绪识别、回忆日历和社区交流,结合专业的心理咨询服务。
谷歌 Veo 3 AI文生视频模型正式向 Pro / Ultra 会员开放
谷歌Veo 3AI文生视频模型正式向Pro/Ultra会员开放。Pro会员每天可生成3段视频,Ultra会员生成数量未公布。Veo 3的“照片生成视频”功能即将上线。
昆仑万维再次开源奖励模型!Skywork-Reward-V2
昆仑万维开源第二代奖励模型Skywork-Reward-V2系列,共8个模型,参数规模从6亿到80亿不等。系列在七大主流奖励模型评测榜单中全面夺魁。
腾讯元宝支持一句话搜索图片、视频号内容
腾讯元宝推出新功能,支持用户通过“一句话搜索”匹配图片和视频号内容。用户开启“联网搜索”后,元宝可自动根据提问匹配图片与视频号,支持任意模型,不限“深度思考”是否开启。
OmniGen2重磅升级,统一图像生成再进化
智源研究院宣布OmniGen2图像生成模型重磅升级。OmniGen2采用分离式架构与双编码器策略,强化上下文理解与指令遵循能力,图像生成质量大幅提升。重构数据生成流程,解决开源数据集质量缺陷问题,引入图像生成反思机制,提升模型自我优化能力。
07月03·周四
3条智谱获上海国资10亿元战略融资
国产AI大模型企业智谱在开放平台产业生态大会上宣布获得上海国资10亿元战略投资,由浦东创投集团和张江集团完成首笔交割。同时,三方与上海仪电、浦发集团合作,共同建设AI新型基础设施。
星流 Agent上线!更适合中国设计师的一站式创意设计Agent
星流Agent正式上线,是专为中国设计师打造的一站式创意设计Agent。星流Agent延续了Lovart的全栈式智能设计能力,全面适配中文语义、东方美学和本地场景。用户只需输入一句话,能自动拆解任务、匹配风格、生成整套设计物料,支持多模态内容创作,涵盖图像、视频、3D等多种格式。
Perplexity Max 订阅上线,月费 200 美元
Perplexity推出高端订阅服务Perplexity Max,月费200美元(约合1433元人民币)。订阅用户可无限制访问电子表格和报告生成工具Labs,提前体验Comet浏览器等新功能,调用OpenAI的o3-pro和Claude Opus 4等先进AI模型。
07月02·周三
5条智谱发布并开源 GLM-4.1V-Thinking 系列视觉模型
智谱发布两项重要成果。一是开源新一代通用视觉语言模型GLM-4.1V-Thinking,10B级轻量版在多项权威评测中表现卓越,具备图像、视频、文档等多模态输入能力,支持复杂推理任务。二是上线MaaS“Agent应用空间”平台,启动Agent开拓者专项扶持计划,助力企业低门槛接入Agent能力,推动AI原生创业发展。
百度推出自研多模态大模型MuseSteamer和AI视频创作平台绘想
百度发布自研视频生成模型MuseSteamer及AI视频创作平台“绘想”。MuseSteamer是全球首个实现中文音视频一体化生成的模型,打破传统AIGC视频“先画面后配音”的流程,可实现画面、音效与人声台词协同创作。用户仅需上传一张图片即可生成专业级视频内容。
阿里云加码领投,智能体开发平台BetterYeah AI完成超亿元B轮融资
企业级AI智能体开发平台BetterYeah AI宣布完成超亿元人民币B轮融资,由阿里云领投、名川资本跟投。资金将用于新一代智能体产品研发。BetterYeah AI由钉钉创始团队成员创立,核心团队具备深厚的企业级产品基因。
北京中小学生 9 月起开设 AI 通识课
北京宣布从2025年秋季学期起,全市中小学将全面普及人工智能通识教育,每学年不少于8课时。课程将涵盖人工智能的基本概念、应用与技术、实现方法及伦理与社会等方面,并将评价结果纳入学生综合素质评价体系。
豆包「图像生成」超能创意2.0开启灰度测试
豆包超能创意 2.0 已在网页版和电脑版灰度测试,模型升级至豆包大模型 1.6 版本,接入 seedream 3.0、seededit 3.0 和 seedance 1.0 Pro 模型,分别提升图片生成、编辑和视频生成效果。
07月01·周二
4条Cursor 推出网页端和移动端 Agent,支持多任务并行
Cursor新推出的网页端和移动端 Agent 功能,用户可以在任何设备上通过浏览器访问 Cursor Agents,连接 GitHub 后即可使用。随时分配任务,Agent 后台自动运行并通知;支持多设备访问,满足不同场景需求;可分享工作链接,方便团队协作;支持多任务并行,提供多种解决方案。
通义千问推出语音合成模型Qwen-TTS,新增三种中文方言
Qwen-TTS发布了最新版本,新增支持生成北京话、上海话和四川话三种中文方言。语音合成模型使用超过300万小时语料库训练,合成效果自然且富有表现力,能自动调整韵律、节奏和情绪。
Meta宣布正式成立「超级智能实验室」11人豪华团队
Meta正式宣布成立「超级智能实验室」(Meta Superintelligence Labs,MSL)。实验室由Scale AI前CEO Alexandr Wang担任首席人工智能官并领导,同时挖角了来自OpenAI、Anthropic和谷歌DeepMind的11位顶尖人才。
ima.copilot更新,支持图文并茂回答
ima.copilot更新,支持图文并茂的回答。更新覆盖首页、知识库、侧边栏和笔记AI帮写等功能。用户可上传PDF、Word或PPT,ima能提炼重点并生成图文结合的内容。
← 使用左侧菜单导航至其他页面




京公网安备 京ICP备17006096号-3