追问weekly | 过去一周,AI领域有哪些新突破?Vol.64



█政策法规与新闻
权力游戏:阿布扎比250亿美元的美国AI革命赌局
Brainomix的1800万美元融资如何革新定义中风生存的关键时刻
为什么OpenAI的6亿美元代币模型揭示了AI的不舒服未来
谷歌的AI赌局:DOJ的Chrome困境与科技反垄断的未来
█大模型与基础建设
在 GPU 竞赛中如何低成本扩展 300B MoE 模型
大型语言模型中上下文增强学习的力量:综合分析
大型语言模型中的参数高效微调用于事实嵌入
大型推理模型能否在感知不确定性下进行类比推理?
AI芯片巨头如何在变幻莫测的基础上触摸星空
Gemma 3:谷歌的AI战略棋局——民主化权力的同时保持控制
█技术与研发
利用知识图谱和大型语言模型进行AI研究创意生成
通用聚变公司维多利亚风格反应堆如何可能重写我们的能源未来
微调大型语言模型用于报告摘要:监督和无监督方法
分层思考:HiRAG如何终于教会AI连接知识点
你的数字分身:第二自我与外包大脑的艺术
为什么你的提示工程"专业知识"可能只是一厢情愿的想法
深度学习优化技术:全面综述
AI的多任务奇迹:并行思考与行动革新智能体智能
数字大脑内部:UMM对AI认知的革命性方法
Sesame开源CSM-1B模型,让惊人逼真的AI语音技术走向大众
█应用与实践
Onyx计划如何以彻底透明的方式颠覆6亿美元企业搜索市场
Browser Use如何借助Manus的病毒式传播加速AI代理接管
奥林巴斯与Ziosoft的AI合作如何让手术室中的隐形变为可见
谷歌AI医生升级:当你的数字医生变得过于聪明
Niantic为何放弃精灵宝可梦GO,转向为AI绘制现实地图
平凡中的革命:微软将基础记事本转变为AI强大工具
█交叉与创新
NVIDIA与通用汽车的合作如何重塑汽车AI的未来
机器中的缪斯:OpenAI的小说创作AI引发文学界的灵魂探索Celestial AI 2.5亿美元融资,光子计算时代的黎明
毅力追求雄心壮志的理论模型
*如需定位对应内容,请使用微信的检索功能
(点击右上方三点,找到查找页面内容按钮)
政策法规与新闻
权力游戏:阿布扎比250亿美元的美国AI革命赌局
在一项大胆的战略举动中,阿布扎比的主权财富基金ADQ与美国的能源资本合伙公司(Energy Capital Partners,简称ECP)合作,推出了一项价值250亿美元的项目,旨在为美国迅速发展的数据中心行业提供动力。该50:50的合作伙伴关系于3月19日宣布,将主要在美国开发电力发电和能源基础设施,计划部署资本用于25吉瓦的项目——足以为大约1800万个美国家庭提供电力。
在这项巨额投资背后,隐藏着一个令人清醒的现实:人工智能的指数级增长威胁要超越美国过时的电网。虽然硅谷庆祝每一个新的AI突破,但很少有人面对推动这一数字革命的令人惊讶的电力需求。根据国际能源署的数据,数据中心的电力消耗在过去十年中已经增加了三倍,并可能在2028年之前再次翻倍或增加三倍。更令人担忧的是,美国能源部预测,数据中心可能会占据美国总电力的6.7%至12%——这与当前的4.4%相比是一个显著的增加。
这个挑战的规模在审视AI的电力足迹时变得清晰:ChatGPT每次查询的电力消耗是标准谷歌搜索的十倍。这一电力悖论代表了我们AI未来的隐性成本——一种需要立即并且大量的基础设施投资。
对于管理2250亿美元资产的ADQ来说,这一合作伙伴关系代表的远不止是一个有利可图的投资机会。正如ADQ的管理总监兼集团首席执行官穆罕默德·哈桑·阿尔苏韦迪(Mohamed Hassan Alsuwaidi)所述:“AI的加速和其社会采用为服务数据中心和超大规模计算的电力和基础设施需求提供了有吸引力的机会”。但在字里行间,我们可以看出阿布扎比更大的战略意图——在美国的AI生态系统中确立自己为关键参与者,同时将其经济多元化,摆脱对化石燃料的依赖。
https://www.sharecafe.com.au/2025/03/21/adq-and-energy-capital-partners-launch-us25bn-energy-venture-to-power-us-data-centres/
Brainomix的1800万美元融资如何革新定义中风生存的关键时刻
在医学AI领域发生了一项重大发展,来自牛津大学的Brainomix获得了1400万英镑(1800万美元)的C轮融资,以推进其用于中风和肺纤维化的AI驱动成像技术。该融资于2025年3月20日宣布,由现有投资者Parkwalk Advisors和Boehringer Ingelheim Venture Fund(BIVF)共同领投,新投资者Hostplus和LifeSci Capital也参与其中。这一投资使Brainomix的总融资达到4400万英镑(5700万美元),并为该公司在美国市场的激进扩张奠定了基础。
Brainomix的创新核心是一个看似简单却具有深远影响的概念:在中风护理的“黄金时刻”自动化脑部扫描的解读。他们的旗舰产品Brainomix 360 Stroke平台使用AI分析CT脑扫描,提供立即的客观评估,以帮助临床医生做出更快、更自信的治疗决策。英国国家卫生服务(NHS)26家医院的现实评估,涉及超过71,000名患者,显示使用Brainomix技术的医院将机械血栓切除术率提高了一倍,并且门诊到门诊的时间比未配备该技术的医院快了65分钟。这意味着接受机械血栓切除术(一种从大脑中吸出血栓并显著减少中风后残疾的程序)的患者增加了50%。
使Brainomix的技术真正革命性的不仅仅是其准确性,还有其对医疗保健的民主化影响。尽管中风治疗取得了巨大的进步,但高达80%的合格患者错过了治疗窗口——这并不是因为治疗不存在,而是因为许多医院缺乏快速解读复杂脑部成像的专门专业知识。Brainomix的首席执行官兼联合创始人、神经科学家米哈利斯·帕帕达基斯博士解释道,该系统旨在打破传统上限制获得救命治疗的障碍。在牛津大学的预临床中风实验室担任领导职务后,帕帕达基斯与教授阿拉斯泰尔·布坎(Alastair Buchan)一起开发了技术,布坎开发了全球使用的ASPECTS评分系统用于脑部CT扫描。他们建立的技术基本上将中风专家放在每个医院,无论其位置或资源如何。
https://www.bioworld.com/articles/717993-brainomix-raises-14m-for-ai-powered-imaging-solution-for-stroke-lung-fibrosis?v=preview
为什么OpenAI的6亿美元代币模型揭示了AI的不舒服未来
OpenAI为其开发者API发布的o1-pro模型,为人工智能定价设立了新的天花板。这一增强版推理模型的价格令人惊讶:每百万输入代币150美元,每百万输出代币600美元,不仅使其成为OpenAI最昂贵的产品,也可能是市场上最昂贵的主流AI模型。o1-pro将其计算能力扩展到愿意为OpenAI所描述的“使用更多计算资源来更深入思考”复杂问题的开发者。
令人惊讶的价格点揭示了关于高级AI的一个令人不舒服的真相:真正的推理在计算成本方面具有挑战我们对AI民主化假设的方式。虽然大多数AI讨论都关注可及性,但o1-pro的定价结构大胆地断言,一些计算能力将始终处于奢侈层次。OpenAI在其公告推文中坦率地表示,随着更多的计算资源,成本也会增加。这一定价策略暴露了所谓“推理代币”的巨大资源需求——模型在思考问题时采取的内部计算步骤,用户在最终输出中看不到,但仍然必须为其付费。
200,000个代币的上下文窗口和100,000个最大输出容量进一步强调了o1-pro并非为休闲应用而设计,而是为专门领域设计的,在这些领域中,精度和可靠性可以证明非凡的成本是合理的。这一发布代表的不仅仅是一个定价里程碑——它标志着AI的演进进入了不同的专业化层次。虽然语言模型在模式识别和生成方面表现出色,但像o1-pro这样的“推理模型”则专门为通过多个步骤进行系统化问题解决而分配计算资源。
OpenAI似乎正在针对拥有深厚资金的研究机构、科学组织和专门行业,这些领域的复杂问题解决能力可以证明巨大的投资。视觉能力、函数调用、结构化输出以及与Responses API的集成以创建自主代理的功能确认了这一战略重点,即专注于高复杂性、高价值应用。这使得o1-pro直接与其他专注于推理的模型竞争,包括DeepSeek的R1、Anthropic的Claude Sonnet 3.7和Google的Gemini 2.0,创造了AI市场中的一个独特的高端层次。
https://www.techrepublic.com/article/news-openai-o1-pro-api-price/
谷歌的AI赌局:DOJ的Chrome困境与科技反垄断的未来
在谷歌持续的反垄断事件中,美国司法部(DOJ)提出了修订后的计划,允许谷歌保留其在人工智能(AI)的投资,但仍要求其剥离Chrome浏览器。这一举动反映了DOJ在平衡市场竞争问题与认可AI在技术进步中的关键作用之间采取的细致入微的方法。
DOJ允许谷歌保留其现有的AI投资,包括在Anthropic公司的巨额股份。然而,谷歌必须在进行未来AI投资前通知反垄断执法机构,以便对拟议的交易进行审查。与此同时,DOJ继续推动谷歌出售其Chrome浏览器,理由是Chrome在强化谷歌在搜索引擎市场的主导地位方面发挥了作用。Chrome的默认设置将用户引导至谷歌搜索,从而限制了其他搜索引擎的竞争。
DOJ的行动是在联邦法官裁定谷歌非法维持在线搜索和广告市场垄断之后。拟议的补救措施旨在恢复竞争并防止反竞争行为。DOJ允许谷歌保留AI投资的决定反映了战略性的转变,承认限制AI投资在快速发展的领域中可能产生的意外后果。这种立场与DOJ对Chrome采取的更为激进的态度形成对比,DOJ认为Chrome是谷歌搜索垄断的关键组成部分。
https://uk.pcmag.com/ai/157038/doj-lets-google-keep-ai-investments-but-not-chrome
大模型与基础建设
在 GPU 竞赛中如何低成本扩展 300B MoE 模型
论文《每一次 FLOP 都重要:在非高端 GPU 上扩展 300B 规模的混合专家(MoE)LLM》由蚂蚁集团 AI@Ant Group 的 Ling 团队撰写,探讨了如何使用成本更低的硬件训练大规模混合专家(Mixture-of-Experts, MoE)模型,以替代昂贵的 AI 加速器。研究介绍了两种 MoE LLM:Ling-Lite(总参数量 16.8B,激活参数量 2.75B)和 Ling-Plus(总参数量 290B,激活参数量 28.8B)。
研究的主要贡献包括在低性能 GPU 上优化模型训练,提出了一种经济高效的方法,在有限硬件资源上训练大规模 MoE LLM,同时实现与业界领先模型相当的性能。相比使用高端硬件,研究方法节省了约 20% 的计算成本。此外,研究还提出了创新的技术方法,如异构训练基础设施、优化训练策略、改进异常处理、提高模型评估效率和增强工具使用能力。研究证明,在相同的计算预算下,MoE 比密集型模型计算效率高 3 倍。
传统观点认为,更贵的 GPU 等于更好的 AI。但 Ling 团队的研究表明,通过精准的训练策略优化,低成本 GPU 也能实现接近顶级 AI 加速器的性能。他们的关键策略包括异构训练基础设施、优化训练策略、健壮的异常处理与数据优化以及高效硬件利用。通过混合使用不同计算设备,最大化利用每一块计算资源的特性,异步训练技术让计算资源利用率提高 66.1%,高效调试工具降低 90% 内存占用,减少训练中的资源浪费。
https://arxiv.org/pdf/2503.05139
大型语言模型中上下文增强学习的力量:综合分析
这篇研究论文介绍并形式化了大型语言模型(LLMs)中一个称为"上下文增强学习"的新概念,研究了在训练期间在上下文中提供额外有用文本(而不对这些文本计算梯度)如何能够显著提高学习效率。该工作将传统基于梯度的学习与上下文学习能力桥接起来,揭示了关于我们如何训练和理解LLMs的重要理论和实践意义。
上下文增强学习代表着与标准监督微调方法的不同。在传统微调中,模型通过梯度更新直接从输入-输出对中学习。研究人员形式化了一种新范式,其中有用的上下文信息(他们称之为"课程文本")与训练样本一起提供,但不对这些额外材料计算自回归损失。这种方法反映了人类学习模式,我们在解决问题时参考教科书或示范,而不需要明确记忆这些资源。
作者通过开发一个称为"多级翻译"(MLT)的合成任务,创建了一个严格的框架来分析这种学习范式。这个任务涉及通过一系列定义连续语言对之间映射的短语手册进行语言间翻译。复杂度可以通过表示深度(d)和字母表大小(n)的参数来控制,从而允许系统性的实验和理论分析。
研究提出了三个基本问题:上下文增强学习是否比标准学习更强大,模型是否需要某些能力才能从这种方法中受益,以及这种技术是否可以安全地使用特权信息而不会冒数据泄露的风险。通过精心的实验设计和理论分析,论文解答了这些问题。
MLT任务代表了一个类似加密方法的多步推理问题。它涉及通过d个连续变换翻译序列,每个变换由一个将一个字母表的2元组映射到另一个字母表的短语手册定义。每个转换包括一个循环移位,然后应用适当的短语手册规则。这创建了一个双射映射,其中每个输出字符依赖于多个输入字符,使得仅从输入-输出对直接学习变得极其具有挑战性。
这种任务设计特别有价值,因为它创建了一个可控环境,可以精确测量上下文增强学习的益处。复杂度随深度呈指数级增长,使研究人员能够展示学习范式之间在样本效率上的显著差异。
作者使用Llama 3.2-3B模型进行了不同任务参数的实验(d=5,n=8或10)。他们的方法包括两个主要阶段:首先,他们通过在具有不同短语手册的随机翻译任务上进行微调,准备了一个"MLT(d,n)-ICL-capable"模型。这创建了一个能够理解和应用上下文中出现的短语手册规则的模型,作为后续实验的初始化点。其次,他们实施了具有几种课程策略的上下文增强学习。
实验结果揭示了几个重要发现,证明了上下文增强学习的力量:最显著的结果是样本效率的显著提高。通过上下文增强学习训练的模型(特别是使用退火丢弃策略)与标准监督微调相比,要达到相同的准确度水平,所需的训练样本减少了约10倍。随着任务复杂度的增加,这种效率差距变得更加明显。
https://arxiv.org/pdf/2503.01821
大型语言模型中的参数高效微调用于事实嵌入
研究论文《超越问答对:评估大型语言模型中的参数高效微调用于事实嵌入》对大型语言模型(LLM)通过参数高效微调(PEFT)技术进行适应的领域做出了重要贡献。该研究解决了如何在保持计算效率的同时有效地将特定领域知识嵌入到LLM中的关键问题。作者挑战了关于问答(QA)对在微调过程中普遍有效性的常见假设,并为优化领域适应策略提供了实证证据。
参数高效微调已成为一种实用方法,用于将预训练的LLM适应到特定领域或任务,而无需承担全模型重新训练的高昂计算成本。像低秩适应(LoRA)这样的PEFT技术因其效率和通过Azure、Google Cloud、AWS和Lamini等平台的易用性而在行业中得到广泛采用。然而,这些技术的日益普及导致了一种误解,即简单地积累大量QA对就足以进行有效的领域适应。
该研究采用多方面的方法来评估PEFT的有效性。研究人员开发了一个基于BERT的分类器,将QA对分为"事实性"和"概念性"类别。事实性问题需要特定信息检索,而概念性问题需要更广泛的理解。这种分类允许创建不同的微调数据集,以测试他们的假设:并非所有QA对对模型性能的贡献相等。
该研究比较了两种生成合成训练数据的方法:D-Naive和D-RAG。D-Naive是一种直接方法,LLM直接从文档中一次性生成QA对;D-RAG则使用D-Naive生成的问题上的检索增强生成,产生更具上下文丰富的答案。每个数据集包含20,000个QA对,其中1,000对保留用于测试目的。
研究人员使用LoRA微调了Llama-2 7B模型,并进行了精心优化的训练参数。训练配置包括每设备批量大小为8、四个步骤的梯度累积、用于内存效率的梯度检查点、初始学习率为2e-4的五个训练周期、混合精度(bfloat16)计算、带有块级模型更新过滤的AdamW优化器以及带有5%预热比率的余弦调度器。
为了评估性能,该研究使用了三个"监督"LLM(GPT-3.5 Turbo、Gemini 1.5 Pro和Prometheus 2 7B)来使用一致的评估标准对模型输出与真实答案进行评分。这种多评估器方法有助于减轻任何单一评分模型的潜在偏见。
该研究产生了几个重要发现,挑战了关于用于领域适应的PEFT的传统智慧。在所有评估器LLM中,在概念性数据集上微调的模型始终优于在事实性数据集上训练的模型。这表明概念理解比单纯的事实知识为领域适应提供了更强的基础。与最初的预期相反,D-Naive数据集比更复杂的D-RAG方法产生了更好的性能。研究人员将这一意外结果归因于D-RAG管道中的检索效率低下,向量数据库检索器经常无法识别最合适的文档。这突显了RAG系统中检索质量的关键重要性。
https://arxiv.org/pdf/2503.01131
大型推理模型能否在感知不确定性下进行类比推理?
这篇论文呈现了一项开创性的研究,探讨了当前最先进的大型推理模型(LRMs)在感知不确定性下进行类比推理的能力。该研究为我们提供了对当前AI推理系统的局限性以及改进的潜在途径的宝贵见解。
研究人员评估了两种最先进的LRMs——OpenAI的o3-mini和DeepSeek R1——在基于Raven进步矩阵(RPMs)的非语言类比推理任务上的表现。RPMs被广泛用于评估人类流体智力,最近也被用于评估机器的类比推理能力。研究的核心问题是:这些模型在面临不确定或不完善的感知输入时,是否能够保持其推理能力,这更好地反映了现实世界的推理场景。
传统的AI推理评估假设输入是完美的、无噪声的。这篇论文挑战了这一假设,通过使用I-RAVEN数据集及其更具挑战性的扩展I-RAVEN-X,引入干扰属性和平滑输入属性的分布,创建了一个更现实的测试环境,模拟了AI系统在现实世界中如何推理,现实世界中感知永远不完美。
研究人员基于I-RAVEN数据集,扩展了I-RAVEN-X以测试生产力、系统性、对干扰因素的鲁棒性和对非退化值分布的鲁棒性。他们评估了OpenAI的o3-mini、DeepSeek R1和ARLC(一种神经符号概率推理模型)在这些任务上的表现。
研究人员引入了基于熵的置信度指标,以提高神经符号模型在不确定性下推理的性能。该指标根据每个属性的置信度熵重新加权每个属性对损失和得分的贡献。
关键发现和结果显示,LRM在干净数据上的性能优于传统的大型语言模型(LLMs),但在不确定性下的性能显著下降。神经符号模型ARLC即使在最具挑战性的设置中也保持了较高的准确率,并且提出的基于熵的置信度指标显著提高了ARLC的鲁棒性。
https://arxiv.org/pdf/2503.11207
AI芯片巨头如何在变幻莫测的基础上触摸星空
在NVIDIA的GTC 2025大会上,CEO黄仁勋宣布了下一代GPU架构将以发现暗物质的天文学家"Vera Rubin"命名,这不仅象征着公司在AI基础设施领域的宏大抱负,也暗示了正在重塑科技格局的无形力量。NVIDIA的公告读起来像是一本计算力量的科学教科书,公司揭晓了Blackwell Ultra的计划,这是其当前旗舰AI芯片的增强版,计算能力提升1.5倍,内存容量增加1.5倍,带宽是原始Blackwell的两倍。预计今年晚些时候投产的Blackwell Ultra之后,将于2026年下半年推出Vera Rubin,承诺其性能是Blackwell Ultra的3.3倍。路线图还延伸到2027年底的Rubin Ultra,NVIDIA声称其性能将达到Blackwell Ultra的惊人14倍。
这种节奏——每年发布一款新旗舰芯片,中间穿插Ultra版本——代表了NVIDIA迄今为止最激进的产品战略。正如黄仁勋所言:"计算的每一层都被生成式AI的到来所改变"。言外之意很明确:计算需求不仅没有放缓,而且正以超出先前预测的速度加速增长。这些公告中最引人注目的特点不仅仅是原始性能数据,还有NVIDIA正在围绕它们构建的综合生态系统。该公司正在构建所谓的"AI工厂"——芯片、网络和软件的集成系统,旨在实现下一波专注于推理和代理能力的AI应用。Blackwell Ultra AI工厂将72个Blackwell Ultra GPU和36个基于Arm Neoverse的NVIDIA Grace CPU组合成机架级系统,作为单个庞大的AI处理器工作。
也许最重要的公告不是硬件,而是软件。NVIDIA推出了"Dynamo",被描述为AI工厂概念的"操作系统"。这款开源推理软件取代了NVIDIA Triton推理服务器,旨在根据生成令牌的成本衡量最大化收益。商业影响意义深远。通过优化令牌生成经济学,NVIDIA将自己定位为不仅是芯片销售商,还是最大化AI商业模式的合作伙伴。Perplexity AI的CTO Denis Yarats也承认了这一点,他指出:"为了每月处理数亿次请求,我们依靠NVIDIA GPU和推理软件来提供业务和用户所需的性能、可靠性和规模"。
NVIDIA扩张野心的另一个迹象是公司推出了GROOT N1,这是一个用于机器人领域生成式AI的基础模型。这一公告特别有趣的地方在于,它从去年的工业焦点转向了不同形态的人形机器人。这一举措表明NVIDIA将机器人技术视为AI应用的下一个前沿——将智能从数字领域带入物理世界。黄仁勋的自信在整个活动中表露无遗。"物理AI时代已经到来,"他宣称,将NVIDIA的工作定位为跨行业的变革力量。然而,在这种自信背后,是对NVIDIA面临日益激烈的竞争和市场不确定性的认识。
https://www.searchenginejournal.com/google-expands-ai-overviews-more-health-queries/542415/
Gemma 3:谷歌的AI战略棋局——民主化权力的同时保持控制
谷歌正式发布了Gemma 3,这是其最新的开源AI模型系列,旨在在单加速器系统上提供最先进的性能。这一第三代产品代表了可访问AI技术的重大进步,谷歌大胆宣称它是"世界上最好的单加速器模型",在使用单个GPU而非需要多个处理单元或整个集群的情况下,其性能超过了来自Meta、DeepSeek和OpenAI的竞争对手。
Gemma 3推出了四种不同规模的版本(1B、4B、12B和27B参数),允许开发者根据特定的硬件限制和性能需求选择适当的配置。最小的模型在低精度设置下可以使用不到1GB的内存运行,而较大的27B变体即使在压缩的4位精度下仍需要20-30GB的内存。与前代产品相比,最显著的改进包括大幅扩展的上下文窗口——从Gemma 2的8,000个标记跃升至令人印象深刻的128,000个标记——使模型能够处理和理解整篇学术论文或书籍等大量信息。此外,Gemma 3引入了Gemma 2所缺乏的多模态能力,使其不仅能分析文本,还能分析图像和短视频。对于全球部署而言,也许最重要的是,Gemma 3开箱即支持超过35种语言,并为总共超过140种语言提供预训练能力,大大扩展了其前身仅限英语的局限性。
谷歌发布Gemma 3代表了在日益竞争激烈的AI领域中的一步精心计算的棋子。通过强调单加速器性能,谷歌正在瞄准强大但资源密集型模型与更易获取但功能有限的AI选项之间的关键市场缺口。根据性能指标,Gemma 3 27B在Chatbot Arena Elo评分评估中仅次于DeepSeek-R1,这种评估衡量的是用户偏好。这一发布的时机特别有趣——正值DeepSeek等竞争对手模型和类似技术展示出对能在更为适中的硬件配置上运行的AI解决方案的市场需求日益增长之际。谷歌似乎正在承认,虽然AI能力的最前沿可能属于Gemini 2.0等大型模型(具有200万标记的上下文窗口),但实际应用需要的是不需要数据中心资源的模型。
https://www.extremetech.com/computing/google-announces-gemma-3-worlds-best-single-accelerator-model
技术与研发
利用知识图谱和大型语言模型进行AI研究创意生成
上海交通大学的研究论文介绍了AI想法图谱(GoAI),这是一个创新框架,结合知识图谱和大型语言模型来生成创新性AI研究想法。该论文解决了AI研究中的一个重大挑战:科学文献的海量数量和复杂的引文关系使研究人员难以快速识别有意义的研究趋势并产生新颖想法。虽然大型语言模型(LLMs)在自动化想法生成方面显示出前景,但现有方法存在关键局限性:它们未能充分捕捉论文之间引用关系中嵌入的语义信息,通常使用简单的线性结构来表示研究趋势,并且缺乏评估生成想法的客观评价机制。
GoAI的核心创新是将研究论文及其关系表示为结构化知识图谱,其中实体是单个研究论文,关系捕捉引用的语义含义及其基于论文中位置的重要性。这种组织反映了研究领域中思想的实际进展,而不仅仅是简单的连接。该框架为引用关系定义了五个语义类别:基于和扩展(B&E)、支持和补充(S&S)、对比和替代(C&A)、质疑和反驳(Q&A)、简单提及或不相关(M/I)。
论文引入了一个基于LLM的代理,与知识图谱协作来使用集束搜索动态探索多个发展路径,基于图遍历分析研究趋势,并生成基于探索路径的新颖研究想法。GoAI-CoT-Reviewer,一个结构化思考评估模型,通过三阶段过程(总结、分析和评分)评估生成想法的新颖性,并在ICLR和NeurIPS等会议的公开评审意见上进行监督微调,模仿人类评审过程的清晰推理步骤。
GoAI框架通过四个主要阶段运作:文献搜索和过滤、GoAI图谱构建、通过图谱探索生成想法、新颖性评估。实验结果表明,GoAI在多个维度上优于其他自动方法,尤其是在新颖性和重要性方面。结构化思考方法与人类评估的相关性显著高于直接生成或多轮对话。案例研究分析显示,GoAI检索到与主题更密切相关的论文,并生成与论文路径更好对齐的想法。该系统即使使用成本效益高的LLM实现(GLM-4-Flash API)也展示了强健性能。
https://arxiv.org/pdf/2503.08549
通用聚变公司维多利亚风格反应堆如何可能重写我们的能源未来
在一个由激光和超导磁体主导的领域,通用聚变公司(General Fusion)采用了一种令人耳目一新的不同方法来解决人类能源危机。这家加拿大公司于2025年3月11日宣布,已成功在其原型反应堆Lawson Machine 26(LM26)内创造出等离子体。这一里程碑标志着为期93周的探索开始,旨在证明其独特的"蒸汽朋克"核聚变能源方法——使用蒸汽驱动活塞而非尖端激光——仍是清洁、无限能源竞赛中的有力竞争者。
通用聚变公司的磁化靶核聚变(MTF)技术在核聚变领域代表了一种引人入胜的混合体。当竞争对手专注于磁约束(长时间保持等离子体稳定)或惯性约束(用激光快速压缩燃料)时,通用聚变公司以一种让人联想起维多利亚时代工业机械的方式结合了两者的元素。他们的方法在旋转液态金属中创建球形腔体,注入氘-氚燃料的等离子体,然后使用机械驱动的活塞压缩这种等离子体直到达到核聚变条件。这种方法理论上提供了显著优势——潜在地消除了对昂贵超导磁体或复杂激光阵列的需求,这些因素使其他核聚变方法成本高昂。
新投入运营的LM26代表了超过20年开发和4.4亿美元资金的顶点。它仅用16个月建成,旨在达到1000万摄氏度温度,然后是1亿摄氏度,最终在2026年达到科学意义上的能量收支平衡——商业可行性道路上的关键里程碑。
创始人兼首席科学官Michel Laberge博士流露出特有的热情:"我们已经建造了24个等离子体注入器,创造了超过20万个等离子体,并从等离子体压缩中产生了聚变中子。我们准备在LM26中实现一些核聚变!"他的信心源于早期实验中令人印象深刻的初步结果,这些实验实现了每秒超过6亿的中子产量。
https://techcrunch.com/2025/03/11/general-fusion-fires-up-its-newest-steampunk-fusion-reactor/
微调大型语言模型用于报告摘要:监督和无监督方法
卡内基梅隆大学软件工程研究所的这项研究对自然语言处理领域做出了重要贡献,研究了微调大型语言模型(LLMs)用于报告摘要的实用方法,特别是在政府和敏感环境中的应用。该研究探讨了在计算资源有限且缺乏标准参考摘要的情况下的挑战,同时提供了关于评估方法的宝贵见解。
研究人员解决了在现实世界约束条件下使用LLMs总结政府档案、新闻和情报报告的挑战。他们的工作解答了两个主要研究问题:在计算资源有限的情况下,微调LLMs以改善摘要是否可行,以及在没有参考摘要的情况下,哪些指标能有效评估摘要质量。这种实用方法区别于大多数假设拥有强大计算能力或参考摘要的现有文献。
政府文件的摘要是NLP技术的关键应用领域。相关研究指出,政府采购通知、法律判决和其他官方文件通常冗长、复杂且难以手动处理。这类信息的数量为政府机构和寻求理解官方通信的公民创造了信息处理瓶颈。先前研究已证明LLMs在总结各类文档方面的潜力,从医疗记录到法律文本。然而,大多数研究都集中在有参考摘要的领域,或者利用了并非所有组织都能获得的大规模计算资源。
研究人员开发了全面的方法,解决了微调过程和评估挑战。研究团队通过国家档案馆(NARA) API下载基于文本的数据,对PDF和图像文档进行OCR处理,并通过过滤清洗数据创建训练和测试集。此外,他们还使用了两个带有参考摘要的新闻数据集进行比较分析。
研究人员实施了两种不同的微调策略:知识微调(KFT)和格式微调(FFT)。KFT在NARA数据集上使用因果语言建模微调Llama 7B模型,以提高对政府文档上下文、词汇和语法的理解。FFT使用序列到序列建模在新闻数据集上微调Google T5 Small模型,以参考摘要作为标签。两种方法都采用了优化技术,使微调能在有限硬件上进行。
研究人员开发了全面的评估框架,包括传统指标、新型指标和人工评估。这种多方面的评估方法是一项重大贡献,尤其是在没有参考摘要的情况下,这在许多实际政府应用中很常见。
研究得出了几项关于微调LLMs用于摘要的重要发现。KFT将无效摘要从36%显著减少到15%,证明了即使在无监督方法中,领域适应也很有价值。FFT在多个指标上持续改善摘要质量。研究人员发现两种微调方法服务于不同目的:KFT主要提高了处理嘈杂、经OCR处理的政府文档时的稳健性,而FFT持续提高摘要质量,但需要参考摘要。
https://arxiv.org/pdf/2503.10676
分层思考:HiRAG如何终于教会AI连接知识点
本研究论文介绍了HiRAG,一个创新框架,通过融入层次化知识结构增强了检索增强生成(RAG)系统。该工作解决了现有RAG方法的基本限制,并提出了在各个领域显著提高性能的新解决方案。
检索增强生成(RAG)已成为大型语言模型(LLM)的关键增强技术,特别是在特定领域和知识密集型任务中。虽然现有RAG方法已显示出前景,但作者确定了两个限制其有效性的重大挑战。首先,语义相似实体之间的远距离结构关系限制了有效的知识检索。其次,现有方法难以弥合实体特定细节(局部知识)和更广泛的社区级摘要(全局知识)之间的断开,导致推理不连贯。这些挑战源于传统RAG系统中知识表示和检索过程的局限性。作者提出HiRAG通过层次化方法处理知识索引和检索过程,以解决这些问题。
HiRAG框架由两个协同工作以增强RAG性能的主要模块组成:用于层次化知识索引的HiIndex和用于多层次知识检索的HiRetrieval。HiIndex模块引入了一种新颖的知识表示方法,通过构建具有不同知识粒度层次的层次化知识图谱。该过程包括基础知识图谱构建、层次化层构建和社区检测。层次化结构提供了双重连接增强:通过低层连接的结构凝聚力和通过高层抽象的语义桥接。这使得语义相似的实体即使在基础知识图谱中位置相距较远也能连接起来。
https://arxiv.org/pdf/2503.10150
你的数字分身:第二自我与外包大脑的艺术
本报告对研究论文《AI原生记忆2.0:第二自我》进行了深入分析,该论文介绍了一种使用大型语言模型(LLMs)进行记忆管理的新方法。该论文代表了个性化AI作为人类记忆延伸的重要进步。
"AI原生记忆2.0:第二自我"的基本前提围绕着通过个人记忆交换重新构想人类如何与数字系统交互。作者识别出当前人机交互中的一个关键低效问题:用户必须在不同环境中重复提供相同信息,导致认知疲劳和交互中断。虽然现有的解决方案如浏览器存储的凭证和自动填充机制提供了一些缓解,但它们仅作为缺乏上下文推理和适应性的静态存储库。第二自我通过作为一个智能的、持久的记忆卸载系统,动态利用用户特定知识,超越了这些限制。研究者将第二自我设想为一个上下文提供者,它连接用户、AI代理和更广泛的信息世界,促进无缝交互,显著减少认知负担和交互摩擦。
第二自我建立在大型个人模型(LPM)1.0的基础上,该模型确立了AI原生记忆对人工通用智能(AGI)进步的必要性。先前的工作表明,即使是具有超长上下文能力的LLMs,在搜索、组织和推理复杂用户记忆方面也存在不足。记忆系统架构组织为三个不同的层次:原始数据层、自然语言记忆层和AI原生记忆层。第二自我引入了一种混合架构,保留了这三层的同时增加了重要改进,包括内循环整合、重新定义L2角色和外循环结构。
第二自我的实施涉及几种复杂的方法,包括自动化训练管道和思维链(COT)策略。自动化训练管道包括数据挖掘、记忆数据合成、上下文生成、五级过滤、参数高效微调(PEFT)和直接偏好优化(DPO)。研究者尝试了三种COT方法用于训练数据生成:弱COT、多步骤COT和强COT。设计了三个关键任务来评估模型的有效性:记忆问答、上下文增强和上下文评论。
评估使用了四种指标:记忆(自我)、记忆(第三方)、上下文增强和上下文评论。关键实验发现包括强COT显著提高了模型性能,DPO带来了实质性改进,人类案例研究表明第二自我的有效性可能超过报告的指标。通过结合多样化数据源和不经过过滤的强COT风格标准化,实现了**性能。
第二自我在多个领域提供了重要价值,包括认知管理、网络效应和知识转化。与相关研究相比,第二自我代表了几项创新进步,包括超越静态记忆、个性化架构、自动化端到端管道、混合记忆管理和开源实现。研究者承认仍然存在几个挑战,包括单轮训练限制、模型对齐完善、评估约束、多模态整合和实时同步。
https://arxiv.org/pdf/2503.08102
为什么你的提示工程"专业知识"可能只是一厢情愿的想法
本论文对提示工程和大型语言模型基准测试的微妙性质提供了关键见解,揭示了两者比通常假设的更为复杂和依赖上下文。研究表明,提示方法和评估方法的微小变化可能会显著影响对大型语言模型性能评估的结果。
这项研究由宾夕法尼亚大学沃顿商学院和其他机构的研究人员撰写,重点关注大型语言模型评估的两个关键领域:基准测试标准和不同提示技术的有效性。使用GPT-4o和GPT-4o-mini模型,研究人员对GPQA Diamond数据集进行了广泛测试,该数据集包含198个涵盖生物学、物理学和化学的博士级多项选择题。
与传统基准测试方法相比,该研究方法论的严谨性尤为突出。每个问题在不同提示条件下测试了100次,每个模型每个提示总计19,800次运行。建立了三种不同的"通过"标准:完全准确率(100%正确),高准确率(90%正确)和多数正确(51%正确)。测试了四种不同的提示条件:基线格式化提示,非格式化提示,礼貌提示和命令式提示。这种方法比典型的依赖单次尝试或小样本量的评估代表了显著的方法论进步,提供了更稳健的可靠性测量。
研究人员发现模型响应存在实质性的不一致性,即使重复询问相同问题。在100%正确性阈值下使用格式化提示,GPT-4o和GPT-4o-mini的表现仅比随机猜测(25%)好约5个百分点,差异在统计上不显著。在较低阈值(51%正确性)下,两种模型都明显优于随机猜测。这种变异性表明大型语言模型可能不可靠且不一致,这是需要高可靠性应用程序考虑的关键因素。
评估标准的选择极大地影响了感知的模型性能。在较高的正确性阈值(100%)下,两种模型都没有明显优于随机猜测。在较低阈值(51%)下,两种模型都显示出相对于随机猜测的统计显著改进。这一发现挑战了许多可能通过使用不太严格的标准而大大高估模型可靠性的基准测试努力。
研究揭示了不同提示方法的微妙影响。格式化始终很重要:移除格式化限制显著降低了两种模型的性能(p<0.001)。当在所有问题上汇总时,礼貌("请回答以下问题")和命令式("我命令你回答以下问题")提示之间没有显著差异。然而,在个别问题层面上,特定问题的礼貌和命令式提示之间观察到显著差异,对某些问题的性能影响高达60个百分点。
https://arxiv.org/pdf/2503.04818
深度学习优化技术:全面综述
深度学习已经彻底改变了机器学习领域,在各种应用中实现了前所未有的性能。这一成功的核心是能够有效训练这些复杂模型的优化算法。本报告对深度学习中当前的优化技术进行了全面分析,考察了它们的理论基础、实际应用和新兴趋势。
梯度下降构成了神经网络优化的基石。这种一阶迭代算法通过在当前点的梯度反方向上迈步来最小化可微的多变量函数。基本原理很直接:如果一个多变量函数在点a附近可微,则它在负梯度方向上减少最快。基本更新规则可以表示为:θt+1=θt−η∇f(θt),其中θ表示模型参数,η是学习率,∇f(θ)是目标函数的梯度。这个过程会迭代进行,直到收敛到局部最小值。
虽然梯度下降是优化策略,但反向传播是用于高效计算梯度的计算方法。反向传播以分层方式安排偏导数的计算,从输出层开始并向早期层反向工作。这种方法利用微积分中的链式法则来计算网络中每个参数的梯度。
梯度下降有多种变体。批量梯度下降在执行参数更新前使用整个训练数据集计算梯度。虽然这通过向量化提供了计算效率,但需要大量内存来存储所有训练示例,并且对于大型数据集可能导致缓慢的收敛。随机梯度下降(SGD)在处理每个单独的训练示例后更新参数。这种方法需要更少的内存并可以提供更频繁的更新,但与批量方法相比,通常导致更嘈杂的梯度和不太稳定的收敛。小批量梯度下降在处理小批量训练示例后更新参数,平衡了前面两种方法。这已成为深度学习中的标准方法,因为它结合了计算效率和比纯SGD更稳定的收敛性。
基于动量的方法通过纳入来自先前更新的信息来解决标准梯度下降的振荡问题。经典动量在目标函数持续减少的方向上累积速度向量,帮助抑制振荡并加速收敛。Nesterov加速梯度(NAG)通过在近似的未来位置而非当前位置评估梯度来改进经典动量。这种"前瞻"特性为凸优化问题提供了更好的收敛率。
自适应学习率方法根据历史梯度为每个参数调整学习率。Adagrad为频繁更新的参数分配较小的学习率,为不常更新的参数分配较大的学习率。虽然创新,但Adagrad可能随时间遭受学习率递减问题,在后期训练阶段实际上停止学习。RMSprop通过使用平方梯度的指数加权移动平均而不是累积所有过去的平方梯度来解决Adagrad的学习率递减问题。这种修改允许算法丢弃来自遥远过去的历史,即使在多次更新后仍保持非零学习率。Adadelta通过消除手动设置学习率的需要进一步扩展了自适应学习。它使用先前更新与当前梯度的运行平均值的比率,根据优化过程的最近行为有效地调整学习率。Adam(自适应矩估计)已成为深度学习中最流行的优化器之一。它结合了RMSprop和动量的思想,通过维持过去梯度的衰减平均值和过去平方梯度的衰减平均值,这种双重自适应方法在各种深度学习架构中提供了鲁棒性。
新型优化方法包括PADAM(部分自适应矩估计)、dlADMM(深度学习交替方向乘子法)和PIDAO(比例-积分-微分加速优化器)。PADAM引入了一种新颖的可调超参数,称为"部分自适应参数p",它在[0, 0.5]之间变化。这个参数弥合了完全自适应方法和带动量的SGD之间的差距,潜在地解决了这些方法之间观察到的泛化差距。dlADMM框架解决了优化中的三个关键挑战:缺乏全局收敛保证、向解决方案缓慢收敛和关于特征维度的立方时间复杂度。通过以后向然后前向的方式更新参数并采用迭代二次近似,dlADMM将时间复杂度从立方降低到二次,同时提供全局收敛的理论保证。PIDAO代表一种创新方法,将反馈控制理论应用于优化。通过在优化器中使用PID控制器,PIDAO提供了一种确定性连续时间优化器,对凸和非凸优化问题都证明了收敛性。实验评估证明了PIDAO相比已建立方法加速收敛和提高准确性的能力。
模型效率优化技术包括剪枝、量化和知识蒸馏。剪枝通过移除不太重要的神经元减少模型大小,涉及识别、消除和可选的微调。量化通过对模型权重使用较低的数值精度减少内存使用和计算时间。知识蒸馏将复杂的"教师"模型的见解转移到更简单的"学生"模型,以更少的计算需求保持性能。
优化技术在图像识别任务中显示了显著的结果。一项使用迁移学习和Adam优化的花卉识别研究在测试集上达到了98.99%的准确率,展示了快速收敛和高识别准确率。在医学应用中,优化的深度学习模型取得了显著成果。一个提出的用于肺结节早期检测的计算机辅助检测系统使用VGG19架构和SVM分类器达到了96.25%的检测准确率。
https://arxiv.org/pdf/2503.04973
AI的多任务奇迹:并行思考与行动革新智能体智能
研究人员开发出了一种AI框架,让规划和行动的同时进行变得轻而易举。论文《并行规划-行动框架:提升大语言模型多智能体系统效率》介绍了一种突破性方法,这可能最终使AI智能体摆脱限制其在动态环境中有效性的认知瓶颈。简单来说,这些智能体现在能够"一心多用"——而且它们做得相当出色。
现有大语言模型(LLM)基础多智能体系统的根本问题在于它们顽固地坚持序列化执行——这相当于AI拒绝开始烹饪,直到你已经写完整个食谱。这种僵化在条件快速变化的环境中造成了致命的瓶颈,比如在Minecraft中,世界不会礼貌地暂停等待智能体思考下一步行动。传统框架迫使智能体进行一种尴尬的舞蹈:思考,然后行动,然后再思考。这就像我们要求一个篮球运动员在决定传球给哪个队友时完全静止不动,只有在做出决定后才能恢复动作。结果呢?智能体响应的是昨天的环境而不是今天的现实。
当前系统面临三个关键挑战:行动调度不灵活(等待LLM才能继续)、重新规划能力有限(无法随机应变)和内存共享延迟(使用过时信息操作)。这些限制使AI智能体无法在需要适应性的动态环境中发挥其全部潜力。
研究人员的优雅解决方案引入了双线程架构,从根本上重新构想智能体的运作方式。就像人类可以一边思考晚餐一边继续打字发邮件一样,这个框架将规划和行动分离为并行过程。规划线程,由LLM和集中式记忆系统驱动,根据当前观察和团队通信不断生成下一步行动。同时,行动线程根据优先规则执行行动,并在出现更高优先级任务时处理中断。这种并行化通过行动缓冲区作为线程间的通信渠道巧妙实现。规划线程根据最新环境信息将新行动写入缓冲区,而行动线程则根据优先规则检索和执行这些行动。如果更高优先级的行动出现——比如在Minecraft中躲避意外出现的苦力怕——系统可以立即中断当前行动。
论文提供的数学分析量化了效率提升,展示了规划和行动阶段的重叠如何有效地隐藏规划时间,特别是当行动执行时间长于规划时间时。结果是一个能以前所未有的敏捷性和效率响应动态环境的框架。
https://arxiv.org/pdf/2503.03505
数字大脑内部:UMM对AI认知的革命性方法
在聊天机器人变得越来越复杂但仍然令人沮丧地有限的时代,论文"统一心智模型:重新构想大型语言模型时代的自主智能体"为人工智能的未来提供了一个令人耳目一新的雄心勃勃的愿景。当大多数研究人员忙于微调ChatGPT提示或将API调用拼凑在一起以创建美化了的虚拟助手时,作者们反而退后一步,提出了一个基本问题:如果我们从头开始构建更像人类思维的AI系统会怎样?
统一心智模型(UMM)代表着与当前LLM智能体范式的显著分离。它不是简单地将提示与一些记忆机制链接在一起,而是建立在全局工作空间理论(GWT)的基础上,这是神经科学中一个公认的认知框架。GWT将意识概念化为一个工作空间,在那里来自专门大脑区域的信息被整合和广播。UMM巧妙地调整了这一理论,创建了一个由四个模块组成的层次架构:基础模型模块(各种LLMs),专家模块(特定任务的自主专家),中央处理模块("中央大脑"),以及驱动系统(调节焦点并实现自主行为)。
UMM特别创新的地方在于它将LLMs用作世界模型。与依赖手工制作的符号程序的传统认知架构不同,UMM利用语言模型在规划、推理和知识表示方面的卓越能力,创建了一个更灵活、更通用的系统。这就好像研究人员看着GPT-4说:"这不仅仅是一个文本预测器—它本质上是数字思维的原始程序记忆系统。"
在UMM的基础上,作者们介绍了MindOS,一个智能体构建引擎,使用户能够在没有编程知识的情况下快速创建特定领域的自主智能体。把它想象成人工思维的WordPress—拖拽一下,你就突然拥有了一个真正理解货币政策而不仅仅是重复信息的金融顾问机器人。中央处理模块构成了MindOS的核心,作为协调中心运作,有两个关键组件:思维流(处理信息以生成决策)和工作记忆(收集与任务相关的信息)。一个基本概念是将"思维"表示为结构化提示—基本信息处理单元,整合了指令、上下文、感知、用户数据、智能体信息、相关记忆等。
MindOS实现了三种不同的信息处理模式:目标导向模式(专注于解决特定任务),自学模式(实现自主学习),以及反应模式(基于触发提供即时响应)。这就像赋予你的数字助手不仅能够遵循指令的能力,还能像好奇的孩子一样学习,像经验丰富的专业人士一样反应。
https://arxiv.org/pdf/2503.03459
Sesame开源CSM-1B模型,让惊人逼真的AI语音技术走向大众
在人工智能突破几乎每周都有的时代,Sesame通过开源其病毒式传播的超逼真语音助手Maya背后的基础模型,将赌注大幅提高。CSM-1B的发布标志着语音AI发展的分水岭时刻——相当于文本领域ChatGPT的首次发布——这可能同时引发语音技术的新纪元和一系列道德困境。
Sesame的对话语音模型(CSM-1B)是一次技术融合,解释了为何Maya及其男性版本Miles在2月份演示视频病毒式传播时引发如此强烈的反应。这个10亿参数的模型基于Meta的Llama架构,配备专门的音频解码器组件,采用残差向量量化(RVQ)技术——一种将音频编码为离散标记的复杂技术,也被用于Google的SoundStream和Meta的Encodec。这种架构实现了Sesame称之为"语音存在感"的特质——使AI语音交互感觉真实的神奇品质。Maya不仅仅会说话;它会呼吸、犹豫、笑,并且可以在句中被打断。该公司声称其响应时间达到行业领先的116毫秒,显著超越OpenAI(250毫秒)和ElevenLabs(180毫秒)等竞争对手。
CSM-1B特别重要的是其效率。当其他公司构建更大模型时,Sesame专注于优化。正如一个YouTube演示所指出的,当被问及其底层技术时,Maya回应道:"我的创造者称我的技术基础内部构造为Gemma,那不是最大的模型,只有约270亿参数,虽然不算小但也别指望我能写出下一部伟大的美国小说。"
通过以宽松的Apache 2.0许可证发布CSM-1B,Sesame有效地实现了尖端语音技术的民主化。该模型从文本和音频输入生成"RVQ音频代码",使开发者能够创建各种声音,而无需针对特定个体进行微调。这种方法反映了加速其他AI领域发展的开源精神。然而,其道德影响深远。正如TechCrunch展示的,使用该模型进行语音克隆通过Hugging Face的演示不到一分钟就能完成。在几乎没有技术保障措施的情况下,Sesame主要依靠"荣誉系统",敦促用户在没有同意的情况下不要模仿声音或创建误导性内容。考虑到在选举年语音深度伪造的潜力,这种方法似乎危险地天真。
https://techcrunch.com/2025/03/13/sesame-the-startup-behind-the-viral-virtual-assistant-maya-releases-its-base-ai-model/
应用与实践
Onyx计划如何以彻底透明的方式颠覆6亿美元企业搜索市场
在一个企业软件巨头通常像龙守护黄金一样保护其技术的世界里,总部位于旧金山的初创公司Onyx正采取一种截然不同的方法。该公司押注开源透明度,而非专有保密性,将帮助其征服日益竞争激烈的企业搜索市场。据最新报道,Onyx已获得1000万美元种子轮融资,用于扩展其AI驱动的搜索解决方案,该方案可连接超过40个公司内部数据源,并且只需30分钟即可部署。
Onyx所解决的问题对任何在现代组织工作的人来说都痛苦地熟悉:关键信息分散在多个平台上,使得在需要时几乎不可能找到所需的内容。随着团队的扩大,知识变得碎片化,分散在Slack、Confluence、Google Drive、Salesforce、GitHub和数十个其他工具中。这种数字蔓延造成了令人沮丧的瓶颈,员工浪费宝贵的时间在各种系统中搜索,却往往一无所获。
这种数字知识危机催生了一个利润丰厚的市场,像Glean这样资金充足的竞争者已筹集了令人印象深刻的6亿美元来解决这一问题。然而,Onyx认为这些老牌竞争对手有一个根本性的弱点:他们封闭、专有的特性使他们适应速度慢、难以定制且实施成本高。
Onyx的故事始于联合创始人Chris Weaver和Yuhong Sun的一个简单认识,他们在工程师角色中亲身经历了知识碎片化问题。"我们大致知道东西在哪里,但仍然有点困难,[而且]新人根本找不到任何东西,"Weaver解释道。"感觉一定有更好的方式来做这件事。"
Onyx的与众不同之处不仅在于其技术,还在于其分发模式。通过在2023年将其解决方案作为开源发布(最初称为"Danswer"),他们创建了一个社区驱动的平台,迅速获得了吸引力。这种方法使他们实现了令人印象深刻的采用指标,包括单周高达16万条消息,并被Netflix、Ramp和泰雷兹集团等大型企业实施。
https://techcrunch.com/2025/03/12/why-onyx-thinks-its-open-source-solution-will-win-enterprise-search/
Browser Use如何借助Manus的病毒式传播加速AI代理接管
在人工智能飞速发展的格局中,有时最具影响力的工具并非那些头条新闻中的明星。例证就是Browser Use,这款AI工具正经历爆炸性增长,得益于其为中国初创公司蝴蝶效应(Butterfly Effect)的病毒级AI"代理"平台Manus提供动力。据最新报道,这个不起眼的技术在短短一周内日下载量激增了五倍,从2025年3月3日的5,000次跃升至3月10日的28,000次。
Browser Use的迅猛崛起源于一个经典的互联网现象:病毒式传播。一个展示Manus如何利用Browser Use的单一演示在X平台上获得了超过240万次观看,将这个此前小众的开发者工具推向聚光灯下。这种数字多米诺效应完美诠释了AI生态系统的互联性,一个平台的成功可以彻底改变其底层技术的命运。从本质上讲,Browser Use使AI模型能够像人类一样与网站交互——点击按钮、填写表格、导航菜单,并同时管理多个标签页。这种看似简单的功能代表了AI与互联网交互方式的根本性转变,从被动信息消费转向主动数字参与。
Browser Use的起源故事读起来就像硅谷童话。联合创始人Gregor Zunic和Magnus Müller去年在苏黎世联邦理工学院的学生项目孵化器中开发了这个工具。"最初只是几次午餐时的随意头脑风暴,后来变成了一个挑战:我们来做些小东西,扔到Hacker News上,看看会发生什么,"Zunic告诉TechCrunch。"我们在四天内组装了一个最小可行产品,发布了它,然后轰——一下子排到第一。从那以后,就像坐上了火箭。"这种快速崛起既反映了创始人的技术才华,也体现了他们完美的市场时机。到2024年12月,Browser Use在WebVoyager基准测试中已取得了令人印象深刻的89.1%成功率,解决了586个复杂的网络任务。但正是与Manus的集成,将他们的技术成就转变为病毒式传播的轰动。
Zunic和Müller以非凡的战略清晰度定位Browser Use,将其商业模式描述为向追逐网络代理淘金热的开发者"销售铲子"。这种方法——提供基础设施而非终端用户应用——在技术革命中历来被证明是有利可图的,从实际的加州淘金热到早期互联网繁荣时期都是如此。"我们想创建一个基础层,让所有人都能在上面构建浏览器代理,"Zunic解释道,阐明了一个愿景,即Browser Use成为下一代AI应用的基础设施。这种定位与当前市场动态完美契合,开发者们正在竞相构建越来越复杂的AI代理,但缺乏网络交互的标准化工具。
也许最引人注目的是Zunic的大胆预测:"在我们看来,到今年年底,网络上的代理将多于人类。"这一陈述初听起来可能像典型的创业公司夸张言论,但行业研究为其增添了可信度。Research and Markets预测AI代理行业到2029年将达到420亿美元,而德勤预计到2027年,使用AI的公司中将有一半部署AI代理。这一预测代表了对互联网的根本性重新思考——从为人类交互设计的网络转变为越来越多由自主AI实体代表我们执行任务的网络。Browser Use位于这一转变的中心,提供AI模型与人类设计的网络之间至关重要的连接组织。
https://techcrunch.com/2025/03/12/browser-use-one-of-the-tools-powering-manus-is-also-going-viral/
奥林巴斯与Ziosoft的AI合作如何让手术室中的隐形变为可见
在外科技术的重大进步中,奥林巴斯公司宣布与软件专家Ziosoft建立战略合作伙伴关系,推出其首款AI驱动的临床决策工具。这一新平台将传统的2D成像转变为动态3D模型,有望彻底改变肝脏、肺部和肾脏手术的术前规划。这一合作代表了奥林巴斯在其百年医疗技术创新使命中的最新一步,现在通过人工智能提高手术精度和患者预后。
新宣布的合作关系引入了Ziosoft Revoras平台,该平台利用先进的影像分析和机器学习将标准CT扫描和MRI转换为交互式3D模型。这一技术飞跃解决了手术规划中的一个基本限制——传统上,外科医生在准备复杂手术时仅限于解读平面、静态图像。现在,他们可以操作详细的三维表示,揭示通常隐藏不见的关键结构。
对于胸外科医生,该系统将常规成像转变为精确的3D模型,清晰展示肺癌手术中涉及的复杂解剖结构,可能减少侵入性方法的需要。肝脏外科医生获得了肝血管和肿瘤的增强可视化,允许更精确地规划保留组织的技术。而在泌尿科,该技术通过提供肾脏异常的详细评估,协助微创肾切除术。
该系统的功能不仅限于手术室——它还作为外科研究员的教育平台,并指导经验较少的外科医生完成不熟悉的手术。这代表了奥林巴斯所描述的"看见不可见"计划的第一步,这是一系列旨在提高手术安全性和效率的AI驱动创新。
对于有着可视化技术,特别是内窥镜领域深厚根基的奥林巴斯来说,这一举措代表了自然演变。奥林巴斯外科解决方案副总裁Darryl Rock将这一合作描述为在公司既有传统的基础上,通过拥抱AI来增强临床决策。潜台词很明确:即使是百年历史的医疗技术领导者也必须适应AI革命,否则就有落伍的风险。
从Ziosoft的角度来看,其业务发展和营销副总裁Rajeev Taitriya认为,这一合作利用了他们在医学可视化方面二十年的经验。特别值得注意的是Taitriya提到"肺癌筛查的兴起"创造了对复杂肺段切除术的需求——这清楚地表明,更广泛的医疗保健趋势正在推动对更复杂手术规划工具的需求。
https://www.prnewswire.com/news-releases/olympus-announces-launch-of-ai-powered-surgical-planning-tool-through-strategic-partnership-with-ziosoft-302400208.html
谷歌AI医生升级:当你的数字医生变得过于聪明
在技术与医疗保健不断演变的舞蹈中,谷歌刚刚完成了一次重大飞跃——或者取决于你问谁,可能是横向发展。这家科技巨头最近在其以健康为重点的活动"体检"(The Check Up)上宣布,将其AI概览功能大幅扩展至"数千个更多健康主题"。这一发展标志着谷歌最新尝试将自己定位为世界事实上的数字医生,这既带来了令人兴奋的可能性,也引发了关于在线健康信息未来的令人不安的问题。
谷歌公告的核心内容围绕着使用人工智能提供更全面、更易获取的健康信息。AI概览功能此前范围有限,现在将覆盖数千个更多与健康相关的查询,并扩展到包括西班牙语、葡萄牙语和日语在内的其他语言。谷歌声称,这些扩展利用了"Gemini模型最近在健康领域的进步",以确保信息达到"临床事实准确性的高标准"。或许更有趣的是引入了一项名为"人们建议"(What People Suggest)的新功能,该功能使用AI组织和总结在线讨论中关于健康状况的观点。例如,关节炎患者寻找运动建议时,可以快速获取其他管理相同疾病的人的见解。这一功能有效地承认,虽然用户重视医学专业知识,但他们也渴望获得同病患者的亲身经历——这是传统医疗资源往往缺乏的健康信息的细微方法。
谷歌的"人们建议"功能代表了我们如何概念化健康信息的一个引人入胜的转变。通过算法策划群众智慧,谷歌承认单纯医学文献的无菌殿堂无法满足在线寻求健康信息的用户。人们既想要临床专业知识,也需要那些经历过类似健康旅程的人的混乱、矛盾但往往实用的经验。正如谷歌首席健康官Karen DeSalvo解释的那样:"虽然用户转向搜索以获取来自专业人士的可信医疗信息,但他们也欣赏听取有类似经历的其他人的意见"。这种双重方法代表了一种比我们以前从主要科技平台看到的更全面的健康信息消费观。该功能从Twitter(现为X)、Reddit和Quora等来源提取信息,创建一种按需生成的数字支持群体。目前仅在美国的移动设备上可用,这表明谷歌对推出采取谨慎态度。
https://www.searchenginejournal.com/google-expands-ai-overviews-more-health-queries/542415/
Niantic为何放弃精灵宝可梦GO,转向为AI绘制现实地图
在一次揭示科技未来走向的战略转型中,Niantic Labs宣布将其游戏部门——包括极为成功的《精灵宝可梦GO》——以35亿美元的价格出售给沙特拥有的Scopely公司。但这不仅仅是一项企业交易;它宣告了增强现实技术真正价值所在。随着Niantic转型为"Niantic Spatial",公司正在押注一个精心计算的赌注:为机器绘制物理世界的地图最终将比用数字生物娱乐人类更有价值。
这个故事的核心不在于精灵宝可梦离开Niantic的巢穴,而是Niantic接下来计划做什么。该公司正在加倍努力创建首席执行官John Hanke所描述的"一种新型地图,使世界对机器变得可理解,从智能眼镜到人形机器人的一切都能理解"。这一愿景代表了一个根本性转变:从使用位置数据进行娱乐,到构建全面的空间模型,为下一代AI系统奠定基础。
Niantic的新焦点并非完全出人意料。自2021年收购3D扫描应用Scaniverse以来,该公司一直在开发技术以捕捉有关物理世界的详细空间信息。Niantic方法的独特之处在于,他们已经通过游戏收集了大量数据——《精灵宝可梦GO》的玩家实际上一直在众包全球有趣地点的图像库,而他们自己却认为只是在收集数字怪物。
尽管《精灵宝可梦GO》拥有文化现象的地位,但Niantic一直难以复制其成功。该公司在2022年和2023年面临裁员,甚至停止了一些游戏如《哈利波特:巫师联盟》。这一背景有助于解释出售的时机——Niantic正在将其最有价值的游戏资产变现,同时转向它认为更有前途的前沿领域。
https://www.cnet.com/tech/computing/pokemon-go-has-a-new-owner-but-niantics-evolving-its-maps-into-a-way-to-fold-in-ai-and-ar/
微软将基础记事本转变为AI强大工具
微软正悄然革新Windows 11中最平凡的角落,将基础工具转变为复杂的AI助手。据最近报道,该公司正在测试记事本中的AI文本摘要功能,并为截图工具增加形状完善功能。这些更新正向金丝雀频道和开发频道的Windows预览体验成员推出,代表了微软将人工智能全面融入其生态系统战略的最新一步。
长期以来以简洁著称的记事本应用,现在提供了"摘要"功能,用户可以通过右键点击或使用Ctrl+M快捷键来压缩选定文本。用户可以尝试不同的摘要长度来优化AI生成的输出,本质上将这个基础文本编辑器转变为内容分析工具。此功能要求用户使用微软个人账户登录,并使用与Microsoft 365个人版、家庭版或Copilot Pro订阅相关联的AI积分。
同时,截图工具正在获得"绘制并保持"功能,可将不精确的注释转化为整洁、专业的形状。用户可以绘制粗略的线条、箭头、矩形或椭圆,然后短暂保持光标静止,将摇晃的笔触转换为规整的形状。这一微妙的增强解决了数字注释的常见问题 - 使用触控板或鼠标移动创建精确标记的困难。
其他实用改进包括记事本的新"最近文件"选项,可通过编辑菜单访问,允许用户直接在应用程序内重新打开最近关闭的文档。这个看似简单的功能对经常处理多个文本文件的用户来说是生活质量的显著提升。
这些更新远非孤立的发展。它们代表了微软在Windows 11全面AI集成战略中的重要步骤。该公司已经为截图工具添加了OCR功能,允许从图像中提取文本,并为记事本引入了AI驱动的"重写"功能,可以调整文本的语气、长度和措辞。
这些渐进式变化与微软更广泛的推动相一致,旨在使AI功能在整个操作系统中无处不在。从集成到任务栏的Copilot助手,到Clipchamp中的AI增强视频编辑和Photos中的背景模糊,Windows 11正变得越来越智能。
https://www.theverge.com/news/629412/windows-11-notepad-ai-summaries-snipping-tool
交叉与创新
NVIDIA与通用汽车的合作如何重塑汽车AI的未来
在一项标志着汽车制造与创新新时代曙光的战略举措中,NVIDIA与通用汽车宣布了一项突破性的合作伙伴关系,这种合作远超常规的技术协作范畴。这一联盟承诺通过人工智能的力量彻底革新从工厂运营到下一代汽车的一切,标志着汽车行业技术演变的关键时刻。
从本质上讲,这项新宣布的合作关系代表着通用汽车将向NVIDIA支付一笔未公开的金额,以获取其AI驱动的GPU和专业平台的使用权。这不仅仅是在汽车中安装更好的计算机——而是关于从根本上改变汽车的构思、设计、制造和运行方式。通用汽车将利用NVIDIA的Omniverse平台创建装配线的数字孪生,实现虚拟测试和生产模拟,可大幅减少停机时间并优化运营。
这种合作关系的特别之处在于其全面的范围。除了工厂优化外,通用汽车还将集成NVIDIA DRIVE AGX作为车载硬件,为未来的高级驾驶辅助系统和增强的安全功能提供动力。这标志着通用汽车在自主技术方面的重大转变,此前该公司曾在去年撤回了对其陷入困境的Cruise机器人出租车部门的财政支持。
NVIDIA创始人兼首席执行官黄仁勋表示:“物理AI时代已经到来,与通用汽车一起,我们正在改变交通运输,从车辆到制造它们的工厂。”他的兴奋反映了科技行业日益认识到AI的下一个前沿不在数字空间,而在于重塑物理环境和流程。
对通用汽车而言,这次合作代表了其在自动驾驶汽车雄心受挫后的关键转折点。虽然该公司的Super Cruise驾驶辅助系统被广泛认为是业内**之一,但其更广泛的自动驾驶计划面临着重大挑战。通过与NVIDIA合作,通用汽车获得了尖端AI能力的使用权,这可能有助于重振其自动驾驶技术,同时改变其制造运营。
对NVIDIA而言,汽车行业代表着一个巨大的增长机会。尽管该公司的收入飙升——2024年在所有部门的总收入超过1300亿美元——但其汽车业务仍处于“起步阶段”,每年仅产生约50亿美元的收入。与美国最大汽车制造商的这一合作为NVIDIA提供了其技术的展示平台,同时扩大了其在一个价值数万亿美元行业中的足迹。
https://www.shacknews.com/article/143522/nvidia-nvda-gm-ai-factory-vehicle-deal
OpenAI的小说创作AI引发文学界的灵魂探索
在一项同时代表技术里程碑和对创意专业人士构成存在性问题的发展中,OpenAI首席执行官Sam Altman于2025年3月11日宣布,他的公司已成功训练了一个专门用于创意写作的AI模型。据Altman称,这个模型——它与OpenAI通常专注于编码和数学等结构化应用的方向不同——产生了足够高质量的小说,"确实打动"了他,尤其是在捕捉"元小说氛围"的能力方面。为了展示其能力,Altman分享了一个由AI撰写的短篇小说,这是对"一个关于AI和悲伤的元小说文学短篇故事"的提示的回应。
此次公告与以往AI写作能力的区别在于模型的专门训练以及Altman异常热情的评价。虽然以前的AI模型可以生成叙事文本,但它们通常产生明显人工的作品,缺乏人类写作的细微差别和情感共鸣。然而,Altman分享的例子展示了该模型进行自我参照叙事的能力,承认其人工本质,同时讽刺地哀叹自己无法真正体验悲伤。
这一发展的时机在全球小说市场背景下尤为重要,该市场从2024年的111.6亿美元增长到2025年的113.8亿美元。这一增长部分由短篇小说和互动体验等新形式推动——正是AI生成最容易融入的领域。如果AI生成的小说在商业上变得可行,它可能会从根本上改变出版经济学,可能以最低边际成本用算法生产的内容充斥市场。
OpenAI涉足创意写作正值公司的关键时刻。在ChatGPT的流星崛起后,曾经是面向消费者的AI无可争议的领导者,OpenAI已经看到其技术优势随着Anthropic的Claude、DeepSeek和埃隆·马斯克的Grok3等竞争对手匹配或超过其基准性能而减弱。据报道,随着微软重新考虑其对公司的130亿美元投资,OpenAI面临着巨大压力,需要开发独特的能力,重新确立其技术领导地位。
创意写作代表着OpenAI以前未优先考虑的前沿领域,此前它专注于数学推理、编程和其他结构化任务。通过在一个典型的人类领域展示实力,OpenAI可能试图在其技术优势越来越受到质疑的时刻,同时获取市场关注和文化意义。据报道,该模型还代表着潜在的新收入来源,因为OpenAI据说每年消耗约50亿美元。
对Altman公告的反应揭示了不同利益相关者如何看待AI侵入创意领域的深刻分歧。Altman本人将这一发展描述为突破性时刻,对输出质量表达了真诚的惊讶——"这是我第一次真正被AI写的东西打动"。一些观察者,尤其是科技界的人士,分享了这种热情,一位Reddit用户指出,这种写作"比我之前从大型语言模型中看到的任何内容都更有创意"。
然而,文学专业人士和创意作家表达了重大怀疑。批评者指出,当读者知道文本是由AI生成时,他们在情感上就会脱离,无法与不是源于人类经验的文字建立联系。正如Altman帖子下的一位评论者所说,"我读了前几段...我就是不关心写的任何东西。表达的文字没有分量"。这个观点表明,AI写作的失败不是在技术层面,而是在其传达真实人类经验的根本能力上。
https://siliconangle.com/2025/03/11/sam-altman-says-openai-trained-fiction-writing-ai-model-thats-actually-decent/
Celestial AI 2.5亿美元融资,光子计算时代的黎明
在不断加速发展的人工智能基础设施世界中,一家相对不为人知的初创公司刚刚获得了一轮引人注目的融资。光学互连技术开发商Celestial AI完成了2.5亿美元的C1轮融资,使其融资总额跃升至5.15亿美元,估值据报道达到25亿美元。这笔由富达管理研究公司领投,包括贝莱德等新投资者和AMD Ventures等现有支持者参与的重大资金注入,预示着我们应对AI计算物理限制方式的潜在范式转变。
Celestial AI吸引力的核心在于其"光子织物"技术平台,该平台用光学解决方案取代传统铜基互连,用于AI处理器之间的数据传输。公司由行业资深人士David Lazovsky和Preet Virk于2020年创立,将自身定位于两个关键技术领域的交叉点:先进的AI系统和硅光子学。这一时机再战略性不过了。随着AI模型在规模和复杂性方面呈指数级增长,铜基互连的物理限制已成为系统性能的关键瓶颈。当前的AI基础设施难以应对分布在多个服务器和机架上的处理器之间的大规模数据传输需求。那些服务计算领域数十年的铜质连接器,简单地无法跟上下一代AI工作负载对带宽、延迟和能源效率的需求。
Celestial AI战略的关键一步在2024年10月浮出水面,当时公司以2000万美元从Rockley Photonics收购了硅光子学知识产权组合。这次收购并非仅仅是增量式的——而是具有变革性的,使公司的全球知识产权持有量超过200项专利,并在三个关键领域显著加强了其技术护城河:光电系统封装、电吸收调制器和光学开关技术。这就是当今AI基础设施格局中的核心张力:虽然AI算法创新以惊人的速度进行,但支持这些进步的物理基础设施正在撞击基本物理限制。先进AI模型对计算资源的非凡需求正在与传统互连技术无法扩展以满足这些需求的现实相碰撞。这种矛盾既创造了紧迫性,也创造了机遇。紧迫性来自于对AI计算资源不断增长的胃口;机遇则出现在那些能够成功超越当前物理限制的公司身上。Celestial AI的赌注是,光子学——生成、控制和探测光的科学——提供了前进的道路。
在获得这笔可观资金后,Celestial AI现在面临着从有前景的技术转向规模化生产的关键挑战。公司表示,新资金将用于扩展和认证其批量制造供应链,以满足不断增长的客户需求。据报道,该公司已经与"多家超大规模云服务提供商、AI处理器、定制硅和封装合作伙伴建立了深度合作",这表明主要云服务提供商和硬件制造商已经在探索将Celestial的技术整合到其基础设施堆栈中。这种行业认可显著提高了商业成功的可能性。如果Celestial AI能够实现其愿景,其影响可能远远超出数据中心性能的渐进式改进。通过从根本上重新思考数据在计算和内存资源之间的移动方式,该公司的技术可能为AI系统启用全新的架构,潜在地解锁在当前约束下仍然不可能实现的能力。
https://www.datacenterdynamics.com/en/news/optical-interconnect-startup-celestial-ai-raises-250m/
毅力追求雄心壮志的理论模型
本研究论文由Avrim Blum、Emily Diana、Kavya Ravichandran和Alexander Tolbert共同撰写,提供了一个量化框架,通过决策理论和计算机科学的视角来理解毅力——对长期目标的坚持和热情。这项工作代表了一种新颖的跨学科方法,将毅力的哲学概念与数学建模技术相结合。
作者使用改进型多臂赌博机(improving multi-armed bandits, MAB)框架建立了研究毅力的正式模型,这成为他们分析的基础结构。该框架允许在选择具有不确定收益的稳定和风险选项时进行决策的量化建模。论文的核心是一个非常优雅而强大的双臂赌博机模型,它捕捉了雄心壮志追求的本质:稳定臂始终提供恒定的1单位回报,代表低风险、即时回报但增长潜力有限的选项;奋斗臂最初在未知时间θ内不提供回报,之后开始以斜率α线性增长,代表高风险、高潜力的选项。这个模型创造了反映现实生活决策的基本张力:是坚持潜在高回报但当前无回报的路径,还是转向可靠但潜力有限的替代方案。
论文采用两种不同的理性模型来分析决策:竞争比率(回顾性)和贝叶斯不确定性量化(前瞻性)。这两种观点提供了对不确定条件下理性决策的互补见解,捕捉了结果导向和信念导向的理性维度。该论文的创新之处在于以两种不同方式正式概念化毅力:毅力作为乐观和毅力作为不适耐受性。两种概念化都产生了相似的行为结果——更有毅力的代理人会探索奋斗臂更长时间——但通过不同的心理机制。
作者通过数学分析得出了几个深刻的见解。对于具有回报斜率猜测α̃的代理人,最优策略是在奋斗臂上坚持T-√(2T/α̃)步骤,然后永久切换到稳定臂。这提供了毅力与探索持续时间之间明确的量化关系。通过仔细的案例分析,论文证明毅力有帮助的情况和毅力有害的情况。这种细致的理解解决了社会学文献中毅力有时有益有时有害的明显矛盾。
https://arxiv.org/pdf/2503.02952
关于追问nextquestion
天桥脑科学研究院旗下科学媒体,旨在以科学追问为纽带,深入探究人工智能与人类智能相互融合与促进,不断探索科学的边界。如果您有进一步想要讨论的内容,欢迎评论区留言,或后台留言“社群”即可加入社群与我们互动。
关于天桥脑科学研究院
天桥脑科学研究院(Tianqiao and Chrissy Chen Institute)是由陈天桥、雒芊芊夫妇出资10亿美元创建的世界最大私人脑科学研究机构之一,围绕全球化、跨学科和青年科学家三大重点,支持脑科学研究,造福人类。
Chen Institute与华山医院、上海市精神卫生中心设立了应用神经技术前沿实验室、人工智能与精神健康前沿实验室;与加州理工学院合作成立了加州理工天...