AI HN来自 Hacker News 的 AI 新闻
EN
今天
3天
7天
30天
全部
129 · "reasoning"
每页
1
Universal Reasoning Model (53.8% pass 1 ARC1 and 16.0% ARC 2)(arxiv.org)
44 ·marojejian·3 天前·5 评论
AI SafetyLLM Research
本文分析了用于ARC-AGI等复杂推理任务的通用Transformer(UT),发现其性能提升源于循环归纳偏置和强非线性组件而非复杂架构设计。文章提出通用推理模型(URM),通过短卷积和截断反向传播增强UT,在ARC-AGI1上取得53.8%的pass@1、ARC-AGI2上取得16.0%的pass@1的state-of-the-art结果,相关代码已在GitHub开源。
2
Evaluating chain-of-thought monitorability(openai.com)
46 ·mfiguiere·7 天前·16 评论
这篇文章讨论了评估AI系统中思维链推理的可监控性,内容发布于OpenAI官方网站。
3
DeepSeek-v3.2(huggingface.co)
63 ·meetpateltech·25 天前·1 评论
Open Source AI
DeepSeek-V3.2模型发布,该模型兼顾计算效率与推理、智能体性能。其包含适用于长上下文的DSA注意力机制、可扩展强化学习框架(高性能变体超过GPT-5)及智能体任务合成 pipeline,并在2025年IMO和IOI中获金牌。
4
DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning(huggingface.co)
264 ·victorbuilds·25 天前·88 评论
Open Source AIAI Reasoning
本文介绍了DeepSeekMath-V2模型的发布,该模型是一款专注于可自我验证数学推理的大型语言模型。内容包含引言、评估结果、快速入门指南和引用信息等部分,可在Hugging Face平台获取。
5
Program-of-Thought Prompting Outperforms Chain-of-Thought by 15% (2022)(arxiv.org)
136 ·mkagenius·25 天前·36 评论
这篇文章介绍了一篇arXiv论文,提出了“思维程序”(PoT)提示方法,该方法通过让语言模型生成程序并由外部计算机执行,将数值推理任务中的推理与计算分离。PoT在数学和金融QA数据集上平均比思维链(CoT)高出约12%的性能,结合自一致性解码后在数学数据集上达到了最先进的结果。
6
What I don’t like about chains of thoughts (2023)(samsja.github.io)
56 ·jxmorris12·25 天前·33 评论
本文批评了思维链(CoT)作为增强LLM推理能力的方法。作者认为即使使用CoT,LLM也可能缺乏真正的高级思维能力——以两个任务(挑选普通数字与质数)为例,尽管复杂度不同,但LLM执行这两个任务所需的计算量相同,这表明LLM要么过度思考,要么缺乏真正的推理能力。
7
DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning [pdf](github.com)
231 ·fspeech·28 天前·50 评论
Open Source AIAI Reasoning
该内容提供了一篇关于DeepSeekMath-V2的PDF论文链接,这是一个专注于可自我验证数学推理的AI模型。论文探讨了提升AI解决数学问题时检查和验证自身步骤能力的研究,为数学领域的AI推理能力发展做出了贡献。
8
Gemini 3 for developers: New reasoning, agentic capabilities(blog.google)
363 ·janpio·大约 1 个月前·1 评论
该新闻面向开发者发布了Gemini 3,强调其新增的推理能力和智能体功能。
9
From Memorization to Reasoning in the Spectrum of Loss Curvature(arxiv.org)
65 ·andy12_·大约 2 个月前·14 评论
AI Reasoning
这篇arXiv论文利用损失景观曲率研究Transformer模型(语言和视觉)中的记忆现象,发现记忆的训练点曲率更尖锐。论文提出一种权重编辑方法,比BalancedSubnet更有效地抑制非目标记忆数据且保持较低困惑度;研究还发现该编辑会对事实检索和算术任务产生负面影响(因这些任务依赖特定权重结构),但通用推理能力不受影响。
10
Kimi K2 Thinking, a SOTA open-source trillion-parameter reasoning model(moonshotai.github.io)
936 ·nekofneko·大约 2 个月前·427 评论
Open Source AI
Moonshot AI推出开源万亿参数推理模型Kimi K2 Thinking,该模型在HLE、BrowseComp和SWE-bench Verified等基准测试中表现领先。它具备强大的智能体推理和长程问题解决能力(如通过23步推理与工具调用解决博士级数学题),已在kimi.com及API上线。
11
GEN-0 / Embodied Foundation Models That Scale with Physical Interaction(generalistai.com)
65 ·jackdoe·大约 2 个月前·9 评论
本文介绍了GEN-0——一种专为物理交互设计的具身基础模型,重点阐述其关键特性:强大的缩放定律、支持实时动作的谐波推理、跨载体兼容性,以及基于海量且持续增长的机器人数据集的预训练。GEN-0在7B参数规模时突破智能阈值,且能以更少的后训练快速适应新任务,展现多项突破性能力。
12
Reasoning models reason well, until they don't(arxiv.org)
218 ·optimalsolver·大约 2 个月前·217 评论
AI Reasoning
这篇ArXiv论文研究了大型推理模型(LRMs)——即经过微调以支持逐步推理和自我验证的大型语言模型。研究发现,尽管LRMs在NLGraph等现有基准测试中表现出色,但当推理问题的复杂度超出训练分布范围时,其性能会突然下降。作者开发了深度推理数据集(DeepRD)来评估可扩展的复杂度,并指出现实世界中的长尾案例暴露了LRMs的失败潜力,强调需要能更好泛化的方法。
13
Developers are choosing older AI models(augmentcode.com)
183 ·knes·大约 2 个月前·176 评论
Anthropic & ClaudeCode & Development
本文分析了生产环境中开发者对AI模型(如Sonnet4.5、Sonnet4.0和GPT-5)的采用模式,发现团队正基于任务特性选择模型而非单纯追求新版本。文章对比了各模型的行为差异:Sonnet4.5更注重深度内部推理(导致更高token输出和稍低吞吐量),而Sonnet4.0倾向于频繁调用工具以快速完成任务;同时还探讨了模型的计算足迹和缓存利用率等指标。
14
Formal Reasoning [pdf](cs.ru.nl)
146 ·Thom2503·2 个月前·31 评论
AI Reasoning
这篇AI相关的新闻(以PDF形式呈现)可能聚焦于形式推理领域,该领域运用数理逻辑和形式化方法,使AI系统能够进行严谨、逻辑有效的推理或验证系统正确性。
15
Reasoning is not model improvement(manidoraisamy.com)
63 ·QueensGambit·2 个月前·90 评论
OpenAI Ecosystem
本文指出,GPT-5等模型中的推理能力等近期AI突破并非真正的模型改进,而是利用工具编排的工程学 workaround。它批评行业在核心模型基础停滞不前的情况下依赖此类 workaround,并提到OpenAI正从核心研究转向通过ChatGPT Apps和Atlas浏览器等应用进行商业化。
16
Recursive Language Models (RLMs)(alexzhang13.github.io)
135 ·talhof8·2 个月前·35 评论
本文介绍了递归语言模型(RLMs),这是一种让大型语言模型通过REPL环境递归处理输入上下文的推理策略,可应对无限长度上下文并缓解“上下文腐烂”问题。麻省理工学院CSAIL的研究人员发现,使用GPT-5-mini的RLMs在OOLONG等复杂长上下文基准测试中表现优于GPT-5且成本更低,认为RLMs是继CoT和ReAct风格模型后的下一个里程碑,目前已有最小化实现。
17
State of AI Report 2025(stateof.ai)
93 ·SMAAART·2 个月前·68 评论
2025年AI现状报告由Air Street Capital发布,涵盖模型竞争、研究突破、商业应用等内容。主要亮点包括OpenAI在前沿模型中保持领先,Meta及DeepSeek等中国企业紧随其后;AI在推理能力上取得进展并成为科学协作工具;以及44%的美国企业现在付费使用AI工具(2023年该比例仅为5%)。
18
Reasoning LLMs are wandering solution explorers(arxiv.org)
90 ·Surreal4434·3 个月前·98 评论
LLM ResearchAI Reasoning
这篇ArXiv论文研究了大型语言模型(LLMs)通过思维链和基于树的推理等测试时计算技术所展现的推理能力。它指出模型存在无效推理步骤、冗余探索和不忠实结论等失败模式,并发现模型在复杂任务上的性能会急剧下降。论文主张采用新的指标来评估推理过程的结构,而非仅关注最终输出结果。
19
Recursive reasoning with tiny networks(alexiajm.github.io)
70 ·stared·3 个月前·2 评论
AI Reasoning
本文介绍了Tiny Recursion Model (TRM)——一种700万参数的递归推理模型,在ARC-AGI基准测试中取得了优异成绩。TRM通过自我递归高效更新答案,并在一篇ArXiv论文中被提出作为大型基础模型的替代方案。
20
Less is more: Recursive reasoning with tiny networks(alexiajm.github.io)
323 ·guybedo·3 个月前·71 评论
AI Reasoning
本文宣布了Tiny Recursion Model (TRM),这是一个700万参数的模型,通过简化的递归推理在ARC-AGI-1上达到45%的准确率,在ARC-AGI-2上达到8%。该模型配有arXiv论文和开源代码,强调参数效率,减少对大型基础模型的依赖。
21
Rule-Based Expert Systems: The Mycin Experiments (1984)(shortliffe.net)
92 ·mindcrime·3 个月前·24 评论
该故事提供了1984年一本关于MYCIN实验的免费书籍的访问链接,MYCIN是斯坦福启发式编程项目开发的基于规则的专家系统,是AI领域的里程碑项目。书中涵盖了基于规则系统的背景、MYCIN的结构、知识库构建、不确定性下的推理以及其推理引擎的泛化,对该研究进行了详细的回顾分析。
22
ProofOfThought: LLM-based reasoning using Z3 theorem proving(github.com)
326 ·barthelomew·3 个月前·175 评论
这篇文章围绕ProofOfThought展开,该方法将大型语言模型(LLMs)与Z3定理证明相结合以完成推理任务。文章可能探讨形式化定理证明如何增强基于LLM的推理能力。内容或许涉及该框架的设计或在解决复杂推理问题中的应用。
23
Moondream 3 Preview: Frontier-level reasoning at a blazing speed(moondream.ai)
286 ·kristianp·3 个月前·41 评论
本文宣布了Moondream 3的预览版,这是一款具有20亿活跃参数的90亿混合专家(MoE)视觉语言模型(VLM)。它专注于视觉推理、可训练性、速度和成本效益四大关键领域。Moondream 3在目标检测和指向等任务中达到前沿水平,同时保持快速推理和低成本,其上下文长度从2k扩展到32k,并改进了训练动态。
24
Video models are zero-shot learners and reasoners(video-zero-shot.github.io)
105 ·meetpateltech·3 个月前·17 评论
Code & Development
这篇来自谷歌DeepMind的研究论文介绍了Veo3,一个具有新兴零样本能力的视频模型,可完成边缘检测、材料属性理解、图像编辑和迷宫求解等多种视觉任务。论文指出,视频模型正朝着成为统一通用视觉基础模型的方向发展,类似于大型语言模型在语言领域的演进。
25
Qwen 3 now supports ARM and MLX(alizila.com)
55 ·dworks·3 个月前·8 评论
Local AI
阿里巴巴的Qwen3混合推理模型家族扩展其生态系统,包括支持ARM架构和苹果MLX框架、与NVIDIA、AMD及联发科集成,并被联想和一汽集团等企业部署,以推动各行业的AI应用。
26
K2-think: A parameter-efficient reasoning system(arxiv.org)
52 ·mgl·3 个月前·7 评论
这篇文章围绕K2-Think展开,这是一个发表在2025年9月提交并修订的arXiv论文中的参数高效推理系统。该研究旨在提升人工智能的推理能力,同时优化参数使用效率。
27
R-Zero: Self-Evolving Reasoning LLM from Zero Data(arxiv.org)
121 ·lawrenceyan·4 个月前·61 评论
Inference OptimizationLLM Research
本文介绍了arXiv论文中提出的自进化推理大语言模型框架R-Zero,该框架无需人工整理的任务或标签即可从零生成训练数据。R-Zero通过挑战者和求解者两个协同进化的模型构建针对性的自我改进学习课程。它能显著提升多种基础大语言模型的推理能力,例如Qwen3-4B-Base在数学推理基准测试中得分提升6.49分,在通用推理基准测试中提升7.54分。
28
GLM 4.5 with Claude Code(docs.z.ai)
213 ·vincirufus·4 个月前·84 评论
Anthropic & ClaudeCode & Development
本文介绍了GLM-4.5及其变体(Air、X、AirX、Flash),这些是面向智能体应用的最新旗舰模型,采用混合专家(MoE)架构。文章详细说明了它们的参数规模、训练流程(15万亿tokens预训练+针对代码/推理/智能体任务的微调)、128k上下文长度、强化学习优化,以及混合推理模式等功能。此外,还推出了月费3美元起的GLM Coding Plan,黑色星期五期间有折扣活动。
29
CauseNet: Towards a causality graph extracted from the web(causenet.org)
231 ·geetee·4 个月前·113 评论
CauseNet是一个大规模开放域因果关系图,包含从ClueWeb12和Wikipedia等网络来源提取的超过1100万条因果关系,估计提取精度达83%。它为每条关系提供详细的来源数据,并在基础因果问答中展示了实用价值,可支持因果推理和计算论证等AI任务。
30
DeepConf: Scaling LLM reasoning with confidence, not just compute(arxiviq.substack.com)
98 ·che_shr_cat·4 个月前·35 评论
Inference OptimizationLLM Research
DeepConf是一种旨在提升大型语言模型(LLM)推理能力的方法,它通过优先考虑输出的置信度而非仅仅依赖扩展的计算资源来实现这一目标。
第 1 / 5 页,共 129 条
📅周报
Hacker News|Powered by Doubao