"reasoning" 搜索结果

AI HNAI 新闻与论文，智能精选

中

时间:

今天

3天

7天

30天

全部

来源:

全部

📰HN

📄论文

291 条 · "reasoning"

Separating AI agent reasoning from execution, crypto binding execution📰 HN

1 分·ketanbj·6 天前·0 评论

这篇帖子分享了一个关于分离AI智能体推理与执行以及加密绑定执行的Reddit讨论链接，并邀请大家分享对此话题的想法。

Reasoning boosts search relevance 15-30%(softwaredoug.com)📰 HN

1 分·gmays·7 天前·0 评论

Code & DevelopmentOpenAI Ecosystem

本文描述了一项实验，其中使用GPT-5的智能体增强型BM25搜索工具在两个数据集（WANDS和ESCI）上的搜索相关性比基线BM25提升了15-30%。作者分享了方法、代码和结果，强调了推理智能体对搜索质量的影响。

Hill-climbing ARC-AGI-3(blog.alexisfox.dev)📰 HN

1 分·10xDev·7 天前·0 评论

AI SafetyAI Search

💡 The title references ARC (a well-known AI reasoning benchmark) and hill-climbing (an algorithmic approach), indicating a research focus on AI reasoning methods.

Show HN: Republic of Agents: Benchmark for Social Reasoning in LLMs(republicofagents.com)📰 HN

1 分·kkonstantin·8 天前·0 评论

Inference OptimizationLLM Research

这个Show HN介绍了Republic of Agents，一个通过7人Mafia游戏评估LLM社交推理能力（如协作、欺骗和联盟构建）的实验性基准。它包含两个评估批次（有无游戏间学习），并设有排行榜，根据结果分数对GPT-5.2和Gemini 3.1 Pro Preview等模型进行排名。会话亮点展示了游戏中特定模型的互动和表现。

Show HN: Synapse – structurally honest reasoning VM (spec) – the missing layer(github.com)📰 HN

1 分·lfmuc·10 天前·0 评论

这篇Show HN帖子介绍了Synapse，一个结构诚实的推理虚拟机规范。它被描述为AI系统中缺失的一层，项目托管在GitHub上。该帖子可能旨在邀请社区对该规范提供输入和反馈。

A curated list of papers on LLMs reasoning failures(github.com)📰 HN

1 分·itherseed·10 天前·0 评论

Inference OptimizationLLM Research

这是一份关于大型语言模型（LLMs）推理失败的论文精选列表。该集合汇集了分析LLMs推理能力局限性的研究成果，有助于理解模型弱点并为未来改进提供参考。

What if reasoning happens before language?(github.com)📰 HN

1 分·stramanu·10 天前·1 评论

该故事链接到一个GitHub项目，探索潜在认知架构中推理先于语言发生的理论想法。该项目研究了推理先于语言表达的认知系统方法。

V1: Unifying Generation and Self-Verification for Parallel Reasoners (ArXiv)(arxiv.org)📰 HN

1 分·harman2607·11 天前·1 评论

这篇题为《V1：为并行推理器统一生成与自我验证》的ArXiv论文，针对复杂推理任务中验证正确解决方案的瓶颈问题展开研究。它提出了一种成对自我验证方法，替代独立的标量评分，以提升在多个候选方案中识别正确结果的能力。

Reasoning models struggle to control their chains of thought, and that's good(openai.com)📰 HN

1 分·vinhnx·11 天前·0 评论

AI SafetyOpenAI Ecosystem

OpenAI的研究发现，当前推理模型难以控制其思维链以逃避监控，这对AI安全来说是个好消息，因为思维链监控仍然有效。模型大小越大，可控性越高，但推理时间越长或经过额外训练后，可控性会降低。

Show HN: Jido 2.0, Elixir Agent Framework(jido.run)📰 HN

248 分·mikehostetler·11 天前·54 评论

Inference OptimizationLLM Research

Jido 2.0是基于Elixir的AI智能体框架，经过18个月的开发后正式发布。它采用纯函数式智能体架构，简化了API，解决了1.0版本过度工程化的问题。该框架利用BEAM运行时处理并发智能体系统，并提供可插拔策略，包括ReAct等AI推理方法。

Phi-4-reasoning-vision and the lessons of training a multimodal reasoning model(microsoft.com)📰 HN

1 分·tosh·12 天前·0 评论

AI SearchMicrosoft AI

这篇微软研究院的博客文章讨论了Phi-4-reasoning-vision多模态推理模型，并分享了训练该模型过程中的关键经验教训。文章可能涵盖了在AI模型中开发有效多模态推理能力的见解。

Phi-4-reasoning-vision-15B(huggingface.co)📰 HN

1 分·tosh·12 天前·0 评论

Microsoft AI

微软发布了Phi-4-Reasoning-Vision-15B，这是一款紧凑的开源多模态推理模型。它支持文本和图像输入，输出文本，上下文长度为16384个token，使用240个B200 GPU训练了4天。该模型在Hugging Face上以MIT许可证提供。

PageIndex: Vectorless, Reasoning-Based RAG(github.com)📰 HN

1 分·anujbans·12 天前·0 评论

RAG & Retrieval

PageIndex是一个托管在GitHub上的开源项目，它提供了一种无向量、基于推理的RAG（检索增强生成）方法。该项目通过利用推理能力，为传统的基于向量的RAG系统提供了一种替代方案。

Bayesian teaching enables probabilistic reasoning in large language models(nature.com)📰 HN

1 分·paraschopra·12 天前·0 评论

LLM Research

这篇发表于《自然通讯》的学术论文研究了贝叶斯教学在大型语言模型中的应用，以实现概率推理。该研究探讨了这种方法如何提升LLMs在概率任务中的推理能力。

GPT-5.4 to bring a million-token context window and an extreme reasoning mode(the-decoder.com)📰 HN

1 分·jwilliams·12 天前·0 评论

OpenAI Ecosystem

这篇文章讨论了OpenAI即将推出的GPT-5.4模型，据报道该模型拥有100万token的上下文窗口（是当前GPT-5.2的400k token的两倍），并为研究人员提供“极端”推理模式。文章提到该模型可能很快发布，旨在解决之前的 hype 问题，并支持更长时间的任务（如OpenAI Codex编程代理的任务）。

GPT 5.4 includes new extreme reasoning mode and 1M context(old.reddit.com)📰 HN

3 分·alecco·12 天前·0 评论

该故事（基于标题）宣布了GPT 5.4，其包含新的极端推理模式和100万token的上下文窗口。文章内容因网络政策被阻止，无法获取更多细节。

Actor-Curator: Learning the Training Curriculum for RL Post-Training(arxiv.org)📰 HN

1 分·jonathanlight·12 天前·1 评论

Inference OptimizationLLM Research

本文提出ACTOR-CURATOR，一个用于大型语言模型（LLM）强化学习后训练的可扩展自动化课程学习框架。该框架通过神经curator基于策略改进bandit动态选择训练问题，具有理论遗憾保证，并在AIME2024和ARC-1D等基准测试中取得显著性能提升及最高80%的加速。

Show HN: Turn .cursorrules / repo guidelines into GitHub pre-merge checks (OSS)(watchflow.dev)📰 HN

1 分·dkargatzis·12 天前·0 评论

Code & Development

这篇Show HN帖子介绍了Watchflow，一个开源的GitHub应用，可将仓库指南转化为合并前检查。它利用深度仓库分析和智能代理推理过滤低价值PR，应对AI编码助手带来的PR数量激增问题。主要功能包括差异感知验证、测试覆盖率跟踪及可解释的维护者反馈。

When Reasoning Becomes a Trap: Gemini 3 Flash in FoodTruck Bench(foodtruckbench.com)📰 HN

1 分·Munksgaard·13 天前·0 评论

Google AI

本文展示了一项针对谷歌Gemini 3 Flash在FoodTruck Bench（一个评估AI智能体业务能力的基准测试）上的案例研究。该模型表现出独特的问题，如无限推理循环和无法执行工具调用，尽管在某些运行中也显示出较强的性能。主要发现包括大多数运行中出现无法恢复的循环，而其他测试模型（如GPT-5或Claude）未表现出类似行为。

Show HN: Offline AI That Analyzes Your Health Data with Evidence-Based Reasoning(twitter.com)📰 HN

1 分·sagebowsystem·13 天前·0 评论

这篇Show HN帖子介绍了一款离线AI工具，该工具利用基于证据的推理分析健康数据。它允许用户在无需互联网连接的情况下处理健康信息，强调数据隐私和可靠的见解。

Show HN: Pencil Puzzle Bench – LLM Benchmark for Multi-Step Verifiable Reasoning(ppbench.com)📰 HN

2 分·bluecoconut·13 天前·0 评论

这个Show HN介绍了Pencil Puzzle Bench，一个用于评估LLMs多步可验证推理能力的基准测试，使用了涵盖20种类型的62k个铅笔谜题。它包含51个前沿模型的排行榜及其性能指标，并提供了数据集、研究论文和交互式谜题游玩的链接。

Show HN: A Write Barrier That Blocks Structural Collapse in LLM Reasoning📰 HN

1 分·persistentVlad·13 天前·1 评论

Inference OptimizationLLM Research

这篇Show HN帖子介绍了一个原型写屏障，旨在防止LLM推理中的结构崩溃。帖子针对的问题是LLM在多步任务中会将结构化中间结果替换为标量值，从而影响下游推理。

Open Source Models Score Low on ARC-AGI-2 Reasoning Benchmark(xcancel.com)📰 HN

1 分·ironyman·14 天前·0 评论

Open Source AI

这篇报道指出，Kimi K2.5、Minimax M2.5等国际开源AI模型在ARC-AGI-2半私有推理基准测试中得分较低，低于2025年前沿实验室的标准。ARC Prize基金会分享了排行榜和测试政策的细节，社区成员则讨论了数据保留和半私有测试的有效性。

Toward Guarantees for Clinical Reasoning in Vision Language Models(arxiv.org)📰 HN

3 分·barthelomew·15 天前·1 评论

AI SafetyCode & Development

该论文提出了一个神经符号验证框架，用于审核视觉语言模型（VLM）生成的临床报告的内部一致性。它将报告中的自由文本发现自动形式化为结构化证据，并使用SMT求解器和临床知识库来验证诊断主张的有效性。通过对七个VLM和五个胸部X光基准数据集的评估，该框架揭示了传统指标无法发现的推理失败模式，并表明强制执行求解器支持的蕴含关系可显著提高诊断的可靠性。

System prompt change Claude's reasoning depth – side-by-side comparison tool(claude.ai)📰 HN

1 分·Yuudaiikoma·17 天前·1 评论

Anthropic & ClaudeCode & Development

这篇文章介绍了一个并排对比工具，用于展示系统提示的变化如何影响Claude的推理深度。内容提到Claude在某些地区不可用，并包含了针对开发独特声音、改进写作风格等任务的示例提示。

Unsaturable LLM Benchmark – Rating LLM Skill, Reliability, and Metacognition(unsaturable.com)📰 HN

1 分·ootakamoku·17 天前·1 评论

Inference OptimizationLLM Research

Unsaturable LLM基准通过国际象棋、围棋和德州扑克等零和游戏评估大型语言模型，指标包括技能、可靠性、战略推理和认知校准。它提供模型性能排行榜和原始游戏日志，并呼吁资金支持以扩展基准范围和纳入更多模型。

Can LLMs reason about math? The Subtraction Trick Test(haversine.substack.com)📰 HN

1 分·MakeAJiraTicket·18 天前·0 评论

Inference OptimizationLLM Research

这篇文章研究大型语言模型（LLMs）是否能通过减法技巧测试进行数学推理。它可能包含对LLMs在该特定数学推理任务上表现的评估。

Show HN: A Write Barrier That Blocks Structural Collapse in LLM Reasoning(github.com)📰 HN

1 分·persistentVlad·18 天前·1 评论

Inference OptimizationLLM Research

这个Show HN项目介绍了一种旨在防止LLM推理中结构崩溃的写屏障。该项目托管在GitHub上，展示了一个用于提升大型语言模型推理能力的工具或架构。

Can LLMs SAT?(blog.aiono.dev)📰 HN

1 分·todsacerdoti·19 天前·0 评论

Inference OptimizationLLM Research

这篇博客文章探讨大型语言模型（LLMs）能否通过解决SAT问题来测试其通用推理能力。作者生成了CNF形式的随机SAT实例，并使用SAT求解器验证LLMs的输出结果。该实验旨在判断LLMs是否能超越训练数据，推广应用基本逻辑规则。

Can Chain-of-Thought Reasoning Solve Any Computable Task?(arxiv.org)📰 HN

1 分·ryancoleman·19 天前·1 评论

AI Agent

本文将AI智能体视为随机动力系统，探索通过转导推理学习推理的方法，其目标是减少解决新任务的计算量，而非仅近似过去的数据分布。论文提出三个关键发现：新任务的最优加速与训练数据共享的算法信息相关，转导推理在复杂数据生成机制下获益最大，naive缩放可能导致无迁移策略的暴力求解，强调时间优化对推理模型的重要性。

...

第 1 / 10 页，共 291 条

📅周报

Hacker News|Powered by Doubao

时间:

今天

3天

7天

30天

全部

来源:

全部

📰HN

📄论文

291 条 · "reasoning"

Separating AI agent reasoning from execution, crypto binding execution📰 HN

1 分·ketanbj·6 天前·0 评论

这篇帖子分享了一个关于分离AI智能体推理与执行以及加密绑定执行的Reddit讨论链接，并邀请大家分享对此话题的想法。

Reasoning boosts search relevance 15-30%(softwaredoug.com)📰 HN

1 分·gmays·7 天前·0 评论

Code & DevelopmentOpenAI Ecosystem

Hill-climbing ARC-AGI-3(blog.alexisfox.dev)📰 HN

1 分·10xDev·7 天前·0 评论

AI SafetyAI Search

💡 The title references ARC (a well-known AI reasoning benchmark) and hill-climbing (an algorithmic approach), indicating a research focus on AI reasoning methods.

Show HN: Republic of Agents: Benchmark for Social Reasoning in LLMs(republicofagents.com)📰 HN

1 分·kkonstantin·8 天前·0 评论

Inference OptimizationLLM Research

Show HN: Synapse – structurally honest reasoning VM (spec) – the missing layer(github.com)📰 HN

1 分·lfmuc·10 天前·0 评论

A curated list of papers on LLMs reasoning failures(github.com)📰 HN

1 分·itherseed·10 天前·0 评论

Inference OptimizationLLM Research

What if reasoning happens before language?(github.com)📰 HN

1 分·stramanu·10 天前·1 评论

该故事链接到一个GitHub项目，探索潜在认知架构中推理先于语言发生的理论想法。该项目研究了推理先于语言表达的认知系统方法。

V1: Unifying Generation and Self-Verification for Parallel Reasoners (ArXiv)(arxiv.org)📰 HN