💡 The story centers on an AI agent (Mad) performing research live, which is a practical application of AI agents. This fits the applications category as it involves real-world use of agent technology.
本文分析了大语言模型(LLM)的发展进程,重点介绍了OpenAI o1(2024年)和Deepseek R1(2025年)等关键模型及其改进。文章提出“大翻倍”概念,将其作为LLM的目标——使当前性能指标(智能、速度、效率)翻倍以实现实际应用可用性,并使用AAII、FrontierMath和Humanity’s Last Exam等基准进行分析。