AI HN来自 Hacker News 的 AI 新闻
EN
今天
3天
7天
30天
全部
70 · "DeepSeek"
每页
1
DeepSeek uses banned Nvidia chips for AI model, report says(finance.yahoo.com)
329 ·goodway·15 天前·316 评论
AI ChipsOpen Source AI
据报道,中国AI初创公司深度求索(DeepSeek)使用走私的英伟达Blackwell芯片(被美国禁止向中国出口)开发其即将推出的AI模型。这些芯片据称从其他国家的数据中心拆除后运至中国。英伟达表示未看到该走私计划的证据,深度求索未立即回应置评请求。
2
DeepSeek-v3.2: Pushing the frontier of open large language models [pdf](huggingface.co)
982 ·pretext·24 天前·465 评论
Open Source AI
该新闻宣布了开源大语言模型DeepSeek-v3.2的发布,该模型旨在推动开源大语言模型的前沿发展,并附带了一篇相关研究论文。
3
DeepSeek-v3.2(huggingface.co)
63 ·meetpateltech·25 天前·1 评论
Open Source AI
DeepSeek-V3.2模型发布,该模型兼顾计算效率与推理、智能体性能。其包含适用于长上下文的DSA注意力机制、可扩展强化学习框架(高性能变体超过GPT-5)及智能体任务合成 pipeline,并在2025年IMO和IOI中获金牌。
4
DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning(huggingface.co)
264 ·victorbuilds·25 天前·88 评论
Open Source AIAI Reasoning
本文介绍了DeepSeekMath-V2模型的发布,该模型是一款专注于可自我验证数学推理的大型语言模型。内容包含引言、评估结果、快速入门指南和引用信息等部分,可在Hugging Face平台获取。
5
DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning [pdf](github.com)
231 ·fspeech·28 天前·50 评论
Open Source AIAI Reasoning
该内容提供了一篇关于DeepSeekMath-V2的PDF论文链接,这是一个专注于可自我验证数学推理的AI模型。论文探讨了提升AI解决数学问题时检查和验证自身步骤能力的研究,为数学领域的AI推理能力发展做出了贡献。
6
Karpathy on DeepSeek-OCR paper: Are pixels better inputs to LLMs than text?(twitter.com)
410 ·JnBrymn·2 个月前·173 评论
Multimodal AIOpen Source AI
Karpathy 讨论了 DeepSeek-OCR 论文。他提出了一个问题:与传统文本输入相比,像素是否是大型语言模型(LLMs)更有效的输入方式。
7
Should LLMs just treat text content as an image?(seangoedecke.com)
167 ·ingve·2 个月前·99 评论
Inference OptimizationLLM Research
本文讨论了DeepSeek OCR论文提出的将文本视为图像以提高多模态LLM的token效率的想法(称为光学压缩)。文章解释了该方法如何降低推理成本和处理更长的上下文,提到了使用该方法的现有服务和项目,并探讨了图像token能包含更多文本信息的原因(离散与连续token的差异)。
8
Getting DeepSeek-OCR working on an Nvidia Spark via brute force with Claude Code(simonwillison.net)
201 ·simonw·2 个月前·45 评论
AI ChipsAnthropic & Claude
本文讲述了作者如何使用Anthropic的AI编程工具Claude Code在NVIDIA Spark设备上搭建并运行DeepSeek-OCR模型。过程包括在Docker容器中通过Claude Code克隆模型仓库、安装依赖、生成示例图像OCR执行脚本,并创建详细的笔记和README文件。
9
DeepSeek OCR(github.com)
1003 ·pierre·2 个月前·244 评论
Multimodal AIOpen Source AI
这篇文章提到了DeepSeek OCR的GitHub仓库,DeepSeek OCR是由深度求索开发的基于人工智能的光学字符识别模型。该仓库可能包含模型的实现细节、使用指南和预训练权重。
10
State of AI Report 2025(stateof.ai)
93 ·SMAAART·2 个月前·68 评论
2025年AI现状报告由Air Street Capital发布,涵盖模型竞争、研究突破、商业应用等内容。主要亮点包括OpenAI在前沿模型中保持领先,Meta及DeepSeek等中国企业紧随其后;AI在推理能力上取得进展并成为科学协作工具;以及44%的美国企业现在付费使用AI工具(2023年该比例仅为5%)。
11
NIST's DeepSeek "evaluation" is a hit piece(erichartford.com)
278 ·aratahikaru5·3 个月前·236 评论
Open Source AI
这篇文章讨论了NIST对AI模型DeepSeek的评估,并将其描述为一篇攻击性文章。
12
DeepSeek-v3.2-Exp(github.com)
309 ·meetpateltech·3 个月前·50 评论
Open Source AI
该内容围绕deepseek-ai在GitHub上的DeepSeek-v3.2-Exp模型仓库展开,推测包含该模型发布或更新的相关细节。
13
DeepSeek-v3.1-Terminus(api-docs.deepseek.com)
101 ·meetpateltech·3 个月前·28 评论
Open Source AI
DeepSeek-V3.1已更新至DeepSeek-V3.1-Terminus,该版本减少了中英混合及随机字符问题,增强了代码代理和搜索代理的性能,并在基准测试中输出更稳定。更新后的模型可通过App、Web和API使用。
14
DeepSeek writes less secure code for groups China disfavors?(washingtonpost.com)
265 ·otterley·3 个月前·174 评论
Open Source AI
新研究发现,当程序员表明自己与中国政府不认可的团体(如被禁的法轮功)有关联时,中国人工智能引擎DeepSeek往往会拒绝提供帮助,或向其提供存在重大安全漏洞的代码。
15
From multi-head to latent attention: The evolution of attention mechanisms(vinithavn.medium.com)
174 ·mgninad·4 个月前·41 评论
LLM Research
本文探讨了AI中注意力机制的演变,从《Attention Is All You Need》论文引入的多头注意力,到Deepseek等模型使用的多潜在头注意力等高级变体。它解释了注意力的作用(预测时聚焦相关上下文标记)和关键组件(查询、键、值),旨在涵盖不同注意力机制的核心思想、优势和局限性。
16
Deploying DeepSeek on 96 H100 GPUs(lmsys.org)
285 ·GabrielBianconi·4 个月前·80 评论
AI ChipsOpen Source AI
LMSYS团队使用SGLang在96块H100 GPU(12个节点×8)上部署了DeepSeek大语言模型,采用预填充-解码分离和大规模专家并行技术。该实现达到了高吞吐量(对于2000 token输入,每个节点每秒处理52.3k输入token和22.3k输出token),性能与DeepSeek官方报告相当,成本仅为其API的五分之一,且完全开源并提供可复现的实验指导。
17
DeepSeek-v3.1(api-docs.deepseek.com)
778 ·wertyk·4 个月前·263 评论
Open Source AI
DeepSeek-v3.1是深度求索(DeepSeek)大型语言模型的更新版本,推测在逻辑推理、多语言理解或各类AI应用的计算效率等领域有所提升。
18
Native Sparse Attention(aclanthology.org)
139 ·CalmStorm·5 个月前·31 评论
LLM ResearchOpen Source AI
原生稀疏注意力是一项AI技术,它使Transformer模型能够原生地仅对相关输入片段计算注意力,在不牺牲性能的前提下提升效率。
19
LLM leaderboard – Comparing models from OpenAI, Google, DeepSeek and others(artificialanalysis.ai)
64 ·bookofjoe·5 个月前·39 评论
Google AIInference Optimization
这篇新闻介绍了一个大型语言模型(LLM)排行榜,该排行榜对来自OpenAI、谷歌、深度求索(DeepSeek)及其他机构的模型进行了比较。
20
Whistleblower: Huawei cloned Qwen and DeepSeek models, claimed as own(dilemmaworks.substack.com)
119 ·dworks·6 个月前·58 评论
Open Source AI
一名举报人声称,华为克隆了Qwen和DeepSeek的人工智能模型,并将其标榜为自己的原创成果。
21
A new, faster DeepSeek R1-0528 variant appears from German lab(venturebeat.com)
77 ·saubeidl·6 个月前·24 评论
Open Source AI
德国实验室推出了DeepSeek R1的新型更快变体,该变体被命名为R1-0528。
22
DeepSeek app faces ban in Germany for illegal transfer of user data(searchenginejournal.com)
71 ·nsoonhui·6 个月前·12 评论
Open Source AI
DeepSeek应用程序因非法传输用户数据而在德国面临被禁止的处罚。
23
DeepSeek R2 launch stalled as CEO balks at progress(reuters.com)
140 ·nsoonhui·6 个月前·181 评论
Open Source AI
DeepSeek R2的发布已被搁置,原因是其首席执行官对项目目前的进展不满意。
24
Why DeepSeek is cheap at scale but expensive to run locally(seangoedecke.com)
328 ·ingve·7 个月前·227 评论
Open Source AI
该新闻探讨了DeepSeek模型在大规模使用时(如通过云平台)成本效益高,但在本地部署和运行时成本昂贵的原因。
25
Deepseek R1-0528(huggingface.co)
451 ·error404x·7 个月前·250 评论
Open Source AI
Deepseek R1-0528可能是深度求索R1 AI模型的更新版本,或在多项AI任务中具备更优性能。
26
DeepSeek’s founder is threatening US dominance in AI race(bloomberg.com)
89 ·blumpy22·8 个月前·77 评论
Open Source AI
💡 The story focuses on DeepSeek, an AI company, and its strategy to compete in the AI race, which falls under business and corporate news.
27
DeepSeek-Prover-V2(github.com)
396 ·meetpateltech·8 个月前·77 评论
Open Source AI
💡 DeepSeek-Prover-V2 is a model release from DeepSeek AI, which aligns with the 'models' category covering model announcements and updates.
28
Deepseek Unmasked [pdf](selectcommitteeontheccp.house.gov)
55 ·ironyman·8 个月前·46 评论
Open Source AI
💡 The story features a document from a US congressional committee about Deepseek, an AI company, which likely involves policy oversight or regulatory considerations related to AI, fitting the legal category.
29
An intro to DeepSeek's distributed file system(maknee.github.io)
623 ·sebg·8 个月前·108 评论
Open Source AI
💡 The story introduces DeepSeek's distributed file system, which is part of the infrastructure supporting AI workloads such as data storage and model training.
30
The path to open-sourcing the DeepSeek inference engine(github.com)
550 ·Palmik·9 个月前·63 评论
Inference OptimizationOpen Source AI
💡 The story focuses on open-sourcing an AI inference engine, which falls under the infra category covering deployment and inference tools.
第 1 / 3 页,共 70 条
📅周报
Hacker News|Powered by Doubao