AI HN来自 Hacker News 的 AI 新闻
EN
今天
3天
7天
30天
全部
3 · "vLLM"
每页
1
Defeating Nondeterminism in LLM Inference(thinkingmachines.ai)
345 ·jxmorris12·4 个月前·130 评论
Inference OptimizationLLM Research
本文讨论大型语言模型(LLM)推理中的非确定性问题——即使使用贪婪采样(温度设为0)或vLLM/SGLang等开源库也存在该问题。文章探究浮点运算非结合性和内核顺序等原因,提出批量不变的RMSNorm、矩阵乘法和注意力机制等解决方案以实现确定性结果,并包含实现与实验细节。
2
Life of an inference request (vLLM V1): How LLMs are served efficiently at scale(ubicloud.com)
175 ·samaysharma·6 个月前·21 评论
Inference Optimization
这篇新闻探讨了vLLM V1中推理请求的处理流程,并解释了其实现大规模高效服务大型语言模型(LLMs)的背后机制。
3
Nano-Vllm: Lightweight vLLM implementation built from scratch(github.com)
125 ·simonpure·6 个月前·16 评论
Inference Optimization
Nano-Vllm是一个轻量级的vLLM实现,完全从零开始构建而成。
📅周报
Hacker News|Powered by Doubao