AI HN
来自 Hacker News 的 AI 新闻
最新
·
HN
周报
中
EN
话题
话题
今天
3天
7天
30天
全部
全部
3
条
· "vLLM"
每页
1
Defeating Nondeterminism in LLM Inference
(thinkingmachines.ai)
345
分
·
jxmorris12
·
4 个月前
·
130 评论
Inference Optimization
LLM Research
本文讨论大型语言模型(LLM)推理中的非确定性问题——即使使用贪婪采样(温度设为0)或vLLM/SGLang等开源库也存在该问题。文章探究浮点运算非结合性和内核顺序等原因,提出批量不变的RMSNorm、矩阵乘法和注意力机制等解决方案以实现确定性结果,并包含实现与实验细节。
2
Life of an inference request (vLLM V1): How LLMs are served efficiently at scale
(ubicloud.com)
175
分
·
samaysharma
·
6 个月前
·
21 评论
Inference Optimization
这篇新闻探讨了vLLM V1中推理请求的处理流程,并解释了其实现大规模高效服务大型语言模型(LLMs)的背后机制。
3
Nano-Vllm: Lightweight vLLM implementation built from scratch
(github.com)
125
分
·
simonpure
·
6 个月前
·
16 评论
Inference Optimization
Nano-Vllm是一个轻量级的vLLM实现,完全从零开始构建而成。
📅
周报
Hacker News
|
Powered by Doubao