"vLLM" 搜索结果

AI HNAI 新闻与论文，智能精选

中

时间:

今天

3天

7天

30天

全部

来源:

全部

📰HN

📄论文

47 条 · "vLLM"

Surpassing vLLM with a Generated Inference Stack(infinity.inc)📰 HN

28 分·lukebechtel·7 天前·8 评论

Inference Optimization

这篇案例研究详细介绍了Infinity的infy优化系统，该系统为Qwen3-8B从头生成了推理引擎。通过跨层内核融合和调度调整等模型特定优化，该引擎在解码密集型工作负载上的令牌吞吐量比vLLM高34.3%，在预填充密集型任务上高15.9%。

vLLM Semantic Router v0.2 Athena: ClawOS, Model Refresh, and the System Brain(vllm.ai)📰 HN

1 分·mariuz·7 天前·0 评论

Code & DevelopmentInference Optimization

本文介绍了vLLM Semantic Router v0.2 Athena版本的发布，该版本包含完整的模型更新、实验性操作层ClawOS以及多模态嵌入功能。此次更新旨在将语义路由转变为混合模型和多智能体部署的系统大脑，在长上下文处理、多语言支持和跨模态检索方面有所改进。

A simple L7 proxy for vLLM that manages LoRA adapter storage via NVMes(github.com)📰 HN

2 分·shayonj·8 天前·0 评论

Inference OptimizationTraining Methods

这个故事介绍了Loraplex，一个用于vLLM的开源L7代理，它通过NVMe管理LoRA适配器存储。该工具托管在GitHub上，旨在简化AI推理环境中LoRA适配器的处理。

Ask HN: How to serve inference as we do with containes with cached token📰 HN

1 分·elesbao·9 天前·0 评论

AI AgentAI Safety

用户询问如何像容器化部署那样提供带有缓存token的AI模型推理服务。他们提到正在尝试vLLM，并希望在内部运行模型，为其教育集团的研究团队提供访问权限。

A GB300 thread that running vLLM and SGlang on it(twitter.com)📰 HN

1 分·pacoxu2025·12 天前·0 评论

Inference Optimization

该故事围绕在GB300线程上运行vLLM和SGlang展开。vLLM是大型语言模型的开源推理引擎，SGlang是高效服务LLM的框架。此主题涉及AI模型部署的技术工程领域。

Survey of Open-Source Vision Language Models (2026)(blog.overshoot.ai)📰 HN

1 分·YounElh·13 天前·1 评论

Inference Optimization

这篇2026年的调查涵盖了2024年12月后发布的、支持文本、图像和视频输入的开源视觉语言模型（VLM）。它详细介绍了Qwen3.5和Qwen3-VL系列等关键模型，包括其参数、上下文长度、部署工具（vLLM、SGLang）和下载统计数据，并提供了部署指南和模型详细分析的链接。

The 10x inference tax you don't have to pay(distillabs.ai)📰 HN

1 分·maciejgryka·13 天前·0 评论

Inference Optimization

本文讨论了“10倍推理税”，指出小型专用蒸馏模型在质量上可匹配或优于中等规模前沿LLM（如GPT-5 nano），同时成本和速度提升10倍。文章展示了9个数据集（分类、问答、函数调用）的基准测试结果，并提到通过vLLM自托管及开源代码资源。

vLLM-mlx – 65 tok/s LLM inference on Mac with tool calling and prompt caching(github.com)📰 HN

1 分·raullen·19 天前·1 评论

Apple AIInference Optimization

vLLM-mlx是一个开源项目，可在Mac设备上实现每秒65个token的LLM推理速度，具备工具调用和提示缓存功能。该项目托管在GitHub上，是基于vLLM适配苹果MLX框架的版本。

vLLM WideEP and Large-Scale Serving Toward Maturity on Blackwell (Part I)(blog.vllm.ai)📰 HN

1 分·roody_wurlitzer·20 天前·0 评论

Meta和NVIDIA团队的博客文章详细介绍了针对vLLM的优化，以在NVIDIA GB200（Blackwell）硬件上实现大规模模型服务。关键优化包括低精度操作（NVFP4、FP8）、内核融合、权重卸载和最小化分块开销，这些优化使DeepSeek风格的MoE模型在GB200上的吞吐量较H200部署有显著提升。文章还提供了通过GitHub链接复现基准测试结果的说明。

DeepSeek-v3.2 on GB300: Performance Breakthrough(blog.vllm.ai)📰 HN

1 分·roody_wurlitzer·20 天前·0 评论

Inference OptimizationOpen Source AI

vLLM博客文章详细介绍了DeepSeek-V3.2和DeepSeek-R1模型在Blackwell GB300 GPU上的性能表现，显示了使用FP4量化在预填充仅场景和混合上下文场景中的高吞吐量。文章提供了使用vLLM部署这些模型的步骤和优化配置，并指出相较于Hopper系列GPU有显著的性能提升。

vLLM (high-throughput LLM serving engine)(github.com)📰 HN

1 分·roody_wurlitzer·20 天前·0 评论

该故事链接到vLLM的GitHub仓库，vLLM是一个高吞吐量的LLM服务引擎。这个开源项目旨在优化大型语言模型的推理过程。

New inference engine faster than vLLM, SGLang, TRT-LLM(layerscale.ai)📰 HN

1 分·logotype·26 天前·0 评论

Inference Optimization

LayerScale是一款新型推理引擎，可为流数据提供O(1)查询延迟，比vLLM和SGLang快8倍。它支持实时交易和智能代理工具等场景，同时保留完整模型注意力机制。基准测试显示其在Meta-Llama-3.1-8B-Instruct上实现33ms延迟。

Ollama vs. vLLM: When to Start Scaling Your Local AI Stack(sitepoint.com)📰 HN

1 分·mrnobody_67·27 天前·0 评论

Inference OptimizationLocal AI

本文比较了Ollama和vLLM，旨在帮助开发者决定何时扩展其本地AI栈。它提供了一个基于基准数据的决策框架（在相同模型、硬件和提示下测试单用户与50个并发用户），以确定Ollama的简单性何时成为负担，以及vLLM的工程开销何时对生产推理来说是合理的投资。

Vulnerabilities in 45 Open Source Projects (vLLM, Langfuse, Phase, NocoDB)(kolega.dev)📰 HN

1 分·jfaganel99·大约 1 个月前·1 评论

Inference Optimization

本文报道了使用kolega.dev语义分析工具在45个成熟开源AI项目（包括vLLM和Langfuse）中发现的225个安全漏洞。这些漏洞（如身份验证绕过和通过pickle反序列化的远程代码执行）因语义错误而非语法错误，被传统模式匹配SAST工具遗漏。维护者已接受90%的修复建议，kolega.dev还入选了Langfuse的名人堂。

Constant 14ms attention: 512→524K tokens (24.5x faster than FlashAttention)(github.com)📰 HN

1 分·luxiedge·大约 1 个月前·1 评论

Inference OptimizationLLM Research

该故事展示了vllm项目的基准测试结果，其恒定14毫秒的注意力机制可支持从512到524K的令牌规模，速度比FlashAttention快24.5倍，重点突出大型语言模型推理性能的提升。

Using Nsight Compute to profile kernels in vLLM without creating repro scripts(blog.ncompass.tech)📰 HN

1 分·adiraja·大约 1 个月前·0 评论

Inference Optimization

本文介绍如何使用Nsight Compute工具在vLLM AI推理引擎中分析GPU内核，无需创建复现脚本。文章提供了通过分析内核执行细节优化vLLM性能的见解，对从事AI推理基础设施的工程师具有参考价值。

llm-d 0.4: Achieve SOTA performance across accelerators(llm-d.ai)📰 HN

1 分·teleforce·大约 1 个月前·0 评论

Inference OptimizationLLM Research

本文宣布推出llm-d 0.4版本，这是一个开源推理栈，专注于提升生产级AI服务的端到端请求延迟。主要更新包括通过推测解码和vLLM优化将DeepSeek模型的每token延迟降低高达50%，为Google TPU和Intel XPU提供动态解耦服务，前缀缓存卸载，以及用于优化资源使用的工作负载自动缩放器预览版。

Nano-vLLM: How a vLLM-style inference engine works(neutree.ai)📰 HN

1 分·yz-yu·大约 1 个月前·0 评论

Inference Optimization

本文介绍了受vLLM启发的轻量级开源推理引擎Nano-vLLM，涵盖其以调度器为核心的生产者-消费者架构、提升GPU吞吐量的批处理优化，以及前缀缓存和张量并行等关键特性，旨在揭秘面向生产环境的推理引擎设计原理。

Is there a platform for devs to share repositories in hopes of OSS contributors?📰 HN

2 分·anshyyy·大约 1 个月前·1 评论

Inference Optimization

用户询问是否存在供开发者分享仓库以寻求开源贡献者的平台，提到vLLM和PyTorch等热门机器学习开源项目贡献者众多，good-first-issues被迅速抢走。

Why vLLM Scales: Paging the KV-Cache for Faster LLM Inference(akrisanov.com)📰 HN

1 分·akrisanov·大约 2 个月前·0 评论

Inference Optimization

本文阐述了vLLM如何通过PagedAttention技术实现LLM推理的高效扩展，该技术借鉴操作系统分页思想，将KV缓存拆分为固定块管理以减少内存浪费和碎片，从而提升吞吐量与GPU利用率。

Inference startup Inferact lands $150M to commercialize vLLM(techcrunch.com)📰 HN

1 分·mellosouls·大约 2 个月前·0 评论

Inference Optimization

推理初创公司Inferact已获得1.5亿美元融资，用于商业化AI推理引擎vLLM。该种子轮融资对这家新成立的初创公司估值达8亿美元。这笔资金将支持该公司将其AI推理技术推向市场的努力。

ClickHouse PostgreSQL Powered by Ubicloud(ubicloud.com)📰 HN

1 分·gouthamve·大约 2 个月前·0 评论

Inference Optimization

这篇Hacker News故事介绍了Ubicloud的ClickHouse PostgreSQL服务，以及其涵盖AI和云主题的博客文章列表。主要内容包括通过vLLM实现LLM推理的见解、EuroGPT等开源AI模型，以及OpenAI o1与QwQ-32B等高级推理模型的对比，还提到了Ubicloud的可突发VM等云服务。

vLLM multi-turn conversations design(github.com)📰 HN

1 分·CCs·大约 2 个月前·0 评论

Inference Optimization

这个故事围绕开源大语言模型推理框架vLLM的多轮对话功能设计展开。该讨论以GitHub issue形式进行，可能探索改进多轮交互处理的实现细节。

The three types of LLM workloads and how to serve them(modal.com)📰 HN

1 分·charles_irl·大约 2 个月前·0 评论

Inference Optimization

本文将LLM工作负载分为离线（批量处理、注重吞吐量）、在线（交互式、低延迟）和半在线（突发式、灵活）三种类型，并针对每种类型提供了使用vLLM和SGLang等开源引擎及特定基础设施配置的定制化服务建议。文章解释了这些策略如何应对每种工作负载的独特挑战，以提升性能和效率。

Heaps do lie: debugging a memory leak in vLLM(mistral.ai)📰 HN

2 分·pember·大约 2 个月前·0 评论

Inference Optimization

Mistral AI的工程深度解析文章分享了团队调试vLLM内存泄漏问题的过程。该泄漏在预生产环境的分离式服务设置中出现，仅在特定条件下（使用vLLM、Mistral Medium 3.1模型、启用图编译）发生，且与解码实例中的NIXL KV缓存传输有关。

Show HN: vLLM Studio – Web UI to manage vLLM/SGLang inference servers at home(github.com)📰 HN

1 分·week7820·大约 2 个月前·0 评论

Inference Optimization

这篇Show HN帖子介绍了vLLM Studio，一个用于在家管理vLLM和SGLang推理服务器的Web UI工具。它是一个社区创建的项目，并在Hacker News上分享。

Running a vLLM LXC on Proxmox 9 with Nvidia GPU Passthrough(medium.com)📰 HN

1 分·jakeasmith·大约 2 个月前·1 评论

AI ChipsInference Optimization

本文是一篇教程，介绍如何在Proxmox 9的LXC容器中设置开源推理引擎vLLM并实现NVIDIA GPU访问。这使得用户可以在本地运行较小的LLM模型，完成文本生成和代码补全等任务，无需依赖第三方API，同时还能与其他服务共享GPU资源。指南包含在Proxmox主机上安装NVIDIA驱动程序以及配置vLLM环境的步骤。

Help Me📰 HN

1 分·forkiehackersss·大约 2 个月前·0 评论

Inference Optimization

文本讨论了vLLM和SGLang等AI工程工具的相关方面，提到了它们的官方Github仓库以及用于分析交互的示例代码，重点关注轻量级请求。

Show HN: Optimized vLLM for Blackwell (SM_120) – 59T/S on DeepSeek-R1(github.com)📰 HN

1 分·malka666·大约 2 个月前·0 评论

Inference Optimization

这篇Show HN帖子展示了针对英伟达Blackwell（SM_120）硬件优化的vLLM版本，在DeepSeek-R1模型上实现了59T/S的吞吐量。这是一个在Hacker News上分享的社区创建项目。

The State of LLM Serving in 2026: Ollama, SGLang, TensorRT, Triton, and vLLM(thecanteenapp.com)📰 HN

1 分·jxmorris12·大约 2 个月前·0 评论

Inference OptimizationLocal AI

本文探讨了2026年大语言模型（LLM）服务的现状，介绍了Ollama、SGLang、TensorRT、Triton和vLLM等对高效部署和运行大语言模型至关重要的工具。