AI HN来自 Hacker News 的 AI 新闻
EN
今天
3天
7天
30天
全部
177 · "Llama"
每页
1
Post-transformer inference: 224× compression of Llama-70B with improved accuracy(zenodo.org)
72 ·anima-core·16 天前·56 评论
Inference OptimizationLLM Research
一篇预印本介绍了一种从推理中移除Transformer的方法,将Llama-70B压缩224倍且精度提升。该方法从Transformer中提取任务对齐的语义到低秩域,通过场处理单元(FPU)实现无Transformer推理,吞吐量更高且精度损失极小。Zenodo发布包含论文手稿和参考实现。
2
After the Bubble(tbray.org)
91 ·savant2·17 天前·82 评论
AI Chips
本文分析了生成式AI泡沫即将破裂的问题,重点指出GPU的脆弱性(如Llama 3训练期间Nvidia H100的故障)和高功耗成本是关键因素。文章提到,与过去的泡沫(铁路、互联网泡沫)破裂后留下有价值基础设施不同,由于GPU损耗快和能源成本高,生成式AI泡沫破裂后可能不会留下类似的长期价值,并指出特殊目的实体(SPVs)是大型科技公司在不增加资产负债表债务的情况下建设AI数据中心的财务手段。
3
Zebra-Llama – Towards efficient hybrid models(arxiv.org)
113 ·mirrir·19 天前·61 评论
Meta AI
本文介绍了ArXiv论文中提出的混合大型语言模型家族Zebra-Llama(含1B、3B、8B变体),该模型结合状态空间模型(SSM)与多头潜在注意力(MLA)层,在保持Transformer级精度的同时实现接近SSM的效率。Zebra-Llama在少样本精度和吞吐量上优于MambaInLLaMA、Minitron等模型,且使用更少训练token,KV缓存大小大幅缩减。作者计划在论文被接受后发布代码及模型checkpoint。
4
The PowerPC Has Still Got It (Llama on G4 Laptop)(hackster.io)
53 ·stmw·大约 1 个月前·19 评论
RAG & Retrieval
一位复古计算爱好者修改了llama2.c,使其能在2005年的PowerBook G4(1.5GHz,1GB内存)上运行TinyStories大语言模型。主要修改包括适配PowerPC的大端字节序架构和调整内存对齐方式。初始推理速度为0.77 tokens/秒,通过AltiVec向量处理优化后提升至约0.88 tokens/秒,证明旧硬件通过优化仍可运行现代AI模型。
5
"Green Llama" did not just beat Cascade Platinum Plus(foxchapelresearch.substack.com)
62 ·searealist·大约 2 个月前·30 评论
Meta AI
这篇文章围绕可能与Meta的Llama系列相关的AI模型Green Llama展开,据称其性能优于Cascade Platinum Plus。帖子下的评论对这些结果的可信度进行了辩论,涉及p-hacking问题,并要求通过独立标准化测试来验证这些主张。
6
Ask HN: Who uses open LLMs and coding assistants locally? Share setup and laptop
350 ·threeturn·大约 2 个月前·192 评论
Audio & SpeechLocal AI
Hacker News上的一个帖子询问在本地使用开源大型语言模型(LLMs)和编程助手的用户分享他们的设备配置及笔记本电脑信息。
7
Llamafile Returns(blog.mozilla.ai)
137 ·aittalam·大约 2 个月前·24 评论
RAG & Retrieval
Mozilla.ai已正式接手llamafile项目,该项目可通过单个可执行文件轻松分发和本地运行大语言模型(LLM),并利用llama.cpp进行推理。目前项目正进行更新,以整合llama.cpp的新功能,并收集社区反馈来制定路线图。
8
Production RAG: what I learned from processing 5M+ documents(blog.abdellatif.io)
551 ·tifa2up·2 个月前·114 评论
RAG & Retrieval
本文分享了为两家处理超500万文档的企业构建生产级RAG系统的经验,包括查询生成、重排序、分块、元数据使用和查询路由等关键策略。文章详细介绍了所用技术栈(向量数据库、分块工具、嵌入模型、重排序器),并提到基于这些经验的开源项目Agentset。
9
New coding models and integrations(ollama.com)
221 ·meetpateltech·2 个月前·72 评论
Local AI
本文介绍了Ollama云服务新增的GLM-4.6、Qwen3-Coder-480B编码模型,以及更新后的Qwen3-Coder-30B(提升工具调用速度)。文章提供了将这些模型与VS Code、Zed、Droid等编码工具集成的详细步骤,并给出了生成单页游戏应用等代码的示例提示。
10
The Tiny Teams Playbook(latent.space)
137 ·tilt·3 个月前·46 评论
AI AgentInference Optimization
这篇来自Latent Space的文章包含关于AI案例研究(LLM系统设计、智能体、RAG)的评论,以及相关帖子如《2025 AI工程师阅读清单》(涵盖工具、模型、工作流程)和关于o1等模型的讨论。
11
Launch HN: LlamaFarm (YC W22) – Open-source framework for distributed AI(github.com)
106 ·mhamann·3 个月前·71 评论
RAG & Retrieval
这篇报道宣布了LlamaFarm的发布,这是一个用于分布式人工智能的开源框架,在Launch HN上展示,且属于Y Combinator W22批次项目。
12
When Curl Works but IntelliJ Doesn't: The Ollama Connection Mystery(blog.tymscar.com)
82 ·tymscar·3 个月前·27 评论
Local AI
本文详细描述了作者解决IntelliJ IDE无法连接本地Ollama实例的问题的过程,尽管curl可以正常连接。他们测试了HTTPS支持、macOS本地网络权限、防火墙设置,然后通过查看日志发现了潜在的JVM相关地址族问题(IPv4与IPv6)。
13
We bought the whole GPU, so we're damn well going to use the whole GPU(hazyresearch.stanford.edu)
504 ·sydriax·3 个月前·110 评论
AI ChipsAI Search
斯坦福大学Hazy Research团队发布了针对Llama-70B在H100 GPU上进行张量并行推理的吞吐量优化巨型内核。该内核集成到Tokasaurus推理引擎后,在端到端吞吐量上比SGLang高出22%以上(通过65,536个ShareGPT提示测试)。这项工作的核心是通过重叠计算、内存操作和跨GPU通信,更高效地利用GPU资源。
14
Ollama Web Search(ollama.com)
348 ·jmorgan·3 个月前·176 评论
Local AI
Ollama推出了新的网络搜索API,用户可利用该API为AI模型补充最新网络信息以减少幻觉。该API为个人提供免费使用额度,通过Ollama Cloud可获得更高速率限制,并提供了cURL、Python和JavaScript的集成示例。
15
Sampling and structured outputs in LLMs(parthsareen.com)
234 ·SamLeBarbare·3 个月前·97 评论
AI ChipsMeta AI
本文探讨了大语言模型(LLM)的采样方法(包括topK、温度调节、topP和minP)以及结构化输出。作者详细介绍了其为Ollama引擎实现采样器的工作(含CPU推理优化),提到使用有限状态机处理结构化输出,并引用了一篇关于minP采样的ArXiv论文。
16
Llama-Factory: Unified, Efficient Fine-Tuning for 100 Open LLMs(github.com)
132 ·jinqueeny·3 个月前·19 评论
LLM ResearchRAG & Retrieval
Llama-Factory 是一个统一且高效的工具,用于对超过 100 个开源大语言模型进行微调,可在 GitHub 上获取。
17
Finding thousands of exposed Ollama instances using Shodan(blogs.cisco.com)
166 ·rldjbpin·4 个月前·72 评论
Local AI
本文介绍了一项使用Shodan检测公开暴露的Ollama LLM服务器的案例研究,发现超过1100个易受攻击的实例。文章讨论了因部署实践不当导致的未授权访问、模型提取和越狱等安全风险,强调了LLM部署中需要更严格的安全基准。
18
Llama Fund: Crowdfund AI Models(llama.fund)
99 ·mountainriver·4 个月前·75 评论
RAG & Retrieval
Llama Fund是一个致力于人工智能模型众筹的项目。
19
How to Fix Your Context(dbreunig.com)
93 ·itzlambda·4 个月前·26 评论
RAG & Retrieval
这篇人工智能相关的新闻探讨了解决AI系统中上下文管理挑战的有效方法,尤其是提升上下文保留的准确性和相关性,以优化对话式AI等应用的性能。
20
Llama-Scan: Convert PDFs to Text W Local LLMs(github.com)
221 ·nawazgafar·4 个月前·83 评论
RAG & Retrieval
Llama-Scan是一款利用本地大型语言模型(LLMs)将PDF文件转换为文本格式的工具。
21
Show HN: OWhisper – Ollama for realtime speech-to-text(docs.hyprnote.com)
289 ·yujonglee·4 个月前·75 评论
Audio & SpeechLocal AI
这篇Show HN帖子介绍了OWhisper,这是一个类似于Ollama的工具,具备实时语音转文本功能。
22
Ollama and gguf(github.com)
173 ·indigodaddy·5 个月前·91 评论
Inference OptimizationLocal AI
这则新闻可能聚焦于Ollama(一款本地运行大语言模型的工具)与GGUF(大语言模型权重文件格式)之间的关联,涉及两者的集成或应用场景。
23
Mistral Integration Improved in Llama.cpp(github.com)
95 ·decide1000·5 个月前·15 评论
RAG & Retrieval
Llama.cpp框架中对Mistral模型的集成功能已得到改进,提升了使用Llama.cpp运行Mistral AI模型的支持能力。
24
Jan – Ollama alternative with local UI(github.com)
197 ·maxloh·5 个月前·73 评论
Local AI
Jan 是 Ollama 的替代方案,它配备了本地用户界面。
25
Benchmark Framework Desktop Mainboard and 4-node cluster(github.com)
203 ·geerlingguy·5 个月前·88 评论
LLM ResearchLocal AI
这篇AI相关新闻介绍了一个基准测试框架,该框架用于评估桌面主板和4节点集群系统的性能。
26
Ollama Turbo(ollama.com)
430 ·amram_art·5 个月前·243 评论
Local AI
Ollama Turbo是本地大语言模型工具Ollama的更新版本,推测其旨在为个人设备上运行大语言模型提供更快的性能和更高的效率。
27
Ollama's new app(ollama.com)
560 ·BUFU·5 个月前·284 评论
Local AI
Ollama推出了一款新应用,预计将提升用户在本地设备上运行和交互大型语言模型的体验。
28
Playing with Open Source LLMs(alicegg.tech)
90 ·zer0tonin·5 个月前·52 评论
RAG & Retrieval
这则新闻讲述了对开源大型语言模型(LLMs)进行实践操作的体验,重点在于通过实际互动探索其功能及潜在应用场景。
29
Show HN: We made our own inference engine for Apple Silicon(github.com)
186 ·darkolorin·5 个月前·46 评论
Apple AIRAG & Retrieval
一则Show HN帖子显示,创作者们已开发出专为Apple Silicon芯片定制的推理引擎。
30
Show HN: Cactus – Ollama for Smartphones(github.com)
231 ·HenryNdubuaku·6 个月前·82 评论
Audio & SpeechLocal AI
一篇Show HN帖子介绍了名为Cactus的项目,它为智能手机提供了类似Ollama的本地大语言模型(LLM)功能,让用户可在移动设备上直接运行LLM。
第 1 / 6 页,共 177 条
📅周报
Hacker News|Powered by Doubao