David Noel Ng的Show HN文章分享了他如何使用两块游戏GPU在不修改任何模型权重的情况下登顶HuggingFace Open LLM排行榜。他复制了现有720亿参数模型的七个中间层块并重新拼接,从而发现了“LLM神经解剖学”。文章详细介绍了他的发现过程,包括与LLM用Base64对话的观察以及构建Transformer“大脑扫描仪”的尝试。
本文宣布了cuTile.jl的初始版本,这是一个用于NVIDIA CUDA GPU(包括Blackwell)的基于瓦片的GPU编程开源Julia包。它通过抽象线程和内存层次结构简化内核编写,提供了向量加法和矩阵乘法示例(矩阵乘法性能达到CUBLAS的75%)。该包仍在开发中,部分Julia语言特性尚未支持。
💡 The title focuses on GPU efficiency, a critical aspect of AI infrastructure for training and inference, aligning with the engineering category. Though the actual article content is unavailable (security check page), the title indicates AI relevance.