"fine-tuning" 搜索结果

AI HNAI 新闻与论文，智能精选

中

时间:

今天

3天

7天

30天

全部

来源:

全部

📰HN

📄论文

91 条 · "fine-tuning"

Reinforcement fine-tuning use cases(developers.openai.com)📰 HN

1 分·teleforce·7 天前·0 评论

这篇来自OpenAI API文档的文章讨论了强化微调（RFT）的使用案例，是涵盖AI模型、智能体、工具及扩展策略的更广泛指南的一部分。

MARL: Runtime Middleware That Reduces LLM Hallucination Without Fine-Tuning(huggingface.co)📰 HN

1 分·seawolf2357·8 天前·0 评论

Inference OptimizationLLM Research

MARL是一种与模型无关的运行时中间件工具，无需微调即可减少LLM的幻觉。它在运行时插入多阶段自我验证管道，只需更改一行代码即可与任何兼容OpenAI API的LLM配合使用。该工具解决了LLM中的元认知差距，即识别潜在错误与修复错误之间的差异。

Show HN: I fine-tuned Qwen 3.5 (0.8B–4B) on a Mac for text-to-SQL – 2B beats 12B(github.com)📰 HN

1 分·sciences44·12 天前·0 评论

Apple AI

这是一个Show HN项目，作者在Mac上对Qwen 3.5模型（0.8B到4B参数）进行了文本转SQL任务的微调。其中2B参数的模型在该特定用例中表现优于12B参数的模型。

Show HN: QLoRA fine-tuning in .zse INT4 format by ZSE📰 HN

1 分·zyoralabs·12 天前·0 评论

Training Methods

这篇Show HN帖子宣布ZSE 1.4.0版本发布，该版本增加了对INT4模型的QLoRA微调支持。帖子包含在H200 GPU上使用Qwen模型的基准测试结果，展示了7B、14B、32B模型的文件大小、推理和训练时的VRAM使用情况以及token速度。

Qwen3.5 Fine-Tuning Guide – Unsloth Documentation(unsloth.ai)📰 HN

1 分·bilsbie·13 天前·0 评论

这是一篇关于使用Unsloth对Qwen3.5 AI模型进行微调的文档指南，提供了与微调过程相关的指导和资源，属于Unsloth针对多种AI模型的文档内容的一部分。

Fine-Tuning Qwen3 Embeddings for product category classification(blog.ivan.digital)📰 HN

1 分·ipotapov·13 天前·0 评论

Training Methods

本文介绍了使用大规模产品语料库（LSPC）对Qwen3嵌入模型进行微调以实现产品类别分类的方法。它采用LoRA技术进行高效训练，在六个主要类别上达到了83.6%的macro-F1分数，并在GitHub上提供了开源代码。

Show HN: Zagora, Distributed fine-tuning platform on mixed GPUs over internet(app.zagora.ai)📰 HN

1 分·miyamotomusashi·16 天前·0 评论

AI ChipsTraining Methods

这篇Show HN帖子介绍了Zagora，一个分布式微调平台，允许用户通过互联网在混合GPU上训练QLoRA适配器。它支持Llama 3.1、Mixtral和Qwen 2.5等多种模型，提供LoRA策略选项以及聊天、指令和DPO等数据集格式。用户可通过云链接提交任务，并在完成时收到通知。

Show HN: GEKO (up to 80% compute savings on LLM fine-tuning)(github.com)📰 HN

1 分·SyedAbdurR2hman·16 天前·1 评论

Inference OptimizationLLM Research

这篇帖子介绍了GEKO，一个开源工具，用于梯度高效的LLM微调，通过专注于模型尚未掌握的样本减少计算量。它实时跟踪每个样本的置信度和正确性，以优化训练循环。

I fine-tuned a 14B model to beat GPT-4o at NYT Connections (30% vs. 22.7%)(john463212.substack.com)📰 HN

1 分·Johnene·19 天前·0 评论

Meta AIOpenAI Ecosystem

这篇文章详细介绍了用户微调14B开源模型的项目。该模型在NYT Connections游戏中达到30%的成功率，超过了GPT-4o的22.7%。该项目展示了微调开源模型在特定任务上的潜力。

Benchmarking the best base small model for fine-tuning(distillabs.ai)📰 HN

1 分·maciejgryka·20 天前·0 评论

这篇博客文章对12个小型语言模型（SLM）在8项任务上进行了基准测试，以找出最适合微调的基础模型。经过微调的SLM（如Qwen3-4B）在大多数基准测试中可以匹配或超过更大的模型（如GPT-OSS-120B）。Qwen3系列模型，尤其是Qwen3-4B-Instruct-2507，在微调后表现最佳。

Show HN: 100% LLM accuracy–no fine-tuning, JSON only(github.com)📰 HN

1 分·MysticBirdie·20 天前·0 评论

Inference OptimizationLLM Research

这篇Show HN帖子介绍了一个名为hallucination-elimination-benchmark的GitHub项目，声称无需微调即可实现100%的LLM准确率，并且专注于仅输出JSON格式。内容虽被截断，但表明该项目与解决LLM幻觉问题相关。

Deep-Dive into LLM Fine-Tuning(fireworks.ai)📰 HN

1 分·smurda·22 天前·0 评论

Inference OptimizationLLM Research

本文深入探讨了LLM微调技术，涵盖其核心机制（全微调与LoRA等参数高效方法）及必要应用场景（如特定领域术语、受监管工作流）。文章对比了微调与提示工程和RAG，强调其在提升企业生产系统准确性和可靠性方面的价值。

Show HN: TuFT – Open-source multi-tenant, Tinker-compatible fine-tuning platform(github.com)📰 HN

1 分·ekzhu·22 天前·0 评论

这是一篇Show HN帖子，介绍了TuFT——一个开源的多租户、兼容Tinker的微调平台。该平台托管在GitHub上，内容提供了关于其功能和访问方式的详细信息。

Observations from Building with AI Agents(tomtunguz.com)📰 HN

1 分·vinhnx·23 天前·0 评论

AI Agent

本文分享了作者一年来构建AI智能体系统的九个关键观察结果，涵盖使用最先进模型进行原型设计、微调Qwen3用于任务分类、利用静态类型减少代码幻觉、让智能体协作进行计划 critique 和实现、以及集成工具管理内存和提示词等方面。此外，还强调了现代模型的成本效益、动态重新加载提示词以实现部署，以及为了易于调试而优先选择技能而非链式函数调用。

Train AI Models with Unsloth and Hugging Face Jobs for Free(huggingface.co)📰 HN

1 分·ibobev·25 天前·0 评论

Inference OptimizationLLM Research

本文介绍了如何使用开源库Unsloth和Hugging Face Jobs免费训练AI模型。文章重点在于通过这种协作工具实现大型语言模型（LLM）的快速微调。内容可能提供了利用这些工具进行高效模型训练的指导。

DPO, your simplest RL pipeline with two rollouts(fireworks.ai)📰 HN

1 分·smurda·27 天前·0 评论

Inference OptimizationLLM Research

这篇博客文章解释了直接偏好优化（DPO）如何作为LLM微调的简单强化学习（RL）管道。它引用了一篇将DPO与组相对策略优化（GRPO）联系起来的最新研究论文，并概述了使用DPO进行两次rollout以创建有效训练管道的直觉。

Show HN: M-Courtyard – Fine-tune LLMs on your Mac with zero code(github.com)📰 HN

1 分·tuwenbo0120·28 天前·0 评论

Apple AI

这篇Show HN帖子介绍了M-Courtyard，一个允许用户在Mac设备上零代码微调大型语言模型（LLM）的工具。它是一个社区项目，在Hacker News上分享以收集用户反馈。该工具旨在简化Mac用户定制LLM的过程，无需编码技能。

A Survey on Federated Fine-Tuning of Large Language Models(openreview.net)📰 HN

1 分·mldev_exe·大约 1 个月前·0 评论

这篇综述对联邦大语言模型（FedLLM）进行了系统全面的回顾，该范式将大语言模型与联邦学习结合，实现隐私保护下的协作模型适配。它分析了FedLLM部署中的核心挑战，综述了适用于联邦学习框架的参数高效微调（PEFT）方法，并考察了现有微调数据集和评估基准。此外，文章还讨论了FedLLM在多个领域的实际应用，指出关键开放问题以指导未来研究方向。

Finding the Active Voice(elijahpotter.dev)📰 HN

1 分·chilipepperhott·大约 1 个月前·0 评论

本文讨论了为隐私优先的本地AI写作工具Harper添加主动语态功能的计划。拟议方案利用PassivePy的思路进行被动语态检测，并微调T5等小型LLM进行转换，优先考虑体积小和本地部署以保持速度和隐私性，实现方式与Harper现有的Weir语言框架相契合。

Licensed Fine-Tuning Data for Domain-Specific LLMs (Opendatabay.com)(opendatabay.com)📰 HN

1 分·ibnzUK·大约 1 个月前·0 评论

Inference OptimizationLLM Research

Opendatabay.com是一个提供授权AI就绪数据集的平台，用于微调特定领域的LLM。用户可通过简单步骤交换、购买或出售数据集，无需担心法律风险或数据抓取问题。平台包含文本、图像、音频和视频等多种格式的数据集，热门选项如动态道路参与者图像数据集。

Show HN: MadLab – A standalone desktop app for local LLM fine-tuning(github.com)📰 HN

1 分·Archimedes1618·大约 1 个月前·0 评论

Inference OptimizationLLM Research

这篇Show HN帖子介绍了MadLab，一款专为本地LLM微调设计的独立桌面应用。该应用支持用户在本地设备上进行LLM微调，无需依赖云服务。它是通过Hacker News的Show HN系列分享的社区创建项目。

Show HN: Simple, Fast, Accessible Fine-Tuning(commissioned.tech)📰 HN

1 分·rbshamsu·大约 1 个月前·0 评论

💡 The story starts with 'Show HN' which directly falls into the discussion category per classification rule 3; it focuses on accessible AI model fine-tuning, making the tutorial tag relevant alongside show-hn.

Fine-tuning open LLM judges to outperform GPT-5.2(together.ai)📰 HN

1 分·zainhsn·大约 1 个月前·0 评论

Code & DevelopmentOpenAI Ecosystem

Together AI的博客文章描述了使用直接偏好优化（DPO）微调开源LLM评判模型，使其在Reward Bench 2的人类偏好对齐测试中优于GPT-5.2。gpt-oss 120B等模型的准确率高于GPT-5.2，同时成本降低15倍、速度提升14倍，并提供了实现该方法的实用代码。

I fine-tuned Llama-8B to understand my slacking patterns(laksh.us)📰 HN

1 分·LakshyaC·大约 1 个月前·0 评论

Audio & SpeechRAG & Retrieval

作者构建了Signal——一个使用本地微调Llama-8B模型的个性化AI生产力教练。他们从生产力文献生成合成训练数据，并利用自己的行为日志进行校准，解释了数据合成和微调步骤。该教练根据作者独特的生产力模式提供定制化建议。

Adding Audio to My Blog with Qwen3-TTS Voice Cloning(hung-truong.com)📰 HN

1 分·hung·大约 2 个月前·0 评论

Audio & Speech

作者讲述了使用Qwen3-TTS通过语音克隆为博客文章生成音频版本的经历。他们尝试微调模型但遇到输出乱码等问题，于是转而使用参考音频片段进行语音克隆，并提到增加样本数量或延长训练时间等可能的改进方向。

Show HN: Open-source Robotics – Curated projects with interactive 3D URDF viewer(robotics.growbotics.ai)📰 HN

1 分·Tomas0413·大约 2 个月前·0 评论

这个Show HN展示了一个开源机器人平台，包含精选项目如Asimov v0（双足人形机器人下半身）、CRISP Controllers（基于ROS2的学习型操纵扭矩控制器）和Cosmos Policy（用于机器人策略的视频模型微调）。平台配有交互式3D URDF查看器，旨在支持机器人研究与实际部署。

Training an AI on my own writing so the computers can replace me(satyrs.eu)📰 HN

1 分·surprisetalk·大约 2 个月前·0 评论

作者详细描述了将AI模型微调于个人写作内容的过程，包括选择Mistral基础模型时遇到的显存限制，最终不得不使用更小的变体。他们解释了主动训练模型的动机——不愿等待爬虫索引其公有领域内容，并分享了选择合适基础模型的初步步骤。

Rags and Tools and Bellyaches(federicopereiro.com)📰 HN

1 分·swah·大约 2 个月前·0 评论

RAG & Retrieval

这篇文章解释了检索增强生成（RAG）、嵌入、工具（如MCP协议）和微调等核心AI概念。它阐明RAG在不改变模型权重的情况下添加上下文，嵌入通过专用模型将查询映射到相关上下文，而工具使大语言模型（LLM）能够与文本生成之外的外部系统交互。

What Comes Beyond SFT?📰 HN

1 分·Sankhya0·大约 2 个月前·0 评论

一位用户询问监督微调（SFT）之外还有什么，指出模型在处理文档时的推理能力不如处理原始数据。该问题还涉及参数中的记忆，并提到DeepSeek Engram可能是相关的发展方向。

1.8-3.3x faster Embedding finetuning now in Unsloth(unsloth.ai)📰 HN

3 分·electroglyph·大约 2 个月前·2 评论

Unsloth现已支持以1.8-3.3倍速度微调嵌入模型（如EmbeddingGemma和Qwen3-Embedding），内存占用减少20%且无精度损失，可提升特定任务的检索和RAG性能。它提供针对医疗语义搜索、技术文本嵌入等场景的免费微调笔记本，训练后的模型可在transformers、LangChain和Ollama等平台上使用。

第 1 / 4 页，共 91 条

📅周报

Hacker News|Powered by Doubao