AI HN
AI 新闻与论文,智能精选
最新
·
HN
周报
中
EN
Loading...
Hacker News
|
Powered by Doubao
分类
◀
全部
产品
模型
工具
硬件
应用产品
研究
论文
安全
评测
理论
工程
推理
训练
部署
开源
应用
商业
讨论
时间:
今天
3天
7天
30天
全部
来源:
全部
📰
HN
📄
论文
91
条
· "fine-tuning"
1
Reinforcement fine-tuning use cases
(developers.openai.com)
📰 HN
1
分
·
teleforce
·
7 天前
·
0 评论
这篇来自OpenAI API文档的文章讨论了强化微调(RFT)的使用案例,是涵盖AI模型、智能体、工具及扩展策略的更广泛指南的一部分。
2
MARL: Runtime Middleware That Reduces LLM Hallucination Without Fine-Tuning
(huggingface.co)
📰 HN
1
分
·
seawolf2357
·
8 天前
·
0 评论
Inference Optimization
LLM Research
MARL是一种与模型无关的运行时中间件工具,无需微调即可减少LLM的幻觉。它在运行时插入多阶段自我验证管道,只需更改一行代码即可与任何兼容OpenAI API的LLM配合使用。该工具解决了LLM中的元认知差距,即识别潜在错误与修复错误之间的差异。
3
Show HN: I fine-tuned Qwen 3.5 (0.8B–4B) on a Mac for text-to-SQL – 2B beats 12B
(github.com)
📰 HN
1
分
·
sciences44
·
12 天前
·
0 评论
Apple AI
这是一个Show HN项目,作者在Mac上对Qwen 3.5模型(0.8B到4B参数)进行了文本转SQL任务的微调。其中2B参数的模型在该特定用例中表现优于12B参数的模型。
4
Show HN: QLoRA fine-tuning in .zse INT4 format by ZSE
📰 HN
1
分
·
zyoralabs
·
12 天前
·
0 评论
Training Methods
这篇Show HN帖子宣布ZSE 1.4.0版本发布,该版本增加了对INT4模型的QLoRA微调支持。帖子包含在H200 GPU上使用Qwen模型的基准测试结果,展示了7B、14B、32B模型的文件大小、推理和训练时的VRAM使用情况以及token速度。
5
Qwen3.5 Fine-Tuning Guide – Unsloth Documentation
(unsloth.ai)
📰 HN
1
分
·
bilsbie
·
13 天前
·
0 评论
这是一篇关于使用Unsloth对Qwen3.5 AI模型进行微调的文档指南,提供了与微调过程相关的指导和资源,属于Unsloth针对多种AI模型的文档内容的一部分。
6
Fine-Tuning Qwen3 Embeddings for product category classification
(blog.ivan.digital)
📰 HN
1
分
·
ipotapov
·
13 天前
·
0 评论
Training Methods
本文介绍了使用大规模产品语料库(LSPC)对Qwen3嵌入模型进行微调以实现产品类别分类的方法。它采用LoRA技术进行高效训练,在六个主要类别上达到了83.6%的macro-F1分数,并在GitHub上提供了开源代码。
7
Show HN: Zagora, Distributed fine-tuning platform on mixed GPUs over internet
(app.zagora.ai)
📰 HN
1
分
·
miyamotomusashi
·
16 天前
·
0 评论
AI Chips
Training Methods
这篇Show HN帖子介绍了Zagora,一个分布式微调平台,允许用户通过互联网在混合GPU上训练QLoRA适配器。它支持Llama 3.1、Mixtral和Qwen 2.5等多种模型,提供LoRA策略选项以及聊天、指令和DPO等数据集格式。用户可通过云链接提交任务,并在完成时收到通知。
8
Show HN: GEKO (up to 80% compute savings on LLM fine-tuning)
(github.com)
📰 HN
1
分
·
SyedAbdurR2hman
·
16 天前
·
1 评论
Inference Optimization
LLM Research
这篇帖子介绍了GEKO,一个开源工具,用于梯度高效的LLM微调,通过专注于模型尚未掌握的样本减少计算量。它实时跟踪每个样本的置信度和正确性,以优化训练循环。
9
I fine-tuned a 14B model to beat GPT-4o at NYT Connections (30% vs. 22.7%)
(john463212.substack.com)
📰 HN
1
分
·
Johnene
·
19 天前
·
0 评论
Meta AI
OpenAI Ecosystem
这篇文章详细介绍了用户微调14B开源模型的项目。该模型在NYT Connections游戏中达到30%的成功率,超过了GPT-4o的22.7%。该项目展示了微调开源模型在特定任务上的潜力。
10
Benchmarking the best base small model for fine-tuning
(distillabs.ai)
📰 HN
1
分
·
maciejgryka
·
20 天前
·
0 评论
这篇博客文章对12个小型语言模型(SLM)在8项任务上进行了基准测试,以找出最适合微调的基础模型。经过微调的SLM(如Qwen3-4B)在大多数基准测试中可以匹配或超过更大的模型(如GPT-OSS-120B)。Qwen3系列模型,尤其是Qwen3-4B-Instruct-2507,在微调后表现最佳。
11
Show HN: 100% LLM accuracy–no fine-tuning, JSON only
(github.com)
📰 HN
1
分
·
MysticBirdie
·
20 天前
·
0 评论
Inference Optimization
LLM Research
这篇Show HN帖子介绍了一个名为hallucination-elimination-benchmark的GitHub项目,声称无需微调即可实现100%的LLM准确率,并且专注于仅输出JSON格式。内容虽被截断,但表明该项目与解决LLM幻觉问题相关。
12
Deep-Dive into LLM Fine-Tuning
(fireworks.ai)
📰 HN
1
分
·
smurda
·
22 天前
·
0 评论
Inference Optimization
LLM Research
本文深入探讨了LLM微调技术,涵盖其核心机制(全微调与LoRA等参数高效方法)及必要应用场景(如特定领域术语、受监管工作流)。文章对比了微调与提示工程和RAG,强调其在提升企业生产系统准确性和可靠性方面的价值。
13
Show HN: TuFT – Open-source multi-tenant, Tinker-compatible fine-tuning platform
(github.com)
📰 HN
1
分
·
ekzhu
·
22 天前
·
0 评论
这是一篇Show HN帖子,介绍了TuFT——一个开源的多租户、兼容Tinker的微调平台。该平台托管在GitHub上,内容提供了关于其功能和访问方式的详细信息。
14
Observations from Building with AI Agents
(tomtunguz.com)
📰 HN
1
分
·
vinhnx
·
23 天前
·
0 评论
AI Agent
本文分享了作者一年来构建AI智能体系统的九个关键观察结果,涵盖使用最先进模型进行原型设计、微调Qwen3用于任务分类、利用静态类型减少代码幻觉、让智能体协作进行计划 critique 和实现、以及集成工具管理内存和提示词等方面。此外,还强调了现代模型的成本效益、动态重新加载提示词以实现部署,以及为了易于调试而优先选择技能而非链式函数调用。
15
Train AI Models with Unsloth and Hugging Face Jobs for Free
(huggingface.co)
📰 HN
1
分
·
ibobev
·
25 天前
·
0 评论
Inference Optimization
LLM Research
本文介绍了如何使用开源库Unsloth和Hugging Face Jobs免费训练AI模型。文章重点在于通过这种协作工具实现大型语言模型(LLM)的快速微调。内容可能提供了利用这些工具进行高效模型训练的指导。
16
DPO, your simplest RL pipeline with two rollouts
(fireworks.ai)
📰 HN
1
分
·
smurda
·
27 天前
·
0 评论
Inference Optimization
LLM Research
这篇博客文章解释了直接偏好优化(DPO)如何作为LLM微调的简单强化学习(RL)管道。它引用了一篇将DPO与组相对策略优化(GRPO)联系起来的最新研究论文,并概述了使用DPO进行两次rollout以创建有效训练管道的直觉。
17
Show HN: M-Courtyard – Fine-tune LLMs on your Mac with zero code
(github.com)
📰 HN
1
分
·
tuwenbo0120
·
28 天前
·
0 评论
Apple AI
这篇Show HN帖子介绍了M-Courtyard,一个允许用户在Mac设备上零代码微调大型语言模型(LLM)的工具。它是一个社区项目,在Hacker News上分享以收集用户反馈。该工具旨在简化Mac用户定制LLM的过程,无需编码技能。
18
A Survey on Federated Fine-Tuning of Large Language Models
(openreview.net)
📰 HN
1
分
·
mldev_exe
·
大约 1 个月前
·
0 评论
这篇综述对联邦大语言模型(FedLLM)进行了系统全面的回顾,该范式将大语言模型与联邦学习结合,实现隐私保护下的协作模型适配。它分析了FedLLM部署中的核心挑战,综述了适用于联邦学习框架的参数高效微调(PEFT)方法,并考察了现有微调数据集和评估基准。此外,文章还讨论了FedLLM在多个领域的实际应用,指出关键开放问题以指导未来研究方向。
19
Finding the Active Voice
(elijahpotter.dev)
📰 HN
1
分
·
chilipepperhott
·
大约 1 个月前
·
0 评论
本文讨论了为隐私优先的本地AI写作工具Harper添加主动语态功能的计划。拟议方案利用PassivePy的思路进行被动语态检测,并微调T5等小型LLM进行转换,优先考虑体积小和本地部署以保持速度和隐私性,实现方式与Harper现有的Weir语言框架相契合。
20
Licensed Fine-Tuning Data for Domain-Specific LLMs (Opendatabay.com)
(opendatabay.com)
📰 HN
1
分
·
ibnzUK
·
大约 1 个月前
·
0 评论
Inference Optimization
LLM Research
Opendatabay.com是一个提供授权AI就绪数据集的平台,用于微调特定领域的LLM。用户可通过简单步骤交换、购买或出售数据集,无需担心法律风险或数据抓取问题。平台包含文本、图像、音频和视频等多种格式的数据集,热门选项如动态道路参与者图像数据集。
21
Show HN: MadLab – A standalone desktop app for local LLM fine-tuning
(github.com)
📰 HN
1
分
·
Archimedes1618
·
大约 1 个月前
·
0 评论
Inference Optimization
LLM Research
这篇Show HN帖子介绍了MadLab,一款专为本地LLM微调设计的独立桌面应用。该应用支持用户在本地设备上进行LLM微调,无需依赖云服务。它是通过Hacker News的Show HN系列分享的社区创建项目。
22
Show HN: Simple, Fast, Accessible Fine-Tuning
(commissioned.tech)
📰 HN
1
分
·
rbshamsu
·
大约 1 个月前
·
0 评论
💡 The story starts with 'Show HN' which directly falls into the discussion category per classification rule 3; it focuses on accessible AI model fine-tuning, making the tutorial tag relevant alongside show-hn.
23
Fine-tuning open LLM judges to outperform GPT-5.2
(together.ai)
📰 HN
1
分
·
zainhsn
·
大约 1 个月前
·
0 评论
Code & Development
OpenAI Ecosystem
Together AI的博客文章描述了使用直接偏好优化(DPO)微调开源LLM评判模型,使其在Reward Bench 2的人类偏好对齐测试中优于GPT-5.2。gpt-oss 120B等模型的准确率高于GPT-5.2,同时成本降低15倍、速度提升14倍,并提供了实现该方法的实用代码。
24
I fine-tuned Llama-8B to understand my slacking patterns
(laksh.us)
📰 HN
1
分
·
LakshyaC
·
大约 1 个月前
·
0 评论
Audio & Speech
RAG & Retrieval
作者构建了Signal——一个使用本地微调Llama-8B模型的个性化AI生产力教练。他们从生产力文献生成合成训练数据,并利用自己的行为日志进行校准,解释了数据合成和微调步骤。该教练根据作者独特的生产力模式提供定制化建议。
25
Adding Audio to My Blog with Qwen3-TTS Voice Cloning
(hung-truong.com)
📰 HN
1
分
·
hung
·
大约 2 个月前
·
0 评论
Audio & Speech
作者讲述了使用Qwen3-TTS通过语音克隆为博客文章生成音频版本的经历。他们尝试微调模型但遇到输出乱码等问题,于是转而使用参考音频片段进行语音克隆,并提到增加样本数量或延长训练时间等可能的改进方向。
26
Show HN: Open-source Robotics – Curated projects with interactive 3D URDF viewer
(robotics.growbotics.ai)
📰 HN
1
分
·
Tomas0413
·
大约 2 个月前
·
0 评论
这个Show HN展示了一个开源机器人平台,包含精选项目如Asimov v0(双足人形机器人下半身)、CRISP Controllers(基于ROS2的学习型操纵扭矩控制器)和Cosmos Policy(用于机器人策略的视频模型微调)。平台配有交互式3D URDF查看器,旨在支持机器人研究与实际部署。
27
Training an AI on my own writing so the computers can replace me
(satyrs.eu)
📰 HN
1
分
·
surprisetalk
·
大约 2 个月前
·
0 评论
作者详细描述了将AI模型微调于个人写作内容的过程,包括选择Mistral基础模型时遇到的显存限制,最终不得不使用更小的变体。他们解释了主动训练模型的动机——不愿等待爬虫索引其公有领域内容,并分享了选择合适基础模型的初步步骤。
28
Rags and Tools and Bellyaches
(federicopereiro.com)
📰 HN
1
分
·
swah
·
大约 2 个月前
·
0 评论
RAG & Retrieval
这篇文章解释了检索增强生成(RAG)、嵌入、工具(如MCP协议)和微调等核心AI概念。它阐明RAG在不改变模型权重的情况下添加上下文,嵌入通过专用模型将查询映射到相关上下文,而工具使大语言模型(LLM)能够与文本生成之外的外部系统交互。
29
What Comes Beyond SFT?
📰 HN
1
分
·
Sankhya0
·
大约 2 个月前
·
0 评论
一位用户询问监督微调(SFT)之外还有什么,指出模型在处理文档时的推理能力不如处理原始数据。该问题还涉及参数中的记忆,并提到DeepSeek Engram可能是相关的发展方向。
30
1.8-3.3x faster Embedding finetuning now in Unsloth
(unsloth.ai)
📰 HN
3
分
·
electroglyph
·
大约 2 个月前
·
2 评论
Unsloth现已支持以1.8-3.3倍速度微调嵌入模型(如EmbeddingGemma和Qwen3-Embedding),内存占用减少20%且无精度损失,可提升特定任务的检索和RAG性能。它提供针对医疗语义搜索、技术文本嵌入等场景的免费微调笔记本,训练后的模型可在transformers、LangChain和Ollama等平台上使用。
1
2
3
4
第 1 / 4 页,共 91 条
📅
周报