OpenAI推出强化微调 CEO称是本年最大惊喜之一
发布日期:2024-12-15 12:28 点击次数:69
当地时期12月6日,OpenAI公布第二日手脚主题:推出了强化微调(Reinforcement Fine-Tuning),匡助建筑者和机器学习工程师打造针对特定复杂界限任务的众人模子。OpenAI CEO Sam Altman在X发帖称,强化微调的恶果非常棒,是他本年最大的惊喜之一,期待看到大家利用这种功能的创造。
该样子通过全新的模子定制工夫,让建筑者不错使用高质料任务集对模子进行微调,并利用参考谜底评估模子的反应,从而升迁模子在特定界限任务中的推理能力和准确性。
OpenAI的商榷员称,强化微调并不是只教模子模子输出,它的运作面目是,场外配资当模子发现一个问题的时候,商榷者给模子空间区仔细念念考这个问题,然后评估模子给出的最终解答,愚弄强化学习,商榷者不错强化产生正确谜底的念念路,扼制产生不实谜底的念念路,只需要“几十个例子”以至12个例子,模子就能以灵验的新面目学习特定界限的推理。
OpenAI商榷员演示,强化微调后的o1 mini测试通过率以至比郑再版o1高24%,比未强化微调的o1 mini提高了82%。