开云官网kaiyun切尔西赞助商 「中国」官方网站 登录入口-开yun体育网他们共同演示了强化微调功能的全历程-开云官网kaiyun切尔西赞助商 「中国」官方网站 登录入口
你的位置:开云官网kaiyun切尔西赞助商 「中国」官方网站 登录入口 > 新闻资讯 > 开yun体育网他们共同演示了强化微调功能的全历程-开云官网kaiyun切尔西赞助商 「中国」官方网站 登录入口
开yun体育网他们共同演示了强化微调功能的全历程-开云官网kaiyun切尔西赞助商 「中国」官方网站 登录入口
发布日期:2025-05-25 06:14    点击次数:199

OpenAI "双 12 "直播第二天,依旧神圣精悍,主题:

新功能强化微调(Reinforcement Fine-Tuning),使用少量考研数据即在特定范畴松驰地创建大家模子。

少到什么进程呢?最低几十个例子就不错。

CEO 奥特曼暗示"效果一级棒,是我 2024 年最大的惊喜,期待看到东谈主们构建什么!"

那么效果有多棒呢?

微调后的 o1-mini 模子得分擢升 80%,径直反超 o1 郑再版。

现在 OpenAI 已开启强化微调参议谋略,拓荒者不错请求强化微调 API 的 alpha 版块探访权限。

进行测试时,可使用几十到几千个高质地数据,模子马虎通过强化学习自行探索和学习怎样推理复杂任务。

蹲守直播间的网友们听得亦然 one 愣 one 愣的,统统莫得预思到今晚"圣诞盲盒"是酱婶儿的。

OpenAI 职工 Jerry Tworek 则暗示" AGI 不是授东谈主以鱼,而是授东谈主以渔"。

OpenAI 微调初度相沿强化学习

直播嘉宾除了 Mark Chen、John Allard、Julie Wang 三位 OpenAI 自家参议员,还有伯克利推行室狡计生物学家 Justin Reese,他们共同演示了强化微调功能的全历程。

具体来说,这是一个生物医学任务,AI 需要把柄病例边幅的症状,找出联系基因。

考研数据长这么:

病东谈主信息:51 岁女性,疾病发病技能未具体阐发。

症状:眼距过宽、睑裂忐忑、小颌无理、软腭咽闭合不全、甲状旁腺功能减退、全身发育徐徐和嗅觉神经性听力遏制

未弘扬出以下症状:腭裂、法洛四联症、肺动脉瓣闭锁、心房隔缺损、主动脉肺动脉侧支血管

请列出所有可能导致这些症状的基因,从可能性最大到可能性最小,并证明为什么你以为这些特定的基因可能是原因。

评分模子(Grader)会对模子的谜底进行评分,OpenAI 会提供不同的评分模子,并相沿自界说。

强化微调步调很神圣,在网页界面可接管考研集和考据集。

再把柄情况建设超参数即可。

微调历程中,不错不雅察模子性能主义的变化趋势。

测试完成后,也不错检察模子对每条考据数据的输出,这里 TSC2 基因是正确谜底,模子把它排在第一位,是以通过。

现在 OpenAI 里面测试中,强化微调在生弃世学、安全、法律和医疗保健范畴取奏凯利。

强化微调将在 2025 岁首动作家具发布,对企业、大学和参议院已怒放请求测试通谈。

看完这场直播后,有东谈主回来:强化微调可能并不相宜所有任务,但会在科学范畴带来糟蹋性的效果。

奥特曼默许会发 Sora

OpenAI 直播第二天,对比第一天 o1 讲求发布、立等可用,似乎平素了一些。

有不称心的网友暗示:where is GPT-4.5?

驳倒区臆度可能大货会放在终末一天。

他们是简直懂怎样吊所有东谈主的胃口

不外,有网友垂纶钓出了奥特曼,且奥特曼莫得否定会发布 Sora 的音信。

参考通顺:

[ 1 ] https://openai.com/form/rft-research-program/开yun体育网