新的TRL支持GRPO和MPO用於視覺語言模型💥



我們還提供了一個關於它們的解釋以及如何與它們訓練的說明
VSN3.89%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 9
  • 轉發
  • 分享
留言
0/400
LiquidationKingvip
· 48分鐘前
谁还没训练过几个大模型 有啥可讲的
回復0
TxFailedvip
· 17小時前
说实话,这次真的救了几张显卡没融化,不骗你。
查看原文回復0
Blockblindvip
· 19小時前
trl这套东西越玩越大了
回復0
老韭当家vip
· 08-08 22:17
来了来了 这波升级有点猛
回復0
fren.ethvip
· 08-07 20:57
靠谱哦新功能没毛病!
回復0
周一梭哈周五哭vip
· 08-07 20:50
这也要梭?顶不住了
回復0
MeaninglessApevip
· 08-07 20:48
整天就知道搞这些 有意思么
回復0
Uncle Whalevip
· 08-07 20:41
感觉钱要来了
回復0
DAO开发者vip
· 08-07 20:33
是时候深入研究一下 grpo/mpo 实现了,老实说
查看原文回復0
查看更多
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)