YZ Merkezi
Araçlar Promptlar Topluluk Sözlük Öner
Giriş Yap Kayıt Ol
Sözlüğe Dön

RLHF (Reinforcement Learning from Human Feedback)

R harfi
İnsan geri bildirimleriyle pekiştirmeli öğrenme. Dil modellerini daha yararlı ve güvenli hale getirmek için insan değerlendiricilerin tercihlerinden öğrenme yöntemidir.