Sözlüğe Dön

RLHF (Reinforcement Learning from Human Feedback)

R harfi

İnsan geri bildirimleriyle pekiştirmeli öğrenme. Dil modellerini daha yararlı ve güvenli hale getirmek için insan değerlendiricilerin tercihlerinden öğrenme yöntemidir.