Sözlüğe Dön
RLHF (Reinforcement Learning from Human Feedback)
R harfiİnsan geri bildirimleriyle pekiştirmeli öğrenme. Dil modellerini daha yararlı ve güvenli hale getirmek için insan değerlendiricilerin tercihlerinden öğrenme yöntemidir.