RLHF – Reinforcement Learning from Human Preferences.
Pe romaneste tradus inseamna “Invatarea prin intarire din preferintele umane“. Modelele sunt ajustate cu ajutorul RL prin feedback-ul uman. Acestea devin mai utile, mai putin daunatoare si prezinta un salt urias in performanta. Un model RLHF a fost preferat unui model de baza GPT-3 de 100 de ori mai mare.