Sözlüğe Dön
Benchmark
B harfiYZ modellerinin performansını standardize testlerle ölçmek ve karşılaştırmak için kullanılan değerlendirme yöntemidir. MMLU, HumanEval gibi testler örnek verilebilir.