مقالات عن: SWE-bench

2 مقال

شروحات

اختبار الميثوس والفابل: تجاوز معيار SWE-bench مع المنافس المفتوح من إنفيديا

استكشف كيف يتحدى إطار العمل الجديد مفتوح المصدر من إنفيديا هيمنة SWE-bench. تعلم كيفية اختبار نماذج الذكاء الاصطناعي باستخدام Mythos وFabl...

20 يونيو 20268 دقائق
أبحاث الذكاء الاصطناعي

هل هو وكيل بما فيه الكفاية؟ قياس النماذج المفتوحة على أدواتك الخاصة

تعلم كيفية تقييم وكلاء الذكاء الاصطناعي مفتوحة المصدر من حيث الاستقلالية وإنجاز المهام باستخدام معايير قياس مخصصة. دليل عملي للباحثين والم...

18 يونيو 20269 دقائق