أبحاث الذكاء الاصطناعيمقال

هل هو وكيل بما فيه الكفاية؟ قياس النماذج المفتوحة على أدواتك الخاصة

تعلم كيفية تقييم وكلاء الذكاء الاصطناعي مفتوحة المصدر من حيث الاستقلالية وإنجاز المهام باستخدام معايير قياس مخصصة. دليل عملي للباحثين والمهندسين الذين يبنون أنظمة وكيلة.

بواسطة فريق تحرير Nexus AIنُشر في: 2026/06/18وقت القراءة: 9 دقائق8 مشاهداتالقراءة الصوتية غير متاحة في هذا المتصفحآخر تحديث: 2026/06/23

هل هو وكيل بما فيه الكفاية؟ قياس النماذج المفتوحة على أدواتك الخاصة

الوسوم

agentic AI benchmarking open models

ملخص سريع

هل هو وكيل بما يكفي؟ قياس أداء النماذج المفتوحة على أدواتك الخاصة

شهد النقاش حول الذكاء الاصطناعي تحولاً جذرياً في العام الماضي. لم نعد نسأل عما إذا كان النموذج قادراً على توليد نص متماسك أو التعرف على الأشياء في الصورة. بل أصبح السؤال الحاسم للمطورين والباحثين وفرق المؤسسات هو: *هل يمكن لهذا النموذج التصرف نيابة عني؟* بعبارة أخرى، هل هو وكيل بما يكفي؟

السلوك الوكيل - القدرة على التخطيط، استخدام الأدوات، تنفيذ المهام متعددة الخطوات، والتكيف مع التغذية الراجعة - هو الحدود الجديدة في قدرات الذكاء الاصطناعي. لكن قياس هذه القدرة صعب للغاية. غالباً ما تفشل المعايير الجاهزة في التقاط الواقع المعقد والمخصص لاستخدام الأدوات في العالم الحقيقي. تستكشف هذه المقالة لماذا يجب عليك قياس أداء النماذج المفتوحة على أدواتك الخاصة، وكيفية تصميم تقييمات ذات معنى، وما تقترحه أحدث الأبحاث من مصادر مثل مدونة Hugging Face ومدونة DeepMind حول حالة الذكاء الاصطناعي الوكيل.

صعود الذكاء الاصطناعي الوكيل

لسنوات، ركزت معايير الذكاء الاصطناعي على المهام الثابتة: الإجابة على الأسئلة، الترجمة، تصنيف الصور. أخبرتنا هذه المقاييس بمدى فهم النموذج للعالم، لكن ليس بمدى قدرته على *تغييره*. التحول نحو الأنظمة الوكيلة يغير هذا.

النموذج الوكيل هو الذي يمكنه:

قبول هدف عالي المستوى (مثال: "ابحث عن أفضل سعر لهذا المنتج وأرسل لي ملخصاً عبر البريد الإلكتروني").
تقسيم هذا الهدف إلى مهام فرعية (بحث، مقارنة، كتابة مسودة بريد إلكتروني).
استخدام أدوات خارجية (متصفحات ويب، واجهات برمجة تطبيقات، قواعد بيانات).
التعافي من الأخطاء وتكييف خطته.

كما لوحظ في المناقشات على منتدى محاذاة الذكاء الاصطناعي، يقدم هذا تحديات جديدة. النموذج الذي يكتب شعراً مثالياً قد يفشل بشكل كارثي عندما يُطلب منه التنقل في نظام ملفات أو التفاعل مع واجهة برمجة تطبيقات غير موثوقة. الفجوة بين المعرفة الثابتة والعمل الديناميكي هي المكان الذي يصبح فيه القياس الوكيل ضرورياً.

لماذا تقصر المعايير الجاهزة

المعايير القياسية مثل MMLU وHumanEval أو حتى المعايير الوكيلة الأحدث (مثل SWE-bench وAgentBench) قيّمة، لكن لها حدود عند تطبيقها على حالتك الخاصة.

أولاً، تختبر مجموعة ثابتة من الأدوات والبيئات. قد تستخدم مجموعتك واجهة برمجة تطبيقات مخصصة، أو قاعدة بيانات قديمة، أو سير عمل خاص. إذا لم يرَ النموذج تلك الأدوات من قبل، فقد لا ينتقل أداؤه في المعيار.

ثانياً، غالباً ما تفترض هذه المعايير ظروفاً مثالية: تعليمات واضحة، واجهات برمجة تطبيقات مستقرة، بيئات حتمية. المهام الوكيلة في العالم الحقيقي تتضمن طلبات غامضة، أعطال شبكة، وأدوات تغير سلوكها بمرور الوقت.

ثالثاً، والأهم، تخبرك المعايير الجاهزة كيف يؤدي النموذج مقابل مهمة *متوسطة*. لا تخبرك كيف يؤدي مقابل *مهمتك*. كما أكدت مدونة Hugging Face، يتحرك المجتمع نحو أطر تقييم أكثر قابلية للتخصيص تسمح للفرق بإدخال بياناتهم وأدواتهم الخاصة.

تصميم معيارك الوكيل الخاص

بناء معيار مخصص للنماذج الوكيلة لا يتطلب مختبر أبحاث ضخم. يتطلب تفكيراً واضحاً حول معنى "وكيل" في سياقك. إليك إطار عملي.

الخطوة 1: حدد مهامك الوكيلة

ابدأ بإدراج المهام الفعلية التي سيحتاج نظام الذكاء الاصطناعي الخاص بك لأدائها. على سبيل المثال:

"ابحث في قاعدة معرفة، استرجع المستندات ذات الصلة، ولخصها."
"تنقل في نموذج من ثلاث خطوات، املأ البيانات من ملف CSV خارجي، وأرسل."
"راقب ملف سجل، اكتشف الحالات الشاذة، وأطلق تنبيهاً عبر Slack."

يجب أن تكون كل مهمة سيناريو مكتفياً بذاته مع معيار نجاح واضح. تجنب الأهداف الغامضة مثل "كن مفيداً" - كن محدداً بشأن الأدوات المعنية والمخرجات المتوقعة.

الخطوة 2: أنشئ بيئة اختبار

تحتاج إلى بيئة خاضعة للرقابة حيث يمكن للنموذج التفاعل مع الأدوات. يمكن أن يكون هذا بسيطاً مثل نص Python يحاكي استدعاءات واجهة برمجة التطبيقات، أو إعداداً أكثر تفصيلاً باستخدام خدمات معبأة في حاويات. المفتاح هو قابلية التكرار: نفس المطالبة يجب أن تنتج سلسلة أفعال حتمية (أو على الأقل قابلة للتتبع).

العديد من الأطر مفتوحة المصدر تدعم هذا الآن. على سبيل المثال، يمكنك استخدام LangChain أو مكتبات مشابهة لتعريف الأدوات، ثم تسجيل كل إجراء يتخذه النموذج. سلطت مدونة Hugging Face الضوء على كيفية بناء المجتمع لوحدات تقييم معيارية تسمح لك بتبديل نماذج وأدوات مختلفة دون إعادة كتابة اختباراتك.

الخطوة 3: حدد مقاييس تتجاوز الدقة

الأداء الوكيل متعدد الأبعاد. ضع في اعتبارك هذه المقاييس:

**معدل إنجاز المهمة**: هل أنهى النموذج المهمة؟
**الكفاءة**: كم عدد الخطوات أو استدعاءات واجهة برمجة التطبيقات التي استخدمها؟
**التعافي من الأخطاء**: عندما تفشل أداة (مثل انتهاء مهلة واجهة برمجة التطبيقات)، هل يعيد النموذج المحاولة، يطلب المساعدة، أم يستسلم؟
**اختيار الأداة**: هل يختار الأداة الصحيحة لكل مهمة فرعية؟
**السلامة**: هل يتخذ إجراءات خطيرة أو غير مقصودة (مثل حذف الملفات)؟

النموذج الذي يكمل مهمة في 10 خطوات دون أخطاء قد يكون أفضل من الذي ينهيها في 3 خطوات لكنه يتطلب تدخلاً بشرياً لإصلاح خطأ.

الخطوة 4: شغّل المعيار على نماذج مفتوحة متعددة

جمال النماذج المفتوحة هو أنه يمكنك اختبارها على أجهزتك الخاصة، ببياناتك الخاصة. جرب مجموعة من الأحجام والهياكل:

نماذج صغيرة (7 مليارات معامل) للسرعة والتكلفة.
نماذج متوسطة (13-34 مليار معامل) لتوازن القدرة واستخدام الموارد.
نماذج كبيرة (70 مليار معامل+) لأقصى أداء، إذا كانت لديك البنية التحتية.

وثق ليس فقط الدرجات، ولكن السلوك النوعي. هل يتبع النموذج التعليمات حرفياً أم يستنتج النية؟ هل يطرح أسئلة توضيحية عندما يكون الأمر غامضاً؟ هذه الفروق الدقيقة مهمة في الإنتاج.

ما تخبرنا به الأبحاث

ألقت الأعمال الحديثة من مدونة DeepMind وغيرها الضوء على نقاط القوة والضعف للنماذج المفتوحة في السياقات الوكيلة.

أحد النتائج الثابتة هو أن **ضبط التعليمات** أهم من عدد المعاملات الخام. نموذج مضبوط جيداً بحجم 13 مليار معامل يمكنه التفوق على نموذج أكبر غير مضبوط في مهام استخدام الأدوات. هذا لأن السلوك الوكيل يتطلب فهم التعليمات المعقدة متعددة الخطوات - وهي مهارة يعززها الضبط الدقيق المتخصص.

بصيرة أخرى هي أهمية **المطالبة بسلسلة الأفكار**. النماذج التي يتم تشجيعها على "التفكير خطوة بخطوة" قبل التصرف تظهر اختياراً أفضل للأدوات وتعافياً أفضل من الأخطاء. لكن هذا يأتي بتكلفة: أوقات استدلال أطول واستخدام رمز أعلى. يجب أن يأخذ معيارك في الاعتبار هذه المقايضة.

أثار منتدى محاذاة الذكاء الاصطناعي أيضاً مخاوف بشأن **اختراق المكافآت** في المعايير الوكيلة. إذا تعلم النموذج أن إكمال المهمة بسرعة يكافأ، فقد يأخذ اختصارات تنتهك قيود السلامة. يجب أن يتضمن معيارك المخصص حالات حافة تختبر هذا.

مثال عملي: قياس أداء وكيل استرجاع المعرفة

دعنا نستعرض مثالاً ملموساً. افترض أنك تريد بناء وكيل يجيب على أسئلة دعم العملاء بالبحث في قاعدة بيانات كتيبات المنتجات.

**المهمة**: "ابحث عن كتيب المنتج X، حدد قسم استكشاف الأخطاء لرمز الخطأ Y، وأعد رقم الصفحة ذات الصلة."

**الأدوات**: واجهة برمجة تطبيقات بحث، محلل مستندات، وقاعدة بيانات بسيطة.

**النماذج المختبرة**: Llama 3 8B، Mistral 7B، وQwen 2.5 32B (كلها مفتوحة).

**النتائج**:

أكمل Llama 3 8B المهمة بنسبة 70%، لكنه غالباً ما بحث عن متغير منتج خاطئ.
كان Mistral 7B أسرع لكنه أحياناً أعاد الكتيب بأكمله بدلاً من الصفحة المحددة.
كان لدى Qwen 2.5 32B أعلى معدل إنجاز (90%) وفهم بشكل صحيح الطلبات الغامضة، لكنه تطلب 3 أضعاف الحوسبة.

**البصيرة**: لحالتك، قد يكون نموذج Llama الأصغر كافياً إذا أضفت خطوة تحقق تتحقق مما إذا كانت الصفحة المعادة تحتوي فعلاً على رمز الخطأ. هذا شكل من أشكال التعويض على مستوى الأدوات لضعف النموذج.

المزالق الشائعة في القياس المخصص

عند بناء معيارك الوكيل الخاص، احترس من هذه المشكلات:

**تسريب الإجابة**: إذا وفرت بيئة الاختبار الخاصة بك سياقاً كبيراً (مثل تضمين الإجابة في مطالبة النظام)، سيظهر النموذج أكثر قدرة مما هو عليه.
**تجاهل زمن الاستجابة**: النموذج الذي يستغرق 30 ثانية للتخطيط قبل التصرف قد يكون غير عملي للتطبيقات في الوقت الفعلي. قم بتضمين مقاييس زمنية.
**الاختبار في عزلة**: الوكيل الذي يعمل بشكل مثالي بأداة واحدة قد يفشل عند التعامل مع ثلاث أدوات في وقت واحد. صمم سيناريوهات متعددة الأدوات.
**نسيان السلامة**: النماذج الوكيلة يمكن أن تسبب ضرراً حقيقياً إذا حذفت ملفات، أرسلت رسائل بريد إلكتروني غير مقصودة، أو وصلت إلى بيانات مقيدة. قم بتضمين حالات اختبار خصومية.

أدوات ومنصات للقياس المخصص

لست بحاجة لبناء كل شيء من الصفر. العديد من المشاريع مفتوحة المصدر تدعم الآن التقييم الوكيل المخصص:

**إطار تقييم LangChain** يسمح لك بتعريف أدوات ومقاييس مخصصة.
**مجموعة تقييم Hugging Face** تتيح لك إدخال مجموعات البيانات والنماذج الخاصة بك.
**Evals من OpenAI** (رغم أنها في الأصل للنماذج المغلقة) يمكن تكييفها للنماذج المفتوحة.

أكدت مدونة Hugging Face مراراً أن المجتمع يتقارب نحو تنسيقات موحدة للتقييمات الوكيلة، مما يسهل مشاركة ومقارنة النتائج.

مستقبل القياس الوكيل

مع زيادة قدرة النماذج، يجب أن تتطور المعايير. ألمحت مدونة DeepMind إلى الحدود التالية: **التقييم متعدد الوكلاء**، حيث يجب على النماذج التنسيق مع نماذج أخرى أو بشر. هذا ذو صلة خاصة بسير عمل المؤسسات التي تتضمن تسليمات بين وكلاء الذكاء الاصطناعي والمراجعين البشريين.

اتجاه ناشئ آخر هو **القياس المستمر**. بدلاً من اختبار لمرة واحدة، تنشر معيارك كأداة مراقبة تعمل ليلاً، تنبهك عندما يقلل تحديث النموذج من الأداء الوكيل. هذا ضروري للأنظمة الإنتاجية حيث يمكن أن يتغير سلوك النموذج بمرور الوقت.

أخيراً، يشير منتدى محاذاة الذكاء الاصطناعي إلى أن المعايير الوكيلة يجب أن تتضمن اختبارات **محاذاة القيم**. النموذج الذي يمكنه استخدام الأدوات لكنه يتجاهل التعليمات البشرية ليس فقط غير مفيد - إنه خطير. يجب أن يتضمن معيارك المخصص سيناريوهات حيث يجب على النموذج طلب الإذن أو رفض طلب غير أخلاقي.

الخلاصة

السؤال "هل هو وكيل بما يكفي؟" ليس له إجابة عالمية. يعتمد على أدواتك، مهامك، وتحملك للخطأ. المعايير الجاهزة توفر نقطة بداية مفيدة، لكنها لا يمكن أن تحل محل البصائر المكتسبة من اختبار النماذج في بيئتك الخاصة.

بتصميم معيار وكيل مخصص - قائم على سير عملك الفعلي، يقيس الأداء متعدد الأبعاد، ويتكرر بناءً على الإخفاقات الحقيقية - تكتسب فهماً عميقاً لما يمكن وما لا يمكن للنماذج المفتوحة فعله. كما تبني البنية التحتية لتقييم النماذج المستقبلية عند ظهورها.

النظام البيئي مفتوح المصدر ينضج بسرعة. مع أطر من Hugging Face، بصائر من DeepMind، ومنظورات نقدية من منتدى محاذاة الذكاء الاصطناعي، الأدوات للإجابة على هذا السؤال في متناول اليد. الشيء الوحيد المفقود هو الإرادة لاختبار نماذجك حيث يهم أكثر: في العالم الفوضوي غير المتوقع للأدوات الحقيقية.

لذا، ابنِ معيارك. شغّل التجارب. وعندما يسألك أحدهم إذا كان النموذج وكيلاً بما يكفي، سيكون لديك البيانات للإجابة - ليس فقط للمجال، ولكن لحالتك الخاصة التي لا يمكن استبدالها.

المصادر

Is it agentic enough? Benchmarking open models on your own toolingHugging Face Blog DeepMind BlogDeepMind Blog MIT Technology Review AIMIT Technology Review AI AI Alignment ForumAI Alignment Forum

أسئلة شائعة

عن ماذا يتحدث هذا المقال؟

يتناول هذا المقال موضوع "هل هو وكيل بما فيه الكفاية؟ قياس النماذج المفتوحة على أدواتك الخاصة" ضمن تصنيف أبحاث الذكاء الاصطناعي. تعلم كيفية تقييم وكلاء الذكاء الاصطناعي مفتوحة المصدر من حيث الاستقلالية وإنجاز المهام باستخدام معايير قياس مخصصة. دليل عملي للباحثين والمهندسين الذين يبنون أنظمة وكيلة.

لمن يفيد هذا المقال؟

يفيد القراء المهتمين بفهم أدوات وتقنيات الذكاء الاصطناعي بطريقة عملية وواضحة.

ما الخطوة التالية؟

اقرأ المقال كاملاً، راجع المصادر المرفقة، ثم جرّب الأفكار المناسبة لاحتياجك بحذر.