أطلق معهد الابتكار التكنولوجي، ذراع الأبحاث التطبيقية لمجلس أبحاث التكنولوجيا المتطورة في أبوظبي، عن «فالكون بيرسيبشن» (Falcon Perception)، وهو نموذج ذكاء اصطناعي متعدد الوسائط من الجيل الجديد ينافس أبرز النماذج العالمية من الولايات المتحدة والصين، بما في ذلك نماذج ميتا من عائلة SAM3 ونماذج Qwen التابعة لشركة علي بابا، مع تحقيق مستوى أعلى من الكفاءة الحاسوبية.
ويأتي إطلاق النموذج في وقت تتصاعد فيه المنافسة العالمية في مجال الذكاء الاصطناعي، وتسعى الدول إلى ترسيخ قدراتها السيادية في مجالات اللغة والرؤية الحاسوبية والروبوتات. ويضع «فالكون بيرسيبشن» دولة الإمارات ضمن مجموعة محدودة من الدول القادرة على تطوير نماذج متعددة الوسائط متقدمة على نطاق واسع.
وبحجم يقارب 600 مليون معامل، يحقق «فالكون بيرسيبشن» أداءً تنافسياً في مهام تجزئة العناصر البصرية وفهم المحتوى المرئي المعقد وتحليل الوثائق، مع أداء يضاهي أنظمة أكبر حجماً بكثير، مع تقليل ملحوظ في المتطلبات الحاسوبية المرتبطة عادةً بهذا النوع من النماذج.
ويشير الذكاء الاصطناعي متعدد الوسائط إلى الأنظمة القادرة على معالجة أكثر من نوع من البيانات وفهمها في الوقت نفسه، ويشمل ذلك الصور والنصوص. وبينما تركز أغلب أنظمة الذكاء الاصطناعي المستخدمة حالياً على معالجة اللغة، فإن المرحلة التالية من تطور هذا المجال تعتمد على الإدراك البصري، أي قدرة الآلات على فهم البيئة المادية والتفاعل معها.
ومن خلال الجمع بين الرؤية الحاسوبية وفهم اللغة في نموذج واحد، يمكّن «فالكون بيرسيبشن» الأنظمة الذكية من تحليل الصور والتعرف إلى العناصر المختلفة وقراءة النصوص داخلها، ما يقربها من إدراك العالم المادي بطريقة مشابهة للبشر. ويستطيع النموذج معالجة صور تحتوي على مئات العناصر في وقت واحد، ما يمكّنه من تحقيق إدراك دقيق في البيئات المعقدة والمكتظة دون الوقوع في أخطاء التوليد الوهمي أو مواجهة قيود هيكلية.
وبتوسع تطبيقات الذكاء الاصطناعي إلى مجالات الروبوتات والتصنيع الذكي والمنصات ذاتية التشغيل والبنية التحتية الذكية، تصبح القدرة على دمج الرؤية واللغة عنصراً أساسياً.
شهدت التطورات الحديثة في مجال الذكاء الاصطناعي متعدد الوسائط اعتماداً متزايداً على نماذج ضخمة تتطلب بنية تحتية حوسبية فائقة الحجم. وفي الوقت نفسه، تعتمد العديد من أنظمة الرؤية واللغة على مكونات منفصلة، حيث يتولى نموذج معالجة الصور بينما يفسرها نموذج آخر عبر اللغة. ويؤدي هذا النهج متعدد الطبقات إلى زيادة التعقيد الهيكلي وارتفاع المتطلبات الحاسوبية. لكن في البيئات الصناعية والمؤسساتية التي تعمل ضمن قيود صارمة تتعلق بتوافر القدرة الحاسوبية وزمن الاستجابة والأمن والتكلفة، قد تمثل هذه المتطلبات عائقاً أمام النشر العملي.
ويعالج «فالكون بيرسيبشن» هذا التحدي من خلال بنية موحدة تجمع بين معالجة الصور واللغة منذ الطبقة الأولى للنموذج. ويتيح هذا النهج للنموذج تنفيذ مهام استدلال بصري معقدة، منها تحديد العناصر الموصوفة في النصوص، وتجزئتها بدقة في الصور، وقراءة النصوص من الوثائق، وذلك ضمن نظام واحد متكامل. وتتيح هذه البنية للمستخدمين الاستعلام عن الصور باستخدام الأوامر بلغة طبيعية.
فمثلاً، يمكن للمستخدم أن يطلب من النموذج «تحديد السيارة الحمراء» أو «عد علب الحساء»، ليقوم «فالكون بيرسيبشن» بتحديد العنصر وتقسيمه مباشرة داخل الصورة، حتى في المشاهد التي تحتوي على مئات العناصر.
وتفتح هذه القدرات آفاقاً جديدة لتطبيقات متعددة، تشمل الأنظمة الروبوتية القادرة على تنفيذ تعليمات بلغة طبيعية في بيئات معقدة، وأنظمة الفحص الآلي واكتشاف العيوب في التصنيع، إضافة إلى وضع العلامات البصرية على نطاق واسع للبيانات المستخدمة في تدريب نماذج الذكاء الاصطناعي.
وقالت الدكتورة نجوى الأعرج، الرئيس التنفيذي لمعهد الابتكار التكنولوجي: «يمثل (فالكون بيرسيبشن) تجسيداً لرؤية معهد الابتكار التكنولوجي في دفع حدود الذكاء الاصطناعي نحو حلول متقدمة وقابلة للتطبيق على أرض الواقع. ومن خلال إعادة تصميم بنية نماذج الرؤية واللغة، نطوّر أنظمة متعددة الوسائط أكفأ يمكن نشرها عبر قطاعات صناعية مختلفة، ما يدعم في الوقت نفسه ترسيخ القدرات السيادية لدولة الإمارات في مجال الذكاء الاصطناعي».
ويحقق «فالكون بيرسيبشن» أداءً تنافسياً في عدد من أبرز معايير تقييم الذكاء الاصطناعي، على الرغم من حجمه الصغير نسبياً، ففي معيار تجزئة العناصر البصرية يحقق نتائج تضاهي أحدث النماذج الرائدة مثل SAM3 من شركة ميتا على معيار SaCO الخاص بتجزئة الأجسام. وفي مجال الفهم البصري المتقدم يتفوق النموذج على منافسيه في المهام الأكثر تعقيداً التي تتضمن تحليل السمات والمقارنات والتعامل مع المشاهد المكتظة بالعناصر. وفي معيار تحليل الوثائق يسجل أداءً قوياً على معيار OmniDocBench، مع نتائج تضاهي أو تقترب من أداء أنظمة أكبر بكثير مثل Mistral-OCR وDOTS-OCR وQwen-VL-235B.
ويعكس هذا التوازن بين الأداء والكفاءة تحولاً مهماً في مسار تطور الذكاء الاصطناعي، حيث بات الابتكار يعتمد اعتماداً متزايداً على تحسين البنية الهيكلية وقابلية النماذج للتطبيق العملي، وليس على زيادة الحجم فقط.
وقال الدكتور حكيم حسيد، كبير الباحثين في مركز بحوث الذكاء الاصطناعي والعلوم الرقمية في معهد الابتكار التكنولوجي: «هدفنا من (فالكون بيرسيبشن) إعادة النظر في الفكرة السائدة التي تفترض أن أنظمة الرؤية الحاسوبية يجب أن تعتمد على هياكل معقدة متعددة المراحل. ومن خلال إثبات قدرة نموذج كثيف واحد على تنفيذ مهام الإدراك بكفاءة عالية، فإننا نمهّد الطريق لظهور جيل جديد من الأنظمة متعددة الوسائط القابلة للتطوير».
ويُعد «فالكون بيرسيبشن» أول نموذج ضمن عائلة فالكون يتم تطويره خصيصاً لمهام الإدراك متعدد الوسائط في البيئات الكثيفة، ما يوسّع نطاق العائلة التي اشتهرت سابقاً بنماذج اللغة والاستدلال. وسيطرح النموذج كمصدر مفتوح عبر منصة «هجنج فيس» (Hugging Face) ليكون متاحاً لمجتمع الباحثين، ضمن التزام المعهد بدعم تطوير الذكاء الاصطناعي المفتوح والتعاوني.