«مايكروسوفت»: تطوير ذكاء اصطناعي للتحكم في برامج ويندوز
طوّرت مايكروسوفت نموذج ذكاء اصطناعي جديد يحمل اسم (Large Action Model – LAM)، وهو يتميز بقدرته على تشغيل برامج ويندوز وتنفيذ المهمات بنحو مستقل، ويشكّل هذا النموذج نقلة نوعية في الذكاء الاصطناعي القادر على تنفيذ الأوامر فعلياً.
وعلى عكس النماذج اللغوية التقليدية، مثل «GPT-4o»، التي تقتصر وظيفتها على معالجة النصوص وإنشائها، يتمتع نموذج «LAM» الجديد من مايكروسوفت بقدرة على تحويل طلبات المستخدمين إلى أفعال حقيقية، سواء كان ذلك تشغيل البرامج أو التحكم في الأجهزة.
وكانت هذه الفكرة موجودة سابقاً، لكن «LAM» يُعد أول نموذج يُدرَّب بنحو خاص للعمل مع منتجات مايكروسوفت أوفيس المكتبية وغيرها من تطبيقات ويندوز.
وعلى سبيل المثال: عند التسوق عبر الإنترنت، تستطيع النماذج التقليدية تقديم تعليمات نصية حول كيفية الشراء، في حين يمكن لنموذج «LAM» تنفيذ عملية الشراء نفسها من خلال التنقل في واجهة الموقع.
ووفقاً لمايكروسوفت، فإن تطوير هذا النموذج يتطلب أربع مراحل رئيسية: التدريب على تخطيط المهمات وتقسيم المهمة إلى خطوات منطقية، والتعلم من نماذج متقدمة مثل «GPT-4o» لتحويل الخطط إلى أفعال، والاستكشاف الذاتي الذي يتيح للنموذج البحث عن حلول جديدة وتجاوز العقبات التي تعجز عنها النماذج الأخرى، إضافة إلى التدريب المستند إلى المكافآت لتحسين دقة التنفيذ.
وجرّب الباحثون نموذج «LAM» في بيئة اختبار خاصة ببرنامج تحرير النصوص «وورد»، وقد نجح في تنفيذ المهمات بنسبة قدرها 71%، متفوقاً على «GPT-4o» الذي حقق نسبة نجاح بلغت 63% دون معلومات بصرية، كما كان نموذج «LAM» أسرع، إذ استغرق 30 ثانية فقط لتنفيذ المهمة مقارنةً بـ86 ثانية لـ«GPT-4o». ومع ذلك، عند تزويد «GPT-4o» بمعلومات بصرية، تحسنت دقته لتصل إلى 75.5%.
واستند فريق مايكروسوفت إلى آلاف البيانات التدريبية المستخلصة من وثائق مايكروسوفت، ومقالات منصة «WikiHow»، وعمليات البحث عبر محرك «بينغ»، ثم استخدم الفريق نموذج «GPT-4o» لتطوير هذه المهمات إلى مهمات أخرى أكثر تعقيداً.
ومع هذا التطور، يواجه نموذج «LAM» بعض التحديات، منها تنفيذ أفعال بنحو خطأ، وبعض القضايا التنظيمية التي تحتاج إلى حلول، وقيود تقنية تؤثر في قابلية التوسع والتطبيق في مجالات مختلفة.
ويرى الباحثون أن «LAM» يشكّل تقدماً كبيراً في مجال الذكاء الاصطناعي، مشيرين إلى أنه قد يمهد الطريق لتطوير ذكاء اصطناعي عام (AGI)؛ فبدلاً من الأنظمة التي تقتصر على فهم النصوص وإنتاجها، قد توفر الشركات قريباً مساعدين رقميين يساعدون فعلياً في تنفيذ المهمات اليومية بنحو فعّال.