مع اقترابنا من منتصف عام 2025، يمكننا استعراض أبرز اتجاهات الذكاء الاصطناعي التي شكّلت النصف الأول من هذا العام، والتطلّع إلى ما قد تحمله الأشهر القادمة.
وبالنظر إلى اتساع وتنوّع تطورات الذكاء الاصطناعي، لا يمكن لأي تقرير أن يُغطي جميع الاتجاهات بشكل شامل. وهذا التقرير ليس استثناءً. لقد قمنا بحصر الاتجاهات في قائمة من عشرة عناصر: 5 تطورات قادت النصف الأول من العام، و5 أخرى نتوقع أن يكون لها دور كبير في المرحلة المقبلة.
لا تعتمد اتجاهات الذكاء الاصطناعي على التقدم في نماذج الذكاء الاصطناعي والخوارزميات نفسها فحسب، ل أيضًا من خلال مجموعة حالات الاستخدام المتنامية التي تُطبَّق فيها قدرات الذكاء الاصطناعي التوليدي. ومع ازدياد قدرات النماذج وكفاءتها وتنوّعها، تتطوّر تطبيقات الذكاء الاصطناعي، وأدوات الذكاء الاصطناعي، ومهام سير العمل المدعومة بالذكاء الاصطناعي وفقًا لذلك. ولفهم حقيقي لكيفية تطور النظام البيئي الحالي للذكاء الاصطناعي، لا بد من فهم السياق الذي تنشأ فيه هذه الاختراقات في التعلم الآلي وما يترتب عليها من نتائج.
تستعرض هذه المقالة في المقام الأول الاتجاهات الحالية التي قد يظهر تأثيرها الواقعي خلال الأشهر المقبلة — أي أنها اتجاهات ملموسة ستؤثر في الغالب على عام 2025 أو خلاله. وبالطبع، هناك مبادرات أخرى في مجال الذكاء الاصطناعي تُعدّ طويلة الأمد وأكثر شيوعًا. فعلى سبيل المثال، ورغم التقدّم الأخير في تطوير المركبات ذاتية القيادة بالكامل ضمن نطاقات محدودة — بما في ذلك إطلاق تجارب سيارات الأجرة الآلية في عدد من المدن الأمريكية، وتجارب إضافية في أوسلو وجنيف و16 مدينة في الصين — فإن الوصول إلى اعتماد واسع النطاق لتلك التقنية لا يزال يتطلب سنوات.
أما الاتجاهات الكلية الأوسع، مثل ظهور وكلاء الذكاء الاصطناعي، أو تأثير الذكاء الاصطناعي على سلوكيات البحث وتحسين محركات البحث (SEO)، فهي متعددة الأبعاد وقد نالت تغطية إعلامية واسعة، ولهذا تم استبعادها لصالح تسليط الضوء على تطورات أكثر تحديدًا لم تحظَ باهتمام كبير حتى الآن.
ومع ذلك، دعونا نتابع استعراض القائمة.
فالتقدّم لا يتطلب بالضرورة تدفقًا مستمرًا من أفكار جديدة كليًا. فالكثير من أهم اتجاهات الذكاء الاصطناعي في النصف الأول من عام 2025 تعكس تحولات في كيفية تطبيق المفاهيم الحالية — بعضها عملي ومُجدٍ، والبعض الآخر أقل جدوى.
ونماذج اليوم ليست فقط أفضل بشكل كبير من نماذج الأمس، بل أيضًا أرخص بكثير في التشغيل.فعلى سبيل المثال، يُظهر تحليل أجرته SemiAnalysis أنه خلال أقل من عامين، انخفضت تكلفة التنفيذ لكل رمز مميز للحصول على نتائج مماثلة على معيار MMLU عشرات المرات. وقد لا يُعد هذا مفاجئًا لأي شخص تابع مؤشرات الأداء الخاصة بكل جيل جديد من النماذج. ولكن عند النظر إلى هذا التقدّم بشكل تراكمي، يتضح كيف يُبرّر تسارع التحسّن المستمر حالة الحماس حول الذكاء الاصطناعي التوليدي، أكثر من مجرد النظر إلى القدرات الحالية التي تُعد بالفعل مثيرة للإعجاب.
وتُقدّر إحدى الدراسات أن معدل التحسّن في الخوارزميات يبلغ نحو 400% سنويًا — بمعنى أن النتائج المحقّقة اليوم يمكن الوصول إليها بعد عام باستخدام ربع القدرة الحاسوبية فقط. وذلك دون حتى احتساب التحسّنات المتزامنة في القدرة الحاسوبية (انظر: قانون Moore) أو استخدام البيانات التدريبية الاصطناعية. على سبيل المثال، يُعتقد أن النموذج الأصلي من GPT-4، والذي تشير الشائعات إلى أنه يحتوي على نحو 1.8 تريليون مُعامِل،1 قد حقق نتيجة 67% على معيار HumanEval، وهو أحد معايير الأداء الشائعة في اختبارات البرمجة. حقق نموذج IBM Granite 3.3 2B Instruct، الذي تم إصداره بعد عامين وكان أصغر حجمًا بمقدار 900 مرة،نتيجة بلغت 80.5%.2
هذا التوسع الهائل في كفاءة النماذج، أكثر من أي عامل آخر، هو ما يُمكّن حقبة وكلاء الذكاء الاصطناعي الصاعدة. فالنماذج اللغوية الكبيرة (LLMs) أصبحت أكثر عملية بوتيرة أسرع من وتيرة تحسّن قدراتها، مما يتيح نشر أنظمة متعددة الوكلاء يمكن لمجموعة من النماذج ضمنها أن تخطّط وتنفذ وتنسّق مهام معقدة بشكل مستقل — من دون تكاليف استدلال باهظة.
وقد شكّل إطلاق نموذج o1 من OpenAI نقطة تحوّل جديدة في تحسين أداء النماذج. إذ تجاوز الأداء السائد في معايير تقنية عالية في مجالي الرياضيات والبرمجة، وأطلق سباقًا جديدًا نحو تطوير ما يُعرف باسم "نماذج الاستدلال". وأداؤها المعزز في المهام التي تتطلب اتخاذ قرارات منطقية يُتوقّع أن يكون له دور رئيسي في تطوير الذكاء الاصطناعي الوكيل. لكن، وكما هو الحال غالبًا في مجال الذكاء الاصطناعي، فقد بدأت الحماسة الأولية حول الأداء تتراجع لصالح البحث عن تطبيقات عملية أكثر واقعية.
تنبع الفكرة من وراء نماذج الاستدلال من أبحاث تُظهر أن زيادة الحوسبة في وقت الاختبار (المستخدمة لتوليد الناتج) يمكن أن تُحسّن أداء النموذج بقدر ما تفعل زيادة الحوسبة في وقت التدريب (المستخدمة لتدريب النموذج). وقد تجلّى هذا الإدراك في تقنيات تُعنى بضبط النماذج بطريقة تحفزها على توليد "عمليات تفكير" أطول وأكثر تعقيدًا قبل الخروج بالإجابة النهائية—وهي فئة من الأساليب تُعرف عمومًا باسم "توسيع الاستدلال في وقت التنفيذ".
لكن هذا التوسيع في الاستدلال يؤدي بدوره إلى زيادة في تكاليف التنفيذ وزمن الانتقال. يتعين على المستخدمين الدفع (والانتظار) مقابل كل الرموز المميزة التي يُنتجها النموذج أثناء "تفكيره" في الإجابة النهائية، وهذه الرموز تستهلك بدورها من نافذة السياق المتاحة. هناك حالات استخدام تبرر هذا الوقت الإضافي والحوسبة الإضافية، لكن في العديد من السيناريوهات الأخرى، يُعد ذلك هدرًا للموارد. ومع ذلك، فإن التبديل المستمر بين نموذج استدلال ونموذج "قياسي" على أساس كل مهمة أو موجّه أمر غير عملي.
ولهذا، كان الحل المؤقت هو "نماذج الاستدلال الهجينة". ففي فبراير، أصبح IBM Granite 3.2 أول نموذج لغوي كبير (LLM) يتيح وضع "تفكير" يمكن تشغيله وإيقافه، مما يتيح للمستخدمين تفعيل الاستدلال عند الحاجة إليه، والتركيز على الكفاءة عند عدم الحاجة.3 ثم تبعته Anthropic بإصدار Claude 3.7 Sonnet في الشهر ذاته، مضيفة للمطورين عبر واجهة برمجة تطبيقات (API) القدرة على التحكم بدقة في مدة "تفكير" النموذج.4 وقدّمت Google خاصية مماثلة في إصدار Gemini 2.5 Flash،5 بينما يتيح Qwen3 من Alibaba تشغيل وضع التفكير أو إيقافه كما في IBM® Granite.
تسعى الأبحاث الجارية حاليًا إلى تعميق فهم ما يحدث فعليًا عندما "تفكر" النماذج الاستدلالية، ومدى مساهمة سلاسل التفكير (CoT) الممتدة في جودة النتائج. أشارت ورقة بحثية نُشرت في أبريل إلى أنه في بعض المهام، يمكن للنماذج الاستدلالية تحقيق نتائج فعّالة دون الحاجة إلى إنتاج سلاسل تفكير صريحة. وفي المقابل، أشارت أبحاث أجرتها شركة Anthropic في وقت سابق من الشهر نفسه، بأن سلاسل التفكير التي تُعرض للمستخدمين قد لا تعكس بالضرورة ما "يفكر" به النموذج فعلًا.
لطالما اعتمد تطوير الذكاء الاصطناعي على مستودعات المعرفة مفتوحة المصدر مثل Wikipedia وGitHub. ومن المتوقع أن تزداد أهميتها مستقبلًا، خاصة بعد الكشف عن قيام بعض مطوري نماذج الذكاء الاصطناعي البارزين بتدريب نماذجهم على نسخ مقرصنة من الكتب—وهو ما سيؤدي على الأرجح إلى التوقف عن استخدام تلك المصادر البديلة. أما بالنسبة إلى المؤسسات التي تُدير موارد مفتوحة المصدر لا تُقدّر بثمن، فإن الوضع بدأ بالفعل يُشكّل عبئًا كبيرًا.
فعلى الرغم من أن سيل الدعاوى القضائية ساعد في لفت الانتباه إلى الأضرار التي يُسببها جمع البيانات—سواء كان ذلك قانونيًا، أو غير قانوني، أو ضمن منطقة رمادية قانونيًا—من حيث حقوق الملكية الفكرية، إلا أن القليل من الاهتمام قد أُعطي لتأثير هذا الجوع إلى البيانات على مستودعات المعرفة نفسها. كما أوضحت مؤسسة ويكيميديا في إعلان صدر في أبريل بشأن حركة مرور البوتات: "محتوانا مجاني، لكن بنيتنا التحتية ليست كذلك". وقد شهدت ويكيميديا تحديدًا هجومًا شبه مستدام من زيارات الشبكة مصدره بوتات التجميع التي تقوم بجمع البيانات بهدف تدريب نماذج الذكاء الاصطناعي التوليدي. منذ يناير 2024، ازداد حجم النطاق الترددي المستخدم لتنزيل محتوى الوسائط المتعددة في ويكيميديا بنسبة 50٪.
ويمثّل هذا الارتفاع في حجم الحركة مصدر قلق بحد ذاته، إلا أن طبيعة هذه الحركة هي ما يُسبّب ضغطًا غير متناسب على الموارد المحدودة. سلوك التصفح البشري يمكن التنبؤ به: فهو يتمركز حول الصفحات الشائعة ويتبع أنماطًا منطقية، مما يسمح بتطبيق استراتيجيات الأتمتة والتخزين المؤقت لتخصيص النطاق الترددي بكفاءة. لكن على عكس البشر، تقوم الروبوتات بجمع المحتوى من صفحات نادرة دون تمييز، مما يضطر مراكز البيانات إلى خدمتها مباشرة. وهذا لا يُعد مكلفًا وغير فعّال في الظروف العادية فحسب، بل قد يكون كارثيًا في الحالات التي تتطلب من البنية التحتية الاستجابة لارتفاعات فعلية في الاستخدام من العالم الواقعي.
وفقًا لتقرير نشرته Ars Technica، تُعد هذه المشكلة واسعة الانتشار، وقد تفاقمت بسبب ما يعتبره كثيرون سلوكًا متعمدًا ومفترسًا من قِبل روبوتات الزحف والشركات التي تشغّلها. وقد اتُّهمت عدة شركات، من بينها Perplexity، بتجاوز ملف robots.txt خلسة، بل وتخطي حواجز الدفع لجمع البيانات. وعندما تحاول المواقع تقييد معدل وصول الروبوتات، يتم تبديل عناوين IP الخاصة بها؛ وإذا تم حظر معرّف المستخدم، تنتقل إلى سلاسل تعريف بديلة. ووصف أحد مديري البنية التحتية مفتوحة المصدر، الذي اكتشف أن ما يقرب من 25٪ من حركة المرور على شبكته مصدرها روبوتات ChatGPT، هذا السلوك بأنه "هجوم موزع لحجب الخدمة (DDoS) فعلي على الإنترنت بأكمله."
استجابة لذلك، بدأت العديد من المشاريع في تطبيق تدابير دفاعية نشطة. فعلى سبيل المثال، يفرض مشروع مفتوح المصدر يُعرف باسم Anubis على الروبوتات حل ألغاز حسابية قبل منحها حق الوصول. أما مشروع Nepenthes، فيُرسل روبوتات الذكاء الاصطناعي عبر "متاهة لا نهائية." وأطلقت شركة Cloudflare، وهي مزود بارز للبنية التحتية على الإنترنت، ميزة جديدة تُعرف باسم AI Labyrinth (متاهة الذكاء الاصطناعي)، تعتمد نهجًا مشابهًا — وإن كان أقل عدوانية. وتُعد WE5: الاستخدام المسؤول للبنية التحتية مبادرة جديدة من ويكيميديا، تهدف إلى حل هيكلي لمواجهة هذا التحدي.
وسيكون لقدرة مطوّري الذكاء الاصطناعي التجاري ومستودعات المعرفة المفتوحة على تطوير بروتوكول مشترك ملائم أثر بالغ — ليس فقط على مستقبل الذكاء الاصطناعي، بل على مستقبل الإنترنت نفسه.
وعلى الرغم من أن مفهوم نماذج الخبراء المتعددين (MoE) يعود إلى عام 1991، إلا أنه لم يدخل حيز الاستخدام السائد في معالجة اللغة الطبيعية (NLP) أو الذكاء الاصطناعي التوليدي حتى أطلقت شركة Mistral AI نموذجها Mixtral في أواخر عام 2023.6 ورغم أن النموذج وبنيته لاقيا قدرًا كبيرًا من الاهتمام — بل وظهرت شائعات بأن GPT-4 من OpenAI يستند إلى نموذج MoE (رغم عدم تأكيد ذلك رسميًا) — إلا أن هذا لم يكن كافيًا لإبعاد الصناعة عن تركيزها على النماذج اللغوية الكبيرة الكثيفة (dense LLMs).
لكن يبدو أن هذا التركيز قد تغيّر بعد إطلاق DeepSeek-R1. فقد أثبت DeepSeek-R1، المستند إلى النموذج الأساسي DeepSeek-V3، بشكل قاطع أن نماذج MoE قادرة تمامًا على تقديم أداء متقدّم إلى جانب كفاءتها الحوسبية المؤكدة.
وقد أعاد هذا الإنجاز إشعال الاهتمام بنماذج MoE المخففة (sparse)، كما يتجلى في موجة النماذج الجديدة، بما في ذلك — على سبيل المثال لا الحصر — Meta Llama 4، وQwen3 من Alibaba، IBM® Granite 4.0، التي تعتمد هذه البنية. ومن المرجّح أيضًا أن بعض النماذج المغلقة الرائدة من شركات مثل OpenAI أو Anthropic أو Google تستند إلى بنية MoE، على الرغم من أن تفاصيل بنية النماذج المغلقة نادرًا ما يتم الإفصاح عنها.
مع تحوّل القدرات والأداء المذهلين إلى سلعة شائعة في السنوات المقبلة، يُتوقّع أن تُصبح سرعة الاستدلال وكفاءة النماذج المخفّفة (sparse) ذات أولوية أعلى.
يبقى التنبؤ بالمستقبل أمرًا صعبًا دائمًا. فوتيرة التقدّم المتسارعة في أجيال النماذج السابقة دفعت كثيرين إلى توقّع أن تُحرز النماذج المقرر إصدارها في عام 2025 تقدمًا ملموسًا نحو الذكاء الاصطناعي العام (AGI). ورغم أن أحدث النماذج من OpenAI وMeta وغيرهما من الشركات صاحبة أعلى تمويل في مجال الذكاء الاصطناعي تُعد مثيرة للإعجاب بلا شك، إلا أنها ليست ثورية كما كان متوقّعًا.
أما على صعيد التنفيذ العملي، فقد جاء التقدم غير متّسق. فالكثير من قادة الأعمال الذين عبّروا عن تفاؤلهم بتبني الذكاء الاصطناعي في مؤسساتهم مع نهاية عام 2023، أمضوا عام 2024 في إدراك أن البنية التحتية لتكنولوجيا المعلومات لديهم ليست مؤهلة بعد لتوسيع نطاق الذكاء الاصطناعي.
من المقولات الشائعة بين محللي الذكاء الاصطناعي أن الذكاء الاصطناعي سيتولى المهام العادية والمتكررة وسيوفر الوقت للبشر للتركيز على التفكير الإبداعي الشامل. لكن حتى الآن، لا تعكس بيانات تبني الذكاء الاصطناعي هذا التصور على أرض الواقع. فقد وجدت دراسة أجراها معهد IBM Institute for Business Value أن العكس هو الصحيح — على الأقل في سلسلة توريد المحتوى في قطاع التجزئة: حيث أفاد 88% من تجار التجزئة باستخدام الذكاء الاصطناعي التوليدي في "ابتكار الأفكار الإبداعية"، وأفاد74% منهم أنهم يستخدمونه في "إنشاء المحتوى وتحريره". وفي المقابل، ما تزال المهام الروتينية من نصيب البشر: إذ أفاد23% فقط من تجار التجزئة باستخدام الذكاء الاصطناعي التوليدي في "إنشاء نسخ محتوى حسب القناة"، وأفاد10% فقط أنهم يستخدمونه في "إنشاء نسخ محتوى حسب الموقع الجغرافي".
بالتالي، لا يعني الوضع أن المؤسسات لا تسعى لتبنّي الذكاء الاصطناعي — فقد أظهر تقرير جديد صادر عن معهد IBV أنها تفعل ذلك بشكل واضح، لا سيما فيما يتعلق بوكلاء الذكاء الاصطناعي — ولكن العملية لا تسير بوتيرة مباشرة أو خطّية. فالتحوّل من مرحلة التجريب إلى مرحلة التشغيل الرسمي غالبًا ما يكون غير سلس.
وبحلول النصف الثاني من عام 2025 (وحتى مطلع العام التالي)، ستتوفّر اللبنات الأساسية التي تُمهّد الطريق لتحولات جوهرية في بعض جوانب الوضع القائم منذ بدايات عصر الذكاء الاصطناعي التوليدي.
وعلى المستوى الجوهري، لا يوجد مقياس مثالي — أو مجموعة مثالية من المقاييس — لأداء الذكاء الاصطناعي. فكل مقياس يخضع لقانون Goodhart: "عندما يتحوّل المقياس إلى هدف، يصبح مقياسًا غير جيد." رغم ذلك، فإن وجود مقاييس أداء موحّدة تُدار بشفافية يعود بالنفع على تطوير النماذج، كما يُساعد قادة الأعمال المكلَّفين باختيار حلول الذكاء الاصطناعي والنماذج المحددة على إجراء مقارنات عادلة ومتكافئة.
كانت أول مجموعة "قياسية" من معايير القياس التي اتفقت عليها الصناعة هي تلك التي اعتمدها تصنيف Open LLM على منصة Hugging Face. وعندما وصلت نتائج التقييم إلى مرحلة التشبع — أي عندما بدأت معظم النماذج تحقق درجات تقييم عالية ومتشابهة إلى حد يصعب معه التمييز بينها — تبنّى التصنيف في يونيو 2024 مجموعة جديدة من التقييمات التي كانت أكثر تحديًا بشكل كبير. ومرة أخرى، اجتمعت النماذج مفتوحة المصدر والمغلقة على تقييم الأداء باستخدام معايير تقييم تصنيف النسخة الثانية “V2”. لكن في مارس 2025، أوقفت Hugging Face تصنيف Open LLM بالكامل.
لقد أدى التخلّي عن التصنيف والابتعاد عن مجموعة المعايير القياسية التي كانت تروّج لها، إلى تنويع طرائق استخدام النماذج وسبل تقييم أدائها، وكان هذا التنويع أحد أسبابه أيضًا.
وقد ازداد التوجّه نحو أساليب مقارنة نوعية بين النماذج، مثل منصة Chatbot Arena، بدلًا من الاعتماد على التقييمات الكمية فقط. ومع ذلك، فهذه الأساليب أيضًا لا تخلو من العيوب. فقد نُشرت مؤخرًا ورقة بحثية أعدّها عدد من الباحثين الأكاديميين والمطورين من مجتمعات مفتوحة المصدر، سلّطت الضوء على ممارسات مثيرة للجدل في منصة Chatbot Arena تُظهر انحيازًا واضحًا لصالح الشركات الكبرى المطوّرة للنماذج. وجاءت هذه الورقة عقب اتهامات وُجهت إلى شركة Meta بالتلاعب في نتائج Chatbot Arena خلال إطلاق نموذج Llama 4.
والحقيقة أنه لا يوجد معيار واحد يمكن اعتباره "الأفضل على الإطلاق". ويُعدّ النهج الأنسب هو أن تطوّر المؤسسات معاييرها الداخلية الخاصة بها، بما يعكس الأداء الحقيقي في المهام التي تهمّها فعليًا. فكما لا يمكن تقييم موظف محتمل استنادًا إلى اختبار ذكاء فقط، لا ينبغي اختيار نموذج ذكاء اصطناعي بناءً على اختبارات معيارية موحّدة فحسب.
منذ طرحها لأول مرة في عام 2017، كانت نماذج المحوّل المحرّك الرئيس لعصر الذكاء الاصطناعي التوليدي، ولا تزال تشكّل البنية الأساسية لكل شيء بدءًا من توليد الصور، مرورًا بنماذج السلاسل الزمنية، ووصولًا إلى النماذج اللغوية الكبيرة (LLMs). ومع أن نماذج المحوّل باقية، إلا أنها بدأت تواجه منافسة حقيقية.
ذلك أن أحد أوجه القصور الرئيسية في هذه النماذج هو أن متطلباتها الحسابية تتزايد بشكل تربيعي مع طول السياق. بعبارة أخرى، في كل مرة يتضاعف فيها طول السياق، لا يستهلك الانتباه الذاتي ضعف الموارد فقط، بل تستهلك أربعة أضعاف الموارد. ويمثّل هذا "الاختناق التربيعي" تحديًا هيكليًا يحدّ من سرعة وكفاءة النماذج اللغوية التقليدية، لا سيما عند التعامل مع تسلسلات طويلة أو عند الحاجة إلى استحضار معلومات سابقة في المحادثة. وعلى الرغم من أن مواصلة تحسين بنية المحوّل أدّت إلى تطوير نماذج أكثر تقدمًا، إلا أن تكلفة تشغيلها آخذة في الارتفاع.
تم تقديم Mamba لأول مرة في عام 2023، وهي نوع مختلف تمامًا من بنى النماذج—وتحديدًا نموذج حالة—ويُتوقع أن يشكّل أول منافس جدي للمحوّلات في عالم النماذج اللغوية الكبيرة (LLMs). وقد أثبتت هذه البنية قدرتها على مجاراة أداء المحوّلات في معظم مهام النمذجة اللغوية (باستثناء مهام التعلّم في السياق مثل مطالبة بخطوات قليلة، كما أن احتياجاتها الحوسبية تتناسب طرديًا مع طول السياق. وببساطة، فإن الطريقة التي تفهم بها Mamba السياق أكثر كفاءة بطبيعتها: فآلية الانتباه الذاتي في المحوّلات تتطلب تحليل كل رمز مميز (token) وتحديد الرموز التي يجب التركيز عليها في كل مرة، بينما تحتفظ آلية الانتقائية في Mamba فقط بالرموز التي تعتبرها ذات أهمية.
وعندما يتعلق الأمر بالمقارنة بين المحوّلات أو Mamba، فالمستقبل على الأرجح لا يتطلب اختيار أحدهما دون الآخر؛ فالأبحاث تشير إلى أن الدمج بين الاثنين يؤدي إلى نتائج أفضل من كل منهما بمفرده. وقد تم إصدار عدة نماذج تعتمد على Mamba أو مزيج هجين من Mamba والمحوّلات خلال العام الماضي. نُشر معظمها في إطار أبحاث أكاديمية فقط، باستثناء نماذج بارزة مثل Codestral Mamba من شركة Mistral AI، وسلسلة Jamba الهجينة من AI2I. وفي الآونة الأخيرة، من المنتظر أن تستخدم سلسلة IBM® Granite 4.0 القادمة مزيجًا هجينًا من بنية المحوّلات وMamba-2.
والأهم من ذلك، أن متطلبات الأجهزة المنخفضة لنماذج Mamba والنماذج الهجينة ستُسهم بشكل كبير في تقليل تكاليف البنية التحتية، مما يعزز من إتاحة الوصول إلى تقنيات الذكاء الاصطناعي للجميع.
وقد شكّلت نماذج الذكاء الاصطناعي متعدد الوسائط نقطة تحوّل في توسيع نطاق النماذج اللغوية الكبيرة إلى ما هو أبعد من النص، أما المرحلة التالية من تطوير الذكاء الاصطناعي فتهدف إلى إدخال تلك القدرات متعددة الوسائط إلى العالم المادي.
ويقع هذا المجال الناشئ ضمن ما يُعرف باسم "الذكاء الاصطناعي المُتجسّد" (Embodied AI). وتزداد استثمارات رأس المال المغامر في الشركات الناشئة التي تطوّر روبوتات بشرية متقدمة مدعومة بالذكاء الاصطناعي التوليدي، مثل Skild AI، وPhysical Intelligence، و1X Technologies.
ويتجه تيار آخر من الأبحاث إلى تطوير "النماذج العالمية" (World Models)، التي تهدف إلى محاكاة التفاعلات الواقعية بشكل مباشر وشامل، بدلًا من معالجتها عبر وسائط منفصلة مثل النصوص والصور والفيديوهات. وقد جمعت شركة World Labs، التي تقودها البروفيسورة Fei-Fei Li من جامعة ستانفورد—المعروفة بإطلاقها مجموعة بيانات ImageNet التي مهدت الطريق لرؤية الحاسوب الحديثة—تمويلًا بقيمة 230 مليون دولار أمريكي نهاية العام الماضي.
وتجري بعض المختبرات تجاربها داخل "عوالم افتراضية"، مثل ألعاب الفيديو: على سبيل المثال، Genie 2 من Google DeepMind، الذي يوصف بأنه "نموذج أساس للعالم يمكنه توليد عدد لا نهائي من البيئات ثلاثية الأبعاد القابلة للتفاعل واللعب." ومن الطبيعي أن تكون صناعة ألعاب الفيديو من أوائل القطاعات التي ستجني ثمار الإمكانات الاقتصادية للنماذج العالمية.
ويعتقد العديد من خبراء الذكاء الاصطناعي البارزين—ولكن ليس جميعهم—بما في ذلك يان ليكون، كبير علماء الذكاء الاصطناعي في Meta وأحد "عرّابي التعلم العميق"7، أن نماذج العالم، وليس النماذج اللغوية الكبيرة، هي السبيل الحقيقي نحو الوصول إلى الذكاء الاصطناعي العام (AGI). وفي تعليقاته العلنية، يشير LeCun غالبًا إلى مفارقة Moravec، وهي الفكرة التي قد تبدو غير منطقية والتي تنص على أن المهارات المعرفية المعقدة يسهل تنفيذها بالذكاء الاصطناعي، بينما المهام الحسية الحركية البسيطة التي يستطيع الطفل القيام بها بسهولة تُعدّ أكثر صعوبة.8
وانطلاقًا من هذا المفهوم، تسعى بعض المشاريع البحثية إلى تعليم الذكاء الاصطناعي المفاهيم، بدلًا من الكلمات فقط، من خلال تجسيده داخل روبوت وتعليمه بالطريقة نفسها التي نُعلِّم بها الأطفال.
الوعد طويل الأجل لوكلاء الذكاء الاصطناعي هو أنهم سيستخدمون الذكاء الاصطناعي لتنفيذ مهام معقدة ومحددة السياق بشكل مستقل دون تدخل بشري يذكر. ولكي يتمكن وكيل الذكاء الاصطناعي من تخصيص قراراته بما يتوافق مع الاحتياجات الدقيقة والمعقدة لسياق عمل معين—بالطريقة ذاتها التي يتصرف بها موظف أو مساعد كفء—لا بد أن يتعلم من خلال الممارسة. بمعنى آخر، يجب عليه الاحتفاظ بسجل قوي لكل تفاعل أنشأه الذكاء الاصطناعي ونتيجته.
لكن جمع هذه الذاكرة الدائمة لكل تفاعل والاحتفاظ بها قد يتعارض مع المفاهيم الأساسية للخصوصية الرقمية في الذكاء الاصطناعي، لا سيما عند استخدام نماذج مغلقة مُستضافة على السحابة، مقارنةً بالنماذج مفتوحة المصدر المُشغَّلة محليًا.
فعلى سبيل المثال، أعلنت شركة OpenAI في أبريل أن ChatGPT سيبدأ تلقائيًا في تذكّر كل محادثة تُجريها معه، دعمًا لهدف OpenAI في تطوير "أنظمة ذكاء اصطناعي تتعرّف عليك على مدار حياتك". لكن اللافت أن هذه الميزة لم تكن متاحة في الاتحاد الأوروبي أو المملكة المتحدة أو سويسرا أو النرويج أو آيسلندا أو ليختنشتاين—على الأرجح لأنها تتعارض مع قوانين الخصوصية الحالية واللوائح التنظيمية للذكاء الاصطناعي في تلك الدول.9
ولا يزال من غير المؤكد ما إذا كان مفهوم النموذج الذي لا يقتصر فقط على حفظ جميع تفاعلاته المخصصة معك، بل يستخدمها أيضًا لتحسين النموذج وتدريبه، يتوافق فعليًا مع المفاهيم الأساسية للائحة العامة لحماية البيانات (GDPR) مثل "الحق في محو البيانات".
في الواقع، سيصبح مستقبل الذكاء الاصطناعي—وخاصةً الوكلاء—شخصيًا بشكل متزايد، إلى درجة قد تجعل تأثيره يتجاوز الجوانب التقنية أو الاقتصادية ويمتد إلى الجانب النفسي.
وفي أواخر عام 2024، كتب Mustafa Suleyman، الرئيس التنفيذي للذكاء الاصطناعي في Microsoft، منشورًا في مدونة يعلن فيه هدف شركته في "توفير رفيق ذكاء اصطناعي لكل شخص". وفي مقابلة بودكاست حديثة، اقترح Mark Zuckerberg، الرئيس التنفيذي (CEO) لشركة Meta، أن "أصدقاء الذكاء الاصطناعي" قد يكونون حلاً لأزمة الشعور بالوحدة التي تعاني منها البلاد.10. وتسعى مجموعة متنامية من الشركات الناشئة إلى إطلاق زملاء عمل مدعومين بالذكاء الاصطناعي.
لكن هذا التوجه ينطوي على خطر جوهري، ينبع أساسًا من الميل التاريخي للبشر إلى التعلّق العاطفي حتى بأبسط روبوتات المحادثة في مراحلها الأولى. ومع تفاعل ملايين الأشخاص يوميًا مع روبوتات محادثة مخصصة، ستصبح مخاطر التعلّق العاطفي بزملاء العمل المعتمدين على الذكاء الاصطناعي معقدة، وعميقة الأثر، ويصعب تجنّبها.
بينما نمضي في عام محوري في مجال الذكاء الاصطناعي، فإن فهم التوجهات الناشئة والتكيف معها أمر ضروري لزيادة الإمكانات، وتقليل المخاطر، وتوسيع تبني الذكاء الاصطناعي التوليدي بشكل مسؤول.
¹ "GPT-4 architecture, datasets, costs and more leaked," The Decoder, 11 July 2023
² "IBM Granite 3.3 2B model card", Hugging Face, 16 April 2025
³ "Bringing reasoning to Granite," IBM, 7 February 2025
⁴ "Claude 3.7 Sonnet and Claude Code," Anthropic, 24 February 2025
⁵ "Gemini Thinking," Google, 2025.
⁶ "Adaptive Mixtures of Local Experts," Neural Computation, 1 March 1991
⁷ "Turing Award 2018: Novel Prize of computing given to 'godfathers of AI'," The Verge, 27 March 2019
⁸ @YLeCun on X (formerly Twitter), via XCancel, 20 February 2024
⁹ "ChatGPT will now remember your old conversations," The Verge, 11 April 2025
¹⁰ "Meta CEO Mark Zuckerberg Envisions a Future Where Your Friends Are AI Chatbots—But Not Everyone Is Convinced," Entrepreneur, 8 May 2025