ما Google Gemini؟

صورة فوتوغرافية بالأبيض والأسود لمركز جودارد للفضاء مليئة بالأشخاص ومعدات الكمبيوتر.

ما Google Gemini؟

يُعد Gemini النموذج اللغوي الكبير (LLM) الخاص بـ Google. وعلى نطاق أوسع، هي مجموعة من نماذج الذكاء الاصطناعي متعددة الوسائط المصممة خصوصًا لمعالجة طرائق أو أنواع متعددة من البيانات، بما في ذلك الصوت والصور ورموز البرامج والنصوص والفيديو.

كما يُعدّ Gemini أيضًا النموذج الذي يشغل روبوت المحادثة المدعوم بالذكاء الاصطناعي التوليدي من Google (المعروف سابقًا باسم Bard) الذي يحمل الاسم ذاته، تمامًا مثل Claude من Anthropic، وهو اسم روبوت المحادثة ومجموعة النماذج اللغوية الكبيرة التي تقف وراءه. تعمل تطبيقات Gemini على كل من الويب والهاتف المحمول كواجهة روبوت محادثة للنماذج الأساسية.

تعمل Google على دمج روبوت محادثة Gemini تدريجيًا في مجموعة تقنياتها. على سبيل المثال، Gemini هو مساعد الذكاء الاصطناعي الافتراضي في أحدث هواتف Google Pixel 9 وPixel 9 Pro، الذي يحل محل Google Assistant. وفي Google Workspace، يتوفر Gemini في لوحة المستندات الجانبية للمساعدة على كتابة المحتوى وتحريره، وفي لوحة Gmail الجانبية للمساعدة على صياغة رسائل البريد الإلكتروني واقتراح الردود والبحث عن المعلومات في البريد الوارد للمستخدم.

تدمج تطبيقات Google الأخرى أيضًا تطبيق Gemini. وتعتمد خرائط Google، على سبيل المثال، على قدرات نموذج Gemini لتوفير ملخصات للأماكن والمناطق.

أحدث الأخبار التقنية، مدعومة برؤى خبراء

ابقَ على اطلاع دائم على أبرز الاتجاهات في مجالات الذكاء الاصطناعي، والأتمتة، والبيانات، وغيرها الكثير من خلال رسالة Think الإخبارية. راجع بيان الخصوصية لشركة IBM.

كيف يعمل Google Gemini؟

تم تدريب Gemini على مجموعة ضخمة من مجموعات البيانات متعددة اللغات ومتعددة الوسائط. ويستخدم نموذج المحول، وهو بنية شبكة عصبية قدمتها Google في عام 2017.¹

فيما يلي نظرة عامة موجزة على كيفية عمل نماذج المحولات:

تحوّل أدوات التشفير تسلسلات المدخلات إلى تمثيلات رقمية تسمى التضمينات التي تلتقط دلالات الرموز ومواقعها في تسلسل المدخلات.

تمكّن آلية الانتباه الذاتي المحولات من ”تركيز انتباهها“ على الرموز الأكثر أهمية في تسلسل المدخلات، بغض النظر عن موقعها.

تستخدم أدوات فك التشفير آلية الانتباه الذاتي وتضمينات أجهزة التشفير لإنشاء تسلسل المخرجات الأكثر احتمالاً من الناحية الإحصائية.

على عكس نماذج المحوِّلات المُولدة المُدرَّبة مسبقًا (GPT) التي تأخذ فقط المطالبات النصية أو نماذج الانتشار المستخدمة لإنشاء الصور التي تأخذ كلاً من المطالبات النصية والصورية، يدعم Google Gemini التسلسلات المتداخلة من الصوت والصورة والنص والفيديو كمدخلات ويمكنه إنتاج مخرجات نصية وصور متداخلة.²

إصدارات نموذج Gemini AI

تأتي مجموعة Gemini من نماذج الذكاء الاصطناعي متعددة الوسائط في شكل متغيرات متعددة. ويتم تحسين كل متغير للأجهزة والمهام المختلفة.

يأتي الجيل الأول من نموذج Gemini 1.0 في إصداري Nano وUltra. ويأتي الجيل الجديد من نموذج 1.5 في إصداري Pro وFlash.

يمكن تطبيق ميزات ووظائف الذكاء الاصطناعي في Gemini وتجربتها من خلال واجهة برمجة تطبيقات Gemini في Google AI Studio ومنصات تطوير الذكاء الاصطناعي في Google Cloud Vertex. وفي الوقت الحالي، لا يتوفر سوى Gemini 1.5 Pro وGemini 1.5 Flash.

Gemini 1.0 Nano

يُعد Gemini 1.0 Nano أصغر إصدار من مجموعة 1.0 المصممة للعمل على الأجهزة المحمولة، وإن لم تكن متصلة بشبكة بيانات. ويمكنه تنفيذ مهام على الأجهزة مثل وصف الصور واقتراح الردود على رسائل المحادثة وتلخيص النصوص ونسخ الكلام.

يتوفر Gemini Nano على أجهزة Android بدءًا من Pixel 8 Pro. وتجاوزًا لحدود الهاتف المحمول فقط، تقوم Google بدمج Gemini Nano في عميل سطح المكتب من Chrome.

Gemini 1.0 Ultra

يُعد Gemini 1.0 Ultra الإصدار الأكبر من مجموعة 1.0 الذي يتمتع بقدرات تحليلية متقدمة. وهو مصمم للمهام شديدة التعقيد مثل الترميز والمنطق الرياضي والمنطق متعدد النماذج. نافذة السياق—عدد الرموز المميزة التي يمكن للنموذج معالجتها في وقت واحد—لكل من Gemini Nano وGemini Ultra تبلغ 32000 رمز مميز.²

Gemini 1.5 Pro

يُعد Gemini 1.5 Pro نموذجًا متوسط الحجم متعدد النماذج مع نافذة سياق تصل إلى مليوني رمز مميز. حيث تتيح نافذة السياق الطويلة لـ Gemini Pro معالجة المعلومات على نطاق واسع: بدءًا من ملفات الصوت والفيديو التي تصل مدتها إلى ساعات إلى آلاف الأسطر من التعليمات البرمجية أو مئات الصفحات من المستندات.³

إلى جانب بنية المحولات، يطبق Gemini 1.5 Pro بنية Mixture of Experts (MoE). وتنقسم نماذج MoE إلى شبكات عصبية ”خبيرة“ أصغر، كل منها متخصص في مجال أو نوع بيانات معين. ويتعلم النموذج تنشيط الخبراء الأكثر صلة فقط بشكل انتقائي اعتمادًا على نوع المدخلات. وينتج عن ذلك أداء أسرع مع تقليل التكاليف الحسابية.⁴

Gemini 1.5 Flash

يُعد Gemini 1.5 Flash نسخة خفيفة من Gemini Pro. وتم تدريبه باستخدام تقنية تعلُّم آلي (ML) تُدعى ”التقطير المعرفي“، حيث تم نقل المعارف من Gemini 1.5 Pro إلى Gemini 1.5 Flash الأكثر إحكامًا. كما يتميز أيضًا بنافذة سياق طويلة تصل إلى مليون رمز مميز، ولكنه يتميز بزمن انتقال أقل ما يجعله أسرع وأكثر كفاءة.³

نبذة تاريخية موجزة عن Google Gemini

ظلت Google رائدة في مجال بنية النماذج اللغوية الكبيرة وتعتمد على أبحاثها القوية لتطوير نماذج الذكاء الاصطناعي الخاصة بها.

2017: يقدم باحثو Google بنية المحولات، التي تدعم العديد من النماذج اللغوية الكبيرة الحالية.

2020: تقدم الشركة روبوت الدردشة Meena، وهو وكيل محادثة قائم على الشبكة العصبية يمتاز بوجود 2,6 مليار معلمة.⁵

2021: تكشف Google عن LaMDA (”النموذج اللغوي لتطبيقات الحوار“)، وهو النموذج اللغوي الكبير للحوار الخاص بها.⁶

2022: تم إصدار PaLM (نموذج لغة المسارات) بقدرات أكثر تقدمًا مقارنة بالنموذج اللغوي لتطبيقات الحوار.⁷

2023: يبدأ تطبيق Bard خلال الربع الأول من العام، مدعومًا بنسخة خفيفة ومحسّنة من نظام النموذج اللغوي لتطبيقات الحوار (LaMDA).⁸ ويشهد الربع الثاني من العام نفسه طرح PaLM 2 —مع تحسين مهارات الترميز وتعدد اللغات والاستدلال—واعتمادها من جانب Bard^.9. وأعلنت Google عن Gemini 1.0 في الربع الأخير من العام نفسه.

2024: تُعيد Google تسمية تطبيق Bard باسم Gemini وتقوم بترقية نماذج الذكاء الاصطناعي متعددة الوسائط إلى الإصدار 1.5.

كلمة ” Gemini“ تعني ”توأم“ باللغة اللاتينية وهي علامة من علامات الأبراج والكوكبة في آن واحد. لقد كان اسمًا مناسبًا بالنظر إلى أن نموذج Gemini هو من بنات أفكار Google DeepMind، وهو دمج للقوى بين فريقي DeepMind وGoogle Brain. كما استلهمت الشركة أيضًا من مشروع Gemini التابع لوكالة NASA، والتي كانت مركبة فضائية تتسع لشخصين أسهمت في نجاح مهمة أبولو.¹⁰

أداء Gemini

يتفوق Gemini Ultra على النماذج المماثلة في معايير النماذج اللغوية الكبيرة المختلفة. ويتفوق على Claude 2 وGPT-4 وLlama 2 في معايير مثل GSM8K للتفكير الرياضي وHumanEval لإنشاء التعليمات البرمجية وMMLU لفهم اللغة الطبيعية.²

تجاوز Gemini Ultra حتى أداء الخبراء البشريين في MMLU بشكل ملحوظ. ومع ذلك، لا يزال أداء GPT-4 أفضل من أداء Gemini Ultra حسب معيار HellaSwag للاستدلال المنطقي والاستدلال اللغوي الشائع.²

قامت Google أيضًا بتقييم قدرات Gemini Ultra متعدد النماذج. وكان أداؤه أعلى من النماذج الأخرى في فهم المستندات والصور ومعايير التعرف التلقائي على الكلام. وعلى الرغم من تفوقه على النماذج اللغوية الكبيرة في معايير الترجمة الآلية للكلام، والتعليق على الفيديو باللغة الإنجليزية، والفهم والاستدلال متعدد النماذج، والإجابة عن أسئلة الفيديو، فإن أداء Gemini Ultra في هذه المجالات يترك مجالاً للتحسين.²

وفي الوقت ذاته، فإن أداء كل من Gemini 1.5 Flash وGemini 1.5 Pro يضاهي أو يتفوق على Gemini 1.0 Ultra¹¹ .ويحافظ Gemini 1.5 Pro على مستوى عالٍ من الأداء بينما تزداد نافذة السياق الخاصة به.⁴

حالات استخدام Gemini

لا يزال Google Gemini في مراحله المبكرة، ومع ذلك يمكن تطبيق نموذج الذكاء الاصطناعي فائق الإمكانات هذا في مجموعة هائلة من التطبيقات:

الترميز المتقدم

فهم الصور والنصوص

ترجمة اللغة

تحليل البرامج الضارة

خبراء الذكاء الاصطناعي المخصصون

وكلاء الذكاء الاصطناعي العالميون

المساعدون الصوتيون

الترميز المتقدم

يمكن لنموذج الذكاء الاصطناعي Gemini العمل عبر لغات البرمجة مثل C++ وJava وPython لفهم التعليمات البرمجية وشرحها وإنشائها. استخدمت Google إصدارات دقيقة من Gemini Pro كنماذج أساس لتطوير AlphaCode2، وهو نظام إنشاء أكواد يمكنه حل مشكلات البرمجة التنافسية باستخدام عناصر علوم الكمبيوتر النظرية والرياضيات المعقدة.

فهم الصور والنصوص

يمكن استخدام Gemini لاستخراج نص من الصور والصور التوضيحية. ويمكنه تحليل العناصر المرئية مثل المخططات والرسوم البيانية والأشكال من دون مساعدة أدوات التعرف البصري على الأحرف (OCR) التي تقوم بتحويل صور النص إلى تنسيق قابل للقراءة آليًا.

ترجمة اللغة

يمكن استخدام نماذج الذكاء الاصطناعي من Google لترجمة لغات مختلفة بفضل قدراتها متعددة اللغات. على سبيل المثال، يمكن للمستخدمين تفعيل الترجمة من لغات معينة وإليها في تطبيق مؤتمرات الفيديو على برنامج Meet.

تحليل البرامج الضارة

يمكن استخدام كل من Gemini 1.5 Pro وGemini 1.5 Flash لتحليل البرامج الضارة. ويمكن لتطبيق Gemini Pro تحديد إذا كان الملف أو مقتطفات التعليمات البرمجية ضارًا بدقة ويمكنه إنشاء تقرير مفصل عن نتائجه.¹² وفي الوقت نفسه، يمكن لتطبيق Gemini Flash إجراء تحليل سريع وواسع النطاق للبرامج الضارة.¹³

خبراء الذكاء الاصطناعي المخصصون

طرحت Google مؤخرًا ميزة جديدة تسمى Gems تتيح للمستخدمين تخصيص روبوت المحادثة من Gemini لإنشاء ”خبراء“ ذكاء اصطناعي متخصصين في أي مهمة أو موضوع. تشمل بعض الأمثلة على مزايا Gems المعدة مسبقًا مدربًا تعليميًا للمساعدة على تحليل الموضوعات المعقدة وتسهيل فهمها، وشريكًا لتبادل الأفكار لتقديم أفكار جديدة للفيديو القادم، ومحررًا للكتابة لتقديم ملاحظات حول القواعد النحوية والتراكيب.

تتوفّر Gems مع اشتراك Gemini Advanced، الذي يستخدم نموذج Gemini 1.5 Pro.

وكلاء الذكاء الاصطناعي العالميون

من خلال مشروع Astra، تعتمد Google على نماذج Gemini الخاصة بها لإنشاء وكيل ذكاء اصطناعي عالمي يمكنه معالجة المعلومات متعددة النماذج وتذكرها وفهمها في الوقت الفعلي. ولتحسين عملية الاسترجاع والكفاءة، يستغل مشروع Astra التخزين المؤقت والترميز المستمر لإطارات الفيديو واقتران مدخلات الكلام والفيديو في جدول زمني للأحداث.¹⁴

تمكّن مساعد الذكاء الاصطناعي Gemini في أحد عروض Google التجريبية من شرح أجزاء مكبر الصوت والتعرُّف على الحي الذي كان يتحدث منه الشخص وتذكّر المكان الذي وضع فيه نظارته.¹⁴

المساعدون الصوتيون

يمكن للمستخدمين إجراء حوار مع روبوت محادثة Gemini باستخدام Gemini Live بشكل أقرب إلى الحوار والمحادثة الطبيعية. ويقدم استجابات أكثر بديهية ويمكنه التكيف مع أسلوب الشخص في الحوار.

مخاطر Gemini

كما هو الحال مع النماذج اللغوية الكبيرة، لا يزال تطبيق Google Gemini يواجه مخاطر الذكاء الاصطناعي. ويوصى بتوخي الحذر، خاصة للأفراد الذين يرغبون في استخدام Gemini والمؤسسات التي تفكر في استخدام النموذج للاستخدام التجاري أو دمجه في سير العمل لديها.

التحيز: قررت Google في فبراير 2024 إيقاف قدرة روبوت المحادثة Gemini مؤقتًا على إنشاء صور الأشخاص بسبب تصويره غير الدقيق للشخصيات التاريخية، ما أدى إلى محو تاريخ التحيز العنصري.¹⁵

الهلوسات: حتى كتابة هذه السطور، لا تزال نتائج بحث النظرة العامة للذكاء الاصطناعي المدعومة من Gemini تنتج أحيانًا مخرجات غير صحيحة من الناحية الواقعية.

انتهاكات الملكية الفكرية: فرضت الجهات التنظيمية في فرنسا غرامة على شركة Google، مشيرة إلى تدريب روبوت المحادثة المدعوم بالذكاء الاصطناعي الخاص بالشركة على القصص الإخبارية والمحتوى من دون علم الناشرين في البلد أو موافقتهم.¹⁶

كيفية اختيار نموذج الأساس المناسب

تعرف على كيفية اختيار النهج الصحيح في إعداد مجموعات البيانات واستخدام نماذج الأساس.

الموارد

المؤسسة في عام 2030: مصممة للابتكار الدائم

اكتشِف توقعاتنا الخمسة حول العوامل التي ستحدِّد أكثر الشركات نجاحًا في 2030 - والخطوات التي يمكن للقادة اتخاذها للحصول على ميزة تعتمد على الذكاء الاصطناعي أولًا.

استكشف IBM Granite

اكتشف ®IBM Granite، مجموعة نماذج الذكاء الاصطناعي المفتوحة عالية الأداء والموثوق بها، والمصممة خصوصًا للأعمال التجارية والمُحسَّنة لتوسيع نطاق تطبيقات الذكاء الاصطناعي لديك. استكشف خيارات اللغة والتعليمات البرمجية والمتواليات الزمنية وآليات الحوكمة والحماية.

شرح النماذج اللغوية الكبيرة

تُبسط سلسة Techsplainers من IBM أساسيات نماذج اللغة الكبيرة، بدءًا من المفاهيم الأساسية وصولاً إلى حالات الاستخدام العملية. تساعدك الحلقات الواضحة والسريعة على تعلم الأساسيات بسرعة.

كيفية اختيار نموذج الأساس المناسب

تعرّف على كيفية اختيار نموذج أساس الذكاء الاصطناعي الأكثر ملاءمة لحالة الاستخدام الخاصة بك.

اكتشف إمكانات النماذج اللغوية الكبيرة

استكشف مقالات ومدونات وبرامج IBM Developer التعليمية لتعزيز معرفتك بالنماذج اللغوية الكبيرة.

دليل الرئيس التنفيذي لتحسين النماذج

تعرَّف على كيفية دفع الفِرَق باستمرار نحو تحسين أداء النماذج وتحقيق التفوق على المنافسين باستخدام أحدث تقنيات الذكاء الاصطناعي والبنية التحتية.

نهج متميز لنماذج أساس الذكاء الاصطناعي

استكشف قيمة نماذج الأساس على مستوى المؤسسة التي توفر مزايا الثقة والأداء والتكلفة المنخفضة لكل المجالات.

اكتشف إمكانات الذكاء الاصطناعي التوليدي والتعلُّم الآلي، واستفد من قدراتهما الكاملة.

تعرَّف على كيفية دمج الذكاء الاصطناعي التوليدي، والتعلم الآلي، ونماذج الأساس في عمليات أعمالك لتحسين الأداء.

حلول ذات صلة

IBM Bob

تسريع عملية تسليم البرامج مع Bob، شريكك المدعوم بالذكاء الاصطناعي للتطوير الآمن والمدرك للأهداف.

استكشف ®IBM Bob

IBM® watsonx Orchestrate

يمكنك بسهولة تصميم مساعدي ووكلاء الذكاء الاصطناعي القابلين للتوسع وأتمتة المهام المتكررة وتبسيط العمليات المعقدة باستخدام IBM watsonx Orchestrate.

استكشف watsonx Orchestrate

حلول الذكاء الاصطناعي

استفِد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها التي ستكون بجانبك.

استكشف حلول الذكاء الاصطناعي

اتخذ الخطوة التالية

أينما كنت ضمن دورة حياة تطوير البرمجيات، فإن Bob يساندك عبر تقديم تقييمات قائمة على الوكلاء ومدركة للهدف ومتوافقة مع متطلبات الأمان، بما يسرّع تسليم برمجيات عالية الجودة.