ما Google Gemini؟

27 سبتمبر 2024

المؤلفون

Cole Stryker

Editorial Lead, AI Models

Gather

ما Google Gemini؟

يُعد Gemini النموذج اللغوي الكبير (LLM) الخاص بـ Google. وعلى نطاق أوسع، هي مجموعة من نماذج الذكاء الاصطناعي متعددة الوسائط المصممة خصوصًا لمعالجة طرائق أو أنواع متعددة من البيانات، بما في ذلك الصوت والصور ورموز البرامج والنصوص والفيديو.

كما يُعدّ Gemini أيضًا النموذج الذي يشغل روبوت المحادثة المدعوم بالذكاء الاصطناعي التوليدي من Google (المعروف سابقًا باسم Bard) الذي يحمل الاسم ذاته، تمامًا مثل Claude من Anthropic، وهو اسم روبوت المحادثة ومجموعة النماذج اللغوية الكبيرة التي تقف وراءه. تعمل تطبيقات Gemini على كل من الويب والهاتف المحمول كواجهة روبوت محادثة للنماذج الأساسية.

تعمل Google على دمج روبوت محادثة Gemini تدريجيًا في مجموعة تقنياتها. على سبيل المثال، Gemini هو مساعد الذكاء الاصطناعي الافتراضي في أحدث هواتف Google Pixel 9 وPixel 9 Pro، الذي يحل محل Google Assistant. وفي Google Workspace، يتوفر Gemini في لوحة المستندات الجانبية للمساعدة على كتابة المحتوى وتحريره، وفي لوحة Gmail الجانبية للمساعدة على صياغة رسائل البريد الإلكتروني واقتراح الردود والبحث عن المعلومات في البريد الوارد للمستخدم.

تدمج تطبيقات Google الأخرى أيضًا تطبيق Gemini. وتعتمد خرائط Google، على سبيل المثال، على قدرات نموذج Gemini لتوفير ملخصات للأماكن والمناطق.

كيف يعمل Google Gemini؟

تم تدريب Gemini على مجموعة ضخمة من مجموعات البيانات متعددة اللغات ومتعددة الوسائط. ويستخدم نموذج المحول، وهو بنية شبكة عصبية قدمتها Google في عام 2017.1

فيما يلي نظرة عامة موجزة على كيفية عمل نماذج المحولات:

  • تحوّل أدوات التشفير تسلسلات المدخلات إلى تمثيلات رقمية تسمى التضمينات التي تلتقط دلالات الرموز ومواقعها في تسلسل المدخلات.

  • تمكّن آلية الانتباه الذاتي المحولات من ”تركيز انتباهها“ على الرموز الأكثر أهمية في تسلسل المدخلات، بغض النظر عن موقعها.

  • تستخدم أدوات فك التشفير آلية الانتباه الذاتي وتضمينات أجهزة التشفير لإنشاء تسلسل المخرجات الأكثر احتمالاً من الناحية الإحصائية.

على عكس نماذج المحوِّلات المُولدة المُدرَّبة مسبقًا (GPT) التي تأخذ فقط المطالبات النصية أو نماذج الانتشار المستخدمة لإنشاء الصور التي تأخذ كلاً من المطالبات النصية والصورية، يدعم Google Gemini التسلسلات المتداخلة من الصوت والصورة والنص والفيديو كمدخلات ويمكنه إنتاج مخرجات نصية وصور متداخلة.2

إصدارات نموذج Gemini AI

تأتي مجموعة Gemini من نماذج الذكاء الاصطناعي متعددة الوسائط في شكل متغيرات متعددة. ويتم تحسين كل متغير للأجهزة والمهام المختلفة.

يأتي الجيل الأول من نموذج Gemini 1.0 في إصداري Nano وUltra. ويأتي الجيل الجديد من نموذج 1.5 في إصداري Pro وFlash.

يمكن تطبيق ميزات ووظائف الذكاء الاصطناعي في Gemini وتجربتها من خلال واجهة برمجة تطبيقات Gemini في Google AI Studio ومنصات تطوير الذكاء الاصطناعي في Google Cloud Vertex. وفي الوقت الحالي، لا يتوفر سوى Gemini 1.5 Pro وGemini 1.5 Flash.

Gemini 1.0 Nano

يُعد Gemini 1.0 Nano أصغر إصدار من مجموعة 1.0 المصممة للعمل على الأجهزة المحمولة، وإن لم تكن متصلة بشبكة بيانات. ويمكنه تنفيذ مهام على الأجهزة مثل وصف الصور واقتراح الردود على رسائل المحادثة وتلخيص النصوص ونسخ الكلام.

يتوفر Gemini Nano على أجهزة Android بدءًا من Pixel 8 Pro. وتجاوزًا لحدود الهاتف المحمول فقط، تقوم Google بدمج Gemini Nano في عميل سطح المكتب من Chrome.

Gemini 1.0 Ultra

يُعد Gemini 1.0 Ultra الإصدار الأكبر من مجموعة 1.0 الذي يتمتع بقدرات تحليلية متقدمة. وهو مصمم للمهام شديدة التعقيد مثل الترميز والمنطق الرياضي والمنطق متعدد النماذج. نافذة السياق—عدد الرموز المميزة التي يمكن للنموذج معالجتها في وقت واحد—لكل من Gemini Nano وGemini Ultra تبلغ 32000 رمز مميز.2

Gemini 1.5 Pro

يُعد Gemini 1.5 Pro نموذجًا متوسط الحجم متعدد النماذج مع نافذة سياق تصل إلى مليوني رمز مميز. حيث تتيح نافذة السياق الطويلة لـ Gemini Pro معالجة المعلومات على نطاق واسع: بدءًا من ملفات الصوت والفيديو التي تصل مدتها إلى ساعات إلى آلاف الأسطر من التعليمات البرمجية أو مئات الصفحات من المستندات.3

إلى جانب بنية المحولات، يطبق Gemini 1.5 Pro بنية Mixture of Experts (MoE). وتنقسم نماذج MoE إلى شبكات عصبية ”خبيرة“ أصغر، كل منها متخصص في مجال أو نوع بيانات معين. ويتعلم النموذج تنشيط الخبراء الأكثر صلة فقط بشكل انتقائي اعتمادًا على نوع المدخلات. وينتج عن ذلك أداء أسرع مع تقليل التكاليف الحسابية.4

Gemini 1.5 Flash

يُعد Gemini 1.5 Flash نسخة خفيفة من Gemini Pro. وتم تدريبه باستخدام تقنية تعلُّم آلي (ML) تُدعى ”التقطير المعرفي“، حيث تم نقل المعارف من Gemini 1.5 Pro إلى Gemini 1.5 Flash الأكثر إحكامًا. كما يتميز أيضًا بنافذة سياق طويلة تصل إلى مليون رمز مميز، ولكنه يتميز بزمن انتقال أقل ما يجعله أسرع وأكثر كفاءة.3

نبذة تاريخية موجزة عن Google Gemini

ظلت Google رائدة في مجال بنية النماذج اللغوية الكبيرة وتعتمد على أبحاثها القوية لتطوير نماذج الذكاء الاصطناعي الخاصة بها.

  • 2017: يقدم باحثو Google بنية المحولات، التي تدعم العديد من النماذج اللغوية الكبيرة الحالية.

  • 2020: تقدم الشركة روبوت الدردشة Meena، وهو وكيل محادثة قائم على الشبكة العصبية يمتاز بوجود 2,6 مليار معلمة.5

  • 2021: تكشف Google عن LaMDA (”النموذج اللغوي لتطبيقات الحوار“)، وهو النموذج اللغوي الكبير للحوار الخاص بها.6

  • 2022: تم إصدار PaLM (نموذج لغة المسارات) بقدرات أكثر تقدمًا مقارنة بالنموذج اللغوي لتطبيقات الحوار.7

  • 2023: يبدأ تطبيق Bard خلال الربع الأول من العام، مدعومًا بنسخة خفيفة ومحسّنة من نظام النموذج اللغوي لتطبيقات الحوار (LaMDA).8 ويشهد الربع الثاني من العام نفسه طرح PaLM 2 —مع تحسين مهارات الترميز وتعدد اللغات والاستدلال—واعتمادها من جانب Bard.9. وأعلنت Google عن Gemini 1.0 في الربع الأخير من العام نفسه.

  • 2024: تُعيد Google تسمية تطبيق Bard باسم Gemini وتقوم بترقية نماذج الذكاء الاصطناعي متعددة الوسائط إلى الإصدار 1.5.

كلمة ” Gemini“ تعني ”توأم“ باللغة اللاتينية وهي علامة من علامات الأبراج والكوكبة في آن واحد. لقد كان اسمًا مناسبًا بالنظر إلى أن نموذج Gemini هو من بنات أفكار Google DeepMind، وهو دمج للقوى بين فريقي DeepMind وGoogle Brain. كما استلهمت الشركة أيضًا من مشروع Gemini التابع لوكالة NASA، والتي كانت مركبة فضائية تتسع لشخصين أسهمت في نجاح مهمة أبولو.10

أداء Gemini

يتفوق Gemini Ultra على النماذج المماثلة في معايير النماذج اللغوية الكبيرة المختلفة. ويتفوق على Claude 2 وGPT-4 وLlama 2 في معايير مثل GSM8K للتفكير الرياضي وHumanEval لإنشاء التعليمات البرمجية وMMLU لفهم اللغة الطبيعية.2

تجاوز Gemini Ultra حتى أداء الخبراء البشريين في MMLU بشكل ملحوظ. ومع ذلك، لا يزال أداء GPT-4 أفضل من أداء Gemini Ultra حسب معيار HellaSwag للاستدلال المنطقي والاستدلال اللغوي الشائع.2

قامت Google أيضًا بتقييم قدرات Gemini Ultra متعدد النماذج. وكان أداؤه أعلى من النماذج الأخرى في فهم المستندات والصور ومعايير التعرف التلقائي على الكلام. وعلى الرغم من تفوقه على النماذج اللغوية الكبيرة في معايير الترجمة الآلية للكلام، والتعليق على الفيديو باللغة الإنجليزية، والفهم والاستدلال متعدد النماذج، والإجابة عن أسئلة الفيديو، فإن أداء Gemini Ultra في هذه المجالات يترك مجالاً للتحسين.2

وفي الوقت ذاته، فإن أداء كل من Gemini 1.5 Flash وGemini 1.5 Pro يضاهي أو يتفوق على Gemini 1.0 Ultra11 .ويحافظ Gemini 1.5 Pro على مستوى عالٍ من الأداء بينما تزداد نافذة السياق الخاصة به.4

حالات استخدام Gemini

لا يزال Google Gemini في مراحله المبكرة، ومع ذلك يمكن تطبيق نموذج الذكاء الاصطناعي فائق الإمكانات هذا في مجموعة هائلة من التطبيقات:

  • الترميز المتقدم

  • فهم الصور والنصوص

  • ترجمة اللغة

  • تحليل البرامج الضارة

  • خبراء الذكاء الاصطناعي المخصصون

  • وكلاء الذكاء الاصطناعي العالميون

  • المساعدون الصوتيون

الترميز المتقدم

يمكن لنموذج الذكاء الاصطناعي Gemini العمل عبر لغات البرمجة مثل C++ وJava وPython لفهم التعليمات البرمجية وشرحها وإنشائها. استخدمت Google إصدارات دقيقة من Gemini Pro كنماذج أساس لتطوير AlphaCode2، وهو نظام إنشاء أكواد يمكنه حل مشكلات البرمجة التنافسية باستخدام عناصر علوم الكمبيوتر النظرية والرياضيات المعقدة.

فهم الصور والنصوص

يمكن استخدام Gemini لاستخراج نص من الصور والصور التوضيحية. ويمكنه تحليل العناصر المرئية مثل المخططات والرسوم البيانية والأشكال من دون مساعدة أدوات التعرف البصري على الأحرف (OCR) التي تقوم بتحويل صور النص إلى تنسيق قابل للقراءة آليًا.

ترجمة اللغة

يمكن استخدام نماذج الذكاء الاصطناعي من Google لترجمة لغات مختلفة بفضل قدراتها متعددة اللغات. على سبيل المثال، يمكن للمستخدمين تفعيل الترجمة من لغات معينة وإليها في تطبيق مؤتمرات الفيديو على برنامج Meet.

تحليل البرامج الضارة

يمكن استخدام كل من Gemini 1.5 Pro وGemini 1.5 Flash لتحليل البرامج الضارة. ويمكن لتطبيق Gemini Pro تحديد إذا كان الملف أو مقتطفات التعليمات البرمجية ضارًا بدقة ويمكنه إنشاء تقرير مفصل عن نتائجه.12 وفي الوقت نفسه، يمكن لتطبيق Gemini Flash إجراء تحليل سريع وواسع النطاق للبرامج الضارة.13

خبراء الذكاء الاصطناعي المخصصون

طرحت Google مؤخرًا ميزة جديدة تسمى Gems تتيح للمستخدمين تخصيص روبوت المحادثة من Gemini لإنشاء ”خبراء“ ذكاء اصطناعي متخصصين في أي مهمة أو موضوع. تشمل بعض الأمثلة على مزايا Gems المعدة مسبقًا مدربًا تعليميًا للمساعدة على تحليل الموضوعات المعقدة وتسهيل فهمها، وشريكًا لتبادل الأفكار لتقديم أفكار جديدة للفيديو القادم، ومحررًا للكتابة لتقديم ملاحظات حول القواعد النحوية والتراكيب.

تتوفّر Gems مع اشتراك Gemini Advanced، الذي يستخدم نموذج Gemini 1.5 Pro.

وكلاء الذكاء الاصطناعي العالميون

من خلال مشروع Astra، تعتمد Google على نماذج Gemini الخاصة بها لإنشاء وكيل ذكاء اصطناعي عالمي يمكنه معالجة المعلومات متعددة النماذج وتذكرها وفهمها في الوقت الفعلي. ولتحسين عملية الاسترجاع والكفاءة، يستغل مشروع Astra التخزين المؤقت والترميز المستمر لإطارات الفيديو واقتران مدخلات الكلام والفيديو في جدول زمني للأحداث.14

تمكّن مساعد الذكاء الاصطناعي Gemini في أحد عروض Google التجريبية من شرح أجزاء مكبر الصوت والتعرُّف على الحي الذي كان يتحدث منه الشخص وتذكّر المكان الذي وضع فيه نظارته.14

المساعدون الصوتيون

يمكن للمستخدمين إجراء حوار مع روبوت محادثة Gemini باستخدام Gemini Live بشكل أقرب إلى الحوار والمحادثة الطبيعية. ويقدم استجابات أكثر بديهية ويمكنه التكيف مع أسلوب الشخص في الحوار.

مخاطر Gemini

كما هو الحال مع النماذج اللغوية الكبيرة، لا يزال تطبيق Google Gemini يواجه مخاطر الذكاء الاصطناعي. ويوصى بتوخي الحذر، خاصة للأفراد الذين يرغبون في استخدام Gemini والمؤسسات التي تفكر في استخدام النموذج للاستخدام التجاري أو دمجه في سير العمل لديها.

التحيز: قررت Google في فبراير 2024 إيقاف قدرة روبوت المحادثة Gemini مؤقتًا على إنشاء صور الأشخاص بسبب تصويره غير الدقيق للشخصيات التاريخية، ما أدى إلى محو تاريخ التحيز العنصري.15

الهلوسات: حتى كتابة هذه السطور، لا تزال نتائج بحث النظرة العامة للذكاء الاصطناعي المدعومة من Gemini تنتج أحيانًا مخرجات غير صحيحة من الناحية الواقعية.

انتهاكات الملكية الفكرية: فرضت الجهات التنظيمية في فرنسا غرامة على شركة Google، مشيرة إلى تدريب روبوت المحادثة المدعوم بالذكاء الاصطناعي الخاص بالشركة على القصص الإخبارية والمحتوى من دون علم الناشرين في البلد أو موافقتهم.16

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

احصل على آخر المستجدات AI News + Insights

رؤى وأخبار منسقة بخبرة حول الذكاء الاصطناعي والسحابة وغير ذلك في النشرة الإخبارية الأسبوعية Think Newsletter.

الحواشي

تؤدي كل الروابط إلى صفحات خارج ibm.com

المحول: بنية جديدة للشبكات العصبية لفهم اللغة، أبحاث Google، بتاريخ 31 أغسطس 2017.

2 Gemini: مجموعة من النماذج متعددة الوسائط ذات القدرات العالية، Google DeepMind، تاريخ الوصول 16 سبتمبر 2024.

3 نماذج Gemini وGoogle Deepmind، تاريخ الوصول 16 سبتمبر 2024.

4 نموذج الجيل القادم لدينا: Gemini 1.5 ،Google، بتاريخ 15 فبراير 2024.

5 الاتجاه نحو وكيل حواري يمكنه التحدث عن... أي شيء، أبحاث Google، بتاريخ 28 يناير 2020

6 LaMDA: تقنية المحادثة المتقدمة لدينا، Google، بتاريخ 18 مايو 2021.

7 نموذج لغة المسارات (PaLM): توسيع نطاقه إلى 540 مليار معلمة لتحقيق أداء فائق، أبحاث Google بتاريخ 4 إبريل 2022.

8 جرب Bard وشارك تعليقاتك، Google، بتاريخ 21 مارس 2023.

9 طرح PaLM 2، Google، بتاريخ 10 مايو 2023.

10 كيف حصل نموذج الذكاء الاصطناعي Gemini من Google على اسمه، Google، بتاريخ 15 مايو 2024.

11 Gemini 1.5: إطلاق العنان للفهم متعدد النماذج عبر ملايين الرموز من السياق، Google DeepMind، تاريخ الوصول 16 سبتمبر 2024.

12 من مساعد إلى محلل: فعالية Gemini 1.5 Pro في تحليل البرامج الضارة، Google Cloud، بتاريخ 30 إبريل 2024.

13 توسيع نطاق تحليل البرامج الضارة باستخدام Gemini 1.5 Flash، Google Cloud، بتاريخ 16 يوليو 2024.

14 مشروع Astra، Google DeepMind، تاريخ الوصول 16 سبتمبر 2024.

15 يعترف رئيس Google بأن تنوع صور أداة الذكاء الاصطناعي ”المتحيزة“ أساءت إلى المستخدمين، The Guardian، بتاريخ 28 فبراير 2024.

16 فرض غرامة قدرها 250 مليون يورو على شركة Google في فرنسا لخرقها اتفاقية الملكية الفكرية، The Guardian، بتاريخ 20 مارس 2024.

حلول ذات صلة نماذج الأساس في ™watsonx.ai

استكشف مكتبة نماذج الأساس من IBM على منصة Watsonx لتوسيع نطاق الذكاء الاصطناعي التوليدي لأعمالك بثقة.

IBM Granite™‎

IBM Granite هي مجموعة من نماذج الذكاء الاصطناعي المصممة للأعمال للمساعدة على تعزيز الثقة وقابلية التوسع في التطبيقات المدعومة بالذكاء الاصطناعي. وتتوفر اليوم نماذج Granite مفتوحة المصدر وذات الملكية الخاصة.

خدمات استشارات الذكاء الاصطناعي

تتعاون ™IBM Consulting مع عملاء وشركاء عالميين للمشاركة في بناء مستقبل الذكاء الصناعي. ويمكن لفريقنا العالمي المتنوع الذي يضم أكثر من 20,000 خبير في الذكاء الاصطناعي مساعدتك بسرعة وثقة في تصميم حلول الذكاء الاصطناعي المتطورة وتوسيع نطاقها وإجراء الأتمتة في جميع مجالات أعمالك. ​

الموارد

أكاديمية الذكاء الاصطناعي من IBM
التعليم المدعوم بالذكاء الاصطناعي
مجموعة متنوعة من الخبراء
البودكاست
حصول IBM watsonx™ Assistant على جائزة Gartner Peer Insights Customers’ Choice لعام 2023
أبحاث السوق

اتخِذ الخطوة التالية

يمكنك تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئ الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي في وقت قصير وباستخدام جزء بسيط من البيانات.

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا