على مدى العامين الماضيين، كانت نماذج الذكاء الاصطناعي الرائدة تقدم وعداً جريئاً بأن استخدام مساعدي البرمجة سيؤدي إلى برمجة أسرع، وأخطاء أقل، وعمل روتيني أقل للمطورين. تم تصميم أدوات مثل GitHub CoPilot وCursor المدعومة من النماذج اللغوية الكبيرة (LLMs) مثل Claude أو GPT لأتمتة الأجزاء المملة من البرمجة حتى يتمكن المبرمجون البشر من التركيز على المشكلات الأكثر صعوبة وإبداعاً في قاعدة الكود الخاصة بهم.
على الأقل، كانت هذه هي الفكرة المطروحة حتى الآن. لكن تقريرًا حديثًا لمنظمة METR (اختصار لـ Model Evaluation and Threat وتُنطق ميتر)، وهي منظمة غير ربحية في بيركلي تقيم قدرات نماذج الحدود، أرادت معرفة ما إذا كان هناك دليل حقيقي يدعم هذا الادعاء. ما وجدوه يقلب السردية: قد يؤدي مساعدو البرمجة إلى إبطاء المطورين فعليًا.
راقب باحثو METR عمل 16 مطورًا متمرسًا كانوا يساهمون في مستودعات كبيرة ومفتوحة المصدر عملوا عليها لعدة سنوات. قدم كل مطور قائمة بالمهام الحقيقية التي يتناولونها عادةً، بدءاً من إصلاح الأخطاء إلى الميزات الجديدة. بعد ذلك، قسم الباحثون المهام عشوائياً إلى مجموعتين: مجموعة سُمح للمطورين فيها باستخدام أدوات الذكاء الاصطناعي، ومجموعة لم يسمح لهم فيها بذلك.
عندما سُمح بالذكاء الاصطناعي، كان بإمكان المطورين اختيار الأدوات التي يريدونها؛ اختار معظمهم Cursor Pro مقترنًا مع Claude 3.5 أو 3.7 Sonnet. وقد سجلوا شاشاتهم لدى إتمامهم لكل مهمة، ثم أبلغوا عن وقت التنفيذ الإجمالي الذي يعتقدون أنهم استغرقوه. كانت نتائج الدراسة مفاجئة. "عندما يسمح للمطورين باستخدام أدوات الذكاء الاصطناعي، يستغرقون وقتا أطول بنسبة 19٪ لإكمال القضايا — وهو تباطؤ كبير يتعارض مع معتقدات المطورين وتوقعات الخبراء."
طلبنا من PJ Hagerty، كبير المناصرين للذكاء الاصطناعي بشركة IBM، والمهندس المتميز Chris Hay، إلقاء نظرة على دراسة METR ومشاركة انطباعاتهما.
حذّر Hagerty من أن الضجة المثارة حول مساعدي الذكاء الاصطناعي قد تسبق فائدتها الفعلية في العالم الحقيقي. قال ل IBM Think: "إن وعد الذكاء الاصطناعي بجعل الناس أكثر إنتاجية ينبع من قيادة التكنولوجيا وشركات الذكاء الاصطناعي التوليدي التي تسعى للاستفادة من ضجة الذكاء الاصطناعي"، وأضاف قائلاً "في الواقع، الذكاء الاصطناعي يتعلم أثناء تقدمه ويستخدم على الأرجح نفس الموارد التي قد يستخدمها مطور مبتدئ—مثل مجموعة Overflow، Github والموارد، ولكن دون أي سياق".
أضاف Hay: "أعتقد أنها نتيجة ذات صلة". "لكنني لا أعتقد أنه يجب علينا أن نقول: 'واو، إن الذكاء الاصطناعي بلا فائدة، فأنا أسرع عندما أفعلها بنفسي'". مع ذلك، أرى أن هناك مهام محددة يكون إنجازها ذاتياً أسرع من محاولة توجيه الذكاء الاصطناعي لفعلها".
الرسالة الإخبارية الخاصة بالمجال
احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.
سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.
أما النصف الآخر من نتائج الدراسة فهو مثير للاهتمام بالقدر نفسه: فقد توقع المطورون من الذكاء الاصطناعي تسريع عملهم بنسبة 24% قبل أن يبدأوا. ومع ذلك، حتى بعد أن تباطأت سرعتهم بنسبة 19%، لا زالوا يعتقدون أن الذكاء الاصطناعي قد سرّع أداءهم بنسبة 20%.
إذن ما الذي يقف وراء هذه الفجوة في التصور؟ راجعنا مع Nate Rush من شركة METR، وهو أحد كاتبي الدراسة. قال Rush لـ IBM Think “هذا سؤال رائع، ولا يتناول عملنا بشكل كامل”. “من الناحية المثالية، سوف يستكشف العمل المستقبلي بشكل أكبر كيفية تأثير توقعات المطورين بشأن فائدة الذكاء الاصطناعي على كيفية استخدامهم للأدوات [و] سبب وجود هذه الفجوة في الإدراك”.
بعيداً عن مسألة الإدراك، تثير الدراسة تساؤلات مهمة: هل يعتبر توفير الوقت هو المعيار الوحيد لقياس إنتاجية المطورين؟ كيف تتلاءم مقاييس مثل جودة الكود وتأثيره على الفريق مع الصورة الكاملة؟
قال Rush: “تتحدث دراستنا عن توفير الوقت فقط، والذي يعد مقياسًا لجانب واحد فقط من جوانب الإنتاجية”. “لا يوجد ‘مقياس واحد صحيح’، بل من المحتمل أن تكون مجموعة من المقاييس التي تفيد بتأثير أدوات الذكاء الاصطناعي”. أضاف أنه رغم تركيز هذه الدراسة على الوقت، وجد فريقه أن إطار عمل SPACE لإنتاجية المطورين (SPACE اختصار للشعور والأداء والنشاط والتواصل والكفاءة) مفيد للتخطيط للاتجاهات المستقبلية.
سؤال آخر: هل يمكن أن تكون إصدارات الطراز - في هذه الحالة، Claude 3.5 و3.7 Sonnet - قد أثرت على وقت الأداء؟ قال Hay: “ها هي الحقيقة”. “أنا أعتقد أن الإصدارات مهمة. Claude 4 Sonnet أفضل بكثير. Claude 4 Opus أفضل بكثير. نحن لا نتحدث عن قليل من الأفضلية، بل عن كونهما أفضل بدرجة كبيرة جدًا”.
وفقًا لما ذكره Quentin Anthony، وهو أحد المشاركين الستة عشر في الدراسة، فإن العنصر البشري هو اعتبار مهم آخر. وكتب على موقع X: “نحب أن نقول إن أدوات النماذج اللغوية الكبيرة هي أدوات، ولكن تعامل معها على أنها رصاصة سحرية”. وكتب على X: “إن النماذج اللغوية الكبيرة هي زر اختصار لإفراز الدوبامين ربما يحل مشكلتك بمحاولة واحدة”. هل تستمر في الضغط على الزر الذي لديه فرصة 1% لإصلاح كل شيء؟ إنه أكثر إمتاعًا من البديل الشاق، على الأقل بالنسبة لي”. (وأضاف Anthony أن تشتت الانتباه على وسائل التواصل الاجتماعي هي طريقة سهلة أخرى للتسبب في التأخير).
إذًا، مع تطور وتحسن مساعدي البرمجة المعتمدين على الذكاء الاصطناعي، أين سيحدثون أكبر تأثير مستدام وطويل الأجل على تطوير البرمجيات؟ قال Hagerty: “قبمجرد أن يصبحوا مستقرين وموثوقين ومفيدين، أعتقد أن مساعدي البرمجة سيكونوا الأفضل في طبقة ضمان الجودة، من ناحية الاختبار وضمان الجودة وإمكانية الوصول”. “أفضل استخدام لهذه الأدوات هو في الأشياء المحدودة والمبنية على قواعد محددة.”
ويرجع ذلك إلى أن كتابة التعليمات البرمجية تختلف اختلافًا جوهريًا عن التحقق منها. “إن البرمجة بحد ذاتها نشاط إبداعي. إنها تبني شيئًا من لا شيء ضمن نظام بنائي فريد. ومساعدو الذكاء الاصطناعي يفتقدون هذا الفارق الدقيق، ولكن يمكنهم إجراء اختبار حقيقي باستخدام نظام يضم قواعد أكثر عمومية وشمولية.
استكشف مكتبة نماذج الأساس من IBM في محفظة watsonx لتوسيع نطاق الذكاء الاصطناعي التوليدي لأعمالك بثقة.
استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.
أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.