“لغز الأحد” يكشف نقطة ضعف الذكاء الاصطناعي
كل يوم أحد، يجذب برنامج “لغز الأحد” الذي تبثه إذاعة NPR آلاف المستمعين لحل تحديات عقلية صعبة، وهذه الألغاز لم تعد مخصصة للبشر فقط، بل أصبحت معيارا لاختبار قدرات الذكاء الاصطناعي على التحليل المنطقي.
وأظهرت دراسة حديثة، استخدم خلالها باحثون من عدة جامعات أمريكية، بالتعاون مع شركة Cursor الناشئة، ألغاز البرنامج لمعايرة أداء نماذج الذكاء الاصطناعي في الاستدلال المنطقي أن الروبوتات عجزت عن الحل.
وكانت النتائج مفاجئة، إذ أظهرت أن بعض النماذج المتقدمة، مثل o1 من “OpenAI” وR1 من “ديب سيك” لا تكتفي بإعطاء إجابات خاطئة، بل “تستسلم” أحيانا وتصرّح بأنها عاجزة عن الحل قبل تقديم إجابة غير صحيحة عشوائية، بحسب تقرير نشره موقع “تك كرانش” واطلعت عليه “العربية Business”.
ويؤكد الباحثون أن هذه الألغاز تتمتع بميزة خاصة، فهي لا تعتمد على المعرفة الموسوعية، مما يجعلها اختبارًا مثاليًا لقدرات الذكاء الاصطناعي في التفكير المجرد، بدلًا من مجرد استرجاع المعلومات.
ومع ذلك، فإن النماذج لا تزال تواجه صعوبات في التعامل مع هذه التحديات، حيث أظهرت سلوكيات غريبة، مثل تقديم إجابة خاطئة ثم التراجع عنها، أو حتى “التفكير” بلا نهاية من دون الوصول إلى حل.
يذكر ان نموذج o1 يتصدر القائمة بأفضل أداء بنسبة 59%، يليه o3-mini بنسبة 47%، بينما حصل R1 على 35% فقط.
ويخطط الباحثون لتوسيع نطاق التجربة عبر إضافة مزيد من النماذج، بهدف تحسين قدرتها على التفكير وحل المشكلات بشكل أكثر كفاءة.