كشفت دراسة دولية حديثة أن النماذج اللغوية الكبرى ما تزال عاجزة عن تقليد عفوية البشر، إذ تفضحها نغمتها الودية المفرطة وتعبيراتها العاطفية المصطنعة بالرغم من جميع محاولات التحسين.

وأكدت الدراسة المشتركة من جامعات زيورخ وأمستردام وديوك ونيويورك أن نصوص نماذج الذكاء الاصطناعي لا تزال سهلة التمييز عن البشر في المحادثات على وسائل التواصل الاجتماعي، حيث يشكل الأسلوب العاطفي الودود المفرط العلامة الفارقة الأكثر وضوحًا.

وأكدت الدراسة أن أدوات التصنيف تمكنت من اكتشاف الردود المصطنعة بدقة تتراوح بين 70 و80٪ عبر منصات Twitter/X وBluesky وReddit.

اختبار تورينغ الحسابي
قدّم الباحثون مفهوم “الاختبار التورينغي الحسابي” لتقييم مدى قرب النصوص المنتجة بالذكاء الاصطناعي من اللغة البشرية، باستخدام تحليل لغوي آلي بدلًا من الأحكام البشرية الذاتية.

وأكد الفريق البحثي من جامعة زيورخ، حيث اختبر الباحثون استراتيجيات تحسين مختلفة، بدءًا من التلقين البسيط وحتى الضبط الدقيق، أن الإشارات العاطفية العميقة تبقى مؤشرات موثوقة تدل على أن تفاعلًا نصيًا معينًا على الإنترنت كُتب بواسطة روبوت دردشة ذكاء اصطناعي وليس إنسانًا. وفق موقع “arstechnica” المتخصص في أخبار التكنولوجيا.
نتيجة غير متوقعة
كشفت الدراسة أيضًا عن نتيجة غير متوقعة وهي أن النماذج المعدَّلة بالتعليمات التي خضعت لتدريب إضافي لتتبع أوامر المستخدمين والتصرف بطريقة مفيدة، أدّت أداءً أسوأ في تقليد البشر مقارنة بنماذجها الأساسية.
وأوضحت الدراسة أنه عند توليد ردود على منشورات حقيقية، أظهرت النماذج عجزًا عن تقليد العفوية والانفعالات البشرية غير المصقولة.
وسجّلت جميع النماذج درجات سمّية أقل من تلك التي في الردود البشرية الحقيقية، ما جعلها تبدو “مهذبة أكثر من اللازم”.
تأثير استراتيجيات التحسين
اختبر الباحثون عدة أساليب للتحسين منها: الأساليب البسيطة، مثل تزويد النموذج بأمثلة حقيقية أو سياق المستخدم وقد جعلت الأساليب البسيطة النصوص أكثر واقعية.
الأساليب المعقدة، كتوصيف الشخصية أو الضبط الدقيق، وقد كان تأثيرها محدودًا أو سلبيًا.
النماذج غير المضبوطة بالتعليمات (مثل Llama 3.1 8B وMistral 7B v0.1) قلّدت البشر أفضل من النماذج المعدلة.
أما زيادة حجم النموذج فلم تُحسّن الواقعية؛ إذ أدّت النماذج الصغيرة أداءً مماثلًا أو أفضل من الكبيرة.

التوتر بين الأسلوب والدلالة
أظهر الباحثون أن تحقيق تشابه أسلوبي مع البشر يقلل تشابه المعنى الفعلي مع ردودهم، والعكس صحيح.
بعبارة أخرى، الأسلوب البشري والدقة الدلالية هدفان متعارضان في النماذج الحالية.
فالمشكلة ليست في اللغة بحد ذاتها، بل في جودة المعنى والمحتوى.وحتى لو كان النص مكتوباً بشكل صحيح لغوياً، يمكن أن يكون فقيراً في المضمون أو مكرراً أو مضللاً. وهذه المواد تفسد النموذج من الداخل.
الفروقات بين المنصات
كان من الأصعب تمييز ردود الذكاء الاصطناعي على Twitter/X، تليها Bluesky، بينما كان Reddit الأسهل في الكشف، نتيجة لاختلاف أساليب التواصل وبيانات التدريب المستخدمة.
لم تُراجع الدراسة بعد من قبل الأقران، لكنها تشير إلى أن النماذج الحالية ما تزال محدودة في التعبير العاطفي التلقائي.
وتوضح النتائج أن محاكاة الواقعية البشرية أصعب مما يُتوقع، إذ يبقى النص المصطنع واضحًا رغم محاولات التحسين، ولا يعني ذلك أن النماذج لا يمكنها محاكاة هذا السلوك يومًا ما، بل أن ذلك أصعب بكثير مما توقعه الباحثون.

الاتحاد