تعاون فريق من الباحثين من المغرب ودول أخرى لإنشاء "أطلس شات" وهو أول نموذج لغوي كبير مصمم خصيصًا للدارجة المغربية. وتم اختيار هذا الاسم للنموذج، في إشارة إلى جبال الأطلس، الرمز الأيقوني للمغرب.
يتميز "أطلس شات" بقدرته على فهم والتحدث بالدارجة المغربية. في ورقة بحثية نُشرت على "ريسرش غيت" في شتنبر بعنوان "أطلس شات: تكييف نماذج اللغة الكبيرة للدارجة المغربية ذات الموارد المحدودة"، أوضح الباحثون كيفية تطوير النموذج من خلال دمج موارد اللغة الدارجة الموجودة، وإنشاء مجموعات بيانات جديدة، وترجمة التعليمات الإنجليزية بدقة.
تُظهر الورقة أيضًا أن نماذجهم، "أطلس شات-9B" و"أطلس شات-2B"، تتفوق على النماذج اللغوية العربية المتخصصة الأخرى، مثل "لاما" و"جايس" و"أيس جي بي تي"، في تنفيذ التعليمات باللهجة الدارجة. كما يستطيع "أطلس شات" أداء مهام معالجة اللغة الطبيعية (NLP) القياسية، بما في ذلك تفسير اللغة البشرية والتلاعب بها وفهمها.
تشير نتائج الباحثين إلى أن "أطلس شات" حقق زيادة في الأداء بنسبة 13% مقارنة بنموذج أكبر حجماً 13B على "دارجة مملو"، وهو مجموعة تقييم حديثة للدارجة تغطي المهام التمييزية والتوليدية.
الدارجة واللغات ذات الموارد المحدودة
تتناول الدراسة أيضًا مسألة أن نماذج اللغة الكبيرة تتمتع بقدرة فائقة على فهم اللغات الكبرى، لكنها غالبًا ما تواجه صعوبات مع اللغات غير الممثلة بشكل كاف، خاصة اللهجات العربية مثل الدارجة.
يرجع ذلك إلى أن معظم الجهود المبذولة لتطوير نماذج متخصصة في اللغة العربية تركز على التوازن بين الإنجليزية والعربية الفصحى الحديثة (MSA)، مما يؤدي إلى تجاهل اللهجات العربية (DA)، رغم أن ملايين الأشخاص يتحدثون بها.
نظراً لنقص البيانات المتاحة لتدريب نماذج اللغة الكبيرة على اللهجات، قام الباحثون بإنشاء مجموعات بيانات جديدة واختبارات تقييم مخصصة للدارجة.
تتضمن الورقة البحثية أمثلة على ردود "أطلس شات-9B" باللغة الدارجة على مطالبات مكتوبة أيضًا بالدارجة.
أُجريت الأبحاث بالتعاون مع باحثين من جامعة محمد بن زايد للذكاء الاصطناعي، ومدرسة المناجم بالرباط، وجامعة محمد السادس متعددة التخصصات، ومعهد KTH الملكي للتكنولوجيا، ومعهد أطلس للذكاء الاصطناعي، ومدرسة البوليتكنيك.
لتشجيع تطوير نماذج مشابهة للغات ذات الموارد المحدودة الأخرى، قام الباحثون بإتاحة جميع مواردهم للجمهور.