جيس (نموذج لغة)
![]() | |
المطوّر | كور42 (شركة جي 42) جامعة محمد بن زايد للذكاء الاصطناعي سربراس للنظم |
---|---|
الإطلاق المبدئي | 30 أغسطس 2023 |
الإصدار المستقر | |
النوع | نموذج لغة كبير الذكاء الاصطناعي التوليدي |
الرخصة | رخصة أپاتشي 2.0 |
الموقع الإلكتروني | Official website |
جيس (JAIS)، هو نموذج لغة كبير مفتوح المصدر، أُطلق في أغسطس 2023. وهو مشروع مشترك طورته شركة جي 42 الإماراتية وجامعة محمد بن زايد للذكاء الاصطناعي وسربراس للنظم الأمريكية. النموذج جيس مصطط لإنتاج نصوص عربية عالية الجودة كما تم تدريبه على بيانات باللغة الإنگليزية.[1][2]
أُنشئ هذا النموذج استجابة لضعف تمثيل اللغة العربية في مجال الذكاء الاصطناعي التوليدي، ويهدف إلى تقديم نموذج يتمتع بدقة أعلى على المستويين الثقافي واللغوي، لخدمة نحو 400 مليون ناطق باللغة العربية حول العالم.[3] سُمي النموذج على اسم جبل جيس، أعلى جبل في الإمارات العربية المتحدة.[2]
التطوير
طُور نموذج جيس استجابة لندرة نماذج الذكاء الاصطناعي التوليدي المتقدمة للغة العربية، رغم أن أكثر من 400 مليون شخص حول العالم يتحدثون بها.[3] غالباً ما تُدرب النماذج الموجودة على محتوى وب عربي محدود أو منخفض الجودة، مما يؤدي إلى ضعف أداءها.[4]
ويمثل المشروع استثماراً ضخماً من جانب الإمارات في مجال الذكاء الاصطناعي، ضمن إطار استراتيجيتها الوطنية.[1] أُنشئ النموذج كمشروع مشترك بين معهد إنسپشن للذكاء الاصطناعي (شركة كور 42 حالياً)، وهي شركة تابعة لشركة جي 42 للذكاء الاصطناعي ومقرها أبو ظبي؛ وجامعة محمد بن زايد للذكاء الاصطناعي؛ وشركة سربراس للنظم الأمريكية المتخصصة في أجهزة الذكاء الاصطناعي.[2][1] وُسمي النموذج على اسم جبل جيس، أعلى جبل في الإمارات.[2]
التدريب
الإصدار الأولي من جيس، الذي طُرح في أغسطس 2023، احتوى على 13 بليون متغير. وفي نوفمبر 2023، أطلقت شركة كور 42 الإصدار جيس 30B، وهو نسخة مُطوَّرة تضم 30 بليون متغير.[5] كلا النموذجين مدربين على مجموعة فرعية من الحاسب الفائق سربراس كوندور گالاكسي 1.[2][1]
تتكون مجموعة بيانات التدريب من مزيج من اللغة العربية والإنگليزية وأكواد الحاسب.[2][3] وبحسب تيموثي بالدوين، أستاذ معالجة اللغات الطبيعية في جامعة محمد بن زايد للذكاء الاصطناعي، فإن تدريب النموذج على مجموعة بيانات عربية متنوعة يتيح له القدرة على التبديل بين اللهجات.[3]
الإصدارات
في أغسطس 2023، أعلن معهد إنسپشن للذكاء الاصطناعي التابع لشركة جي 42 عن إصدار النسخة الأولى من نموذجه اللغوي الكبير "جيس" (JAIS)، بإصدار "جيس 13B" و"دردشة جيس 13B"، وأُطلق لاحقاً نماذج ذات جودة عالية تركِّز على اللغة العربية، وهي "جيس 30B" و"دردشة جيس 30B" اللذان أثبتا كفاءتهما في بيانات التقييم لكل من الإنگليزية والعربية مقارنةً بالنماذج السابقة.[6]
وفي أغسطس 2025، أعلن إنسپشن عن إطلاق نموذجه اللغوي الكبير "جيس 70بي" (JAIS)، وصُمِّمَ نموذج «جيس 70B»، الذي يضمُّ 70 بليون متغير، لمطوري حلول معالجة اللغة الطبيعية القائمة على اللغة العربية، ويُسهم في تسريع تكامل خدمات الذكاء الاصطناعي التوليدي في مختلف القطاعات، ما يعزِّز القدرات في مجالات تشمل خدمة العملاء، وصناعة المحتوى، وتحليل البيانات. ويوفِّر النموذج قدرات باللغتين العربية والإنگليزية بحجم ونطاق غير مسبوقين في مجال النماذج مفتوحة المصدر، ويتكون من 70 بليون متغير، حيث يمتلك قدرة متزايدة على معالجة المهام المُعقَّدة والدقيقة، إضافةً إلى تزويده بقدرة أفضل لمعالجة مجموعات البيانات المُعقَّدة. وطُوِّرَ النموذج باستخدام التدريب المستمر، وهي عملية ضبط دقيق لنموذج مُدرَّب مُسبقاً على 370 بليون رمز لغوي، بما في ذلك 330 بليون رمز باللغة العربية، وهي أكبر مجموعة بيانات عربية استُخدمت لتدريب نموذج أساسي مفتوح المصدر.[7]
وكشف إنسپشن أيضاً عن مجموعة شاملة من نماذج جيس الأساسية تضمُّ 20 نموذجاً، عبر 8 أحجام، تتراوح من 590 مليون إلى 70 بليون متغير، والمُدرَّبة بدقة لتطبيقات الدردشة، حيث دُرِّبت هذه النماذج على ما يصل إلى 1.6 تريليون رمز باللغتين العربية والإنگليزية وبيانات البرمجة. ويقدِّم هذا الإصدار الواسع مجموعة من النماذج، بما في ذلك أول نموذج مُخصَّص للغة العربية يعمل على الحاسب المحمول، ما يوفِّر نماذج صغيرة وفاعلة من حيث الحوسبة للتطبيقات المُستهدفة، وأحجام نماذج متقدمة لتلبية المتطلبات الصارمة للمؤسسات. يحتفظ "جيس 70B" بقدرات عالية الجودة لمعالجة اللغة الإنگليزية التي يتمتع بها "لاما2"، ويتفوق عليها في حالات محددة، مع التفوق الكبير في المخرجات العربية مقارنةً بالنموذج الأساسي. ونجح فريق تطوير «جيس» في تدريب أداة تقسيم موسَّعة تعتمد على أداة تقسيم "لاما2" لتعزيز كفاءة معالجة النصوص العربية، ما أدى إلى مضاعفة المفردات الأساسية للنموذج.
المصادر
- ^ أ ب ت ث Kerr, Simeon; Murgia, Madhumita (2023-08-30). "UAE launches Arabic large language model in Gulf push into generative AI". Financial Times. Retrieved 2025-07-31.
- ^ أ ب ت ث ج ح Cherney, Max A. (2023-08-30). "UAE's G42 launches open source Arabic language AI model". Reuters (in الإنجليزية). Retrieved 2025-07-31.
- ^ أ ب ت ث Tutton, Mark (2023-10-04). "Arabic AI could help open doors for other languages". CNN (in الإنجليزية). Retrieved 2025-07-31.
- ^ Ray, Tiernan (September 1, 2023). "Cerebras and Abu Dhabi build world's most powerful Arabic-language AI model". ZDNET (in الإنجليزية). Retrieved 2025-07-31.
- ^ "Core42 Sets New Benchmark for Arabic Large Language Models with the Release of Jais 30B". PR Newswire. 2023-11-09. Retrieved 2025-07-31.
- ^ "جي42 تطلق نموذج «جيس» 70B و20 نموذجاً للذكاء الاصطناعي لدعم معالجة اللغة الطبيعية باللغة العربية". مكتب أبو ظبي الإعلامي. 2024-08-06. Retrieved 2025-08-13.
- ^ "مركز الذكاء الاصطناعي "إنسبشن" من "جي 42" يطلق النموذج اللغوي الكبير للغة العربية الأعلى جودة في العالم". مكتب أبو ظبي الإعلامي. 2023-08-30. Retrieved 2025-08-13.