تمكّن علماء من جامعة الشارقة من تطوير نظام ذكاء اصطناعي قادر على التعرف تلقائيًاً على اللهجة العربية التي يتحدث بها الشخص. نُشرت نتائج هذا العمل في مجلة IEEE Xplore، ويعتبر هذا النظام إنجازًاً علميًاً جديدًاً في مجال معالجة اللغة الطبيعية، حيث تمكّن من فك التعقيدات اللغوية التي تمثلها اللهجات العربية، وهو ما لم تتمكن الأنظمة التقليدية من تحقيقه بدقة.
يقول البروفسور أشرف النجار، أستاذ علوم الحاسب الآلي ونظم الذكاء الاصطناعي، إن اللغة العربية غنية بالعديد من اللهجات الإقليمية، وكل واحدة منها تتميز بمفرداتها وتعبيراتها ونطقها الخاص. وأضاف: “لقد طورنا نظامًاً يمكنه التعرف تلقائيًاً على اللهجة العربية التي يتحدث بها الفرد.”.
تعتبر اللغة العربية اللغة الرسمية في 22 دولة تمتد من الشرق الأوسط وشمال أفريقيا إلى شبه الجزيرة العربية. وهي من أكثر اللغات انتشارًاً على مستوى العالم، حيث يتحدث بها أكثر من 370 مليون شخص كلغتهم الأم. وتمتاز اللغة العربية بتنوع ثقافي واسع، حيث يتعلم الأفراد الذين يستخدمونها، سواء كلغة أم أو كلغة ثانية الكثير عن الثقافة الإسلامية.
على الرغم من أن أغلب المتعلمين يتعلمون النسخة الرسمية من اللغة، إلا أن العديد منهم يفضّل تعلم اللهجات العامية المستخدمة في الحياة اليومية، خاصة اللهجتين المصرية والسورية اللتين تحظيان بشعبية كبيرة بين الأجانب.
التحديات التقنية
يواجه العلماء تحديات كبيرة عند محاولة تعليم أجهزة الكمبيوتر التعرف على اللهجات العربية المختلفة بمجرد الاستماع للكلمات المنطوقة. ويقول المؤلفون إن التحدّي الرئيسي كان تطوير نموذج تعلم آلي يمكنه التعرف بدقة على مجموعة واسعة من اللهجات العربية من خلال تسجيلات صوتية. وتزيد من تعقيد هذا التحدي التنوع الكبير بين اللهجات والصعوبات التقنية المرتبطة بمعالجة الصوت وتحسين نماذج التعلم الآلي.
اعتمد العلماء في دراستهم على مجموعات بيانات تضم أكثر من 3000 ساعة من المقاطع الصوتية، جُمعت من منصات مثل “يوتيوب”، وشملت هذه البيانات 19 لهجة مختلفة من دول مثل الجزائر، ومصر، والعراق، والسعودية، وسوريا، ولبنان، ودول أخرى.
نتائج مبهرة
أشار البروفسور النجار إلى أن النتائج كانت مذهلة، حيث أظهر النموذج دقة عالية في تحديد اللهجات العربية على المستويين الإقليمي والقطري. فقد تمكن النظام من تحديد اللهجات الإقليمية بنسبة 97.29%، واللهجات القطرية بنسبة 94.92%.
أحد الجوانب اللافتة في هذا البحث هو أن الفريق تمكن من تحقيق هذه النتائج باستخدام 29% فقط من حجم البيانات التي كانت تُستخدم عادةً في أبحاث مشابهة. وقد جعل العلماء نماذجهم متاحة للجمهور، ليتمكن الباحثون والمطوّرون الآخرون من الاستفادة منها لتحسين تقنيات التعرف على الصوت الخاصة بالناطقين بالعربية.
تطبيقات واسعة
من المتوقع أن يسهم هذا المشروع في تحسين تقنيات الاتصال وإمكانية الوصول لملايين المتحدثين باللغة العربية حول العالم. وأوضح البروفسور النجار أن قدرة النموذج على التعرف بدقة على اللهجات يمكن أن يحسّن من تقنيات التحكم الصوتي، مثل المساعدات الافتراضية وخدمات الترجمة والدعم الفني الآلي. وأضاف: “هذا يسد الفجوة بين مناطق اللهجات المختلفة ويجعل التكنولوجيا أكثر شمولية وسهولة في الاستخدام للمتحدثين بالعربية.”.
التطوير المستقبلي
على الرغم من النتائج المبهرة، يؤكد البروفسور النجار أن النظام لا يزال قابلًاً للتحسين. ولتحقيق ذلك، نشر الفريق النظام علنًاً على منصة HuggingFace ليتمكن الآخرون من الوصول إليه وتطويره. وأشار إلى أن هذا المشروع هو ثمرة تعاون بينه وبين ثلاثة من طلابه الجامعيين، كجزء من مشروع بناء نموذج تعلم عميق للتعرف على اللهجات العربية من الصوت.
وأشاد النجار بجهود الطلاب الذين طوروا هذا النظام، موضحًاً أن التكنولوجيا خلف هذا النظام تعتمد على تقنيات تعلم عميق متقدمة. وما يميز هذا النظام هو قدرته على التعامل مع الإشارات الصوتية، ما يوفر نهجًاً متعدد الوسائط لفهم اللغة العربية ومعالجتها.
اهتمام صناعي واسع
أشار الطالب الباحث عبد الله الظاهري إلى أن المشروع حظي باهتمام واسع من الصناعة، نظرًاً لإمكانياته الكبيرة في تطبيقات اللغة المعتمدة على الذكاء الاصطناعي. وقد أبدت شركات تقنية كبرى مثل “مايكروسوفت”، وجهات حكومية في الشارقة، اهتمامًاً كبيرًاً بهذا المشروع، نظرًاً للدقة العالية التي يقدمها، ولأن النظام يحتاج إلى بيانات وموارد حوسبية أقل مقارنةً بالنماذج الحالية، ما يجعله متاحًاً للاستخدام على نطاق أوسع.
يمثل هذا البحث خطوة كبيرة نحو تحسين تقنيات التعرف على اللهجات العربية، ويوفر فرصًاً واعدة لتطوير تطبيقات أكثر دقة وشمولية للمتحدثين باللغة العربية في جميع أنحاء العالم.