كيف يمكن لتطبيقات مثل Siri أو Google Assistant التواصل معنا بلغات مختلفة؟
أصبحت تقنيات الذكاء الاصطناعي تشغل حيّزًا أكبر من حياتنا مع مرور كلّ يوم، وتطبيقاته تدخل في مختلف الجوانب. بدءًا من الأقمار الصناعية والمركبات الفضائية، ووصولاً إلى هاتفك الذكي.
يعدّ المساعد الشخصي الذكي أو ما يعرف بالـ Voice Assistant أحد تطبيقات الذكاء الاصطناعي التي التي لا غنى عنها في الهواتف الذكية في يومنا هذا. حيث يتوقّع الخبراء في هذا المجال أن يرتفع عدد هذا النوع من التطبيقات إلى 21.4 مليون تطبيق مع نهاية 2020، وسيستمرّ العدد في الارتفاع خلال السنوات القليلة المقبلة.
لقد أصبح الاعتماد على المساعد الشخصي الذكي في إجراء عمليات البحث على Google أمرًا شائعًا لدرجة أنّ الشركات الكبرى قد بدأت في تخصيص الموارد لتطوير تطبيقات متخصصة في تقنيات تحسين محركّات البحث SEO. كما أنّ اللغة المستخدمة من قبل هذه التطبيقات أصبحت ذات جودة عالية لدرجة أنّ الكثير من الشركات تعتمد عليها في جوانب مهمّة من عملياتها للتسويق والمبيعات.
في شهر آب من عام 2018، بدأ تطبيق Google Assistant بدعم خاصية الاستخدام ثنائي اللغة. حيث أنّه لم يكن في وسع المستخدم قبلها استخدام أكثر من لغة في التعامل مع هذا التطبيق، إلاّ من خلال الرجوع إلى الإعدادات وتغيير اللغة أوّلاً.
أما الآن، فقد أصبح بوسع Google Assistant فهم لغتين مختلفتين بكل سهولة دون الحاجة إلى إجراء أي تغيير على الإعدادات.ويعمل فريق الذكاء الاصطناعي في جوجل على تطوير تطبيق قادر على فهم ثلاث لغات مختلفة في الوقت ذاته.
في مقال اليوم، سنتعرّف أكثر على كيفية عمل مثل هذه التطبيقات. والتقنيات المستخدمة في تطويرها وتحديثها.
كيف يمكن للآلة أن تتعلّم لغات البشر؟
يقف خلف كلّ مساعد شخصي ذكي، تكنولوجيا معقّدة للغاية. حيث يتعيّن على الشركات المصنّعة لمثل هذه التطبيقات والأجهزة أن تعلّمها طريقة التعرّف على الكلام، وإنتاجه أيضًا. بمعنى آخر أن تتحدّث، تستمع، تفهم ما يُعطى لها من أوامر ومن ثمّ تقديم إجابات مناسبة. وتزداد صعوبة هذا الأمر في الأجهزة والتطبيقات متعدّدة اللغات.
علم معالجة اللغات الطبيعية NLP
قبل التطرّق للحديث عن كيفية عمل تطبيقات المساعدة الشخصية مثل Siri أو Google Assistant، لابدّ لنا بداية من التعرّف على التقنية الرئيسية المستخدمة في تطوير هذا النوع من التطبيقات. ألا وهي معالجة اللغات الطبيعية.
معالجة اللغات الطبيعية Natural Language Processing أو NLP اختصارًا، هو أحد فروع علم الذكاء الاصطناعي، والذي يسعى إلى تطوير أجهزة وبرامج قادرة على معالجة البيانات اللغوية. حيث أنّ تدريب الحواسيب على الكلام، ليس بالمهمّة اليسيرة إطلاقًا. ففي الوقت الذي يتمكّن فيه أيّ جهاز حاسوب من استيعاب كميّة هائلة من البيانات، تبقى أن قدرته على التعامل مع البيانات غير المنظّمة محدودة.
هذا هو الحال مع اللغة، فالمعلومات اللغوية ليست إلاّ بيانات غير منظّمة بالنسبة للآلة، كما أنّ طبيعتها وعفويتها وتعدّد سياقاتها وأبعادها الجمالية تضيف مزيدًا من التعقيد للعملية برمّتها.
عندما نتطرّق للحديث عن تدريب الحواسيب على معالجة اللغة، فنحن في الواقع أمام ثلاث عقبات رئيسية:
- مدى غرابة مفهوم مثل "اللغة البشرية" بالنسبة للآلة.
- طبيعة اللغة البشرية بتنوّعها واعتمادها على متغيّرات لا نهائية.
- مدى فهمنا لطريقة عمل الدماغ وكيفية معالجته للغة. والذي لا يزال برغم تطوّره محدودًا.
إذن، كيف تعمل تطبيقات مثل Siri أو Google Assistant؟
لنفترض أنّك طرحت سؤالاً على مساعدك الشخصي Siri المستخدم في هواتف الآيفون، حول حالة الطقس في الغد.
إليك ما سيحدث:
- بداية سيلتقط هاتفك الصوت، ويحوّله إلى نصّ حتى تتمّ معالجته.
- من خلال برنامج متخصص في معالجة اللغات الطبيعية NLP، سيحاول هاتفك تفسير معنى سؤالك.
- في حال كانت الجملة التي قلتها سؤالاً، واستخدمت نبرة السؤال المناسبة، سيحدّد البرنامج (بالاستعانة بالذكاء الاصطناعي) العلامات الدلالية التي تشير إلى أنّك قد طرحت سؤالاً، ويتمّ إضافتها إلى النصّ قبل معالجته.
- الكلمات مثل "الطقس" و "في الغد" ستشكّل محتوى السؤال، بمعنى آخر كلمات مفتاحية في البحث.
- سيقوم بعدها لتطبيق Siri بإجراء بحث بالنيابة عنك على شبكة الإنترنت، ويُطلعك بالنتائج في شكل ردّ صوتي.
ما هو دور التعليق الصوتي في تطوير مثل هذه التطبيقات؟
عندما تمّ إطلاق Siri للمرّة الأولى سنة 2011، واجه التطبيق العديد من الانتقادات. حيث اعتبر البعضُ التجربة العامة سيئة. وتذمّر آخرون من عدم قدرة المساعد الشخصي هذا على فهم لهجتهم. ويعود السبب في ذلك إلى افتقار المادة اللغوية المستخدمة في تدريب الشبكات العصبية التي يستخدمها التطبيق إلى التنوّع.
بمعنى آخر، فإن هذه التطبيقات تتعلّم كيفية التعامل مع اللغات البشرية المختلفة من خلال تزويدها ببيانات صوتية ونصيّة محدّدة. وفي حال تمّ استخدام عيّنات صوتية لأشخاص من منطقة جغرافية محدّدة، أو بلهجات معيّنة (أو بلهجة محايدة مقصودة)، فإن التطبيق سيفشل على أرض الواقع. لأنه لن يتمكّن من فهم أنماط الكلام النادرة، أو اللهجات الإقليمية المتفرّعة من لغة معيّنة. ولهذا السبب بالذات، بدأت الكثير من شركات البرمجة اللغوية بالبحث عن خدمات تعليق صوتي عالمية بوسعها تقديم عيّنات صوتية بلهجات متنوعة.
غير أنّ مهمّة المعلّقين الصوتيين لا تقتصر فقط على إدخال الأوامر الصوتية وتدريب هذه التطبيقات على الفهم وحسب، بل إنهم يزوّدونها أيضًا بالوسائل المناسبة للردّ على المستخدمين أيضًا، وذلك من خلال ما يعرف بالفونيم (Phoneme)، وهو أصغر وحدة صوتية ذات معنى تستخدم في اللغة. حيث أنّنا نستطيع الكلام من خلال دمج هذه الوحدات الصوتية معًا.
وهكذا، عندما يُطلب من تطبيق مثل Siri أن يحوّل نصًّا مكتوبًا إلى كلام، سيعمل بداية للعثور على لفظ صوتي تمّ إدخاله وحفظه مسبقًا في قاعدة بياناته من قبل المعلّقين الصوتيين. وفي حال لم يعثر على واحد، سيحاول التطبيق حينها فهم التركيب اللغوي للجملة أو النصّ المُدخل حتى يتمكّن من تحديد النبرة المناسبة لجميع الكلمات.
سيفكّك بعدها التطبيق هذا النص إلى مزيج من الوحدات الصوتية ويبحث عن أنسب الأصوات في قاعدة بياناته، ليتمكّن بعدها من تقديم ردّ مناسب.
وهكذا نجد أنّ عملية تواصل تطبيقات مثل Siri أو Google Assistant معنا بلغة البشر الطبيعية تنطوي على الكثير من العمليات المعقّدة، واللوغاريتمات الصعبة. بدءًا من التعرّف على الصوت، وتحويله إلى نصّ، ثمّ فهم معناه والبحث عن إجابة مناسبة، قبل أن يتمّ تحويله مجدّدًا إلى صوت، تسمعه. كلّ ذلك في خلال ثوانٍ أو دقائق معدودة!
إن كنت مهتمًا بهذا المجال، يمكنك قراءة المزيد حوله من خلال مقال الذكاء الاصطناعي ضمن دليل تخصصات فرصة. كما يمكنك أيضًا معرفة المزيد عن تخصّصات المستقبل ومجالات العمل المتاحة فيها. ويسعُك أيضًا مشاركتنا رأيك وتعليقاتك من خلال صفحتنا على الفيسبوك أو عن طريق صندوق التعليقات في الأسفل. فلا تتردّد في التسجيل على موقعنا ليصلك كلّ جديد.
المصدر: daytranslations
اقرأ أيضًا: تعرف على تخصصات انترنت الأشياء وأشهر وظائفه ومجالاته
اقرأ أيضًا: ما هو مستقبل التخصصات الإنسانية؟
اقرأ أيضًا: تعرف على توقعات بيل غيتس للمستقبل!