گوگل که مدتی است تلاشهایش برای فراهمکردن امکان استفادهی افراد معلول از تکنولوژیهای روز دنیا را آغاز کرده، اخیرا پروژهای بهنام یوفونیا (Euphonia) را رونمایی کرده است. یوفونیا برگرفته از نام ماشین سخنگویی است که اواخر قرن هجدهم و اوایل قرن نوزدهم، جوزف یوفونیا، مخترع آلمانی، ابداع کرد و ساخت.
درواقع، این پروژه تلاشی برای ارتقای قابلیتهای فناوری تشخیص گفتار بهمنظور فراهمآوردن امکان درک صحبتهای افراد مبتلا به مشکلات تکلم و اختلالات گفتاری است؛ چراکه سیستمهای پردازش گفتار طبیعی موجود قابلیت درک صحبتهای افراد مبتلا به بیماریهای پیشروندهای همچون ALS را ندارد. بیماری اسکلروز جانبی آمیوتروفیک (Amyotrophic Lateral Sclerosis) که استیون هاوکینگ نیز به آن مبتلا بود، نوعی بیماری نورونهای حرکتی است که موجب تخریب پیشرونده و ترمیمناپذیر دستگاه عصبی میشود. در این بیماری، دستگاه عصبی مرکزی و ماهیچهها بهویژه ماهیچههای دست، پا، ساعد، سر و گردن بهشدت صدمه میبینند و فرد مبتلا معمولا دچار ناتوانیهای حرکتی میشود و پس از سه تا پنج سال جان خود را از دست میدهد.
در ویدئو زیر، دیمیتری کانوسکی (Dimitri Kanevsky) از محققان گوگل که خود نیز مبتلا به نوعی اختلال گفتاری است، نتایج تحقیقات اخیر این شرکت را در عمل آزمایش میکند و نهایتا از محصول تولیدی در پروژهی Parrotron نتیجه مطلوب را میگیرد. محصول تولیدشده در این پروژه، گفتار افراد مبتلا به اختلالات تکلم را مستقیما و بدون تبدیل به متن، به گفتار سلیس ماشینی تبدیل میکند.
ازآنجاکه مبنای یادگیری در تکنولوژی ASR (تشخیص گفتار خودکار یا Automatic Speech Recognition)، صحبتکردن بهشیوهی معمول و متداول است، سیستمهایی که از این تکنولوژی بهره میگیرند، برای افرادی که با لهجهی خاصی صحبت میکنند یا مبتلا به اختلالات تکلم هستند، چندان کاربردی نیست و حتی دربارهی مبتلایان به اختلالات گفتاریِ نهچندان حاد، همچون ALS نیز، نرخ خطای کلمهی درخورتوجهی را شاهد هستیم. نرخ خطای کلمه (WER) معمولترین شاخص برای مقایسهی عملکرد سیستمهای ASR است و از تقسیم مجموع تعداد کلمات اشتباه تشخیص دادهشده و کلمات گفتهنشدهی اضافهشده و کلمات گفتهشدهی تشخیص دادهنشده، بر تعداد کل کلمات گفتهشده بهدست میآید.
گوگل در پروژهی Parrotron، گفتار افراد مبتلا به اختلالات تکلم را بدون تبدیل به متن، به گفتار سلیس ماشینی تبدیل میکند
احتمالا اینجا هم متهم ردیف اول، مجموعه دادههایی هستند که سیستم برای یادگیری دراختیار دارد. این یکی از تعصبات ضمنی رایجی است که نمونههای مشابهاش را در مدلهای دیگر هوش مصنوعی و زمانیکه نرخ خطای سیستم بیشتر از حد موردانتظار محقق است، شاهد هستیم.
شاید ناتوانی سیستمهای تشخیص چهره در شناسایی افراد رنگینپوست در مقایسه با ساخت سیستم تشخیص گفتاری که برای افراد مبتلا به اختلالات گفتاری کاربردی نیست، خطای چندان چشمگیری بهشمار نیاید؛ اما در هر دو مورد، بخشی از مشکل سیستم دراختیار نداشتن دادههای مربوط به گروههای خاصی از افراد است. این امر برای محققان گوگل بهمعنای جمعآوری ساعتها دادهی صوتی از افراد مبتلا به ALS است و ازآنجاکه نوع و میزان پیشرفت مشکلات گفتاری در این بیماران از فردی به فرد دیگر متفاوت است، طبیعی است انتظار داشته باشیم فرایند تطبیق این تکنولوژی با اثرهای ناشی از یک بیماری، کاملا از روند تطبیق آن با مثلا لهجهای غیرمعمول متفاوت باشد.
پژوهشگران پروژهی یوفونیا ضمن ارزیابیهای خود دریافتهاند وقتی این مدل نمیتواند واجِ اداشده را بهدرستی تشخیص دهد، دو نوع خطا ممکن است رخ داده باشد: ۱. سیستم واج اداشده و بهتبع آن، کلمه را بهاشتباه تشخیص داده باشد؛ ۲. سیستم توانایی تشخیص واج اداشده را نداشته و بهناچار آن را حدس زده باشد. در این صورت، نزدیکی آوایی یک یا چندین واج در یک کلمه، ممکن است به خطا در جایگزینی واجها و بهتبع آن، اشتباه در تشخیص کلمه منجر شود.
حل مشکل دوم با توجه به قابلیتهای هوش مصنوعی، چندان دشوار بهنظر نمیرسد. اگر سیستم در جملهی «من روزی یک سیب میخورم»، نتواند «س» را در کلمه «سیب» تشخیص دهد، برای مدلی که از هوش مصنوعی بهره میگیرد، احتمال آنکه گوینده جملهی «من روزی یک شیب میخورم» را بیان کرده باشد، با احتمال بیان جملهی مذکور بهصورت صحیح یکسان نیست. سیستم با بهرهگیری از هوش مصنوعی و آنچه دربارهی الگوهای کلامی زبان انسان میداند و با درنظرداشتن موضوع صحبت گوینده و زمینههای مرتبط با آن، میتواند جملهی صحیح را حدس بزند.
اطلاعات بیشتر دربارهی این پروژه که همچنان مراحل تحقیقاتی را پشتسر میگذارد، در مقالهای با عنوان Personalizing ASR for Dysarthric and Accented Speech with Limited Data دردسترس است که ماه آینده در کنفرانس Interspeech استرالیا ارائه خواهد شد.
الگوریتم ابداعی گوگل
پژوهشگران هوش مصنوعی گوگل الگوریتمی ابداع کردهاند که بدون نیاز به سختافزارهای قدرتمند برای تجزیهوتحلیل دادههای حجیم، امکان ردیابی حرکات دست را صرفا با استفاده از گوشی هوشمند مجهز به دوربین فراهم میآورد.
با اینکه میلیونها نفر از زبان اشاره برای برقراری ارتباط استفاده میکنند، پژوهشهایی با هدف تشخیص حرکات پیچیدهی دست در این زبان و تبدیل آن به گفتار تابهامروز موفقیت چندانی را شاهد نبودهاند. در این میان، شاید پیشرفتهای اخیر آزمایشگاههای هوش مصنوعی گوگل درزمینهی ردیابی زمان واقعی حرکات دست، مقدمه همان دستاورد بزرگی باشد که مدتها است در انتظار آن هستیم.
این تکنیک جدید با بهکارگیری چند روش میانبر هوشمندانه و بازدهی روبهرشد سیستمهای مبتنیبر یادگیری ماشین، بهصورت درلحظه (real-time) نقشهای از دست و تمام انگشتان آن را تنها با استفاده از گوشی هوشمند و دوربین آن ترسیم میکند.
در وبلاگ گوگل، مطلبی بهقلم والنتین بازارفسکی (Valentin Bazarevsky) و فن ژانگ (Fan Zhang)، پژوهشگران این پروژه، آمده است:
درحالیکه رویکردهای پژوهشی حاضر برای نتیجهگیری نهایی عمدتا نیازمند بهکارگیری سیستمهای رومیزی قدرتمند هستند، در این روش به عملکردی درلحظه صرفا با استفاده از گوشی هوشمند دست یافتهایم که حتی در مقیاس وسیعتر، میتواند برای تشخیص حرکات چند دست نیز بهکار رود. درک حرکات دست بهصورت درلحظه، قطعا از موضوعات چالشبرانگیز در حوزهی بینایی کامپیوتر است؛ چراکه هنگام حرکت، انگشتان اغلب کف دست را میپوشانند یا دستها روی یکدیگر قرار میگیرند و حرکات دست فاقد الگویی با کنتراست زیاد است.
علاوهبراین، ازآنجاکه حرکات دست اغلب سریع و جزئی هستند، تشخیص صحیح آنها کار آسانی نیست و سرعت زیاد موردنیاز در اپلیکیشن زمان واقعی، تشخیص صحیح را بهمراتب دشوارتر نیز خواهد کرد. حتی در سیستمهای چنددوربینهی مجهز به حسگرهای تشخیص عمق مشابه آنچه در پروژهی SignAll (پروژهای با هدف تشخیص زبان اشاره با بهرهگیری از هوش مصنوعی و بینایی کامپیوتر) استفاده شده است، ردگیری تمامی حرکات دست امکانپذیر نیست؛ هرچند این دشواریها باعث توقف پروژه نشده است.
بخشی از هدف پژوهشگران گوگل در این پروژه، کاستن از حجم دادههایی است که الگوریتم باید برای بررسی گزینش کند؛ چراکه دادهی کمتر بهمعنای پردازش کمتر و بهتبع آن، نتیجهگیری سریعتر است. بهعنوان مثال، آنها با صرفنظر از ایدهی الزام سیستم به تشخیص ابعاد و موقعیت کل دست، تنها کف دست را ملاک قرار دادند. بدینترتیب، علاوهبر آنکه ردیابی کف دست بهدلیل شکل ثابت و مشخصش چندان دشوار نخواهد بود، نگرانیای دربارهی ناتوانی سیستم در بررسی و پردازش تصاویر مستطیلشکل در ابعاد مختلف نیز وجود نخواهد داشت.
برای آموزشدادن سیستم یادگیری ماشینی، پژوهشگران ۲۱ نقطه را بهصورت دستی به حدود ۳۰ هزار تصویر مختلف از دست اضافه کردند
طبیعتا وقتی کف دست تشخیص داده شد، انگشتانی که از آن خارج شدهاند میتوانند بهصورت جداگانه تجزیهوتحلیل شوند. الگوریتمی مجزا محل قرارگیری بندها و سر انگشتان دست را تشخیص میدهد و در هر تصویر، مختصاتی به این ۲۱ نقطهی تخمینی نسبت میدهد. این مختصات فاصلهی تقریبی نقاط از محل عکسبرداری را نیز شامل میشود (الگوریتم با توجه به اندازه و زاویهی کف دست و دادههای دیگر، این فاصله را تخمین میزند).
بیشتر بدانید:فناوری ذهن خوان آینده ای نه چندان دور!
در مرحلهی تشخیص انگشتان دست و بهمنظور جمعآوری داده برای فراگیری سیستم یادگیری ماشین، پژوهشگران ناچار بودند در ابتدا ۲۱ نقطه مذکور را بهصورت دستی به حدود ۳۰ هزار تصویر گرفتهشده از حالات مختلف دست در نورهای متفاوت اضافه کنند. مثل همیشه، هوش مصنوعی فقط با تکیه بر سختکوشی بشر قادر به پیشروی است.
وقتی حالت قرارگیری دست مشخص شد، با انبوهی از حالات شناختهشده در زبان اشاره مقایسه میشود و نتیجه، الگوریتم ردیابی دست سریع و دقیقی خواهد بود که نه الزاما روی کامپیوتر ارتقایافته یا سیستم ابری که در عمل کامپیوتر ارتقایافته شخص دیگری است؛ بلکه روی گوشی هوشمند معمولی هم اجراشدنی است. این اپلیکیشن تماما در فریمورک مدیاپایپ، فریمورک یادگیری ماشین با قابلیت ساخت اپلیکیشنهای چندسکویی (Cross Platform) با محوریت دادههای ویدئویی و صوتی، اجرا میشود.
خوشبختانه دیگر پژوهشگران نیز قادر خواهند بود از نتایج این تحقیقات استفاده کنند و سیستمهای موجود را ارتقا بخشند که شاید برای اجرای روشهای دیگر تشخیص دست، به سختافزارهای قدرتمندی نیاز داشته باشند. بااینحال، تا تشخیص واقعی زبان اشاره که علاوهبر هر دو دست، از حالات چهره نیز برای برقراری ارتباط بهره میگیرد، راهی طولانی در پیش داریم. ازآنجاکه نتایج این تحقیقات تابهحال در هیچیک از محصولات گوگل استفاده نشده، امکان دسترسی به منبع پروژه در گیتهاب برای عموم فراهم است:
امیدواریم ارائه این عملکرد تشخیص دست به عموم توسعهدهندگان و محققان، مقدمهای برای استفادهی خلاقانه و یافتن کاربردهای جدید و هیجانانگیز برای آن باشد و پیدایش مسیرهای پژوهشی نوینی را سبب شود.