آخرین خبرها

پربازدیدهای ماه

داغ روز

ادامه تحصن دانشجویان حامی فلسطین در دانشگاههای آمریکا

پیشنهاد مصر به اسرائیل برای تجدید نظر در حمله به رفح چه بود؟

انگلیس درصدد راه اندازی گنبد آهنین

آخرین وضعیت مرزبانان ایرانی که توسط طالبان بازداشت شدند

فوری/ تحریم‌های جدید آمریکا علیه ایران وضع شد+ جزئیات مهم

کد خبر: 101722

علم و فن آوری

یکشنبه, ۰۳ شهریور ۱۳۹۸ ۱۴:۵۶

۱۰

الگوریتم ابداعی هوش مصنوعی گوگل

پیشرفت‌های اخیر آزمایشگاه‌های هوش مصنوعی گوگل درزمینه‌ هوش مصنوعی، می تواند مقدمه دستاوردهای بزرگی باشد که مدت‌ها است در انتظار آن هستیم.

گوگل که مدتی است تلاش‌هایش برای فراهم‌کردن امکان استفاده‌ی افراد معلول از تکنولوژی‌های روز دنیا را آغاز‌ کرده‌، اخیرا پروژه‌ای به‌نام یوفونیا (Euphonia) را رونمایی کرده است. یوفونیا برگرفته از نام ماشین سخن‌گویی است که اواخر قرن هجدهم و اوایل قرن نوزدهم، جوزف یوفونیا، مخترع آلمانی، ابداع کرد و ساخت.

درواقع، این پروژه تلاشی برای ارتقای قابلیت‌های فناوری تشخیص گفتار به‌منظور فراهم‌آوردن امکان درک صحبت‌های افراد مبتلا به مشکلات تکلم و اختلالات گفتاری است؛ چرا‌که سیستم‌های پردازش گفتار طبیعی موجود قابلیت درک صحبت‌های افراد مبتلا به بیماری‌های پیش‌رونده‌ای همچون ALS را ندارد. بیماری اسکلروز جانبی آمیوتروفیک (Amyotrophic Lateral Sclerosis) که استیون هاوکینگ نیز به آن مبتلا بود، نوعی بیماری نورون‌های حرکتی است که موجب تخریب پیش‌رونده و ترمیم‌ناپذیر دستگاه عصبی می‌شود. در این بیماری، دستگاه عصبی مرکزی و ماهیچه‌ها به‌ویژه ماهیچه‌های دست، پا، ساعد، سر و گردن به‌شدت صدمه می‌بینند و فرد مبتلا معمولا دچار ناتوانی‌های حرکتی می‌شود و پس از سه تا پنج سال جان خود را از دست می‌دهد.

در ویدئو زیر، دیمیتری کانوسکی (Dimitri Kanevsky) از محققان گوگل که خود نیز مبتلا به نوعی اختلال گفتاری است، نتایج تحقیقات اخیر این شرکت را در عمل آزمایش می‌کند و نهایتا از محصول تولیدی در پروژه‌ی Parrotron نتیجه مطلوب را می‌گیرد. محصول تولید‌شده در این پروژه، گفتار افراد مبتلا به اختلالات تکلم را مستقیما و بدون تبدیل به متن، به گفتار سلیس ماشینی تبدیل می‌کند.

ازآنجاکه مبنای یادگیری در تکنولوژی ASR (تشخیص گفتار خودکار یا Automatic Speech Recognition)، صحبت‌کردن به‌شیوه‌ی معمول و متداول است، سیستم‌هایی که از این تکنولوژی بهره‌ می‌گیرند، برای افرادی که با لهجه‌ی خاصی صحبت‌ می‌کنند یا مبتلا به اختلالات تکلم هستند، چندان کاربردی نیست و حتی درباره‌ی مبتلایان به اختلالات گفتاریِ نه‌چندان حاد، همچون ALS نیز، نرخ خطای کلمه‌ی درخورتوجهی را شاهد هستیم. نرخ خطای کلمه (WER) معمول‌ترین شاخص برای مقایسه‌ی عملکرد سیستم‌های ASR است و از تقسیم مجموع تعداد کلمات اشتباه تشخیص‌ داده‌شده و کلمات گفته‌نشده‌ی اضافه‌شده و کلمات گفته‌شده‌ی تشخیص‌ داده‌نشده، بر تعداد کل کلمات گفته‌شده به‌دست می‌آید.

گوگل در پروژه‌ی Parrotron، گفتار افراد مبتلا به اختلالات تکلم را بدون تبدیل به متن، به گفتار سلیس ماشینی تبدیل می‌کند

احتمالا اینجا هم متهم ردیف اول، مجموعه داده‌هایی هستند که سیستم برای یادگیری دراختیار دارد. این یکی از تعصبات ضمنی رایجی است که نمونه‌های مشابه‌اش را در مدل‌های دیگر هوش مصنوعی و زمانی‌که نرخ خطای سیستم بیشتر از حد موردانتظار محقق است، شاهد هستیم.

شاید ناتوانی سیستم‌های تشخیص چهره در شناسایی افراد رنگین‌پوست در مقایسه با ساخت سیستم تشخیص گفتاری که برای افراد مبتلا به اختلالات گفتاری کاربردی نیست، خطای چندان چشمگیری به‌شمار نیاید؛ اما در هر دو مورد، بخشی از مشکل سیستم دراختیار نداشتن داده‌های مربوط به گروه‌های خاصی از افراد است. این امر برای محققان گوگل به‌معنای جمع‌آوری ساعت‌ها داده‌ی صوتی از افراد مبتلا به ALS است و ازآنجاکه نوع و میزان پیشرفت مشکلات گفتاری در این بیماران از فردی به فرد دیگر متفاوت است، طبیعی است انتظار داشته‌ باشیم فرایند تطبیق این تکنولوژی با اثرهای ناشی از یک بیماری، کاملا از روند تطبیق آن با مثلا لهجه‌ای غیرمعمول متفاوت باشد.

پژوهشگران پروژه‌ی یوفونیا ضمن ارزیابی‌های خود دریافته‌اند وقتی این مدل نمی‌تواند واجِ اداشده را به‌درستی تشخیص دهد، دو نوع خطا ممکن است رخ‌ داده‌ باشد: ۱. سیستم واج اداشده و به‌تبع آن، کلمه را به‌اشتباه تشخیص‌ داده‌ باشد؛ ۲. سیستم توانایی تشخیص واج اداشده را نداشته‌ و به‌ناچار آن‌ را حدس‌ زده‌ باشد. در این‌ صورت، نزدیکی آوایی یک یا چندین واج‌ در یک کلمه، ممکن است به خطا در جایگزینی واج‌ها و به‌تبع آن، اشتباه در تشخیص کلمه منجر شود.

حل مشکل دوم با توجه به قابلیت‌های هوش‌ مصنوعی، چندان دشوار به‌نظر‌ نمی‌رسد. اگر سیستم در جمله‌ی «من روزی یک سیب می‌خورم»، نتواند «س» را در کلمه «سیب» تشخیص‌ دهد، برای مدلی که از هوش ‌مصنوعی بهر‌ه‌ می‌گیرد، احتمال آنکه گوینده جمله‌ی «من روزی یک شیب می‌خورم» را بیان کرده باشد، با احتمال بیان جمله‌ی مذکور به‌صورت صحیح یکسان نیست. سیستم با بهره‌گیری از هوش‌ مصنوعی و آنچه درباره‌ی الگوهای کلامی زبان انسان می‌داند و با درنظرداشتن موضوع صحبت گوینده و زمینه‌های مرتبط با آن، می‌تواند جمله‌ی صحیح را حدس‌ بزند.

اطلاعات بیشتر درباره‌ی این پروژه که همچنان مراحل تحقیقاتی را پشت‌سر می‌گذارد، در مقاله‌ای با عنوان Personalizing ASR for Dysarthric and Accented Speech with Limited Data دردسترس است که ماه آینده در کنفرانس Interspeech استرالیا ارائه خواهد‌ شد.

الگوریتم ابداعی گوگل

پژوهشگران هوش مصنوعی گوگل الگوریتمی ابداع کرده‌اند که بدون نیاز به سخت‌افزارهای قدرتمند برای تجزیه‌وتحلیل داده‌های حجیم، امکان ردیابی حرکات دست را صرفا با استفاده از گوشی هوشمند مجهز به دوربین فراهم می‌آورد.

با‌ اینکه میلیون‌ها نفر از زبان اشاره برای برقراری ارتباط استفاده‌ می‌کنند، پژوهش‌هایی با هدف تشخیص حرکات پیچیده‌ی دست در این زبان و تبدیل آن به گفتار تا‌به‌امروز موفقیت چندانی را شاهد نبوده‌اند. در این میان، شاید پیشرفت‌های اخیر آزمایشگاه‌های هوش مصنوعی گوگل درزمینه‌ی ردیابی زمان‌ واقعی حرکات دست، مقدمه همان دستاورد بزرگی باشد که مدت‌ها است در انتظار آن هستیم.

این تکنیک جدید با به‌کارگیری چند روش میان‌بر هوشمندانه و بازدهی رو‌به‌رشد سیستم‌های مبتنی‌بر یادگیری ماشین، به‌صورت درلحظه (real-time) نقشه‌ای از دست و تمام انگشتان آن‌ را تنها با استفاده از گوشی هوشمند و دوربین آن ترسیم‌ می‌کند.

در وبلاگ گوگل، مطلبی به‌قلم والنتین بازارفسکی (Valentin Bazarevsky) و فن ژانگ (Fan Zhang)، پژوهشگران این پروژه، آمده‌ است:

درحالی‌که رویکردهای پژوهشی حاضر برای نتیجه‌گیری نهایی عمدتا نیازمند به‌کارگیری سیستم‌های رومیزی قدرتمند هستند، در این روش به عملکردی درلحظه صرفا با استفاده از گوشی هوشمند دست‌ یافته‌ایم که حتی در مقیاس وسیع‌تر، می‌تواند برای تشخیص حرکات چند دست نیز به‌کار‌ رود. درک حرکات دست به‌صورت درلحظه، قطعا از موضوعات چالش‌برانگیز در حوزه‌ی بینایی کامپیوتر است؛ چراکه هنگام حرکت، انگشتان اغلب کف دست را می‌پوشانند یا دست‌ها روی یکدیگر قرار می‌گیرند و حرکات دست فاقد الگویی با کنتراست زیاد است.

علاوه‌براین‌، از‌آنجا‌که حرکات دست اغلب سریع و جزئی هستند، تشخیص صحیح آن‌ها کار آسانی نیست و سرعت زیاد موردنیاز در اپلیکیشن زمان‌ واقعی، تشخیص صحیح را به‌مراتب دشوارتر نیز خواهد کرد. حتی در سیستم‌های چند‌دوربینه‌ی مجهز به حسگرهای تشخیص عمق مشابه آنچه در پروژه‌ی SignAll (پروژه‌ای با هدف تشخیص زبان اشاره با بهره‌گیری از هوش مصنوعی و بینایی کامپیوتر) استفاده شده‌ است، ردگیری تمامی حرکات دست امکان‌پذیر نیست؛ هرچند این دشواری‌ها باعث توقف پروژه نشده‌ است.

بخشی از هدف پژوهشگران گوگل در این پروژه، کاستن از حجم داده‌هایی است که الگوریتم باید برای بررسی گزینش‌ کند؛ چراکه داده‌ی کمتر به‌معنای پردازش کمتر و به‌تبع آن، نتیجه‌گیری سریع‌تر است. به‌عنوان مثال، آن‌ها با صرف‌نظر از ایده‌ی الزام سیستم به تشخیص ابعاد و موقعیت کل دست، تنها کف دست را ملاک قرار دادند. بدین‌ترتیب، علاوه‌بر آنکه ردیابی کف دست به‌دلیل شکل ثابت و مشخصش چندان دشوار نخواهد بود، نگرانی‌ای درباره‌ی ناتوانی سیستم در بررسی و پردازش تصاویر مستطیل‌شکل در ابعاد مختلف نیز وجود نخواهد‌ داشت.

برای آموزش‌‌دادن سیستم یادگیری ماشینی، پژوهشگران ۲۱ نقطه را به‌صورت دستی به حدود ۳۰ هزار تصویر مختلف از دست اضافه کردند

طبیعتا وقتی کف دست تشخیص داده‌ شد، انگشتانی که از آن خارج شده‌اند می‌توانند به‌صورت جداگانه تجزیه‌و‌تحلیل شوند. الگوریتمی مجزا محل قرارگیری بندها و سر انگشتان دست را تشخیص می‌دهد و در هر تصویر، مختصاتی به این ۲۱ نقطه‌ی تخمینی نسبت می‌دهد. این مختصات فاصله‌ی تقریبی نقاط از محل عکس‌برداری را نیز شامل می‌شود (الگوریتم با توجه به اندازه و زاویه‌ی کف دست و داده‌های دیگر، این فاصله را تخمین می‌زند).

بیشتر بدانید:فناوری ذهن خوان آینده ای نه چندان دور!

در مرحله‌ی تشخیص انگشتان دست و به‌منظور جمع‌آوری داده برای فراگیری سیستم یادگیری ماشین، پژوهشگران ناچار بودند در ابتدا ۲۱ نقطه مذکور را به‌صورت دستی به حدود ۳۰ هزار تصویر گرفته‌شده از حالات مختلف دست در نورهای متفاوت اضافه کنند. مثل همیشه، هوش مصنوعی فقط با تکیه بر سخت‌کوشی بشر قادر به پیش‌روی است.

وقتی حالت قرارگیری دست مشخص‌ شد، با انبوهی از حالات شناخته‌شده در زبان اشاره مقایسه می‌شود و نتیجه، الگوریتم ردیابی دست سریع و دقیقی خواهد بود که نه الزاما روی کامپیوتر ارتقایافته یا سیستم ابری که در عمل کامپیوتر ارتقایافته شخص دیگری است؛ بلکه روی گوشی هوشمند معمولی هم اجرا‌شدنی است. این اپلیکیشن تماما در فریم‌ورک مدیاپایپ، فریم‌‌ورک یادگیری ماشین با قابلیت ساخت اپلیکیشن‌های چند‌سکویی (Cross Platform) با محوریت داده‌های ویدئویی و صوتی، اجرا می‌شود.

خوشبختانه دیگر پژوهشگران نیز قادر خواهند بود از نتایج این تحقیقات استفاده کنند و سیستم‌های موجود را ارتقا بخشند که شاید برای اجرای روش‌های دیگر تشخیص دست، به سخت‌افزارهای قدرتمندی نیاز داشته باشند. بااین‌حال، تا تشخیص واقعی زبان اشاره که علاوه‌بر هر دو دست، از حالات چهره نیز برای برقراری ارتباط بهره‌‌ می‌گیرد، راهی طولانی در پیش داریم. ازآنجاکه نتایج این تحقیقات تابه‌حال در هیچ‌یک از محصولات گوگل استفاده نشده، امکان دسترسی به منبع‌ پروژه در گیت‌هاب برای عموم فراهم است:

امیدواریم ارائه این عملکرد تشخیص دست به عموم توسعه‌دهندگان و محققان، مقدمه‌ای برای استفاده‌ی خلاقانه و یافتن کاربردهای جدید و هیجان‌انگیز برای آن باشد و پیدایش مسیرهای پژوهشی نوینی را سبب شود.

+ 10

- 12