آخرین خبرها

پربازدیدهای ماه

داغ روز

شبکه قدرت، اجازه گشت ارشاد مدیران را به رئیسی نمی دهد

چه کسانی با مالیات بر عایدی سرمایه مخالف هستند؟

اولین واکنش دولت رئیسی به ضرب الاجل اقتصادی قالیباف

ادامه تحصن دانشجویان حامی فلسطین در دانشگاههای آمریکا

پیشنهاد مصر به اسرائیل برای تجدید نظر در حمله به رفح چه بود؟

کد خبر: 86644

علم و فن آوری

دوشنبه, ۲۴ تیر ۱۳۹۸ ۱۹:۲۱

۱۲

اینتل هم پا به عرصه فناوری هوش مصنوعی می گذارد

اینتل برای ایجاد فضای کافی برای شتاب‌دهنده‌های هوش مصنوعی، مواردی مانند هسته‌های گرافیکی و بلوک‌های نمایشگر را که بخش‌های مهمی از پردازنده‌ی آیس لیک هستند، حذف کرده است تا بتواند سازگاری بیشتری با هوش مصنوعی انجام دهد.

با گسترش هوش مصنوعی، صنعت کامپیوتر با تغییرات بزرگی مواجه شده است، همان‌طور که تقاضای بازار برای «یادگیری عمیق» در قالب یادگیری ماشین الزامات جدیدی را روی طراحی سیلیکون ایجاد می‌کند، هر روز به آستانه‌ی محدودیت‌های قانون مور که چیزی بیش از یک پیش‌بینی تاریخی و اقتصادی از آینده‌ی دنیای کامپیوترها و یکی از حاکمان قدرتمند چند دهه‌ اخیر در پیشرفت حوزه کسب‌و‌کار تراشه است، نزدیک‌تر می‌شویم.

بنابراین اخیرا، متفکرین و بزرگان صنعت تراشه در سانفرانسیسکو جمع شدند تا در مورد این مسئله به بحث بنشینند. در این راستا، نشستی با حمایت مالی Applied Materials، بازیگر غالب و قدرتمند ابزار ساخت ترانزیستورها، در یک روز کامل با سخنرانان کلیدی و جلسات بحث و گفتگوی آزاد با نام انجمن طراحی هوش مصنوعی (A.I. Design Forum) برگزار شد؛ این نشست همچنین با همکاری یکی از بزرگ‌ترین نمایشگاه‌های سالانه صنعت تراشه یعنی Semicon West برگزار شد.

سخنرانی‌ها و گفتگوهای این گردهمایی حامل اخبار خوب و بد بود. نقطه قوت در حاشیه این مراسم، ارائه‌ی ابزارهای متنوع از سوی شرکت‌هایی چون AMD و Xilinx برای تطبیق «ناهمگن» تراشه‌ها باهدف برطرف کردن نیازهای یادگیری عمیق بود. در طرف دیگر این سؤال مطرح است که آیا طراحی کیت‌های جدید می‌تواند استهلاک بالقوه مراکز داده‌ را زیر فشار تقاضای افزایش محاسبات کم کند یا نه؟
لازم به ذکر است که هیچ تراشه‌ی جدیدی در Semicon نمایش داده نشد؛ اما بحث در انجمن هوش مصنوعی به جمع‌بندی خوبی از اینکه چگونه صنعت تراشه به انفجار یادگیری ماشین منجر خواهد شد و این پیشرفت برای کامپیوترها به چه معنا است، رسیدند.

گری دیکرسون، مدیر اجرایی شرکت Applied Materials، یکی از سخنرانان کلیدی این مراسم سخنرانی خود را با استناد به اطلاعات پروفسور دیوید پترسون، استاد دانشگاه برکلی و جان هنسی رئیس شرکت آلفابت به موضوع کاهش چشمگیر قانون مور اشاره کرد. او با دراختیار داشتن این اطلاعات نشان داد که پردازنده‌های جدید در عملکرد تنها ۳.۵ درصد در سال بهبود می‌یابند. (البته استناد وی به آماری کمی قدیمی‌تر است، چراکه مقاله‌ای که توسط پترسون و هنسی در ماه فوریه منتشر شد، کاهش عملکرد در پردازنده‌ها را در سال ۳ درصد اعلام کرده بود.)

دیکرسون ادعا می‌کند که حجم کاری هوش مصنوعی در مراکز داده در سراسر جهان می‌تواند به اندازه ۸۰ درصد کل چرخه‌های محاسبه و ۱۰ درصد از مصرف برق جهانی در دهه‌ی آینده باشد. وی معتقد است که صنعت باید به‌دنبال راه‌حل‌های بیشتری از جمله طراحی «معماری‌های جدید» برای تراشه و انواع جدید تراشه‌های حافظه باشد. او به انواع مختلفی از تراشه‌های حافظه مانند MRAM، ReRAM (رم مقاومتی)، PCRAM (رم تغییرفاز) و FeRAM اشاره کرد. صنعت به‌جای بررسی واحدهای گسسته و هر ماده جدیدی فراتر از سیلیکون باید به کشف طرح‌های تراشه آنالوگ، تراشه‌هایی که داده‌ها را به‌صورت مداوم دستکاری می‌کنند و سیگنال‌هایی ارزش واقعی بپردازد.

تراشه‌های اینتل می‌تواند باعث ارتقای شبکه‌های عصبی هوش مصنوعی شود

فعالیت تمام شرکت‌های فعال درزمینه‌ی شبکه‌‌های عصبی تا‌به‌حال براساس تراشه‌های سیلیکونی بوده است. پردازنده‌ها (CPU)، پردازنده‌های گرافیکی (GPU)، تراشه‌های پردازش شبکه‌های عصبی (TPU) و مدارهای مجتمع برنامه‌ریزی‌شدنی (FPGA) همه‌ی این‌ها ممکن است ویژگی‌های عملکردی متفاوتی داشته باشند؛ اما از ماده‌ای واحد ساخته شده‌اند. اینتل مشغول ساخت شبکه‌های هوش مصنوعی با استفاده از دانش فوتونیک سیلیکونی است؛ دانشی که درزمینه‌ی مطالعات تحقیقاتی و کاربرد انواعی از سیستم‌های فوتونی فعالیت و از سیلیکون به‌عنوان بستر نوری استفاده می‌کند.

دو سال پیش، کار تحقیقاتی پژوهشگران دانشگاه MIT نشان داد شبکه‌های عصبی نوری (ONN) می‌توانند در عملیات‌های با توان ضعیف و سرعت کم کاربردی باشند. این امکان به‌‌دلیل وجود نوعی مدار فوتونی به‌نام تداخل‌سنج ماخ‌زندر (MZI) است. پیکره‌بندی تداخل‌سنج ماخ‌زندر به‌صورت حاصل‌ضرب ماتریس ۲ در ۲ عمل می‌کند. این تداخل‌سنج می‌تواند برای تعیین نسبت اختلاف فاز بین دو موج ‌برهم‌راستا مربوط‌ به منبع نوری همدوس کاربرد داشته باشد. در این روش، از ضرب‌کردن فازهای دو پرتوی نور به‌صورت ماتریس ۲ در ۲ استفاده می‌شود و با قرارگرفتن MZIها در حالت آرایه‌ی مثلثی‌شکل، ماتریس‌های بزرگ‌تری ایجاد می‌شوند که هسته‌ی اصلی محاسبات مربوط ‌به یادگیری عمیق هستند.

کازیمیر ویرزینسکی، مدیر ارشد دفتر CTO در گروه هوش مصنوعی اینتل گفت:

هر فرایند توسعه و تولید می‌تواند نقایصی داشته باشد و فناوری جدید به دور از نقص نیست؛ اما باید در نظر داشته باشیم تغییرات کوچک در داخل تراشه‌ها می‌تواند بر دقت محاسبات تأثیر بسزایی بگذارد. به‌منظور عملیاتی‌ترکردن شبکه‌های عصبی نوری (ONN) در تولید، باید بدانیم چقدر به تغییرات معمول در فرایند حساس هستند؛ به‌‌ویژه زمانی‌که در مقیاس‌های واقع‌بینانه‌ و بزرگ‌تری در نظر گرفته می‌شوند. همچنین، تلاش می‌کنیم بفهمیم چگونه می‌توان این تغییرات را باتوجه‌به معماری مدارهای مختلف قدرتمندتر کرد.

در مقاله‌ی جدید اینتل، دو نوع شبکه‌ی عصبی نوری مقاوم دربرابر خطا بررسی شده است. یکی از شبکه‌های عصبی نوری طراحی قابل‌تنظیم‌تری (GridNet) دارد؛ در‌حالی‌که دیگری با تحمل خطای بهتری (FFTNet) ساخته شده است. معماری GridNet با این پیش‌فرض کار می‌کند که MZI‌ها در یک شبکه هستند؛ در‌حالی‌که FFTNet الگویی پروانه‌ای دارد که معماری آن‌ها برای محاسبات تبدیل سریع فوری (Fast Fourier Transforms) طراحی و مدل‌سازی شده‌ است.
هر دو مدل شبکه‌ی عصبی نوری برای تشخیص دست‌خط آموزش دیده‌اند. GridNet از میزان دقت ۹۵ تا ۹۸ درصدی درمقایسه‌با FFTNet برخوردار است. باوجوداین، FFTNet به‌طورخاص برای رسیدگی به اشتباه‌ها و خطاهای تولید عملکرد قدرتمندتری داشت و با افزودن نویز و انتقال فاز به هر MZI‌ شبیه‌سازی شده است. FFTNet به‌صورت درخورتوجهی از GridNet عملکرد پایدارتری داشت و دراصل، کارایی‌اش با درنظرگرفتن نویز مصنوعی به کمتر از ۵۰ درصد افت می‌کرد؛ درحالی‌که کارایی FFTNet در همان شرایط ثابت باقی می‌ماند.

نمونه‌کارهای اولیه و شبیه‌سازی‌شده نشان می‌دهند شبکه‌های عصبی نوری می‌توانند جایگزین معتبری برای طرح‌های مبتنی‌بر تراشه‌های سیلیکونی باشند. ویرزینسکی اضافه کرد:

مدارهای بزرگ‌تر به دستگاه‌های بیشتری چون MZI‌ها در هر تراشه نیازمندند؛ بنابراین، تلاش برای رسیدن به قابلیت تنظیم دقیق (Fine Tune) در هر دستگاه در تراشه‌ای پس از تولید، مشکلی روبه‌رشد است. روش مقیاس‌پذیرتر برای آموزش ONNها در محیط نرم‌افزار، مدارهای تولیدانبوه براساس این پارامترها خواهد بود. نتایج نشان می‌دهد انتخاب معماری مناسب می‌تواند احتمال دستیابی به مدارهایی با عملکرد مطلوب را افزایش خواهند داد؛ حتی اگر با تغییرات در تولید مواجه شویم.

قابلیت ایجاد ONNهای مؤثر در مواجهه با تغییرات تولیدی، یعنی بهتر است در حین فرایند یادگیری ساخت این مدل شبکه‌ی عصبی، بهینه‌سازی روش ساخت آن‌ها را فرابگیریم. این قابلیت می‌تواند درصورت انبوه‌سازی و رقابت‌پذیری با معماری تراشه‌های سیلیکونی معمولی، به تجاری‌سازی این تراشه‌ها کمک کند.

نصب پردازنده‌های اینتل روی درگاه M.2 هوش مصنوعی

اینتل (Intel) چندی پیش اعلام کرد پردازنده‌ی شبکه‌ی عصبی استنتاجی نیروانا (Nervana Neural Network Processor for Inference)، یا به اختصار NNP-I، مانند یک پردازنده‌ی ۱۰ نانومتری آیس لیک (Ice Lake) طراحی می‌شود که روی یک بورد به درگاه M.2 متصل خواهد شد. بله؛ درست خواندید؛ روی یک درگاه M.2 نصب خواهد شد؛ این نوع از درگاه‌ها معمولا برای ذخیره‌سازی استفاده می‌شوند. همچنین، اینتل برای ایجاد فضای کافی برای شتاب‌دهنده‌های هوش مصنوعی، مواردی مانند هسته‌های گرافیکی و بلوک‌های نمایشگر را که بخش‌های مهمی از پردازنده‌ی آیس لیک هستند، حذف کرده است.
اکنون دیگر دنیای هوش مصنوعی به‌طور کامل در برابر چشمان انسان‌ها قدبرافراشته و کم‌کم خیز برمی‌دارد تا تحولاتی بنیادین در محاسبات گوشی‌های همراه، لپ‌تاپ‌ها و کامپیوترهای رومیزی ایجاد کند؛ اما هنوز هم بیشتر حجم کاری هوش مصنوعی در مراکز داده‌ای اتفاق می‌افتد. کارهای آموزشی که نیاز زیادی به محاسبات دارد، شبکه‌های عصبی پیچیده‌ای ایجاد می‌کنند که عملیات‌های تشخیص شیء، ترجمه‌ی گفتار، تلفیق صدا و کارهایی از این قبیل را انجام می‌دهد، اما این شبکه‌ها نقطه‌ی نهایی برای تکمیل و کار نیست. اصل مهم در استفاده از توانمندی هوش مصنوعی در مقیاس بزرگ مربوط‌به استقرار مدل‌های تکمیل‌شده‌ای است که ازطریق مرتب‌سازی و تجزیه‌وتحلیل روزانه‌ی داده‌های جهان، آن‌ها را بررسی می‌کند. این همان کاری است که استنتاج نامیده می‌شود.

حجم کاری فرایندهای استنتاجی بسیار سبک‌تر از حجم کاری فرایندهای آموزشی است؛ بنابراین ایجاد مدل برای آن‌ها مستلزم استفاده از پردازنده‌ها و FPGAهای قدرتمند نیست. اما این کار هم مانند هر نوع کار محاسباتی دیگر در انتها به یک موضوع ختم می‌شود: هزینه. به عبارت دیگر، پیش‌هزینه‌ی ارزان برمبنای «عملکرد در ازای وات» برای استنتاج از اهمیت بیشتری برخوردار است و به همین دلیل است که اینتل به این فکر می‌کند که شتاب‌دهنده‌های NNP-I خود را در یک درگاه M.2 جای بدهد. این کار برای کاستن از حجم کاری ناشی از استنتاج‌های زیاد در سرورهای Xeon انجام می‌شود و تراشه‌ی بزرگ‌تر را برای کارهای محاسباتی عمومی آزاد می‌کنند.

نصب شتاب‌دهنده‌ی NNP-I در درگاه‌های M.2 به کاهش بار کاری ناشی از استنتاج‌ در سرورهای Xeon می‌انجامد
اینتل بلوک پردازنده در طراحی اصلی آیس لیک (که در تصویر بالا نشان داده شده است) را طوری دستکاری کرد تا برای حجم کاری هوش مصنوعی مناسب باشد. پکیج استاندارد آیس لیک به همراه پردازنده و هاب کنترلر پلتفرم (PCH) در این قطعه روی یک بورد واحد قرار گرفته‌اند؛ اما اینتل بلوک‌های نمایشگر و GPU را از روی این سطح برداشته و جای آن‌ها را به موتور سفارشی‌سازی‌شده‌ی هوش مصنوعی داده است که کاربرد آن‌ها منحصر به انواع خاصی از کدهای استنتاجی است. علاوه بر این، اینتل موتورهای DSP را هم به آن‌ها اضافه کرده است. این موتورها برای الگوریتم‌هایی استفاده می‌شوند که مخصوص بلوک‌های شتاب‌دهنده با عملکرد ثابت نیست و به سازگاری مدنظر برای فضای هوش مصنوعی سریع‌العمل کمک می‌کند.

اینتل جزئیات بیشتری از بلوک‌های شتاب‌دهنده فاش نکرده است؛ اما به احتمال زیاد آن‌ها از مجموعه‌ای از عناصر تکراری استفاده می‌کنند که شباهت زیادی به یک پردازنده‌ی گرافیکی دارد. با وجود زیرسیستم قدرتمند حافظه‌ی Gen11 که هم‌اکنون در این فناوری قدرتمند استفاده می‌شود، به احتمال زیاد شرکت تصمیم خواهد گرفت که جای واحدهای اجرای گرافیک (EU) را با منطق سفارشی عوض کند (یا شاید واحدهای موجود را اصلاح کند). این در حالی است که باید ساختارهای تکمیلی و اتصالی بین واحدها را به همان صورت حفظ کند.

پردازنده در این طراحی همچنان دارای چندین هسته‌ی محاسباتی معماری اینتل x86 هستند. البته، اینتل تعداد هسته‌هایی که از میکرو معماری Sunny Cove استفاده می‌کنند، را فاش نکرده است. اورین گرشان (Oren Gershon)، مدیر کل بخش مهندس محصولات استنتاجی در اینتل، توضیح واضحی نمی‌دهد و تنها می‌گوید چندتا از هسته‌ها را حذف کرده‌اند تا فضای خالی کافی برای قطعات دیگر فراهم شود. بنابراین شاید این پردازنده‌های آیس لیک چهار هسته‌ای از حالا به بعد فقط دو هسته‌ای باشند.

اینتل این پکیج را روی انواع مختلفی از کارت‌های توسعه نصب می‌کند؛ مثلا نوع M.2 که بالا نشان داده شد، این قابلیت را دارد که به درگاه استاندارد M.2 در یک مادربورد سرور متصل شود. حتی می‌توان آن را به کارت‌های توسعه‌ای بزرگ‌تر روی اسلات PCIe هم متصل کرد. برخلاف برخی از سیلیکون‌های سفارشی مانند TPU گوگل که برای هوش مصنوعی طراحی شده‌اند، این دستگاه از نظر سخت‌افزاری تقریبا با همه‌ی سرورهای مدرن موجود سازگاری کامل دارد. این رویکرد کاملا مقیاس‌پذیر است: می‌توان هرچند NNP-I که لازم باشد را به سرور اضافه کرد، به‌ویژه با استفاده از کارت‌های رایزری که در درگاه‌های M.2 قرار می‌گیرند.

اینتل می‌گوید NNP-I از نظر توان طراحی حرارتی (TDP) برابر با پردازنده‌های آیس لیک است؛ یعنی حداکثر TDP درنظر گرفته‌شده برای آن‌ها درحدود ۲۸ وات است؛ اما باید توجه داشت که محدودیت ۱۵ واتی در رابط‌های M.2 مانع از انتقال قدرت به دستگاه‌های کوچک‌تر می‌شود. اگر NNP-I به کارت‌های توسعه وصل شوند خواهند توانست با حداکثر TDP فعالیت کنند؛ یعنی عملکرد خیلی بهتری خواهند داشت.

NNP-I از نظر توان طراحی حرارتی (TDP) با پردازنده‌های آیس لیک برابر هستند
اینتل برای انتقال کامل وظایف استنتاجی به شتاب‌دهنده از نرم‌افزار مخصوصی استفاده خواهد کرد تا پردازنده‌ی Xeon را از تکمیل کار آگاه کند. این انتقال باعث حذف ارتباطات رفت‌وبرگشتی در گذرگاه PCIe با شتاب‌دهنده‌های دیگر می‌شود. این کار بار اضافی به پردازنده تحمیل می‌کند؛ چرا که ایجاد وقفه می‌کند و داده‌ها را به حرکت وامی‌دارد. در مقابل، NNP-I به‌عنوان یک سیستم مستقل با سازوکار ورودی / خروجی خود (PCH) عمل می‌کند که امکان دسترسی به داده‌های موردنیاز برای پردازش را فراهم می‌کند. عملیات‌های مربوط‌به هوش مصنوعی داده‌ها را با ولع تمام می‌بلعند و همین عامل موجب می‌شود که اتصال ۳ در ۴ و نسبتا باریک PCIe به‌صورت تنگنایی در پهنای باند به نظر برسد. اما، اینتل به کاربرانش اطمینان می‌دهد که فشار کاری تحلیلی ویدیویی با داده‌های زیاد را تست کرده و هیچ محدودیتی در آن ندیده است. بلکه برعکس؛ اینتل معتقد است این نوع از حجم‌های کاری در واقع از نظر محاسباتی محدود هستند.

مقاله مرتبط:تغییر مدیریت در بزرگترین شرکت ساخت تراشه جهان

هسته‌های x86 از دستورالعمل یادگیری عمیق VNNI اینتل (که به نام DL Boost هم شناخته می‌شود) پشتیبانی می‌کند. این دستورالعمل از AVX-512 برای ارتقای عملکرد استفاده می‌کند. اینتل ادعا می‌کند انعطاف‌پذیری بالای حاصل از این کار تقریبا مناسب هر نوع از حجم کاری هوش مصنوعی است؛ به‌ویژه مواردی که از تناسب کافی برای موتورهای هوش مصنوعی یا DSP برخوردار نیستند. علاوه‌براین، اینتل کامپایلری ارائه کرده است که کد را با شتاب‌دهنده‌های NNP-I سازگار می‌کند. فیسبوک، در طور توسعه‌ی این فناوری، «شریک تعریفی» اینتل برای حصول اطمینان از پشتیبانی کامپایلر Glo از این قطعه‌ی سخت‌افزاری بود. از این گذشته، این دستگاه از همه‌ی زبان‌های استاندارد مانند PyTorch و TensorFlow هم، با کمترین تغییرات، پشتیبانی می‌کند.

موضوع بسیار مهم‌تری که گرشون به آن اشاره می‌کند آن است که کارایی NNP-I بسیار شگفت‌انگیز و بسیار بهتر از CPU یا GPUهایی است که دستورهای چندگانه‌ای دارند. برنامه‌ها در مراکز داده‌ای، اپلیکیشن‌های استنتاجی از رواج بیشتری نسبت به اپلیکیشن‌های آموزشی برخوردار هستند و این دستگاه‌های کارآمد، توان مقرون‌به‌صرفه‌ای را به‌صورت یک‌جا و یک‌دفعه به سرویس‌دهندگان کلاد (CSP) و هایپراسکالرها ارائه می‌دهند؛ به عبارت دیگر این بخش می‌تواند بخشی سودآور برای اینتل باشد. اینتل قصد ندارد این دستگاه‌ها را به‌تنهایی و به‌صورت خرده‌فروشی به بازار عرضه کند، بلکه می‌خواهد کاری کند که CSPها در آینده ازطریق نمونه‌های مبتنی بر کلاد با این فناوری آشنا شوند.

اینتل هنوز هیچ اطلاعات عملکردی در پشتیبانی از ادعای جسورانه‌ی خود در زمینه‌ی کارایی حاصل از این محصول رو نکرده است؛ بلکه تنها نمونه‌هایی از آن را در اختیار چند مشتری قرار داده است و پیش‌بینی می‌کند که تولید انبوه آن در ادامه‌ی سال جاری آغاز خواهد شد. انتظار می‌رود انویدیا، تولیدکننده‌ی GPUهای Tesla T4 برای عملیات‌های استنتاجی، و کوالکام، توسعه‌دهنده‌ی پردازنده‌های Cloud AI 100 مبتنی بر M.2، این ادعاها و اخبار را به دقت دنبال کنند.

+ 12

- 7