با گسترش هوش مصنوعی، صنعت کامپیوتر با تغییرات بزرگی مواجه شده است، همانطور که تقاضای بازار برای «یادگیری عمیق» در قالب یادگیری ماشین الزامات جدیدی را روی طراحی سیلیکون ایجاد میکند، هر روز به آستانهی محدودیتهای قانون مور که چیزی بیش از یک پیشبینی تاریخی و اقتصادی از آیندهی دنیای کامپیوترها و یکی از حاکمان قدرتمند چند دهه اخیر در پیشرفت حوزه کسبوکار تراشه است، نزدیکتر میشویم.
بنابراین اخیرا، متفکرین و بزرگان صنعت تراشه در سانفرانسیسکو جمع شدند تا در مورد این مسئله به بحث بنشینند. در این راستا، نشستی با حمایت مالی Applied Materials، بازیگر غالب و قدرتمند ابزار ساخت ترانزیستورها، در یک روز کامل با سخنرانان کلیدی و جلسات بحث و گفتگوی آزاد با نام انجمن طراحی هوش مصنوعی (A.I. Design Forum) برگزار شد؛ این نشست همچنین با همکاری یکی از بزرگترین نمایشگاههای سالانه صنعت تراشه یعنی Semicon West برگزار شد.
سخنرانیها و گفتگوهای این گردهمایی حامل اخبار خوب و بد بود. نقطه قوت در حاشیه این مراسم، ارائهی ابزارهای متنوع از سوی شرکتهایی چون AMD و Xilinx برای تطبیق «ناهمگن» تراشهها باهدف برطرف کردن نیازهای یادگیری عمیق بود. در طرف دیگر این سؤال مطرح است که آیا طراحی کیتهای جدید میتواند استهلاک بالقوه مراکز داده را زیر فشار تقاضای افزایش محاسبات کم کند یا نه؟
لازم به ذکر است که هیچ تراشهی جدیدی در Semicon نمایش داده نشد؛ اما بحث در انجمن هوش مصنوعی به جمعبندی خوبی از اینکه چگونه صنعت تراشه به انفجار یادگیری ماشین منجر خواهد شد و این پیشرفت برای کامپیوترها به چه معنا است، رسیدند.
گری دیکرسون، مدیر اجرایی شرکت Applied Materials، یکی از سخنرانان کلیدی این مراسم سخنرانی خود را با استناد به اطلاعات پروفسور دیوید پترسون، استاد دانشگاه برکلی و جان هنسی رئیس شرکت آلفابت به موضوع کاهش چشمگیر قانون مور اشاره کرد. او با دراختیار داشتن این اطلاعات نشان داد که پردازندههای جدید در عملکرد تنها ۳.۵ درصد در سال بهبود مییابند. (البته استناد وی به آماری کمی قدیمیتر است، چراکه مقالهای که توسط پترسون و هنسی در ماه فوریه منتشر شد، کاهش عملکرد در پردازندهها را در سال ۳ درصد اعلام کرده بود.)
دیکرسون ادعا میکند که حجم کاری هوش مصنوعی در مراکز داده در سراسر جهان میتواند به اندازه ۸۰ درصد کل چرخههای محاسبه و ۱۰ درصد از مصرف برق جهانی در دههی آینده باشد. وی معتقد است که صنعت باید بهدنبال راهحلهای بیشتری از جمله طراحی «معماریهای جدید» برای تراشه و انواع جدید تراشههای حافظه باشد. او به انواع مختلفی از تراشههای حافظه مانند MRAM، ReRAM (رم مقاومتی)، PCRAM (رم تغییرفاز) و FeRAM اشاره کرد. صنعت بهجای بررسی واحدهای گسسته و هر ماده جدیدی فراتر از سیلیکون باید به کشف طرحهای تراشه آنالوگ، تراشههایی که دادهها را بهصورت مداوم دستکاری میکنند و سیگنالهایی ارزش واقعی بپردازد.
تراشههای اینتل میتواند باعث ارتقای شبکههای عصبی هوش مصنوعی شود
فعالیت تمام شرکتهای فعال درزمینهی شبکههای عصبی تابهحال براساس تراشههای سیلیکونی بوده است. پردازندهها (CPU)، پردازندههای گرافیکی (GPU)، تراشههای پردازش شبکههای عصبی (TPU) و مدارهای مجتمع برنامهریزیشدنی (FPGA) همهی اینها ممکن است ویژگیهای عملکردی متفاوتی داشته باشند؛ اما از مادهای واحد ساخته شدهاند. اینتل مشغول ساخت شبکههای هوش مصنوعی با استفاده از دانش فوتونیک سیلیکونی است؛ دانشی که درزمینهی مطالعات تحقیقاتی و کاربرد انواعی از سیستمهای فوتونی فعالیت و از سیلیکون بهعنوان بستر نوری استفاده میکند.
دو سال پیش، کار تحقیقاتی پژوهشگران دانشگاه MIT نشان داد شبکههای عصبی نوری (ONN) میتوانند در عملیاتهای با توان ضعیف و سرعت کم کاربردی باشند. این امکان بهدلیل وجود نوعی مدار فوتونی بهنام تداخلسنج ماخزندر (MZI) است. پیکرهبندی تداخلسنج ماخزندر بهصورت حاصلضرب ماتریس ۲ در ۲ عمل میکند. این تداخلسنج میتواند برای تعیین نسبت اختلاف فاز بین دو موج برهمراستا مربوط به منبع نوری همدوس کاربرد داشته باشد. در این روش، از ضربکردن فازهای دو پرتوی نور بهصورت ماتریس ۲ در ۲ استفاده میشود و با قرارگرفتن MZIها در حالت آرایهی مثلثیشکل، ماتریسهای بزرگتری ایجاد میشوند که هستهی اصلی محاسبات مربوط به یادگیری عمیق هستند.
کازیمیر ویرزینسکی، مدیر ارشد دفتر CTO در گروه هوش مصنوعی اینتل گفت:
هر فرایند توسعه و تولید میتواند نقایصی داشته باشد و فناوری جدید به دور از نقص نیست؛ اما باید در نظر داشته باشیم تغییرات کوچک در داخل تراشهها میتواند بر دقت محاسبات تأثیر بسزایی بگذارد. بهمنظور عملیاتیترکردن شبکههای عصبی نوری (ONN) در تولید، باید بدانیم چقدر به تغییرات معمول در فرایند حساس هستند؛ بهویژه زمانیکه در مقیاسهای واقعبینانه و بزرگتری در نظر گرفته میشوند. همچنین، تلاش میکنیم بفهمیم چگونه میتوان این تغییرات را باتوجهبه معماری مدارهای مختلف قدرتمندتر کرد.
در مقالهی جدید اینتل، دو نوع شبکهی عصبی نوری مقاوم دربرابر خطا بررسی شده است. یکی از شبکههای عصبی نوری طراحی قابلتنظیمتری (GridNet) دارد؛ درحالیکه دیگری با تحمل خطای بهتری (FFTNet) ساخته شده است. معماری GridNet با این پیشفرض کار میکند که MZIها در یک شبکه هستند؛ درحالیکه FFTNet الگویی پروانهای دارد که معماری آنها برای محاسبات تبدیل سریع فوری (Fast Fourier Transforms) طراحی و مدلسازی شده است.
هر دو مدل شبکهی عصبی نوری برای تشخیص دستخط آموزش دیدهاند. GridNet از میزان دقت ۹۵ تا ۹۸ درصدی درمقایسهبا FFTNet برخوردار است. باوجوداین، FFTNet بهطورخاص برای رسیدگی به اشتباهها و خطاهای تولید عملکرد قدرتمندتری داشت و با افزودن نویز و انتقال فاز به هر MZI شبیهسازی شده است. FFTNet بهصورت درخورتوجهی از GridNet عملکرد پایدارتری داشت و دراصل، کاراییاش با درنظرگرفتن نویز مصنوعی به کمتر از ۵۰ درصد افت میکرد؛ درحالیکه کارایی FFTNet در همان شرایط ثابت باقی میماند.
نمونهکارهای اولیه و شبیهسازیشده نشان میدهند شبکههای عصبی نوری میتوانند جایگزین معتبری برای طرحهای مبتنیبر تراشههای سیلیکونی باشند. ویرزینسکی اضافه کرد:
مدارهای بزرگتر به دستگاههای بیشتری چون MZIها در هر تراشه نیازمندند؛ بنابراین، تلاش برای رسیدن به قابلیت تنظیم دقیق (Fine Tune) در هر دستگاه در تراشهای پس از تولید، مشکلی روبهرشد است. روش مقیاسپذیرتر برای آموزش ONNها در محیط نرمافزار، مدارهای تولیدانبوه براساس این پارامترها خواهد بود. نتایج نشان میدهد انتخاب معماری مناسب میتواند احتمال دستیابی به مدارهایی با عملکرد مطلوب را افزایش خواهند داد؛ حتی اگر با تغییرات در تولید مواجه شویم.
قابلیت ایجاد ONNهای مؤثر در مواجهه با تغییرات تولیدی، یعنی بهتر است در حین فرایند یادگیری ساخت این مدل شبکهی عصبی، بهینهسازی روش ساخت آنها را فرابگیریم. این قابلیت میتواند درصورت انبوهسازی و رقابتپذیری با معماری تراشههای سیلیکونی معمولی، به تجاریسازی این تراشهها کمک کند.
نصب پردازندههای اینتل روی درگاه M.2 هوش مصنوعی
اینتل (Intel) چندی پیش اعلام کرد پردازندهی شبکهی عصبی استنتاجی نیروانا (Nervana Neural Network Processor for Inference)، یا به اختصار NNP-I، مانند یک پردازندهی ۱۰ نانومتری آیس لیک (Ice Lake) طراحی میشود که روی یک بورد به درگاه M.2 متصل خواهد شد. بله؛ درست خواندید؛ روی یک درگاه M.2 نصب خواهد شد؛ این نوع از درگاهها معمولا برای ذخیرهسازی استفاده میشوند. همچنین، اینتل برای ایجاد فضای کافی برای شتابدهندههای هوش مصنوعی، مواردی مانند هستههای گرافیکی و بلوکهای نمایشگر را که بخشهای مهمی از پردازندهی آیس لیک هستند، حذف کرده است.
اکنون دیگر دنیای هوش مصنوعی بهطور کامل در برابر چشمان انسانها قدبرافراشته و کمکم خیز برمیدارد تا تحولاتی بنیادین در محاسبات گوشیهای همراه، لپتاپها و کامپیوترهای رومیزی ایجاد کند؛ اما هنوز هم بیشتر حجم کاری هوش مصنوعی در مراکز دادهای اتفاق میافتد. کارهای آموزشی که نیاز زیادی به محاسبات دارد، شبکههای عصبی پیچیدهای ایجاد میکنند که عملیاتهای تشخیص شیء، ترجمهی گفتار، تلفیق صدا و کارهایی از این قبیل را انجام میدهد، اما این شبکهها نقطهی نهایی برای تکمیل و کار نیست. اصل مهم در استفاده از توانمندی هوش مصنوعی در مقیاس بزرگ مربوطبه استقرار مدلهای تکمیلشدهای است که ازطریق مرتبسازی و تجزیهوتحلیل روزانهی دادههای جهان، آنها را بررسی میکند. این همان کاری است که استنتاج نامیده میشود.
حجم کاری فرایندهای استنتاجی بسیار سبکتر از حجم کاری فرایندهای آموزشی است؛ بنابراین ایجاد مدل برای آنها مستلزم استفاده از پردازندهها و FPGAهای قدرتمند نیست. اما این کار هم مانند هر نوع کار محاسباتی دیگر در انتها به یک موضوع ختم میشود: هزینه. به عبارت دیگر، پیشهزینهی ارزان برمبنای «عملکرد در ازای وات» برای استنتاج از اهمیت بیشتری برخوردار است و به همین دلیل است که اینتل به این فکر میکند که شتابدهندههای NNP-I خود را در یک درگاه M.2 جای بدهد. این کار برای کاستن از حجم کاری ناشی از استنتاجهای زیاد در سرورهای Xeon انجام میشود و تراشهی بزرگتر را برای کارهای محاسباتی عمومی آزاد میکنند.
نصب شتابدهندهی NNP-I در درگاههای M.2 به کاهش بار کاری ناشی از استنتاج در سرورهای Xeon میانجامد
اینتل بلوک پردازنده در طراحی اصلی آیس لیک (که در تصویر بالا نشان داده شده است) را طوری دستکاری کرد تا برای حجم کاری هوش مصنوعی مناسب باشد. پکیج استاندارد آیس لیک به همراه پردازنده و هاب کنترلر پلتفرم (PCH) در این قطعه روی یک بورد واحد قرار گرفتهاند؛ اما اینتل بلوکهای نمایشگر و GPU را از روی این سطح برداشته و جای آنها را به موتور سفارشیسازیشدهی هوش مصنوعی داده است که کاربرد آنها منحصر به انواع خاصی از کدهای استنتاجی است. علاوه بر این، اینتل موتورهای DSP را هم به آنها اضافه کرده است. این موتورها برای الگوریتمهایی استفاده میشوند که مخصوص بلوکهای شتابدهنده با عملکرد ثابت نیست و به سازگاری مدنظر برای فضای هوش مصنوعی سریعالعمل کمک میکند.
اینتل جزئیات بیشتری از بلوکهای شتابدهنده فاش نکرده است؛ اما به احتمال زیاد آنها از مجموعهای از عناصر تکراری استفاده میکنند که شباهت زیادی به یک پردازندهی گرافیکی دارد. با وجود زیرسیستم قدرتمند حافظهی Gen11 که هماکنون در این فناوری قدرتمند استفاده میشود، به احتمال زیاد شرکت تصمیم خواهد گرفت که جای واحدهای اجرای گرافیک (EU) را با منطق سفارشی عوض کند (یا شاید واحدهای موجود را اصلاح کند). این در حالی است که باید ساختارهای تکمیلی و اتصالی بین واحدها را به همان صورت حفظ کند.
پردازنده در این طراحی همچنان دارای چندین هستهی محاسباتی معماری اینتل x86 هستند. البته، اینتل تعداد هستههایی که از میکرو معماری Sunny Cove استفاده میکنند، را فاش نکرده است. اورین گرشان (Oren Gershon)، مدیر کل بخش مهندس محصولات استنتاجی در اینتل، توضیح واضحی نمیدهد و تنها میگوید چندتا از هستهها را حذف کردهاند تا فضای خالی کافی برای قطعات دیگر فراهم شود. بنابراین شاید این پردازندههای آیس لیک چهار هستهای از حالا به بعد فقط دو هستهای باشند.
اینتل این پکیج را روی انواع مختلفی از کارتهای توسعه نصب میکند؛ مثلا نوع M.2 که بالا نشان داده شد، این قابلیت را دارد که به درگاه استاندارد M.2 در یک مادربورد سرور متصل شود. حتی میتوان آن را به کارتهای توسعهای بزرگتر روی اسلات PCIe هم متصل کرد. برخلاف برخی از سیلیکونهای سفارشی مانند TPU گوگل که برای هوش مصنوعی طراحی شدهاند، این دستگاه از نظر سختافزاری تقریبا با همهی سرورهای مدرن موجود سازگاری کامل دارد. این رویکرد کاملا مقیاسپذیر است: میتوان هرچند NNP-I که لازم باشد را به سرور اضافه کرد، بهویژه با استفاده از کارتهای رایزری که در درگاههای M.2 قرار میگیرند.
اینتل میگوید NNP-I از نظر توان طراحی حرارتی (TDP) برابر با پردازندههای آیس لیک است؛ یعنی حداکثر TDP درنظر گرفتهشده برای آنها درحدود ۲۸ وات است؛ اما باید توجه داشت که محدودیت ۱۵ واتی در رابطهای M.2 مانع از انتقال قدرت به دستگاههای کوچکتر میشود. اگر NNP-I به کارتهای توسعه وصل شوند خواهند توانست با حداکثر TDP فعالیت کنند؛ یعنی عملکرد خیلی بهتری خواهند داشت.
NNP-I از نظر توان طراحی حرارتی (TDP) با پردازندههای آیس لیک برابر هستند
اینتل برای انتقال کامل وظایف استنتاجی به شتابدهنده از نرمافزار مخصوصی استفاده خواهد کرد تا پردازندهی Xeon را از تکمیل کار آگاه کند. این انتقال باعث حذف ارتباطات رفتوبرگشتی در گذرگاه PCIe با شتابدهندههای دیگر میشود. این کار بار اضافی به پردازنده تحمیل میکند؛ چرا که ایجاد وقفه میکند و دادهها را به حرکت وامیدارد. در مقابل، NNP-I بهعنوان یک سیستم مستقل با سازوکار ورودی / خروجی خود (PCH) عمل میکند که امکان دسترسی به دادههای موردنیاز برای پردازش را فراهم میکند. عملیاتهای مربوطبه هوش مصنوعی دادهها را با ولع تمام میبلعند و همین عامل موجب میشود که اتصال ۳ در ۴ و نسبتا باریک PCIe بهصورت تنگنایی در پهنای باند به نظر برسد. اما، اینتل به کاربرانش اطمینان میدهد که فشار کاری تحلیلی ویدیویی با دادههای زیاد را تست کرده و هیچ محدودیتی در آن ندیده است. بلکه برعکس؛ اینتل معتقد است این نوع از حجمهای کاری در واقع از نظر محاسباتی محدود هستند.
مقاله مرتبط:تغییر مدیریت در بزرگترین شرکت ساخت تراشه جهان
هستههای x86 از دستورالعمل یادگیری عمیق VNNI اینتل (که به نام DL Boost هم شناخته میشود) پشتیبانی میکند. این دستورالعمل از AVX-512 برای ارتقای عملکرد استفاده میکند. اینتل ادعا میکند انعطافپذیری بالای حاصل از این کار تقریبا مناسب هر نوع از حجم کاری هوش مصنوعی است؛ بهویژه مواردی که از تناسب کافی برای موتورهای هوش مصنوعی یا DSP برخوردار نیستند. علاوهبراین، اینتل کامپایلری ارائه کرده است که کد را با شتابدهندههای NNP-I سازگار میکند. فیسبوک، در طور توسعهی این فناوری، «شریک تعریفی» اینتل برای حصول اطمینان از پشتیبانی کامپایلر Glo از این قطعهی سختافزاری بود. از این گذشته، این دستگاه از همهی زبانهای استاندارد مانند PyTorch و TensorFlow هم، با کمترین تغییرات، پشتیبانی میکند.
موضوع بسیار مهمتری که گرشون به آن اشاره میکند آن است که کارایی NNP-I بسیار شگفتانگیز و بسیار بهتر از CPU یا GPUهایی است که دستورهای چندگانهای دارند. برنامهها در مراکز دادهای، اپلیکیشنهای استنتاجی از رواج بیشتری نسبت به اپلیکیشنهای آموزشی برخوردار هستند و این دستگاههای کارآمد، توان مقرونبهصرفهای را بهصورت یکجا و یکدفعه به سرویسدهندگان کلاد (CSP) و هایپراسکالرها ارائه میدهند؛ به عبارت دیگر این بخش میتواند بخشی سودآور برای اینتل باشد. اینتل قصد ندارد این دستگاهها را بهتنهایی و بهصورت خردهفروشی به بازار عرضه کند، بلکه میخواهد کاری کند که CSPها در آینده ازطریق نمونههای مبتنی بر کلاد با این فناوری آشنا شوند.
اینتل هنوز هیچ اطلاعات عملکردی در پشتیبانی از ادعای جسورانهی خود در زمینهی کارایی حاصل از این محصول رو نکرده است؛ بلکه تنها نمونههایی از آن را در اختیار چند مشتری قرار داده است و پیشبینی میکند که تولید انبوه آن در ادامهی سال جاری آغاز خواهد شد. انتظار میرود انویدیا، تولیدکنندهی GPUهای Tesla T4 برای عملیاتهای استنتاجی، و کوالکام، توسعهدهندهی پردازندههای Cloud AI 100 مبتنی بر M.2، این ادعاها و اخبار را به دقت دنبال کنند.