متن اصلی

NVIDIA-GeForce-GTX-1060-Official Front picture

Pascal Architecture

کارت گرافیک GeForce GTX 1060 بر پایه GP106 به عنوان سومین تراشه گرافیکی بزرگ انویدیا با معماری نوین Pascal می باشد، GP106 در حقیقت جانشین تراشه گرافیکی نسل گذشته GM206 (قلب تپنده GTX 960) با معماری Maxwell است و این شباهت را می توان در اندازه سطح مقطع تراشه نیز جست و جو کرد، GP106 دارای سطح مقطع به اندازه 200mm² می باشد که در مقایسه با سایز 227mm² تراشه GM206 قدری کوچکتر می باشد، به لطف فناوری ساخت پیشرفته 16nm با وجود سطح مقطع کمتر تراشه GP106 نسبت به GM206،  تعداد کلی ترانزیستور های داخلی به نسبت زیادی افزایش یافته اند و این مقدار از تعداد 2.94 در تراشه GM206 به 4.4 میلیارد در GP106 گسترش یافته است. با معرفی هر معماری جدید تراشه های گرافیکی کمپانی انویدیا تغییرات عمده ای را در زمینه عملکرد کلی و بهینه سازی مصرف انرژی تجربه می کنند، محاسبات اصلی تراشه های گرافیکی پاسکال انویدیا در واحد های پردازشگری تحت عنوان SM که در مرکز GPU قرار گرفته اند خلاصه شده است.

NVIDIA-GeForce-GTX-1060-GP106-Block-Diagram

واحد های Streaming Multiprocessor یا به اختصار SM نقش اصلی مدیریت، برنامه ریزی و اجرا تمام دستورالعمل های پردازشی وابسته به نرم افزارها و برنامه های مختلف را برعهده دارند، GP106 مشابه با تراشه های گرافیکی گذشته انویدیا از خوشه های پردازش گرافیکی (GPC)، واحد های SM و کنترل کننده های حافظه تشکیل شده است. تراشه GP106 توان پردازشی خود را از طریق 2 عدد خوشه پردازش گرافیکی با مجموع 10 واحد SM و 80 واحد بافت نگاری (TMU) همراه با 48 واحد پردازشگر پیکسل (ROP) و 6 کنترل کننده حافظه با رابط 32 بیتی (در مجموع 192Bit) فراهم می کند. انویدیا در معماری Pascal از طریق گسترش تعداد و بهینه سازی واحد های SM نسبت به نسل گذشته Maxwell عملکرد کلی را افزایش داده است، هر واحد SM دارای 128 هسته CUDA و 8 واحد بافت نگاری (TMU) می باشد که در مجموع تعداد 1280 هسته CUDA و 80 واحد بافت نگاری را برای تراشه GP106 فراهم می کند. ارائه کارایی بیشتر در کنار مصرف انرژی کمتر دو هدف اصلی در معماری جدید تراشه های گرافیکی پاسکال می باشد، انویدیا با تغییراتی که در واحد های SM موجود در تراشه های گرافیکی Pascal ایجاد کرده بهینه سازی بهتر نسبت به معماری گذشته Maxwell در زمینه مصرف انرژی را تضمین می کند.

NVIDIA Pascal Architecture  (3)

معماری Pascal بر مبنای همین راهکار توسعه یافته است با این تفاوت که پیشرفت ها و بهبود های اضافه ای را با خود همراه دارد تا در زمینه بهینه سازی مصرف انرژی از Maxwell نیز پیشی بگیرد، البته نقش مهم فناوری ساخت 16nm Fin-FET که توسط شرکت TSMC به بهره برداری رسیده است قطعا در مؤفقیت پاسکال قابل انکار نیست، واحد های پردازشی SM در تراشه GP106 دارای 128 هسته CUDA با قابلیت عملکردی Single-Precision (FP32)، تعداد 8 واحد بافت نگاری (TMU)، مقدار 256KB Register File، میزان 96KB حافظه کلی به اشتراک گذاشته (Shared Memory) و 48KB L1/Texture Cache می باشد که با یک خوشه پردازش بافت (TPC) و یک PolyMorph Engine در ارتباط است. به صورت جزئی تر هر واحد SM متشکل از 4 بلوک پردازشی با 32 هسته CUDA از نوع Single-Precision (FP32)، بافر های دستورالعمل (Instruction Buffer)، پیچیدگی های زمانبندی (Warp Scheduler) و واحد های ارسال (Dispatch Units) می باشد، اندازه Register File کاملا مشابه با معماری نسل های قبلی می باشد و مطابق با آن نیز از Warp ها و رشته بلوک های پردازشی (Thread Block) استفاده یکسانی خواهد کرد، همانطور که گفته شد SM های Pascal مشابه با Maxwell و همچنین Kepler دارای اندازه یکسانی از Register File فایل هستند اما به لطف افزایش تعداد واحد های SM در معماری پاسکال برآیند کلی سطح Register File نیز گسترش یافته است، این مسئله بدان معنی است که رشته بلوک های پردازشی در سراسر تراشه گرافیکی به میزان Register File بیشتری دسترسی دارند در نتیجه GP106 قادر خواهد بود تا از Thread ها و Warp های بیشتری پشتیبانی کند. علاوه بر این موارد حافظه کلی به اشتراک گذاشته (Shared Memory) در تراشه GP106 نیز به دلیل بیشتر شدن SM ها افزایش یافته و مجموع پهنای باند کلی حافظه اشتراکی نیز بهتر شده است.

NVIDIA Pascal Architecture  (2)

بالا رفتن نسبت پیچیدگی زمانبندی، حافظه اشتراکی و Register File در هر SM تراشه GP106 اجازه خواهد داد تا واحد های پردازشی SM با سرعت و عملکرد بیشتری کدها و دستورات پردازشی را اجرا کنند. واحد های SM در معماری Pascal در مقایسه با Maxwell از سازمان بندی مسیر داده ساده تری استفاده می کنند در نتیجه به انرژی کمتر و سطح مقطع کمتری از تراشه برای مدیریت انتقال داده ها در واحد های SM نیاز خواهد بود، همچنین انویدیا در معماری پاسکال جهت افزایش استفاده و کارایی ممیز های شناور از زمانبندی پیشرفته ای همراه با برنامه ریز برتری با قابلیت همپوشانی بارگذاری/ذخیره سازی دستور العمل ها بهره برده است، این برنامه ریز SMها در تراشه های گرافیکی پاسکال بسیار هوشمندتر از نسل قبلی مکسول می باشد و منجر به کارایی بهتر و مصرف کمتر انرژی در طول عملیات های پردازشی خواهد شد. توان عملیاتی تراشه GP106 در مبحث Single-Precision (FP32) برابر با 4.4 ترافلاپس تخمین زده شده است، طراحی GP106 تا حدود زیادی به تراشه گرافیکی همرده نسل گذشته GM206 شباهت دارد و در واقع بر اساس شالوده اصلی تراشه قبلی بنا شده است، گسترش تعداد واحد های پردازشگر SM آن هم به تعداد اندک 2 عدد در GP106 قطعا نقش اصلی عملکرد کلی خارق العاده این تراشه گرافیکی را فراهم نکرده است، راز اصلی افزایش کارایی در معماری پاسکال در فرکانس نهایی و تعدادی عامل دیگر خلاصه شده است.

NVIDIA-GeForce-GTX-1060 Specifications

انویدیا فرکانس پایه در کارت گرافیک GTX 1060 را تا میزان 1506MHz در نظر گرفته که این رقم در GM206 برابر با 1126MHz بوده است، به کمک فناوری Turbo Boost فرکانس نهایی تا رقم قابل توجه 1709MHz افزایش خواهد یافت که با کمی اورکلاک دسترسی به فرکانس باور نکردنی 2000MHz چندان دور از انتظار نخواهد بود. کارت گرافیک GTX 1060 مشابه با مدل همرده خود (GTX 960) در نسل گذشته از حافظه های اصلی از نوع GDDR5 استفاده می کند، با این تفاوت که مجموع ظرفیت حافظه تا 6 گیگابایت افزایش یافته است و بر خلاف GTX 960 که از رابط 128Bit استفاده می کند، کارت گرافیک میان رده GTX 1060 دارای رابط حافظه 192Bit خواهد بود که در نهایت پهنای باندی را تا میزان 192GB/s برای کارت گرافیک مورد نظر فراهم می کند، این مقدار تقریبا 80GB/s بیشتر از GTX 960 می باشد. طبق آخرین گزارش های منتشر شده به نظر می رسد که کارت گرافیک GeForce GTX 1060 از تکنولوژی استفاده از چند کارت گرافیک به صورت همزمان (SLI) پشتیبانی نخواهد کرد.

pascal memory compression

Pascal Memory Compression

مشابه با معماری Maxwell که از طریق الگوریتم های فشرده سازی و حافظه کش بهینه سازی شده به طور مؤثری از پهنای باند کلی استفاده می کند در معماری نوین Pascal نیز انویدیا تکنیک فشرده سازی بسیار پیشرفته تری تحت عنوان lossless را پیاده سازی کرده است تا اختلاف یا دلتا فشرده سازی رنگ ها را به معیار 2:1 نزدیک کند، این ویژگی باعث کاهش 20% حجم داده تصاویر متحرک در هر فریم جهت عبور از حافظه اصلی می شود.

Pascal Simultaneous Multi-Projection

Simultaneous Multi-Projection

انویدیا همراه با معماری Pascal چندین قابلیت جدید را معرفی کرد که Simultaneous Multi-Projection اولین مبحث آن می باشد، این ویژگی به صورت سخت افزاری در بطن PolyMorph Engine های مرتبط با واحد های SM قرار گرفته است، نقش کلیدی این بخش کوچک پردازشگر دریافت داده های هندسی و اصلاح آن ها به صورت نمایش فیزیکی در تصویر های خروجی صفحه نمایش است که به طور همزمان با تفسیر یک صحنه سه بعدی از طریق چند دیدگاه مختلف خروجی تصویر دقیق تری را از تصاویر فراگیر در اختیار کاربران قرار می دهد.

Simultaneous Multi-Projection

اهمیت این موضوع در بخش بازی های هماهنگ با تکنولوژی VR یا واقعیت مجازی بسیار بیشتر می شود چرا که این اصلاح تصویر در نهایت منجر به افزایش عملکرد کلی پردازش داده های گرافیکی و همچنین ارائه تصاویر متحرک با کیفیت و جزئیات بهتری خواهد شد.

Dynamic Load Balancing

Asynchronous Compute

 معماری Pascal تعدادی تغییرات در بخش Asynchronous Compute یا پردازش های ناهمگام نیز با خود داشته است که از دلایل اصلی چنین تغییراتی می توان به مبحث واقعیت مجازی (VR)، رابط برنامه نویسی DirectX 12 و برتری معماری کمپانی رقیب (AMD) در این بخش اشاره کرد، انویدیا در Maxwell از شیوه تفکیک یا تقسیم کردن ایستا (Static Partitioning) جهت تطبیق پردازش گرافیکی اشتراکی با پردازش های محاسباتی یا به اصطلاح Compute محور استفاده کرده است، در حالت تئوری تا زمانیکه هر دو بخش پردازشگر گرافیکی و محاسباتی فعال باشند این گزینه روش مناسبی برای به حداکثر رساندن میزان استفاده از منابع پردازشی تراشه گرافیکی (GPU) است، اما اگر به فرض مثال در تراشه های گرافیکی بهینه شده برای مبحث گیمینگ که بخش زیادی از منابع پردازشی جهت پوشش پردازش های گرافیکی اختصاص داده شده در صف انتظار برای اتمام بخش پردازشی دیگر (Compute) باشد قسمت اعظمی از عملکرد کلی به هدر خواهد رفت.

pascal instruction-preemption

در معماری پاسکال انویدیا با استفاده از ویژگی جدید Dynamic Load Balancing این امکان را فراهم کرده است تا منابع پردازشی تراشه گرافیکی در صورت نیاز در اولویت بندی مناسبی قرار گیرند و انجام دستورات پردازشی به طور پویا و داینامیک ادامه یابند این اولویت بندی پردازشی توسط درایور کارت گرافیکی انجام خواهد پذیرفت. علاوه بر آن انویدیا با تقویت مبحث Preemption نیز اهداف بلند مدتی در پیشرفت در بخش پردازش های ناهمگام داشته است، Preemption در واقع توانایی جهت قطع کار یا وظیفه به منظور آدرس دهی حجم کار هایی با حساسیت زمانبندی بالا می باشد که کاهش زمان تاخیر نقش کلیدی را در این فرآیند ایفا می کند.

Ansel

Ansel

Ansel یکی دیگر از ویژگی های بسیار جالبی می باشد که انویدیا برای کاربران کارت های گرافیک Pascal در نظر گرفته است، این ویژگی ارتباطی به عملکرد یا کارایی بخش گیمینگ ندارد و ابزاری جهت تهیه اسکرین شات یا تصویر برداری از محیط بازی های کامپیوتری با جزئیات بیشتر است، Ansel به کاربران اجازه می دهد تا در بازی های سازگار با این تکنولوژی در هر زمان دلخواه گیم پلی بازی را متوقف کرده و با آزادی عملی که در بخش تنظیمات نور و روشنایی در اختیار آن ها قرار می گیرد اقدام به تهیه بهترین تصاویر ممکن کنند.

High Dynamic Range

High Dynamic Range

مبحث High Dynamic Range یا به اختصار HDR مفهوم جدیدی در عکاسی و ابزار های مرتبط به فیلم و بخش چند رسانه ای نیست، این ویژگی حتی در بخش بازی های کامپیوتری نیز چندان جدید نمی باشد و در عناوین بسیار قدیمی بر پایه موتور گرافیکی Valve هم مشاهده می شود، اما برنامه ها در آن زمان برای تقلید HDR به طرح رنگ 24 بیتی (8 بیت در هر رنگ با مجموع 16.7 میلیون رنگ) محدود شده بودند، کارت های گرافیک پیشرفته امروزی که از پهنای باند بسیار زیادی بهره می برند به طور معمول با حجم بسیار زیادی از طرح رنگ سازگار هستند، به عبارت دیگر پشتیبانی از طرح رنگ 10 بیتی با مجموع 1.07 میلیارد رنگ و طرح 12 بیتی با 68.7 میلیون رنگ به کارت های گرافیکی نظیر GTX 1060 این امکان را می دهد تا محتوا های مرتبط با HDR را بدون نیاز به شبیه سازی نرم افزاری بهبود ببخشند. این برتری کارت های گرافیک نسل امروزی تنها به اینجا خلاصه نمی شود بلکه سازگاری با رمزگشایی 10 و 12 بیتی فایل های ویدئویی HVEC در وضوح تصویر 4K@ 60Hz و همچنین توانایی تبدیل و رمزگذاری 10 بیتی فایل های مورد نظر در وضوح مشابه بخشی دیگر از قابلیت های جدید محصولات Pascal خواهد بود.

NVIDIA Fast Sync (1)

Fast Sync

طی چند سال گذشته انویدیا با معرفی هر نسل معماری جدید تراشه های گرافیکی استاندارد نوینی را در بخش همگام سازی صفحه نمایش معرفی کرده است، با معماری Kepler ویژگی Adaptive V-Sync پدیدار شد، با Maxwell فناوری G-Sync و همراه با Pascal انویدیا ویژگی جدیدی تحت عنوان Fast Sync تدارک دیده است، طبق گفته انویدیا Fast Sync به جهت زمان تاخیر بسیار پایین جایگزین ارزشمندی برای همگام سازی مرسوم عمودی (V-Sync) خواهد بود که از گسستگی فریم ها جلوگیری می کند، در طول یک دهه گذشته نمایشگر ها از مشکلات گسستگی، لگ و تیک تصویر روی صفحه نمایش بی بهره نبوده اند، دلیل اصلی این پدیده تفاوت میان نرخ فریم خروجی تراشه گرافیکی با نرخ تازه سازی تصویر یا به اصطلاح Refresh Rate نمایشگر ها می باشد.

NVIDIA Fast Sync (2)

طبق طبیعت پویای بازی های کامپیوتری کارت های گرافیک فریم ها را در نرخ متفاوتی رندر می کنند به طوریکه کارت گرافیک به دنبال هماهنگی با نمایشگر می باشد، این عمل به صورت مداوم باعث ایجاد گسستگی در تصویر می شود، فعال کردن گزینه V-sync یا Vertical-Sync(همگام سازی عمودی) این گسستگی را محدود می کند اما در کنار آن باعث افزایش میزان لگ و تیک در زمان Refresh کارت گرافیک و نمایشگر در نرخ متفاوت می شود، Fast Sync با ارائه راهبردی مشابه با V-Sync اما با توانایی محدود سازی لگ و زمان تاخیر راهکاری منحصر به فرد جهت فراهم کردن تجربه ای مناسب از محیط بازی های کامپیوتری خواهد شد.

gpu-boost3

GPU Boost 3.0

انویدیا چند سال پیش همزمان با معماری Kepler و کارت های گرافیک سری GTX 600 تکنولوژی Turbo Boost را معرفی کرد، به طور معمول هر تراشه گرافیکی دارای فرکانس ثابتی است که به آن فرکانس پایه گفته می شود و در کنار این دارای فرکانسی از نوع Boost نیز خواهد بود، تکنولوژی Turbo Boost به کارت گرافیک اجازه می دهد تا با توجه به شرایط دمایی و حجم کاری مختلف فرکانس تراشه گرافیکی را از میزان پایه چند پله ای افزایش دهد، از زمان معرفی GPU Boost بخش فرکانس ها و ولتاژ های پویا به مبحث مهمی تبدیل شدند، این فناوری که کمپانی انویدیا از آن به عنوان Nvidia Boost یاد می کند هم اکنون به نسخه سوم ارتقاء یافته است. در نسل گذشته (GPU Boost 2.0) پس از اعمال فرکانسی ثابت اولیه منحنی ولتاژ و فرکانس در مقدار تعریف شده و معینی تغییر می کرد، در نتیجه دسترسی به حداکثر پتانسیل فرکانسی غیر ممکن بوده است، اما برخلاف نسل گذشته در GPU Boost 3.0 می توان با توجه به حداکثر دمای مجاز فرکانس را متناسب با نقاط ولتاژی منحصر به فرد اعمال کرد.