چندی از تکنولوژی های نوین
HYPER Q در نهایت برای تسلا ها بیشتر در بخش راک ها اهمیت داره اما کلا تکنولوژی هست که به جای یک صف برای درسترسی به کودا ها 32 صف دستوری جدا گانه برای دسترسی پردازنده ها به cuda core ها فرا هم میکنه و بهره وری رو بالا میبره.
اما Dynamic parallisim از همه حیاتی تر و بسیار ترسناکه : جدای از اون قابلیت تشخیص حدی grid resoloution که در تصویر نشون داده شده و ربطی به بحث فعلی ما نداره قابلیت اوتونامسولی Autonomously یا همون خودکفایی تراشه برای انطباق با ترد هاست که احتمال میره به خاطر هسته های ARM یا یک GTE بسیار پیشرفته باشه (هنوز چیزی مشخص نیست)-چون همونطور که میبنید تراشه های گذشته برای انتباق ترد ها با هسته های کودا ها مرتب به پردازنده مراجعه میکنه اما با DP این خود تراشه هست که این انطباق رو فراهم میکنه و دفعات بازگشت به پردازنده برای Adapting کم میکنه.(همین میشه خودکفایی تراشه و هوشمند بودن اون چیزی که احتمال میره به خاطر یک GTE عجیب و غریب یا هسته های ARM باشه )
اما نکته ای که 99% از نظر من قطعیه اینه که خیلی احتمال کمی داره تراشه دارای 16SMX باشه - واضح هست که G110 دارای 15 SMX خواهد بود و هست های اون میشه 2880 تا - یک بخش عظیمی از تراشه معلوم نیست چیه اما احتمالا همون front end عجیب غریب اینده انودیا هست.
هرچی که هست خدا اخر و عاقبت همرو به خیر کنه : دی
ویرایش
رفقا مشخصات دقیق اعلام شد: دی همون 15 smx که عرض کردن شد و باز هم پیش بینی ننگین من درست از اب در اومد: (البته جز مشخصات gpu باقی مشخصات بورد تسلا K20 هست)
If you are wondering what NVIDIA did pack in the 7.1 billion transistors, the answers are as follows:
2880 CUDA Cores
15 SMX Clusters
384-bit Memory Controller
Up to 24GB of GDDR5 memory
2nd Gen ECC
Hardware GPU Silicon Virtualization
Hyper-Q (Slashes CPU idle time by allowing multiple CPU cores to simultaneously utilize a single Kepler GPU, dramatically advancing programmability and efficiency)
Dynamic Parallelism (Simplifies GPU programming by allowing programmers to easily accelerate all parallel nested loops – resulting in a GPU dynamically spawning new threads on its own without going back to the CPU)
50-85% Double Precision Rate to Single Precision
At least 1.5 TFLOPS DP FP64
Target: 250 GB/s bandwidth
نکته قابل توجه بعد از 15 تا SMX بودن تراشه وجود 6 مموری کنترلر بودن تراشه هست که اون رو 384-bit ایی مثل TAHITI یعنی High end اصلی amd کرده - اینجاست که باید بگیم high end vs high end نه mid range vs high end
انودیا فعلا برای شروع 15.000 تا k20 واسه Jaguar, i.e. Titan at Oak Ridge National Laboratories (ORNL) پیش فروش کرده و دیگه به نظرم TSMC باید کل ظرفیت کارخونش رو به انودیا بده نه اولویت اولش رو.
(هیچ میدونستید چیپ های تحویلی تاهیتی از TSMC به AMD از 10.000 تجاوز نمیکنه ؟؟؟؟ اونوقت انودیا فقط برای بخش تسلا اونم ب بسم ال... 15.000 تا برای ابرکامیپوتر های مطرح دنیا گذاشته کنار . این ورای تصوره.)
نکته دیگه اینه که همه سایت ها و بنچمارک های خطی محاسباتی برتری شدید Tahiti رو در روی کاغذ نسبت به gk104 نشون دادن (همین اتفاق برای hd5870 و gtx480 هم وجود داشت و سندش هم موجوده) الان کجای دنیا از تاهیتی دارن برای comuting استفاده می کنن ؟؟ اصلا 1 مشتری هم داشته ؟؟؟ (در عمل و تست های مهندسین شرکت های HPC اگر محصول AMD تا این هد قوی بود مغز اسب که نخوردن از همین الان 15000 تا فقط K20 رزرو کنن : دی )
خوب البته AMD همیشه پروپوگاند های عظیمش که توسط هواداران پر تعدادش در سراسر وب قویا وجود داره اما بدبختی اینه که در عمل 0% هم جلو نمیره و مشتری های محاسباتی یعنی HPC maker ها شرکت های بزرگی هستن که 1000 مهندس دارن که تراشه هارو برسی میکنن - فعلا هنوز ندیده و نشناخته تا q4-2012 حدود 15000 فقط k20 سفارش گرفته .یعنی 100% بازار hpc ها . :د یییییییی