تبلیغات :
آکوستیک ، فوم شانه تخم مرغی، صداگیر ماینر ، یونولیت
دستگاه جوجه کشی حرفه ای
فروش آنلاین لباس کودک
خرید فالوور ایرانی
خرید فالوور اینستاگرام
خرید ممبر تلگرام

[ + افزودن آگهی متنی جدید ]




نمايش نتايج 1 به 10 از 10

نام تاپيک: برسی تخصصی معماری کپلر GK104 : تراشه ای برای بازدهی

  1. #1
    اگه نباشه جاش خالی می مونه ramincybran's Avatar
    تاريخ عضويت
    Oct 2009
    پست ها
    293

    پيش فرض برسی تخصصی معماری کپلر GK104 : تراشه ای برای بازدهی

    بخش 1 :


    درود بر دوستان عزیز

    اول از همه شرمنده ام که واژه تخصصی رو به کار بردم(تخصص در دستان مهندسین طراح amd/nvidia هست اما چون اینحا قرار نیست از review ها یا مطالبی که همه جا در درسترس هست و همه میتونن ببینن و متوجه بشن صحبتی کنم واژه تخصصی رو به کار بردم-این مقاله شامل بخش هایی هست برای علاقمندان به معماری تراشه ها و افرادی که دوست دارن بدونن این تراشه ها چگونه عمل میکنن و کارایی اونها چیست.

    خوب بعد از GCN و Fermi نوبتی هم که باشه نوبت کپلر GK104 هست که برسی بشه.باز هم میگم در این مقاله اصلا قصد ندارم روی مواردی که همه جا چندین چند بار تکرار کردم و یا تکرار شده بحث کنم.همه میدونیم مشخصات کلی کپلر GK104 چی هست و میدونیم این تراشه درواقع Midrange سری کپلر هست که فعلا در رده High End به علت بازدهی بسیار بالا عرضه شده.

    در این مقاله بنده سعی میکنم روی تکنولوژی های جدید به کار رفته - برسی تخصصی معماری و تفاوت ها شباهت های کپلر با نسل فرمی و صورت کلی پردازش و مقایسش با رقیب GCN برای برند محترم AMD بپردازم.

    قبل از برسی کلی معماری کپلر بیایم ببنیم اصلا قرار بود چه اتفاقی بیفته -نقشه راه ان,دیا کجاست-ایا انودیا کاری خارج از چهارچوب راهبردی اش داشته؟؟؟

    بیاید به نقشه راه تصصیح شده nvidia از نسل تسلا تا maxwell که قراره 2014 عرضه بشه نگاهی بندازیم:


    طبق این انودیا در نقشه راه خودش پیش بینی کرده بود که با کپلر به بازدهی dp performnce per watte بین 5 تا 6 برابری فرمی خواهد رسید و این برای ماکسول تا 16 برابر فرمی-تسلا خواهد بود. ایا این به نظر شما ممکنه؟؟ ایا انودیا توان چنین کاری رو داشته و میتونه انجام بده؟؟

    خوب اگر با هم به برسی معماری کپلر بپردازیم شاید به جواب این سوال برسیم


    برسی معماری کپلر


    قبل از هرچیزی قراره در این مقاله چه چیز هایی رو بخونید؟

    بنده ابتدا سعی میکنم صورت تفاوت کلی کپلر رو با نسل قبل اون فرمی و حالا اگر فرصتی بود با معماری amd انجام بدم بعد از اون هم به صورت تخصصی به برسی جزئیات معماری و علل کوچک ماندن تراشه با توجه به افزایش بیسابقه هسته ها خدمت دوستان عرض میکنم.

    معماری جدید کپلر : تقطیر شده فرمی

    اگر نگاهی به GK104 بندازیم حتی Die shot اون رو هم نگاه کنیم متوجه شباهت های بسیار بسیار زیاد اون با نسل قبلی اون فرمی میشیم.در واقع اگر بخوایم منصفانه نگاه کنیم بر خلاف Fermi architecture و GCN تراشه کپلر معماری جدیدی ندارد و نوع جدیدی از فرمی با ویژگی هایی جدید هست.

    اگر از دید Multi processor Level (سطح بالا) به تراشه نگاه کنیم به لحاظ عملکرد معماری های فرمی و کپلر بسیار به هم شبیه هستن.اگر با GF100/110 مقایسه کنیم که خوب از اونجایی که روی هسته ها در SM متد ILP عملی نمیشه تفاوت ها بسیار بیشتر هم هستن.بنابراین بهتره اگر در اینده میخوایم از دید ML به تراشه نگاه کنیم بیشتر SM در GF104/114 رو مورد برسی قرار بدیم.

    برای اینکه ببنیم تراشه دقیقا به چه صورت عمل میکنه بهتره بیایم از کوچکترین جزء شروع کنیم و پله پله به ساختار تراشه بزرگ برسیم.

    درواقع اصل تغییرات در هسته های اجرایی تراشه هستن.

    Building A kepler GK104


    first : an Execution unit Hotclock

    یکی از سوالاتی که در این مدت در تمام تاپیک های ایران و خارج از کشور روش زوم شده این هست که چگونه انودیا 3 برابر هسته های gtx580 رو در تراشه ای به کار برده اما فقط 16% به تعداد ترانزیستور های تراشه اضافه شده.این یعنی عملا انگار هیچ اتفاقی نیوفتاده.

    این مورد چندین دلیل داره -یکی تعداد بسیار کم SM ها که موجب کاهش تعداد Front end ها و FFU ها شده و من تا به حال چندین بار این رو عرض کردم.

    یکی دیگر از ادعاهای انودیا این هست که با از بین بردن hotclock به efficiency بالایی رسیده وهم در حجم تراشه و هم در مصرف برد کرده -برای اینکه ببنیم این حرف ایا عینیت واقعی داره من یک مثال عملی رو خدمت دوستان میارم.

    برای درک این سوال باید برگردیم به تئوری ساخت نیمه هادی ها و اینکه چرا تراشه های دارای اجزائ اسنکرون داخلی یا multiple clock (البته در اینجا pumped clock که بعدا عرض میکنم)داخلی که بر خلاف جریان داده (data flow) سطح تراشه چون با فرکانسی متفاوت از کل تراشه عمل میکنن باعث افزایش حجم کلی تراشه در نتیجه استفاده از ترانزیستور بیشتر و نهایتا مصرف بیشتر میشن.

    من برای اینکه دوستان درک بهتری از موضوع پیدا کنن یک مسئله تخصصی رو یعنی افزایش حجم یک ALU رو روی یک تراشه ASIC یا FPGA خدمت دوستا نشون میدم.(البته تعریف از خود نباشه فک میکنم اولین بار در دنیا باشه که یک نفر با سنتز مدار به صورت عملی این مورد رو نشون میده (تعریف از خود نباشه : دی )

    برای اینکه مسئله رو متوجه بشید من میخوام یک integer ALU رو طراحی کنم که با سنتز برنامه VHDL توسط xilinx ISE یک مدار با ضریب کلاک کل Data flow (به این معنا که ضریب alu با کل تراشه یکی هست) و یک مدار با ضریب کلاک خارج از data flow (در انودیا به صورت pumped clock) چه تاثیری بر حجم کلی این int ALU میگذاره.

    خوب من با زبان VHDL یک ALU با مشخصه 8 دستور منطق(logic) و 8 دستور محاسبه (arithmetic) و البته ورودی های 8bit BUS برای ورودی و خروجی و البته یک selector 4bit برای سوئیچ روی دستورات دو بخش منطق و محاسبه ایجاد کردم.

    متن برنامه VHDL نیازی نیست خدمت دوستان بدم(در صورت علاقه مندی دوستان بفرمایند من در pm خدمتشون میدم ) و برای شبیه سازی مدار هم از Xilinx ISE v8.2 استفاده شده.

    تصویر زیر شماتیک مدار بدون ضریب کلاک اضافی خارج از جریان داده تراشه هست:



    تصویر زیر شماتیک همان ALU با ضریب کلاک خارج از Data flow کل تراشه :


    اینها سنتز XST شده یک برنامه VHDL برای یک ALU با 16 دستورالعمل هست -تفاوت 2 شماتیک تنها در یک کلاک اضافی برای ALU هست که تقریبا ابعاد تراشرو حداقل 45% اضافه کرده.(در شکل پیداه سازی تا 300% میتونه افزایش داشته باشه اما با بهینه سازی مداری ابعاد تراشه نهایتا 20% اضافه میشه)

    اینکه حالا با انجام بهینه سازی ها میشه Pipline Stage هارو بسیار کاهش داد چیز مشخصی هست اما در کل طبق ازمایش بالا به وضوح متوجه شدیم ایجاد یک کلاک خارج از جریان داده تراشه موجب افزایش شدید حجم integrated circuit های مدار و افزایش بی مورد pipline stage ها برای ردگیری کلاک توسعه یافته میشه.

    این توضیحات کاملا اضافی و در حد اکادمیک بود و در هیچ ریویو به اون اشاره نشده چون اینها در سطح دانشگاهی و embedded chip designer های این کاره کارشون برسی و شبیه سازی -بهینه سازی تراشه ها هست و اون ادیتور بدبخت شاید به عمرش اسم FPGA/CPLD ها به گوشش نخورده باشه چه برسه به شبیه ساز های تراشه های پیش ساخته بدون handcrafting design : دی

    برگردیم به بحثمون و اینکه انودیا چگونه بدون افزایش زیاد ترانزیستور این همه هسته به sm ها اضافه کرده.

    Eliminate Hotclock

    یکی از تئوری ها و مسائل اصلی طراحی های انودیا از سری G80 یا GT200 با اسم رمز تراشه تسلا تا همین فرمی استفاده از واحد های اجرایی در فرکانسی بسیار بالاتر از کل تراشه با یک ضریب خاص بود.انودیا پیش تر اسم اون رو Shader Clock گذاشته بود و واحد های اجرایی execution Unite ها با ضریب ثابتی مثلا در فرمی 2x یا در نسل های پیشتر به ترتیب زیادتر تا 2.5x نسبت به فرکانس کل تراشه بیشتر بود.درواقع این سیستم که با نام double pumped شناخته میشود برای یک Execution unit به منظور 2 برابر کردن فرکانس هسته های اجرایی توسط اینتل از زمان NetBurst architecture شروع (همون معماری که در هسته های pentium 4 بکار رفت) و توسط انودیا از زمان نسل تسلا تا همین فرمی ادامه داشته.

    حال در کپلر چه اتفاقی افتاده !!!

    طبق نقشه راه مهندسین Nvidia معماری نسل اینده باید راندمان بی نهایت بالایی داشته باشه-طوری که طبق نقشه راه انودیا تا 5 الی 6 برابر نسل گذشته کارایی نسبت به توان برای معماری کپلر در نظر گرفته بشه.

    طبق بیان NVIDIA's VP of GPU Engineering جناب اقای Jonah Alben ما اینو ساختیم پس بزارید بهبودش هم بدیم.


    در این معماری به جای 2 برابر کردن هسته های اجرایی برای بازدهی بالاتر اومدن هسته های اجرایی رو چند برابر به نفع راندمان بالاتر کردن بنا بر این کل warp ها (در review فرمی که خیلی پیش تر ها داده بودم که متاسفانه بنا به دلایلی که البته خودم مقصر بودم به نام شخص دیگه ای ثبت شده توضیحات کامل warp هارو خدمت دوستان دادم)
    باسیستم زمان بندی جدید در کل هسته ها issue و پخش میشن و بدون انجام کار با سرعت 2برابر front End همگام با اون منتظر روال بعدی warp ها میشن به این صورت تراشه به بازدهی بالاتر میرسه.

    تصویر زیر قیاس کلی و بهبود های Elimination hotclock هست:


    توضیحات:

    1 : هر 2 هسته کپلر با pipline instruction مشابه بدون 2x clock تنها 1.8 برابر 1 هسته در فرمی رو داره(عملا هر هسته کپلر حدود 10% کوچکتر از هر هسته در فرمی هست)

    توضیح: قطعا 2xclock موجب افزایش روال instruction pipline ها میشه و همین موجب افزایش 10% هر fermi cuda core نسبت به kepler cuda core میشه(در اثبات سنتز مدار alu بنده هم به نتیجه 45% افزایش رسیدیم که البته بدون بهینه سازی مدار بود)

    2 : هر 2 هسته موجود در کپلر به اندازه 90% توان مصرفی 1 هسته در فرمی مصرف داره بنابراین عملا این حرکت انودیا مهر ختمی بود برا shaderclock ها.

    3 : وقتیکه ما حرف سرعت کلاک رو هم بیاریم وسط باز هم اختلاف عمیق تر میشه و اینجا 2 هسته کپلر 50% 1 هسته انودیا در کلاک مشابه مصرف دارن.

    خوب این تازه گوشه ای از اعمال تغییرات مهندسین انودیا بود - حرکت بعدی اعمال تغییرات در سلسله روال زمان بندی بخش front End هست که در بخش بعد خدمت دوستان صحبت میکنم

    در این بخش متوجه میشیم که چرا افزایش 3 برابری هسته ها لزوما به صورت خطی موجب افزایش 3 برابری کارایی نشده.

    SW scheduling Front End

    در علوم کامپیوتری و معماری تراشه ها و میکروپروسسور ها عموما از دو طرف میشه به تراشه ها نگاه کرد :

    الف:بخش کنترلی تراشه

    ب: بخش اجرایی تراشه

    توضیح الف: بخش کنترلی و اعمال داده یک هسته مستقل که میتونیم اون رو Front End یا حتی در موارد ساده تر Control Unite بنامیم - بخشی هست که به طور کلی میتونیم مراحل زیر رو برای اون متصور بشیم:

    1: ابتداوظیفه واکشی ترد ها (fetch)

    2: برداشت اونها از کاشه دستورالعمل(inst catch) و ترجمه دستوزالعمل (instruction decoding)

    3: صف بندی و زمان بندی ارجاع دستورالعمل ها (schaduling)

    4: ارجاع دستورات زمان بندی شده به واحد اجرایی (issue)

    توضیح ب: بخش اجرایی در واقع وضیفه excute دستورات ارسالی از طرف Front End رو داره و بخش اجرایی کارامد است که به بهترین نحو وظایف ارسالی از طرف CU رو به انجام برسونه.

    تمامی تراشه ها و پردازنده ها از منطق ساده بالا پشتیبانی میکنن (هرچند در بعضی منطق طراحی تراشه ها قسمت هایی حذف و یا قسمت هایی اضافه میشه اما روال کار معمولا یکی هست)درواقع اصل اساسی بالا معتبر هست و در جزئیات تفاوت ها ایجاد میشود - مثل تکنولوژی های اینتل در پردازنده های خود برای به حداکثر رسوندن IPC که اینجا مجالی برای توضیح اونها نیست و ربطی هم به این تاپیک نداره (اگر استقبال بشه بعدا در اون مورد هم صحبت میکنیم).

    مهندسین طراح پردازشگر ها معمولا چندین راه برای اعمال متد پردازشی بالا رو دارن و این متد ها رو شاید بشناسید .در این مقاله مجالی برای توضیح انواع اونها نیست من فقط به منطق Nvidia و نسل پیشین و مقایسه اون با کپلر میپردازم.

    --------------------------------------

    در منطق زمان بندی دستورالعمل ها برای اجرا در تراشه های قدیم و جدید ( مراحل 2 و3 ) مهندسین طراح همیشه 2 راه رو پیش روی خودشون داشتن

    static scheduling

    در این متد زمان بندی دستورات و طبقه بندی و اسال اونها طبق یک جدول از پیش تایین شده instruction info که توسط نرمافزار software به تراشه همراه با اطلاعات operand ها و instruction ها هست ارسال میشه و عملا front end تنها وظیفه ورپ سازی و ارسال اونها رو به execution units ها داره (توضیح دقیق ترشو از دید ML در ادامه خدمت دوستان میدم):

    1 : در این حالت تراشه بشدت شکل intensively compiler به خودش میگیره و درواقع توان autonomously processing خودش رو بشدت از دست میده و به برنامه نویسان و کارایی بهینگی استفاده از پردازنده برای زمان بندی اونها محتاج میشه.

    2: کار برنامه نویسان و درایور سازان برای بهینگی درایور زمانبند توسط پردازنده برای اون تراشه بسیار بسیار مشکل میشه چون باید بهترین حالت بهینگی نرم افزار رو برای تراشه ایجاد کنن که عملا با حجم وسیع محصولات در PC عملا این کار بی نهایت دشوار تر هم میشه.(تمام اینها به منظور زمان بندی صحیح و بهینه توسط درایور هست)

    3:درصورت بهینگی ارجاع و زمانبندی دستورالعمل ها قدرت تراشه میتونه به صورت خطی افزایش پیدا کنه(توان تراشه در صورت بهینگی ارجاع دستورات به شکل غیرقابل تصوری بالا میره چیزی که در کنسول های بازی میبینیم)

    4: این سیستم موجب کاهش پیچیدگی Front End میشه در نتیجه در die size اختصاصی واحد کنترل میتونن صرفه جویی کنن.

    5: کاهش autonomously processing به معنای از دست دادن حدی قدرت محاسباتی computing capibility هست(که البته در گیمینگ تاثیری نداره).چون تراشه عملا به طیف وسیع و متفاوت دستورالعمل ها نمیتونه واکنش مناسب بده و نیازی به برنامه ریزی مستقیم تراشه برای کارکرد منسب به ازای هر دستور متغیر هست و این برای داده های محاسباتی پیشچیده اصلا مناسب نیست.

    HardWare scheduling

    در این متد بخش Front End طوری طراحی میشه که حدالمکان بتونه به صورت مسقل تمامی وظایف زمانبندی و چک instruction dependency و ...رو به صورت خودمختار انجام بده ( هر چند اصل کار رو پردازنده از طریق اعمال درایور انجام میده و توضیحات تکمیلی در ادامه متن خدمت دوستان میدم) :

    بیاید به مزایا و معایب این سیستم نگاهی کنیم:

    1: در این حالت تراشه خودمختار تر از SW scheduling هست

    2: برنامه نویسان کار راحت تری برای بهنگی نرم افزار ها روی تراشه دارن چون عمده کار رو بخش Front End تراشه به عهده داره.سرعت بهینگی نرمافزار ها برای تراشه بهبود زیادی نسبت به متد قبلی داره.

    3: چون بخش Front End خود وظیفه چک وابتگی دستورالعمل ها و ایجاد جدول زمانبدی دستورات رو داره عملا Front End به کلاک های بیشتری برای ایجاد ریسمان (warp) های مناسب برای تغذیه Execution unite ها نسبت به مدل قبلی داره.یعنی در صورت بهینگی دستورات برای حالت قبل عملکرد تراشه با SW method بسیار چشمگیرتر خواهد بود.

    4:این سیستم موجب افزایش پیچیدگی و مدار های داخلی برای CU هست که بتونه به صورت خودمختار (Autonomously) دستورات رو dependency checking و scheduling کند.

    5: افزایش autonomously processing به معنای بدست اوردن حدی قدرت محاسباتی Compute در تراشه هست.چون تراشه عملا به طیف وسیع و متفاوت دستورالعمل ها میتونه واکنش مناسب بده و نیازی به برنامه ریزی نداشته باشه.

    این بود شکل کلی این روال ها که قاعدتا عینن در GPU ها اجرا نیمشه اما شباهت هایی داره که بعدا خدمت دوستان عرض میشه.

    در کپلر چه اتفاقی افتاده؟خوب اگر بخوایم منصافنه بگیم

    This architecture is not compute compatible
    it's just for effeciency


    خوب پیش از هرچیزی باید بگیم مهندسین انودیا در کپلر تصمیم گرفتن متد SW scheduling رو پیاده سازی کنن.برای فهم بیشتر به تصویر زیر دقت کنید:


    در تصویر بالا شما شاهد نحوه قرار گیری بلاک و سیستم زمانبند در فرمی و کپلر هستیداگر بخوایم برای توضیح از نسل قبل فرمی شروع کنیم باید بگیم سیستم HW scheduling تراشه ای مثل GF114 در بخش FRONT End نه تنها قادر به انجام کار های پایه ای زمانبدی مثل scoreboarding (منظور از scoreboarding نگاهداری ریسمان warp هایی است که روی مموری در انتظار دسترسی به واحد های اجرایی هستن یا باقی عملیات هایی که تاخیر زیادی دارن) و یا انتخاب و برداشت warp ها از بخش pool ریسمان ها برای اجرا بود بلکه علاوه بر اینها Front End فرمی مسئول زمانبندی خود دستورالعمل های موجود در ریسمان ها هم بود.

    این مورد در فرمی عملا موجب میشد که تراشه قادر به انجام اعمال محاسباتی با حد تغییر زیاد دستورالعمل ها به خاطر پیچیدگی FE اون باشه.پیچیدگی Front End برای تراشه ای که تعداد کمی واحد زمانبند در تراشه خود داراست عامل مهمی محسوب نمیشه .

    اما این پیچیدگی که موجب پایین امدن power and area efficiency میشود برای تراشه ای که 32 واحد زمانبند در سطح تراشه خود دارا هست عملا موجب افزایش شدید سطح تراشه وپایین امدن بازدهی اون میشه و این برای کپلر GK104 غیر قابل قبول هست.

    به همین علت براورد مهندسین nVIDIA برای کپلر استفاده از همین static scheduling هست تا به power and area efficiency بالایی برای تراشه برسن.

    برای توضیح و فهم بیشتر و اینکه این مورد در GPU ها چگونه هست متن زیر رو با دقت بخونید:

    به طور سنتی (در نسل فرمی الاخصوص) پردازنده با توجه به دستورات درایور شروع به ساخت یک روال ثابت زمانبندی static scheduling میکنه و سپس اون ها رو به واحد های زمانبندی سخت افزاری GPU میفرسته که این باعث افزایش پیچیدگی هم بخش Hardwrae و هم software میشود(هرچند بخش software نسبت به حالت تماما نرمافزاری کار راحت تری رو پیش رو داره).به طور کلی Hardware instruction scheduling به پردازنده اجازه میده به بهترین روش ممکن و با بالاترین بازدهی که اجازه داده میشه به صورت real time دستورات رو زمانبندی کنه بدون در نظر گرفتن به روال موکد دستور دهی خودش دستورات رو زمان بندی میکنه.این به نوبه خودموجب افزایش بازدهی پردازنده میشه.

    (معذرت میخوام اگر کمی مشکل هست بحث بالا اگر سوالی بود در ادامه تاپیک خوشحال میشم بپرسید)

    خوب طبق صحبت های بالا Hardware scheduling بسیار عالی هم هست-اما تحقیقات اخیر محققین انودیا چیز دیگه ای رو نشون داده:در ادامه به این میپردازیم:

    تحقیقات و شبیه سازی های معماری اخیر انودیا نشون داده که HW scheduling میزان منصفانه ای از مصرف رو در ازای فواید ناچیز در تراشه به ارمغان میاره -به طور خاص چون Pipeline math های کپلر دارای تاخیر های ثابت هستن(نسبت به نسل قبل execution unit ها در نصف فرکانس کار میکنن پس عملا این تاخیر موجهه) بنابر این وجود HW Scheduling درون سیستم warp ها(ریسمان ها) عملا زاید هست چون کامپایلر تراشه میدونه زمان تاخیر صدور هر دستورالعمل محاسباتی چقدر هست.

    بنابراین انودیا تصمیم گرفت به جای زمانبند های پیچیده سخت افزاری complex scheduler اونهارو باز مانبند های ساده ای که هنوز از scoreboarding و دیگر متد های زمانبدی داخلی ورپ ها استفاده میکند جایگزین کند.به بیان دیگر زمانبندی ورپ ها توسط کامپایلر یعنی برگشتن انودیا به سیستم قدیم static scheduling .

    سیستم sw scheduling در برابر hw scheduling با تمام ویژگی های مفیدش عملا باعث میشه تراشه در مقابله با complex compute applications دچار مشکل باشه(در بالا خدمت دوستان عرض کردم) به همین علت بود که در فرمی با استفاده از اون سیستم انودیا تراشه هایی رو مناسب با COMPUTE و GPGPU طراحی کرده بود و AMD هم با معماری GCN و استفاده از HW scheduling عملا به دنبال راه قدیم انودیا بود.

    اما انودیا فعلا تصمیم گرفته برای هر بخش تراشه هایی متناسب با اون زمینه تولید کنه و این یعنی برای gpgu هم انودیا برنامه هایی روداره.

    سیستم SW scheduling در صورت صحت عملکر کامپایلر میتونه انقلابی رو در استفاده از قدرت تراشه ایجاد کنه-تنها مشکل این هست که تاثیر درایور ها بر روی قدرت تراشه رو بسیار چشمگیر تر از گذشته ها میکنه.

    همونطور که میدونید کپلر GK104 تا 3 برابر هسته های GTX580 رو داره اما عملا قدرت هسته ها به صورت خطی افزایش پیدا نکردن-اما این پتانسیل وجود داره که در صورت بهینگی استفاده از هسته ها این تراشه قدرت خودش رو نشون بده.


    توضیحات تفاوت سیستم هایی که ساماریتن روی اونها اجرا شده رو در تصویر میبینید-کلا تراشه هایی که سیستم sw Scheduling أارن برای کنسول ها بسیار مناسب هستن چون میتونن بازی رو برای یک محصول و تراشه بسیار بهینه سازی کنن هرچند در سیستم HW scheduling هم امکان پذیره و حتی بهتر اما کمبود Effeciency این سیستم ها عملا اجازه نمیده اونها در این قسمت زیاد موفق باشن.

    البته دموی ساماریتن روی کپلر با تکنیک FXAA اجرا شده بود که باعث میشد Memmory tax برنامه بسیار کاهش پیدا کنه و 2GB رم GTX680 برای این دمو کافی به نظر برسه.

    برگردیم سر ادامه بحثمون:

    حال بهتره از دید مالتی پروسسور به تراشه نگاه کنیم و اون رو با GF114 مقایسه کنیم:

    به تصویر زیر که شمایی از یک sm در GF104/114 هست نگاهی بیندازید:



    خوب همونطور که در بالا هم عرض کردم در سیستم SM موجود در GF104 با توجه به اینکه متد ILP توسط HW scheduling چک میشه برخلاف GK104 که از طریق نرم افزار و کامپایلر با جدول ثابت هست بنابر این نمیتونیم بخش Front End اونو مستقیما به gk14 تامیم بدیم اما باز هم مناسب تر از GF100 هست.

    در این SM منابع عملیاتی اجرایی تراشه به 3 گروه 16 تایی کودا که فقط یکی از اونها قابلیت اجرای دستورات Fp64 رو داره تقسیم میشه و گرو های تابعی دیگر رو هم که مجموعا 7 گرو هستن میتونید مشاهده کنید:

    GF104/GF114 SM Functional Units

    16 CUDA cores (#1)i
    16 CUDA cores (#2)i
    16 CUDA cores, FP64 capable (#3)i
    16 Load/Store Units
    16 Interpolation SFUs (not on NVIDIA's diagrams)i
    8 Special Function SFUs
    8 Texture Units

    خوب کارایی بخش های اون رو پیشتر در مقاله فرمی خدمت دوستان توضیحات مفصل دادم(دوستانی که اصل مقاله فرمی رو بدون اضافات و مهملاتی..... مثل به باور من یا فوق تخصصی و ........ که از شاهکار های اون دوست گرامیمون هست و البته عکس های با رزولوشن بالا بدون گذاشتن Vfsdf در گوشه عکس ها میخوان بفرمایند در Pm خدمتشون فایل word اصلی رو بدم)


    حال به شمایی از یک smx در GK104 بهتره نگاهی بندازیم:


    برخلاف نسل پیش که تنها 7 بخش اجرایی عملیاتی تابعی functional units وجود داشت در smx کپلر ما شاهد 15 بخش functional units هستیم به این معنا که زمانبند ریسمان ها warp cheduler ها میتونن 15 بخش functional رو فراخوانی کنن.

    عملا 2 برابر شده منابع اجرایی و تابعی در کپلر GK104 نسبت به نسل قبلی GF104/114 به انودیا اجازه میده shaderclock رو که فرکانس منابع اجرایی رو 2 برابر میکرد خیلی راحت و بدون هیچ مشکلی حذف کنه و اصلا احساس کمبود منابع عملیتاری ور هم نکنه.

    در زیر به ترتیب واحد های functional units رو میبینید:

    GK104 SMX Functional Units

    32 CUDA cores (#1)i
    32 CUDA cores (#2)i
    32 CUDA cores (#3)i
    32 CUDA cores (#4)i
    32 CUDA cores (#5)i
    32 CUDA cores (#6)i
    16 Load/Store Units (#1)i
    16 Load/Store Units (#2)i
    16 Interpolation SFUs (#1)i
    16 Interpolation SFUs (#2)i
    16 Special Function SFUs (#1)i
    16 Special Function SFUs (#2)i
    8 Texture Units (#1)i
    8 Texture Units (#2)i
    8 CUDA FP64 cores

    اگر به SMX دقت کنید 4 زمانبند ریسمان warp schedulers وجود داره که میتونن در هر سیکل ساعت 2 دستورالعمل رو در صورت احراز شرایط ILP (منظور Instruction level parallelismهست که در اون وابستگی دستورات بر طبق اصل super scaler ای چک میشه که از وظایف HW/SW dependency cheking هست) رو فراخوانی کنه یعنی اگر تمام شرایط ILP صادق باشه هر 4 زمانبند میتونن 8دستورالعمل رو بز I-set catch برای ریسمان سازی فراخوانی کنن و به توابع اجرایی ارسال کنن

    texture unite

    [IMG][/IMG]


    از طرف دیگه تعداد texture unite ها دقیق 2 برابر شده و این برای کل تراشه از 64 در نسل قبل به 128 در نسل فعلی رسیده که عملا خیلی بیش از ظرفیت FFU هایی است که باید روال Graphic pipline رو در تراشه اعمال کنن.(منظور از کم بودن ffu کم بودن تعدادsm هاست و هر ffu شامل همون poly morph انجین میشه که به ازای هر sm فقط 1 پولیمورف انجین وجود داره.

    Bindless Textures

    به همین علت انودیا سیستم جدیدی رو برای تکسچر ها برنامه ریزی کرده به نام Bindless Textures تا بتونه نهایت توان تغذیه تکسپر هارو داشته باشه(برای 2 برابر واحد تکسچر نسبت به نسل قبل).درک چگونگی کار کرد این سیستم به تصویر زیر دقت کنید:


    در گذشته و نسل های پیش از کپلر هر sm میتونست برابر 128 عدد تکسچر رو هزمان برای انجام اعمال graphic pipline فراهم کنه اما با سیستم جدید تراشه میتونه عملا در طول shader code ها هر مقدار تکسچر(بالغ بر 1 میلیون تکسچر) رو همزمان فراهم کنه و این به قول bsn یکی از کلیدی ترین دلایلی بود که دموی عظیم samaritan تنها بر روی یک کارت تونست اجرا بشه.

    البته AMD هم از سیستم جدید به نام Partially Resident Textures, i.e. MegaTexturing technology با رهبری JOHN CARMACK کبیر برای موتور های OpenGL خودش بهینه بوده پرده برداری کرد که به نظر Bsn در جای خودش محترم هست اما در برابر سیستم جدید انودیا چون ورای محدودیت هایOpenGL limited هست سیستم کارامدتری میاد.(هر کدوم از اینها جای بحث زیادی دارن و در حوصله این مقاله نمیگنجه)

    خوب حل بیاید کل تراشه هارو با هم مقایسه کنیم:

    شمای کلی GF104/114 که در زیر میبینید:


    شمای کلی GK104 که در زیر میبینید:


    خوب مشخصه های تراشه واضح هست و من نیازی نمیبینم که اون هارو چندین بار تکرار کنم در شکل زیر میتونید ببنید:


    تنها نکات قابل عرض در سطح SM ها وجود نسل 2 FFU های انودیا برای DX11 یعنی Plymorph Engine 2 هست که انودیا این بخش رو برای تراشه های نسل جدید از نوع بهینه سازی کرده.

    polymorph Engine 2

    در شکل زیر میتونید شمای polymorph Engine 2 رو ببنید:


    انودیا در واقع با PE 2 سعی کرده نیاز اساسی 3-4 برابر شدن هسته های هر SM رو برای پوشش روال Graphic pipline پوشش بده - این بخش از تراشه هنوز 5 مرحله graphic pipline یعنی از مرحله Vertex Fetch تا مرحله Stream Output که هر یک از این مراحل توسط هسته های پردازشی SMX پردازش و توسط این Stage ها مرتبط میشن.

    درواقع تفاوت اصلی این نسل از polymorph enginde ها با نسل گذشته ازفیش شدید بازدهی جریان داده data stream efficiency هست . به بیا دیگر نرخ مقادیر اولیه throughput داده ها (primitive rates) در نسل جدید بالغ بر 2 برابر نسل پیش هست که اجازه میده data through put به درون هسته ها تا 4 برابر نسل پیش افزایش پیدا کنه و عملا کارایی تسلیشن تنها بهبتونه به 4 برابر نسل پیش(فرمی) برسه.

    more internal connection =more data transfer

    انودیا با عرضه کپلر ادعا کرده که بالاترین نرخ تبادل داده رو در تراشه تا به حال به نام خودش ثبت کرده:


    بدون کنترلر مموری کارامد هیچ تراشه ای موفق نیست -این مهم نیست که تراشه شما چقدر سریع هست - مهم اینه که هسته های اجرایی شما گرسنه نمانند-برخلاف پردازنده ها memmory controller یکی از مهمترین بخش های GPU محسوب میشه - بدون سرعت کافی اون Catch hirarchy نمیتونه روال خودش رو همگام با سرعت بالای هسته ها پیش ببره بنا بر این هسته ها دچار معضل گرسنگی میشن.

    در واقع یکی از علل شکست Intel Larrabee و ATI R600 همین ناکارامد بودن memmory controller effeciency بود.

    چگونه انودیا به این رقم دست پیدا کرده ؟؟

    به تصویر زیر دقت کنید:


    برای انجام مناسب سلسله روال دسترسی هسته ها به مموری-انودیا با ایجاد cache hierarchy موثر و سطح عظیم internal memmory connections در سطح تراشه از زمان فرمی و ارتقائ اون در کپلر عملا به بالاترین حد راندمان عملکرد حافظه تا به اکننون رسیده.

    خوبه بدونید کارتی مثل gtx680 در 1.50 GHz QDR عمل میکنه و در مقام مقایسه تراشه 384bit ای high end AMD یعنی Tahiti در 1.375 GHz QDR عمل میکنه که البته رقم بدی نیست (حدود5500 mhz effective هست)

    هسته های متعدد و بسیار زیاد نسل کپلر نیاز به تغذیه بالایی دارن و عملا این میزان پهنای باند هسته ای اجرایی رو دچار معضل گرسنگی نمیکنه.

    --------------------

    این بود مروری بر معماری نسل نوین کپلر GK104 انودیا که امیدوارم کافی بوده باشه- سعی کردم مقاله جلوتر از اکثر ریوی های خارجی و کامل تر و اساسا روی اصل موضوعات تخصصی باشه

    در بخش بعد به ویژگی های جدید معرفی شده همزمان با کپلر مثل Adjusment Vsync و Txaa و ..... میپردازم تا ببنیم اونها چگونه به افزایش قابلیت های این تراشه کمک میکنن.

    اگر سوالی بود حتما پرسیده بشه چون این مقاله تنها جنبه تخصصی و برسی معماری تراشه رو داشت و قصدم از این ریویو برسی بنچمارک ها نبود.

    امیدوارم مفید بوده باشه.

    منابع :

    bsn

    annadtech

    hardwarecanucks

    hexus

    در بخش شبیه سازی و اکثر توضیحات تکنیکی هم بنده حقیر

    موفق باشید

    ---------- Post added at 04:31 AM ---------- Previous post was at 04:30 AM ----------



  2. #2
    حـــــرفـه ای Erfan.'s Avatar
    تاريخ عضويت
    Jun 2010
    محل سكونت
    Solar System
    پست ها
    5,350

    پيش فرض

    از دوست خوبم رامین عزیز بابت مقاله بسیار عالی تشکر میکنم، یقینا تخصصی ترین و حرفه ای ترین مقاله ای که در مورد Kepler در بین سایت های خارجی/داخلی پیدا میشه همین مقاله شما هست!


    خوب بریم سراغ سوالات بنده...

    با توجه به توضیحاتی که در مورد SW/HW Scheduling دادید و مخصوصا این خط:

    اما این پیچیدگی که موجب پایین امدن power and area efficiency میشود برای تراشه ای که 32 واحد زمانبند در سطح تراشه خود دارا هست عملا موجب افزایش شدید سطح تراشه وپایین امدن بازدهی اون میشه و این برای کپلر GK104 غیر قابل قبول هست.

    بنا به گفته های شما، از یک طرف HW Scheduling برای تراشه های مورد استفاده در محاسبات به دلیل Autonomously بودن ضروری هست و از یک طرف، در یک تراشه با تعداد Scheduler بالا، این امر موجب پایین اومدن شدید Efficiency میشه(در مورد قسمت آبی هم توضیح کوتاهی اگه بدید خیلی خوب میشه)

    یعنی اگر GK110 از HW Scheduling استفاده کند، در Compute بســــیار قدرتمند و در Graphics Processing نه چندان شگفت انگیز عمل خواهد کرد. برداشت من درسته؟


    تحقیقات و شبیه سازی های معماری اخیر انودیا نشون داده که HW scheduling میزان منصفانه ای از مصرف رو در ازای فواید ناچیز در تراشه به ارمغان میاره -به طور خاص چون Pipeline math های کپلر دارای تاخیر های ثابت هستن(نسبت به نسل قبل execution unit ها در نصف فرکانس کار میکنن پس عملا این تاخیر موجهه) بنابر این وجود HW Scheduling درون سیستم warp ها(ریسمان ها) عملا زاید هست چون کامپایلر تراشه میدونه زمان تاخیر صدور هر دستورالعمل محاسباتی چقدر هست.
    این قسمت هم یه مقدار برای من گنگ هست

    این که HW Scheduling باعث میشه که ما پیچیدگی رو وارد سیستم کنیم و این که باعث میشه نتونیم از حداکثر قدرت واحد های پردازشی استفاده کنیم درست.

    ولی اون قسمت تاخیر به چه معناست... ربط زمان تاخیر صدور دستورالعمل ها به شیوه زمان بندی چی هست، یه خورده این مورد رو روشن کنید لطفا.


    باقی قسمت های مقاله کاملا روشن و واضح بود، البته سوالاتی خارج از مسائلی که در مقاله مطرح کردید به وجود اومده که بعدا مطرح میکنم.

    پیروز باشید.

  3. 5 کاربر از Erfan. بخاطر این مطلب مفید تشکر کرده اند


  4. #3
    اگه نباشه جاش خالی می مونه ramincybran's Avatar
    تاريخ عضويت
    Oct 2009
    پست ها
    293

    پيش فرض

    از دوست خوبم رامین عزیز بابت مقاله بسیار عالی تشکر میکنم، یقینا تخصصی ترین و حرفه ای ترین مقاله ای که در مورد Kepler در بین سایت های خارجی/داخلی پیدا میشه همین مقاله شما هست!

    لطف داری عرفان جان لایق این همه تعریف هم نیست:mrgreen:

    بنا به گفته های شما، از یک طرف HW Scheduling برای تراشه های مورد استفاده در محاسبات به دلیل Autonomously بودن ضروری هست و از یک طرف، در یک تراشه با تعداد Scheduler بالا، این امر موجب پایین اومدن شدید Efficiency میشه(در مورد قسمت آبی هم توضیح کوتاهی اگه بدید خیلی خوب میشه)
    خوب منظور من عرفان جان تعداد بالای complex HW scheduler هاست که در تراشه های نسل قبلی مثل GF104 به علت تعدد کمشون و البته کم بودن Core latency ]ا که در متن توضیح دادم انچنان مورد توجه نبود اما در sm موحود در کپلر تعداد اونها 2 برابر شده و وبنا به علت مهم دیگر:

    تحقیقات و شبیه سازی های معماری اخیر انودیا نشون داده که HW scheduling میزان منصفانه ای از مصرف رو در ازای فواید ناچیز در تراشه به ارمغان میاره -به طور خاص چون Pipeline math های کپلر دارای تاخیر های ثابت هستن(نسبت به نسل قبل execution unit ها در نصف فرکانس کار میکنن پس عملا این تاخیر موجهه) بنابر این وجود HW Scheduling درون سیستم warp ها(ریسمان ها) عملا زاید هست چون کامپایلر تراشه میدونه زمان تاخیر صدور هر دستورالعمل محاسباتی چقدر هست.

    خوب استفاده از HW scheduling ها به نفع تراشه ای برای بازدهی بالا نیست -اولا این سیستم حجم زیادتری نسبت به sw میگره نکته بعد هم فهم کاپایلر ها از زمان تاخیر هسته ها برای زمانبدی وچی dependency هست.

    هر چند HW Scheduling فواید بسیار بیشتری برای sm های کوچیک داره( هسته های کمتر) و احتمالا در GK110 از این سیستم اسفاده خواهد شد.

    این قسمت هم یه مقدار برای من گنگ هست

    این که HW Scheduling باعث میشه که ما پیچیدگی رو وارد سیستم کنیم و این که باعث میشه نتونیم از حداکثر قدرت واحد های پردازشی استفاده کنیم درست.

    ولی اون قسمت تاخیر به چه معناست... ربط زمان تاخیر صدور دستورالعمل ها به شیوه زمان بندی چی هست، یه خورده این مورد رو روشن کنید لطفا.


    باقی قسمت های مقاله کاملا روشن و واضح بود، البته سوالاتی خارج از مسائلی که در مقاله مطرح کردید به وجود اومده که بعدا مطرح میکنم.

    پیروز باشید.
    هی وای من : دی اصل درک قسمت بالا همین مورد بود که نقل هم کردم عرفان جان

    اتفاقا HW scheduling با اینکه باعث خودمختاری تراشه در زمانبندی هسته ها میشه و اون رو عملا autonomus تر میکنه موضوع بدی نیست-کار برنامه نوریسان راحت تر و تراشه در مواجهه با نرم افزار های جدید بهتر میکنه .

    کلا HW scheduling باعث هوشمند تر شدن تراشه میشه اما در نسل کپلر چون نیاز به سرعت Through put در حد نسل پیشین نیست(خوب هسته دیگه در 2 برابر فرکانس front ned کار نمیکنن پس عملا زمان مناسبی در اختیار دارن که برای هسته ها عملیات چک وابستگی و زمانبندی دستورالعمل هارو انجام بدن و از این رو خوب کامپایلر یا درایور میتونه از طریق پردازنده با دقت نسبتا خوبی انجام بده و پس نیازی به hw schedul نیست.

    اگر بازم نامفهوم بود بگید زوم بیشتر روی موضوع توضیح بدم

  5. 4 کاربر از ramincybran بخاطر این مطلب مفید تشکر کرده اند


  6. #4
    حـــــرفـه ای Erfan.'s Avatar
    تاريخ عضويت
    Jun 2010
    محل سكونت
    Solar System
    پست ها
    5,350

    پيش فرض

    GPU Boost چیست و به چه منظور طراحی شده است؟




    GPU Clock در GTX 680 به 2 صورت وجود دارد:

    1. کلاک Base و کاملا Safe که هر GTX 680 در هر شرایطی در تمـــــــامی Load های 3D میتونه و تضمین شده در این فرکانس کار کنه(1006MHz)
    2. کلاک Boost که بسته به این شرایط: مصرف پاور، دمای GPU، کیفیت ساخت GPU و برخی عوامل دیگر (به گفته انویدیا روی هم 13 عامل) میشه بهش رسید، یعنی اگه تمامی شرایط مهیا باشه GPU در سقف فرکانس تعیین شده میتونه کار کنه.
      افزایش فرکانس ممکنه در یک گیم 50MHz+ باشه، در یک گیم 100MHz+ باشه و در یک گیم اصلا افزایش فرکانسی نداشته باشیم! این قضیه امکان داره در 2 کارت GTX 680 هم مقدار کمی تفاوت داشته باشه(به علت کیفیت GPU)
      ولی معمولا Boost Clock روی 1058MHz قرار میگیره.





    GPU در حالت عادی، یه سقف فرکانس 1110MHz داره که نهایتا میتونه به اون برسه. غیر از اون سقف فرکانس، محدودیت هایی مثل دما و توان مصرفی باعث میشن که GPU نتونه همیشه در سقف فرکانس کار کنه.


    به طور کلی اساس کار GPU Boost اینه که هنگامی که توان مصرفی GPU کم هست، فرکانس رو افزایش بده و هنگامی که مصرف برق خیلی زیاد میشه، فرکانس رو کم کنه و به Base برسونه.










    فایده این کار چیست؟


    این کار برای ایجاد تعادل بین مصرف پاور و فرکانس GPU انجام میشه. در همه نرم افزار ها لزوما یک GPU در یک فرکانس مصرف برق یکسان نداره. در جاهایی که توان مصرفی کمتر از Power Target GPU هست، فرکانس افزایش پیدا میکنه و در جاهایی که توان بالا میره، فرکانس به سمت Base Clock متمایل میشه.


    نحوه افزایش فرکانس به وسیله GPU Boost

    این کار با افزایش Step ها انجام میشه، هر Step 13MHz هست و بسته به شرایط، تعداد افزایش Step متغیر هست.


    همون طور که مشاهده میکنید، در حالت دیفالت، حداکثر افزایش فرکانس، با افزایش 8 پله امکان پذیر هست، و البته با افزایش Offset(که در ادامه بهش میپردازم) افزایش فرکانس با هر Step نیز تغییر میکند و برای مثال با افزایش Offset 100MHz, با افزایش اولین پله، فرکانس روی 1119MHz قرار میگیره، و فرکانس نهایی با افزایش آخرین پله نیز 1210Mhz خواهد بود.


    اورکلاک با وجود GPU Boost چه گونه انجام میشود؟

    به قول ادیتور Techpowerup اورکلاک این کارت به معنی "best effort plzplz" هست

    ابتدا به این نکته مهم توجه داشته باشید که فرکانس اصلی در هر شرایطی 1006MHZ هست. با دستکاری و اورکلاک و اورولتاژ و ... ما اون سقف فرکانس رو افزایش میدیم که با GPU Boost بتونیم به اون فرکانس سقف برسیم یعنی نزدیک بشیم.

    برای اورکلاک این کارت 2 کار باید انجام بشه:

    1- افزایش Power Target که در مدل Refrence نهایتا تا 132% حالت معمول میتونه افزایش پیدا کنه.
    2- افزایش GPU Frequency Offset که به نوعی همون محدودیت و سقف فرکانسی هست که با GPU Boost میتونیم بهش دست پیدا کنیم.

    با افزایش همزمان این 2 عامل، در شرایطی که GPU امکانشو داشته باشه[توان مصرفی زیادتر نشه، دما بالا نره(گزارش شده که با گذر از دمای 70 درجه سانتیگراد فرکانس کاهش پیدا میکنه) و ...] میتونه در حالت ایده آل به اون فرکانس سقف که با افزایش Offset تعیین کردیم برسه! و در حالت واقعی (نه ایده آل) معمولا در فرکانسی متغیر و در برخی مواقع نزدیک و گاها خود فرکانس Offset برسه.




    تاثیر دما در فرکانس GPU



    همون طور که میبینید با گذر از 70 درجه سانتیگراد، فرکانس GPU شروع میکنه به کم شدن و با افزایش دما، فرکانس کمتر نیز میشه.
    همچنین با تستی که Techpowerup انجام داد، به این نتیجه رسیدن که در حالت دیفالت و بدون اورکلاک، اگه فن کارت رو در سرعت 100% قرار بدن پرفرمنس کارت 0.8% افزایش پیدا میکنه.



    منابع:

    [ برای مشاهده لینک ، با نام کاربری خود وارد شوید یا ثبت نام کنید ]
    [ برای مشاهده لینک ، با نام کاربری خود وارد شوید یا ثبت نام کنید ]
    [ برای مشاهده لینک ، با نام کاربری خود وارد شوید یا ثبت نام کنید ]
    [ برای مشاهده لینک ، با نام کاربری خود وارد شوید یا ثبت نام کنید ]
    [ برای مشاهده لینک ، با نام کاربری خود وارد شوید یا ثبت نام کنید ]


    پیروز باشید.

  7. 8 کاربر از Erfan. بخاطر این مطلب مفید تشکر کرده اند


  8. #5
    Banned
    تاريخ عضويت
    Nov 2008
    محل سكونت
    شیراز
    پست ها
    79

    پيش فرض

    درود



    بخدا قسم امروز داشتم فقط نیم ساعت میخندیدم

    این 690 مگه قرار نبود single gpu عرضه بشه؟

    رامین بنده خدا بیشتر از 500 صفحه در مورد diesize یحتمل single gpu بودنو عکسای تقلبی کلی تبلیغ شرکت انویدیا رو کرده بود

    vay khodaye bozorg

  9. این کاربر از vavi بخاطر این مطلب مفید تشکر کرده است


  10. #6
    کاربر فعال انجمن سخت افزار Hamed DC's Avatar
    تاريخ عضويت
    Aug 2011
    محل سكونت
    پایتخت تاریخ و تمدن
    پست ها
    5,734

    پيش فرض

    درود



    بخدا قسم امروز داشتم فقط نیم ساعت میخندیدم

    این 690 مگه قرار نبود single gpu عرضه بشه؟

    رامین بنده خدا بیشتر از 500 صفحه در مورد diesize یحتمل single gpu بودنو عکسای تقلبی کلی تبلیغ شرکت انویدیا رو کرده بود

    vay khodaye bozorg
    تک هسته ای!!!
    این حرف شما کمی خنده داره!!!
    روی چه اصلی این حرف رو زدین؟؟؟

  11. #7
    Banned
    تاريخ عضويت
    Nov 2008
    محل سكونت
    شیراز
    پست ها
    79

    6

    تک هسته ای!!!
    این حرف شما کمی خنده داره!!!
    روی چه اصلی این حرف رو زدین؟؟؟
    یعنی چی حرف من خنده داره ؟

    برید بررسی های دوستانو بخونید در مورد GK100 همش میگفتن 690 یک تک هسته ایی single gpu خواهد بود

    اما دیدیم که دوال عرضه شد

  12. این کاربر از vavi بخاطر این مطلب مفید تشکر کرده است


  13. #8
    آخر فروم باز Vaioman's Avatar
    تاريخ عضويت
    Apr 2010
    محل سكونت
    تهران
    پست ها
    1,582

    پيش فرض

    یعنی چی حرف من خنده داره ؟

    برید بررسی های دوستانو بخونید در مورد GK100 همش میگفتن 690 یک تک هسته ایی single gpu خواهد بود

    اما دیدیم که دوال عرضه شد
    دوست عزیز این کارت چه ربطی به GK100 داره.اگه منظورت اسم 690 است خب به دلیل ضعف بیش از حد AMD این 690 یه دوال GK104 شد.حالا اونم با این performance رویایی.حالا GK100 طلب دوستان.
    Last edited by Vaioman; 30-04-2012 at 14:35.

  14. #9
    در آغاز فعالیت
    تاريخ عضويت
    Nov 2011
    محل سكونت
    Arak
    پست ها
    18

    پيش فرض

    به دلیل ضعف بیش از حدAMD !!
    چی میگی؟ بابا بیخیال ببین مگه Amd هر کاری میکنه انویدیا هم باید انجام بده.
    عزیز ضعف از انویدیاتون بود تو سری 400 که به خاطر بخاری برقی بودن نتونست دوال بزنه
    ببین سری 600 تونم بخاطر اینکه 5 ماه بعد از Amd داد قویتر شد اگه نمیشد باید گریه میکردید الانم زیاد خوشحال نباش تکنولوژی تو یه روز عوض میشه.
    بروخداروشکر کن که حافظه ddr3 نزد.

  15. این کاربر از Amir_Aryan بخاطر این مطلب مفید تشکر کرده است


  16. #10
    آخر فروم باز Vaioman's Avatar
    تاريخ عضويت
    Apr 2010
    محل سكونت
    تهران
    پست ها
    1,582

    پيش فرض

    به دلیل ضعف بیش از حدAMD !!
    چی میگی؟ بابا بیخیال ببین مگه Amd هر کاری میکنه انویدیا هم باید انجام بده.
    عزیز ضعف از انویدیاتون بود تو سری 400 که به خاطر بخاری برقی بودن نتونست دوال بزنه
    ببین سری 600 تونم بخاطر اینکه 5 ماه بعد از Amd داد قویتر شد اگه نمیشد باید گریه میکردید الانم زیاد خوشحال نباش تکنولوژی تو یه روز عوض میشه.
    بروخداروشکر کن که حافظه ddr3 نزد.
    خدا رو شکر.اما فکر کنم همین 680 فسقلی با DDR3 هم از این 7970 عظیم جلو بزنه.واقعآ شانس اوردین DDR3 نزد(شوخی).
    ببنین دوست گرامی من به شخصه امیدوارم که AMD بترکونه.تا این انویدیا نیاد یه کارت Mid Range رو با این قیمت بفروشه.اما وقتی AMD خوب عمل نمیکنه در عوض هم Nvidia سواستفاده میکنه.انشا ال... تو نصل بعدی کارتهای AMD شاهد یه جهش درست و حسابی باشیم.شما هم یه خورده مهربانتر باش.
    Last edited by Vaioman; 01-05-2012 at 13:11.

  17. 2 کاربر از Vaioman بخاطر این مطلب مفید تشکر کرده اند


Thread Information

Users Browsing this Thread

هم اکنون 1 کاربر در حال مشاهده این تاپیک میباشد. (0 کاربر عضو شده و 1 مهمان)

User Tag List

قوانين ايجاد تاپيک در انجمن

  • شما نمی توانید تاپیک ایحاد کنید
  • شما نمی توانید پاسخی ارسال کنید
  • شما نمی توانید فایل پیوست کنید
  • شما نمی توانید پاسخ خود را ویرایش کنید
  •