رویارویی معماری ها : Intel Core2 در مقابل AMD Athlon 64 [آرشيو] - P30World Forums

'POP'

09-09-2006, 14:29

اشاره

نزدیك به یك سال پیش در همایش IDF 2005، اینتل رسما جایگزینی معماری NetBrust پردازنده‌های پنتیوم 4
خود را با معماری قدرتمند دیگری به نام Core™ اعلام كرد.

[ برای مشاهده لینک ، لطفا با نام کاربری خود وارد شوید یا ثبت نام کنید ]

این معماری جدید به تدریج به كلیه پردازنده‌های این شركت از پردازنده‌های كامپیوتر‌های همراه گرفته تا پردازنده‌های سرور‌های Xeon نفوذ خواهد كرد. از ماه آپریل سال 2001 كه پردازنده‌های پنتیوم 4 معرفی شدند، معماری NetBrust تنها معماری پردازنده‌های حوزه كامپیوتر‌های «روی‌میزی» اینتل به شمار می‌رفت.

با وجود اینكه این معماری در مقابل معماری K8 به كار گرفته شده در پردازنده های Athlon 64 شركت AMD ضعف‌های متعددی داشت، اصرار شركت اینتل بر حكم‌فرمایی آن به روی پردازنده‌های پنتیوم 4 بخش بسیار بزرگی از بازار پردازنده‌ها را به شركت AMD با معماری موفق K8 خود اهدا كرد.

[ برای مشاهده لینک ، لطفا با نام کاربری خود وارد شوید یا ثبت نام کنید ]

معماری جدید Core™ كه تا چند ماه دیگر در پردازنده‌های Core2 Duo و Core2 Extreme تجلی پیدا خواهد كرد، اغاز یكه‌تازی مجدد اینتل در بازار پردازنده‌ها خواهد بود. در این مقاله ابتدا ساختار CPU و معماری آن به‌طور ساده بیان خواهد شد سپس به بررسی نوآوری‌های معماری Core™ و تفاوت‌های آن با معماری K8 خواهیم پرداخت و در انتها عملكرد پردازنده ‌هایCore2 را بررسی خواهیم كرد.

نسل بعدي پردازنده‌هاي اينتل

از زمان نسل اول پردازنده‌هاي اينتل كه با معرفي پردازنده 8086 در سال 1978 آغاز شد تا كنون تنها مجموعه‌اي از دستورالعمل‌هاي آن زنده باقي مانده و هنوز در اكثر نرم‌افزارها از آنها استفاده ميشود، هرچند نسل‌هاي جديد محدوده اين دستورالعمل‌ها را كه به نام دستورالعمل‌هاي x86 شناخته مي‌شوند گسترده تر كردند ، اما سازگاري با دستورالعمل‌هاي نسل‌هاي پيشين هرگز در طراحي معماري نسل‌هاي بعدي فراموش نشد.

معماري نسل ششم پردازنده‌هاي اينتل كه از «پنتيوم پرو» تا «پنتيوم III» را در برمي‌گرفت يكي از موفق‌ترين معماري‌هاي اينتل به شمار مي‌رود، اين معماري كه P6 نام دارد توانست به پردازنده‌هاي اينتل آنچنان قدرتي بخشد كه مدتها رقيبي براي آنها پيدا نمي‌شد، اما پس از آن معماري NetBrust به كار برده شده در پردازنده‌هاي «پنتيوم 4»، ديگر نتوانست به يكه تازي‌هاي اينتل در بازار پردازنده‌هاي كامپيوترهاي شخصي ادامه دهد.

معماري نسل آينده پردازنده‌هاي اينتل كه Core™ نام گرفته است، آنچنان متفاوت است كه شركت اينتل تصميم گرفته نام پردازنده‌هايي كه از اين معماري در آنها بهره برده شده ديگر «پنتيوم» نباشد، با اين كه قبلا هم خبر‌هاي متعددي مبني بر تحول بخش بازاريابي شركت اينتل نقل كرده‌ايم پيش بيني مرگ «پنتيوم» در سيزدهمين سال حياتش چندان دور از انتظار نبود.

[ برای مشاهده لینک ، لطفا با نام کاربری خود وارد شوید یا ثبت نام کنید ]
لوگو و شعار جدید اینتل

نام تجاري جديدي كه از اين پس بر روي كليه پردازنده‌هاي اينتل گذاشته خواهد شد، بسيار به معماري آنها نزديك است: Core2. تا كنون عرضه دو خانواده پردازنده‌هاي Core2 Duo براي كامپيوتر‌هاي ميان‌قيمت و Core2 Extreme براي كامپيوتر‌هاي گران‌قيمت در حوزه كامپيوتر‌هاي روي‌ميزي قطعي شده و در ماه‌هاي آينده شاهد حضور آنها در بازار خواهيم بود، هردو اين پردازنده‌ها با هسته Conroe تجهيز شده اند كه از پيكر بندي دوهسته بهره مي‌برد. در حوزه كامپيوتر‌هاي همراه نيز هسته Merom و در حوزه كامپيوتر‌هاي سرويس دهنده، هسته Woodcrest معرفي شده اند اما هنوز جزئيات دقيقي در مورد پردازنده‌هايي كه اين هسته‌ها در آن به كار گرفته خواهد شد داده نشده است.

شباهت بسيار زيادي ميان نام پردازنده‌هاي Core2 با پردازنده‌هاي Core Duo وجود دارد، Core Duo و برادر ارزان‌قيمتش Core Solo نام پردازنده‌هاي مدرن حوزه كامپيوتر‌هاي همراه اينتل مي‌باشند كه بر پايه معماري P-M (نسخه تكامل يافته معماري P6) با هسته Yonah عرضه مي‌شوند، اين پردازنده‌هاي 32 بيتي هم اكنون در اكثر كامپيوتر‌هاي همراه مدرن و iMac‌هاي جديد Apple استفاده مي‌شوند.

از معماري CPU چه ميدانيد؟

پيش از آنكه به بررسي معماري نسل آينده پردازنده‌هاي اينتل بپردازيم ابتدا اجازه دهيد تا داسنتني‌هاي ابتدايي كه علم به آن ضروري به نظر ميرسد را تشريح كنيم:

كدهاي اجرايي سيستم عامل و نرم‌افزارها در آخرين مرحله پيش از ارسال به پردازنده، مي‌بايست به زبان ماشين و اسمبلي تبديل شود، بالغ بر 50 درصد كدهايي كه پردازنده اجرا مي‌كند عمليات «Load» (بارگذاري از حافظه به ثبات هاي داخلي پردازنده( و عمليات «Store» (ذخيره‌سازي از ثبات‌هاي داخلي به حافظه كامپيوتر( را ديكته مي‌كنند، از اين ميان، اكثريت كدها «بارگذاري» و بخش اندكي كد‌هاي «ذخيره‌سازي» هستند. 15 الي 20 درصد كدها مختص دستورالعمل‌هاي انشعابي مانند if، then و else است كه روال پيش روي برنامه را با شروط مشخصي تعيين مي‌كنند.

ساير كدها بيشتر شامل دستورالعمل‌هاي ساده رياضي مانند ADD (جمع) يا MUL (ضرب) مي‌شوند. در اين بين تنها درصد كمي از كدها به دستورالعمل‌هاي سطح بالاي محاسباتي ديگر مانند DIV(تقسيم) يا SQRT (به توان دو) ترجمه مي‌شود. هر يك از اين دستورالعمل‌ها براي اجرا به ترتيب وارد يكي از خط‌لوله‌هاي پردازنده مي‌شود، در هر خط لوله به طور استاندارد پنج واحد زير وجود دارد:

• «واحد واكشي»: در اين واحد دستورالعمل از حافظه اصلي خوانده شده و به ثبات‌هاي داخلي پردازنده منتقل مي‌شود،دستورالعمل واكشي شده الگويي از بيت‌ها به زبان ماشين است كه در بر گيرنده نوع عملگر و آدرس عملوند‌هاي آن است.

• «واحد كدگشايي»: در اين واحد الگوي دستورالعمل‌ از داخل ثبات پردازنده خوانده شده و با کدگشايي آن واحد اجرايي را براي اجراي محاسبات درخواست شده آماده مي‌كند.

• «واحد واكشي عملوند»: اين واحد، داده‌هايي كه آدرس آنها در دستورالعمل ذكر شده را از حافظه كاشه، به ثبات‌هاي داخلي پردازنده انتقال مي‌دهند.

• «واحد اجرايي»: پس از حصول اطمينان از موجوديت داده‌ها در داخل ثبات‌هاي پردازنده و آماده سازي واحد اجرايي، واحد‌هاي رياضي و منطقي موجود در بخش اجرايي پردازنده (ALU)، محاسبه دستورالعمل را آغاز مي‌كنند.

• «واحد بازگيري»: در اين مرحله نتيجه محاسبات كه داخل ثبات‌هاي پردازنده ذخيره شده به حافظه كاشه يا حافظه اصلي كامپيوتر منتقل مي‌شود.

[ برای مشاهده لینک ، لطفا با نام کاربری خود وارد شوید یا ثبت نام کنید ]

واحد‌هاي مذكور به صورت استاندارد در هر پردازنده‌اي وجود دارند با علم به اين مطلب در ادامه به نوآوري‌هاي معماري Core™ و مقايسه آن با معماري K8 خواهيم پرداخت.

پيش‌واكشي و كاشه ‌نمودن هوشمند تر

اطمينان از موجوديت دستورالعمل‌ها و داده‌ها در داخل حافظه كاشه پيش از اجراي دستورالعمل، يكي از مهمترين دقدقه‌هاي طراحان معماري پردازنده در عصر پردازنده‌هاي 3گيگاهرتزي است، اين امر شرايط لازم را براي افزايش كارايي با زياد شدن فركانس كاري پردازنده را فراهم مي‌سازد. در غير اين صورت فركانس بالاتر به معني صرف زمان انتظار بيشتر براي رسيدن اطلاعات به پردازنده خواهد بود. بخشي از پردازنده كه حافظه كاشه را براي اجراي دستورالعمل‌ها آماده مي‌سازد ، «بخش پيش‌واكشي» نام دارد، با اين وجود الگوريتم‌هاي سخت‌افزاري موجود براي پيش‌واكشي هميشه وظيفه خود را با موفقيت انجام نمي‌دهند و مورد‌هاي اندكي هنوز وجود دارد كه پس از ورود دستورالعمل به خط لوله، داده ها با تاخير از حافظه كاشه دريافت مي‌شوند. اين موضوع باعث مي‌شود تا كارايي كلي پردازنده به ويژه در برنامه‌هايي كه به پهناي باند حافظه حساس هستند، كم شود.

بخش پيش‌واكشي در معماري Core™ بدون هيچ ترديدي از آنچه در معماري‌هاي K8 و NetBrust يافت مي‌شود برتر است. هر هسته پردازنده‌اي كه از اين معماري بهره مي‌برد حداقل سه واحد پيش‌واكشي (دو واحد براي داده و يك واحد براي دستورالعمل) مختص به خود دارد، دو واحد پيش‌واكشي ديگر نيز براي كاشه سطح 2 اين پردازنده‌ها در نظر گرفته شده است. لذا پردازنده‌هاي دوهسته‌اي Core2 كه با اين معماري عرضه خواهند شد با 8 واحد «پيش‌واكشي» مجزا مي‌توانند از پهناي باند حافظه موجود به صورت موثر‌تري استفاده كرده و ضريب اطمينان حضور اطلاعات در حافظه كاشه را هنگام اجراي يك دستورالعمل بالا برند.

حافظه كاشه موجود در پردازنده هاي مبتني بر معماري Core نيز در افزايش كارايي آن موثر است. يك حافظه كاشه سطح دو 4 مگابايتي ميان هر دو هسته پردازنده به اشتراك گذاشته شده است و دسترسي به آن در 12 تا 14 سيكل ساعت موثر خواهد بود. حافظه كاشه سطح يک داده و دستورالعمل نيز هر دو تا 32 كيلوبايت با زمان دسترسي 3 سيكل ساعت ارتقا پيدا كرده‌اند. بايد اضافه كرد حافظه كاشه Trace كه در معماري NetBrust از آن بهره گرفته شده بود، با توجه به خط لوله‌هاي كوتاه Core كنار گذاشته شده است. اين حافظه اساسا به عنوان يك بافر براي دستورالعمل‌هاي كدگشايي‌ نشده به كار گرفته مي‌شد در حالي كه اين واحد براي خط لوله‌هاي طولاني NetBrust مفيد واقع شده بود ، اينتل تشخيص داده كه طرح سنتي حافظه کاشه سطح يک در اين معماري موثرتر مي‌باشد.

[ برای مشاهده لینک ، لطفا با نام کاربری خود وارد شوید یا ثبت نام کنید ]
جدول شماره 1

تنها با يك نگاه سريع به جدول شماره «1» كاملا روشن خواهد شد كه زير سيستم حافظه طراحي شده براي Core™ نسبت به ساير معماري‌ها موثرتر است، ميزان حافظه كاشه سطح 2 در پردازنده هاي مبتني بر اين معماري دو برابر پردازنده‌هاي دو هسته‌اي AMD است، علاوه بر اين با وجود افزايش حجم آن ميانگين تاخير دسترسي به حافظه كاشه سطح 2 حداقل باقي مانده است، اين حافظه اشتراكي، امكان اختصاص يافتن بيش از 2 مگابايت حافظه به هر هسته را فراهم ساخته. هر دو حافظه كاشه سطح 1 و 2 با گذرگاه داخلي 256 بيت با پهناي باند بسيار گسترده‌اي به هسته پردازنده متصل هستند.

Core در برابر K8 : زيرسيستم حافظه

مهمترين رقيب Core ، معماري K8 دو ويژگي برتر كوچك اما غيرقابل چشم پوشي در زيرسيستم‌هاي حافظه دارد. اولين ويژگي حافظه كاشه سطح يک بزرگتر آن است، هر دو بخش دستورالعمل و داده اين حافظه، 64 كيلوبايت گنجايش دارند در حالي كه طراحان Core بر اين بخش‌ها 32 كيلوبايت در نظر گرفته‌اند. اين تنها يك برتري كوچك است چرا كه انتظار مي‌رود حافظه 8 طرفه 32 كيلوبايتي، عملكرد بسيار نزديكي نسبت به حافظه 2 طرفه 64 كيلوبايتي داشته باشد.

برتري دوم و با اهميت‌تر معماري K8، «كنترلرحافظه» مجتمع در داخل پردازنده است. در كامپيوتر‌هاي مبتني بر اين معماري حافظه اصلي به صورت مستقيم توسط «كنترلر حافظه» داخلي پردازنده مديريت مي‌شوند، در حالي كه در كامپيوترهاي مبتني بر معماري‌هاي Intel «كنترلرحافظه» در داخل چيپ‌ست «پل‌شمالي» مادربرد قرار داشته و تعامل پردازنده با حافظه اصلي، از اين طريق صورت مي‌گيرد. «كنترلرحافظه» مجتمع در داخل پردازنده، دسترسي بي‌واسطه به حافظه اصلي با تاخير كمتر را به همراه دارد.

تاخير دسترسي به حافظه اصلي در كامپيوتر‌هاي پنتيوم 4 تقريبا دو برابر كامپوترهاي Athlon 64 است ( 80 الي 90 در برابر 45 الي50 نانوثانيه). با اين وجود مهندسين اينتل در معماري جديد خود راه‌كارهاي متعددي مانند «آشكارسازي حافظه» براي پنهان كردن اين تاخير از چشمان پردازنده ابداع كرده‌اند كه در ادامه به آنها اشاره خواهيم كرد.

[ برای مشاهده لینک ، لطفا با نام کاربری خود وارد شوید یا ثبت نام کنید ]

دو ويژگي برتر مطرح شده در معماري K8 توسط ديگر برتري‌هاي زير سيستم حافظه معماري Core قابل چشم‌پوشي هستند، پردازنده‌هاي مبتني بر معماري Core‌ داراي حافظه كاشه سطح دو گسترده‌تر و واحد‌هاي پيش‌واكشي هوشمند‌تري نسبت به K8 هستند. حافظه كاشه سطح يک در Core پهناي باندي نزديك به دو برابر پهناي باندK8 ارائه مي‌كند (اندازه گيري شده با نرم‌افزار ScienceMark) علاوه بر اين در پيكربندي‌هاي دو هسته‌اي نيز حافظه كاشه سطح دو در Core حدود 2.5 برابر سريع‌تر از آنچه كه معماري K8 در پردازنده‌هاي Athlon 64 X2 ارائه كرده، عمل مي‌كند.

كدگشايي هوشمندتر

Core اولين معماري در دنياي پردازنده‌هاي x86 است كه به 4 واحدكدگشايي x86 تجهيز شده است: 3 «كدگشاي ساده» و يك «كدگشاي پيچيده». وظيفه واحد‌هاي كدگشايي در تمام پردازنده‌هاي x86 كنوني تنها ترجمه كردن دستورالعمل‌هاي ورودي (شامل كدعملگر و آدرس‌ها) نيست، بلكه ترجمه دستورالعمل‌ها با طول متغيير 1 الي 15 بيتي به دستورالعمل‌هاي از پيش تعيين شده با طول ثابت (دستورالعمل‌هاي RISC) كه زمان‌بندي و اجراي آنها ساده‌تر است نيز مي‌باشد، اينتل نام اين دستورالعمل‌ها كدگشايي شده را micro-op نهاده است.

در معماري Core، اكثر دستورالعمل‌ها x86 توسط يكي از سه واحدكدگشايي ساده به يك micro-op ترجمه مي‌شوند و ساير دستورالعمل‌هاي سطح‌بالايي كه حداكثر با چهار micro-op بيان مي‌شوند، توسط واحد كدگشايي پيچيده كدگشايي مي‌گردند.

يكي ديگر از نوآوري‌هاي معماري Core، «همجوشي macro-op» نام دارد، اين ويژگي تركيب دو دستورالعمل وابسته x86 را ممكن مي‌سازد. به عنوان مثال دستورالعمل مقايسه (CMP) با دستورالعمل پرش (JNE) به كمك اين ويژگي تركيب شده و به يك micro-op كدگشايي مي‌شود. اين دستورالعمل‌ها به طور عمومي نتيجه كامپايل عبارات شرطي if، then و else هستند.

[ برای مشاهده لینک ، لطفا با نام کاربری خود وارد شوید یا ثبت نام کنید ]
تصویر شماره 1

به كمك اين نوآوري، پردازنده‌هايي كه از معماري Core بهره مي‌برند، توانايي كدگشايي پنج دستورالعمل را در هر سيكل ساعت دارند ، با توجه به تصوير شماره (1)، پنج دستورالعمل به صورت هم زمان از صف دستوالعمل‌ها خوانده شده و در نهايت چهار micro-op كدگشايي مي‌شود.

به گفته اينتل به طور متوسط در برنامه‌هاي عمومي كامپيوتر، از ميان هر 10 دستورالعمل استاندارد x86 كه به پردازنده ارسال مي‌شود دو دستورالعمل قابل ادغام با همديگر هستند و دستورالعمل تركيب شده مسير خط‌لوله را همانند يك دستورالعمل ساده طي كرده و در پايان خط لوله تاثير مشابه با حالت تركيب نشده بر روي ثبات‌هاي پردازنده خواهد گذاشت. در صورتي اين ادعاي اينتل صحت داشته باشد، «همجوشي macro-op» حدود 11 درصد افزايش كارايي را به ارمغان خواهد آورد.

ديگر نوآوري اينتل در حوزه كدگشايي معماري اينتل «همجوشي micro-op» نام دارد، هدف نهايي اين ويژگي كه از معماريP-M پردازنده‌هاي Core Duo به ارث برده شده تركيب micro-opها با يكديگر است. دستورالعمل‌هاي پيچيده‌ي اندكي وجود دارند كه پس از كدگشايي به چندين micro-op تبديل مي‌شوند، در مقابل دستورالعمل‌هاي ساده متعددي نيز هستند كه نمي‌توان انها را با يك micro-op بيان نمود. به عنوان مثال دستور ساده ADD (جمع) در صورتي كه عملوند‌هايش ثبات‌هاي پردازنده باشند(مانند ADD EBX,EAX) به سادگي به يك micro-op كدگشايي مي‌شود اما اگر يكي از عملوند‌ها آدرس خانه‌اي از حافظه باشد پيچيدگي اين دستور ساده براي پردازنده بسيار زياد مي‌شود. مانند دستور ADD [mem],EAX كه در بر اساس آن مقدار ثبات EAX بايد با مقدار خانه mem حافظه جمع شده و حاصل در خانه mem قرار گيرد.

در معماري‌هاي ابتدايي مانند آنچه كه در «پنتيوم پرو» به كار برده شده بود، اين نوع دستورالعمل‌ها به چندين micro-op شكسته مي‌شد، زيرا واحد‌هاي محاسباتي پردازنده تنها به ثبات‌ها دسترسي مستقيم براي محاسبات خود دارند. بنابر اين در بهترين حالت دستورالعمل ADD [mem],EAX به دستورالعمل‌هاي زير شكسته مي‌شود:

• «بارگذاري» : MOV EBX,[mem]a
• محاسبات منطقي و رياضي : ADD EBX,EAX
• «ذخيره‌سازي» : MOV [mem],EBX

«همجوشي micro-op» امكان تركيب دستور «بارگذاري» با دستور محاسباتي را ميسر مي‌سازد، بنابر به كمك اين ويژگي تنها يك micro-op براي دستورالعمل بالا توسط واحد كدگشايي توليد مي‌شود. اين امر چندان كار كوچكي نيست چرا كه در طرح‌هاي قديمي كنارهم قرار دادن عملگر‌هاي محاسباتي با «بارگذاري» موجب طولاني شدن خط‌لوله و پايين آمدن حداكثر فركانس كاري پردازنده مي‌شد. در معماري نوين اينتل با استفاده از مدار‌هاي بزرگ و هوشمندتر كه به صورت همزمان چندين «همجوشي micro-op» انجام مي‌دهند، اين امر بدون اعمال محدوديت قابل ملاحظه ممكن گشته است.

Core در برابر K8 : كدگشايي

به نظر شما چگونه سه واحد «كدگشايي ساده» به اضافه يك واحد «كدگشايي پيچيده» در معماري Core با سه واحد «كدگشايي پيچيده» موجود در معماري K8 رقابت مي‌كند؟

معماري ابتدايي پردازنده‌هاي Athlon (معماري K7) دو شيوه كدگشايي «مسير برداري» و «مسير مستقيم» داشت. كدگشايي «مسير برداري» يك دستورالعمل منجر به چندين دستورالعمل شبه RISC شده (كه AMD آنها را macro-op نام نهاده) و كدگشايي «مسير مستقيم» منجر به يك macro-op مي‌شود هر يك از واحد‌هاي كدگشايي در K7 داراي توانايي كدگشايي به دو شيوه مذكور بودند. اما از ديدگاه عملكرد، كدگشايي «مسير مستقيم» به دليل داشتن تعداد macro-op كم‌تر ترجيح داده مي‌شد. اگر از اين كه ما معماري منسوخ شده K7 را تحليل مي‌كنيم شگفت زده شده‌ايد بايد اضافه كنيم كه معماري K8 به طور گسترده‌اي بر پايه معماري K7 طراحي گشته است.

هر سه واحد «كدگشايي پيچيده» K7 قادر به كدگشايي «مسير مستقيم» اكثريت دستورالعمل‌هاي x86 مي‌باشد و بخش اندكي از دستورالعمل‌ها به شيوه «مسير برداري» كدگشايي مي‌گردند. با اين وجود برخي از دستورالعمل‌هاي مميزشناور و SSE مي‌بايست به شيوه زمان‌بر «مسير برداري» كدگشايي مي‌شدند. در معماري K8 از واحد‌هاي «كدگشايي پيچيده» قدرتمندتري بهره برده شد كه توانايي كدگشايي تمامي دستورالعمل‌هاي SSE و مميزشناور را به شيوه «مسير مستقيم» دارا مي‌باشد.

مشابه ويژگي «همجوشي macro-op» اينتل در معماري K8 شركت AMD وجود ندارد همچنين ميتوان فرم ديگري از «همجوشي micro-op» را در اين معماري يافت، براي اينكه پيچيدگي اين مقايسه‌ها موجب سردرگمي شما نشود در جدول 2 تفاوت‌هاي موجود را ترسيم كرده‌ايم .

[ برای مشاهده لینک ، لطفا با نام کاربری خود وارد شوید یا ثبت نام کنید ]
جدول شماره 2

در پردازنده‌هاي Athlon ويژگي «همجوشي micro-op» وجود دارد، يك دستورالعمل مشابه دستورالعمل ADD [mem],EAX در گذر از خط‌لوله پردازنده تنها با يك macro-op بيان مي‌شود. دستورالعمل‌هاي «بارگذاري» و SSE نيز در معماري Core قابل تركيب با يكديگر هستند اما اين امكان براي K8 در نظر گرفته نشده و دستورالعمل‌هاي SSE توسط دو macro-op مجزا اجرا مي‌شوند.

با توجه به اين توضيحات به نظر شما واحد‌هاي كدگشايي Core چگونه با K8 رقابت مي‌كنند؟ شايد بدون دسترسي به اطلاعات بيشتر در مورد ساير بهينه‌سازي‌هاي Core در واحد كدگشايي، نتيجه‌گيري كمي دشوار باشد، با اين وجود بر اساس مفروضات مي‌توان ايده كلي مقايسه را مطرح كرد. در اكثر وضعيت‌هاي موجود معماري Core برتري نسبي در اين بخش دارد، اين معماري ميتواند در هر سيكل ساعت خود 4 تا 5 دستورالعمل x86 (به لطف «همجوشي macro-op» ) را كدگشايي و به داخل خط‌لوله هدايت كند در حالي كه K8 در هر سيكل ساعت تنها 3 دستورالعمل را كدگشايي مي‌كند.

وضعيت‌هايي كه 3 واحد«كدگشايي پيچيده» K8 از 3واحد«كدگشايي ساده» و يك واحد پيچيده‌ي Core پيشي مي‌گيرند بسيار اندك است. اين اتفاق زماني رخ‌خواهد داد كه پيچيدگي هر سه دستورالعمل واكشي شده از صف دستورالعمل‌ها در حدي باشد كه توسط واحد‌هاي «كدگشايي ساده» تعبيه شده در Core نتوان آنها را به micro-op تبديل كرد.

دسترسي هوشمندانه به حافظه

از زمان «پنتيوم پرو»، پردازنده‌هاي x86 توانايي اجراي دستورالعمل‌ها، خارج از نوبت را پيدا كردند. با اين حال به طور ميانگين يك سوم دستورالعمل‌ها به سادگي قابليت اجراي خارج از نوبت را ندارند، اين دستورالعمل‌ها همگي از نوع «بارگذاري» هستند، جلو انداختن دستورالعمل‌هاي «بارگذاري» افزايش عملكرد چشم‌گيري نسبت به بارگذاري داده‌ها در زماني كه به آنها نياز داريد خواهد داشت. با اين كار تاخيرهاي متعدد حافظه كاشه سطح 1 و سطح 2 از چشمان پردازنده پهنان خواهند ماند.

تصور اين افزايش كارايي بسيار ساده است، فرض كنيد يك دستورالعمل ALU در اختيار داريد كه نياز به بخش مشخصي از داده‌هاي ذخيره شده در حافظه را دارد اما اين بخش داده در حافظه كاشه سطح 1 موجود نباشد، در اين صورت پردازنده هنگام آغاز محاسبات بايد در انتظار دريافت داده‌هاي مذكور بماند. اگر عمليات «بارگذاري» چندين سيكل قبل از زماني كه ALU به آن بخش داده نياز دارد آغاز شود، تاخير انتقال داده از حافظه كاشه سطح 2 به سطح 1 اهميت اندكي پيدا خواهد كرد. البته «بارگذاري» خارج از نوبت داده‌اي كه قبل از آن در عمليات «ذخيره‌سازي» شركت كرده مطلوب نيست ، چرا كه اين عمل خارج از نوبت مقدار قديمي و بي ارزش داده را بارگذاري مي‌كند. به تصوير شماره 2 توجه كنيد:

[ برای مشاهده لینک ، لطفا با نام کاربری خود وارد شوید یا ثبت نام کنید ]
تصویر شماره 2

عمليات بارگذاري Load2 نمي‌تواند خارج از نوبت اجرا شود، چرا كه مقدار آن تا زماني كه عمليات ذخيره سازي Store1 به اتمام نرسيده ارزشمند نيست. تنها زماني كه Store1 به اتمام رسد متغير Y مقدار صحيحي پيدا خواهد كرد. با اين حال هيچ دليلي براي تاخير در پيش‌افتادن عمليات بارگذاري Load4 وجود ندارد، اين دستور بارگذاري مستقل از ساير دستورات ذخيره‌سازي پيشين خود است و اجراي خارج از نوبت آن توام با افزايش عملكرد نهايي خواهد بود.

در حال حاضر، پردازنده‌ها عمليات load4 را تا زماني كه قبل از آن عمليات «ذخيره‌سازي» وجود دارد به تاخير مي‌اندازند، چرا كه پردازنده‌هاي كنوني در شناسايي وابستگي «بارگذاري» و «ذخيره‌سازي» ناتوان بوده و امكان بارگذاري داده غير ارزشمند در صورت پيشي افتادن «بارگذاري» به وجود خواهد آمد.

در معماري Core براي اولين بار راه‌كاري براي حل اين مشكل به نام «آشكارسازي حافظه» (Memory Disambiguation) تدارك ديده شده، در اين ويژگي از الگوريتم هوشمندي استفاده شده تا وابستگي دستورالعمل «بارگذاري» را با «ذخيره‌سازي»هاي پيشين خود مشخص نمايد. اجراي خارج از نوبت «بارگذاري»ها افزايش عملكرد زيادي را به همراه خواهد آورد، در برخي از كد‌هاي كوچك محك‌زني، اينتل حداكثر 40 درصد افزايش كارايي را گزارش كرده است، اگرچه اين ميزان افزايش كارايي در برنامه‌هاي واقعي مشاهده نخواهند شد اما تاثير غير قابل انكار و افزايش عملكرد ملموسي به همراه دارد. زيرا همانطور كه در ابتداي مقاله به آن اشاره كرديم، دستورالعمل‌هاي «بارگذاري» حدود يك سوم micro-opهاي پردازنده‌ها در زمان اجراي يك برنامه عمومي را تشكيل مي‌دهند كه بارگذاري داده‌هاي مطلوب آنها از حافظه كاشه سطح 2 (در حالت بد تر از حافظه اصلي) منجر به كندي اجراي برنامه خواهد شد. اما اين ويژگي انعطاف‌پذير و نوين معماري Core چگونه با ساير معماري‌ها رقابت مي‌كند ؟ به جدول شماره (3) توجه كنيد:

[ برای مشاهده لینک ، لطفا با نام کاربری خود وارد شوید یا ثبت نام کنید ]
جدول شماره 3

در معماري‌هاي P6 و P-M تدابيري براي اجراي خارج از دستور «بارگذاري» قبل از ساير «بارگذاري‌»ها انديشيده شده بود همچنين امكان جلو افتادن دستورالعمل‌هاي «بارگذاري» از«ذخيره‌سازي»هاي پيشين خود نيز در صورتي كه آدرس داده ذخيره شده شناخته شده و با آدرس «بارگذاري» متفاوت باشد فراهم آمده بود اما در اكثر موارد اين آدرس هنوز توسط محاسبه نشده و عمليات «بارگذاري» در موارد اندكي مي‌توانست از عمليات «ذخيره‌سازي» جلو بيوفتد. برخلاف P6، در معماري K8 تنها امكان پيشي گرفتن «بارگذاري» از عمليات ALU (مانند دستورالعمل ADD) فراهم شده است، به طور كلي «بارگذاري»ها به تنهايي نمي‌توانند خارج از نوبت اجرا شده تا تاثير تاخير حافظه كاشه را از ميان بردارند از طرف ديگر «بارگذاري»ها نمي‌توانند از توان اجرايي بالقوه CPU در زماني كه پردازنده در انتظار اتمام عمليات «ذخيره‌سازي»است استفاده كنند. اين‌ها همه به اين معني هستند كه پردازنده Athlon 64 در اجراي خارج از نوبت كد‌ها داراي محدوديت‌هاي متعددي است.

شايد يكي از مهمترين دلايلي كه پردازنده‌هاي Athlon 64 علارقم داشتن دسترسي به حافظه سري‌تر و منابع محاسباتي عدد صحيح بيشتر، توانايي پيشي گرفتن از پردازنده‌هاي همرده Core Duo خود را در بازي‌ها و محاسبات عدد صحيح را ندارند همين موضوع باشد.

اجراي دستورات چندرسانه‌اي

يكي ديگر از نوآوري‌هاي معماري Core، قدرت بالاي آن در پردازش دستورالعمل‌هاي چندرسانه‌اي SSE است، در معماري‌هاي پيشين اينتل تنها يك واحد 128 بيتي براي دستورالعمل‌هاي SSE در نظر گرفته شده همچنين در معماري K8 دو واحد SSE وجود دارد، اما در معماري Core سه واحد قدرتمند براي SSE در نظر گرفته شده است كه دو واحد آن به صورت موازي‌هم عمل مي‌كنند.

در پردازنده‌هاي فعلي، دستورالعمل‌هاي 128 بيتي SSE طي دو سيكل ساعت اجرا مي‌شدند، كه در سيكل اول 64 بيت ابتدايي و در سيكل دوم 64 بيت انتهايي اجرا شده نتيجه نهايي را حاصل مي‌كردند، با اختصاص دادن دو واحد اجرايي موازي در معماري Core به اين امر، هم اكنون امكان پردازش دستورالعمل‌هاي SSE در يك سيكل كلاك فراهم گشته است، علاوه بر اين سازگاري با شيوه‌هاي سنتي پردازش SSE نيز توسط واحد غيرموازي سوم در نظر گرفته شده.

[ برای مشاهده لینک ، لطفا با نام کاربری خود وارد شوید یا ثبت نام کنید ]
تصویر شماره 3

در تصوير شماره(3) تفاوت عملكرد واحد SSE معماري Core با ساير معماري‌ها نشان داده شده است، حاصل عمليات SSE بر روي دو عملوند X و Y در معماري Core تنها در يك سيكل ساعت محاسبه مي‌گردد در حالي كه در ساير معماري‌ها به دليل داشتن واحد‌هاي SSE كمتر در دو سيكل ميسر مي‌شود.

با گسترش تعداد و كاربرد‌هاي دستورالعمل‌هاي SSE در برنامه‌هاي چندرسانه‌اي مانند پردازش ويديويي، تصويري و صوتي، برنامه‌هاي پيچيده رمزنگاري و مهندسي، معماري Core عملكرد غير قابل مقايسه‌اي نسبت به ساير معماري‌ها ارائه خوهد كرد.

سنجش عملكرد - بخش اول

همانطور كه در ابتداي مقاله اشاره كرديم پردازنده‌هاي حوزه كامپيوترهاي «روي‌ميزي» مبتني بر معماري Core ، با دو نام Core2 Duo و Core2 Extreme روانه بازار خواهند شد، هر دو آنها با هسته Conroe، FSB 1066 مگاهرتزي، پيكربندي دو هسته‌اي و قابليت پردازش 64 بيتي عرضه مي‌شوند.

اگر چه زمان عرضه رسمي پردازنده‌هاي Core2 نيمه دوم سال 2006 تخمين زده شده است، اما اينتل نسخه‌هايي از پردازنده‌هاي Core2 Extreme را براي معرفي و مقايسه كارايي آنها با پردازنده‌هاي رقيب پيشاپيش عرضه كرده. كه در ادامه به برخي از مقايسه هاي آن با قدرتمند ترين پردازنده دو‌هسته‌اي AMD يعني Athlon 64 FX-62 در برنامه محك‌زن PCMark05 اشاره خواهيم كرد. فركانس كاري پردازنده Core2 Extreme آزمايش شده 2.93 گيگاهرتز است كه در آزمايش‌ها نسخه «اوركلاك» شده آن تا فركانس 3.2 گيگاهرتز نيز شركت داده شده است.

برنامه PCMark05 از مجموعه‌اي از ازمايش‌هاي تركيبي تشكيل شده كه هر آزمايش ويژه محك زدن يك زيرسيستم كامپيوتر است در نهايت بر اساس نتيجه مجموع آزمايش‌هاي صورت گرفته امتيازي به كل كامپيوتر مي‌دهد.

[ برای مشاهده لینک ، لطفا با نام کاربری خود وارد شوید یا ثبت نام کنید ]
امتياز پردازنده و حافظه كامپيوترها در PCMark05

[ برای مشاهده لینک ، لطفا با نام کاربری خود وارد شوید یا ثبت نام کنید ]
سنجش عملكرد Multi-tasking پردازنده‌ها با دو عمليات متفاوت

[ برای مشاهده لینک ، لطفا با نام کاربری خود وارد شوید یا ثبت نام کنید ]
سنجش عملكرد Multi-Tasking پردازنده‌ها با چهار عمليات متفاوت

سنجش عملكرد - بخش دوم

ادامه نتایج آزمایشات :

[ برای مشاهده لینک ، لطفا با نام کاربری خود وارد شوید یا ثبت نام کنید ]
سنجش عملكرد كامپيوتر‌ها در خواندن از حافظه

[ برای مشاهده لینک ، لطفا با نام کاربری خود وارد شوید یا ثبت نام کنید ]
سنجش عملكرد كامپيوتر‌ها در نوشتن در حافظه

[ برای مشاهده لینک ، لطفا با نام کاربری خود وارد شوید یا ثبت نام کنید ]
سنجش عملكرد پردازنده‌ها در دسترسي به حافظه

سخن آخر

نسل بعدي پردازنده هاي اينتل با معماري Core آينده درخشاني خواهند داشت ويژگي هاي برتر اين معماري که در اين مقاله به آنها اشاره کوچکي کرديم، زمينه يکه تازي پردازنده هاي اينتل را فراهم خواهند كرد. علاوه بر اين بهره گيري از سکوي فعلي 775 براي پردازنده هاي نسل آينده، مقبوليت عمومي آنها را افزايش خواهد داد.

[ برای مشاهده لینک ، لطفا با نام کاربری خود وارد شوید یا ثبت نام کنید ]

اما آيا بازي براي AMD و معماري K8 پردازنده هاي Athlon 64 به اتمام رسيده است ؟ مسلما K8 با تمام موفقيت هايش همچنان زنده خواهند ماند، با طراحي مجدد بخش هايي که ضعف K8 در آنها شناخته شده است ، AMD همچنان نقش يک رقيب سرسخت براي اينتل بازي خواهد کرد. نسخه بهينه شده اين معماري K8L نام گذاري شده است و AMD اميد دارد تا با اين معماري بتواند از موضع خود در بازار پردازنده‌هاي دفاع كند ..
;)
---------------
winbeta.net