مسابقه چهارم: کدام حلقه سریع‌تر است؟

توصیه شده – مسابقه

905 بازدید

۱۳۹۹-۱۲-۱۴

4 دقیقه

نویسنده: Zeus ‌
درباره نویسنده: زئوس هستم ساکن المپ

حدود ۷ ماه پیش، مسابقه سوم سیسوگ رو برگزار کردیم و کلی نکته در مورد خواندن رشته‌های ورودی را بررسی کردیم. فکر کردم که بد نیست یک چالش جدید داشته باشیم! البته چالش‌ها هیچ وقت بی حاشیه نیستند مثل سه مسابقه قبل، در واقع مسئله آینه که کنار هم چیزهای جدیدی یاد بگیریم نه اینکه بخواهیم بگیم کی بهتره!‌ هرکسی هرچقدر هم عالی باشه توی سطح خودش باز چیزهای جدید برای فراگرفتن هست.

مقدمه

اگر شبکه‌های اجتماعی سیسوگ رو دنبال می‌کنید احتمالاً میدانید که چند هفته‌ای هست درگیر ساخت یه هوش مصنوعی شطرنج هستم که روی میکروکنترلر stm32 قابل اجراست و اولین قسمت این پروژه رو تحت عنوان “پیاده سازی هوش مصنوعی شطرنج” منتشر کردم. نکته‌ای که توی این پیاده سازی خیلی مهمه دریافت بهترین پرفورمنس از میکروکنترلر است. برای این که عملکرد قابل قبولی داشته باشه لازمه که یه سری بهینه سازی‌ها روی کد انجام بشه نظیر این که مثلاً این که توابع پر استفاده به حافظه RAM منتقل بشن یا تا جای ممکن کد بهینه بشه. ایده این مسابقه هم دقیقاً از همینجا میاد. برای چالش چهارم با سیسوگ همراه باشید.

صورت مساله

با فرض این که از میکروکنترلر STM32Fxxx استفاده می کنیم سرعت اجرای حلقه‌های زیر به چه صورت است؟

void loop_x()

{

volatile char i=200;

while(i--)

__NOP();

}

یا

void loop_y()

{

volatile int i=200;

while(i--)

__NOP();

}

فکر می‌کنید کدام حلقه سریع‌تر اجرا می‌شود؟ یا شاید سرعت اجرای برابری دارند! شما چه فکر می‌کنید؟

شرایط داوری و جایزه

با توجه به صورت مسئله علاوه بر جواب لازم است دلیل آن نیز ذکر شود. پاسخ‌های صحیح با توضیحات کامل‌تر دارای اولویت بالاتری هستند. منظور از کامل بودن توضیحات صرفاً بلند بودن کامنت نیست بلکه دلیل باید به شکل گویا بیان شده باشد.

به دو نفر از کسانی که بتوانند جواب صحیح را با ذکر دلیل ارائه دهند به قید قرعه مبلغ دو میلیون ریال جایزه نقدی تعلق خواهد گرفت.

ارسال جواب

پاسخ‌های خود را در زیر همین پست کامنت کنید.

ممکن است که لازم باشد کدی را برای ما کامنت می‌کنید، در قسمت کامنت نظم کد به هم می‌ریزد، بهتر است که ابتدا به سایت paste.ubuntu.com بروید، Syntax را زبان C انتخاب کنید و کد خود را در قسمت Content کپی کرده و بر روی Paste کلیک کنید و در نهایت فقط URL را در قسمت کامنت برای ما ارسال کنید.

مهلت پاسخ هم تا آخر روز شنبه 16 اسفند ماه ۱۳۹۹ است.

پایان و جواب چالش چهارم سیسوگ

پاسخ این مسابقه در ادامه هم به صورت ویدئو و هم به صورت متن وجود دارد.

اگر تمایل به دیدن ویدئو دارید، می‌توانید پاسخ مسابقه را در ویدئوی زیر ببینید و اگر تمایل به خواندن متن دارید، متنی که پس از ویدئو قرار داده شده است، معادل با همین ویدئو است که می‌توانید آن را بخوانید.

پاسخ متنی:

سوال مسابقه این بود که آیا نوع متغیر استفاده شده در حلقه، تاثیری در سرعت اجرای حلقه دارد یا خیر؟ برای همین شمارنده یک حلقه را از نوع char که یک بایتی است و حلقه دیگر را از نوع int که چهار بایتی است انتخاب کردیم.

و به عنوان یک کار مهم با استفاده از کلمه کلیدی volatile، کامپایلر را مجبور کردیم که متغیرها را درون RAM قرار بدهد. در واقع اگر ما از کلاس volatile استفاده نمی‌کردیم، ممکن بود کامپایلر متغیرها را درون رجیسترهای CPU قرار بدهد، که این موضوع مدنظر ما نبود.

خب برای تست اجازه بدهید برنامه را به صورت عملی بر روی یک میکروکنترلر اجرا کنیم.

برای این کار هر دو حلقه loop_x و loop_y را در main برنامه فراخوانی می‌کنیم، تا هر حلقه یک بار اجرا شود.

پس از این کار وارد محیط دیباگ برنامه می‌شویم تا کدهای اسمبلی معادل را بررسی کنیم.

کد اسمبلی

خب می‌دانیم که قرار است متغیر i درون یک خانه از حافظه تعریف بشود، حال این خانه حافظه در کجا قرار دارد؟ این خانه حافظه در جایی قرار داد که SP به آن اشاره می‌کند. در ابتدا مقدار 200 را درون رجیستر R3 قرار می‌دهیم، سپس مقدار R3 را درون آن خانه از حافظه که گفتیم بارگذاری می‌کنیم. در واقع این عمل مقداردهی اولیه متغیر را انجام می‌دهد.

پس از آن وارد روتین حلقه می‌شویم، در روتین حلقه اولین کاری که نیاز است انجام بدهیم این است که مقدار متغیر را از حافظه بارگذاری و آن را درون رجیستر R3 قرار بدهیم.

شاید برای شما مفید باشد:

بررسی حالت‌های تریگر در اسیلوسکوپ

پس از این مرحله، به مرحله‌ای خواهیم رسید که چالش اصلی را ایجاد می‌کند.

همانطور که می‌دانید میکروکنترلر ما 32 بیتی است و محاسباتی که ALU یک میکروکنترلر 32 بیتی می‌تواند انجام بدهد، حتما باید 32 بیت باشد. برای همیسن قبل از اینکه ما بخواهیم مقداری را از رجیستر R3 کم بکنیم، نیاز است که متغیر یک بایتی را به یک متغیر 32 بیتی تبدیل بکنیم.

از آنجایی که متغیر ما علامتدار است، در این مرحله از دستور اسمبلی sxtb استفاده می‌شود که این دستور یک متغیر 8 بیتی علامت‌دار را به یک متغیر 32 بیتی علامت‌دار تبدیل می‌کند.

پس از این مرحله، ALU یک واحد از متغیر کم می‌کند و این متغیر در رجیستر R2 ذخیره می‌شود. و در نهایت R2 را در خانه حافظه ذخیره می‌کنیم.

حال اجازه بدهید ببینیم وقتی متغیر شمارنده 32 بیتی است چه اتفاقی می‌افتد. در اینجا در روتین حلقه، پس از اینکه متغیر بارگذاری شد، بدون اینکه طول متغیر افزایش یا کاهش یابد، متغیر یک واحد کاهش می‌یابد و در دوباره درون حافظه نوشته می‌شود.

در واقی تبدیل 8 به 32 و 32 به 8 بیت، سیکل‌های اضافی هستند که ما با تعریف متغیر یک بایتی به CPU تحمیل می‌کنیم. برای بهبود راندمان در اینجور مواقع ما می‌توانیم شمارنده حلقه را 32 بیتی تعریف کنیم.

اما اگر ما متغیرها را درون RAM تعریف نکنیم چه اتفاقی می‌افتد؟

برای اینکه متغیرها درون RAM قرار نگیرند، باید کلاس volatile را از ابتدای تعریف متغیر یک بایتی و چهار بایتی حذف کنیم.

کد اسمبلی

در این حالت متغیر دیگر گسترش پیدا نمی‌کند، چون دیگر قرار نیست داخل RAM نوشته بشود. یکی از رجیسترهای CPU به عنوان متغیر در نظر گرفته می‌شود و بر روی آن محاسبات ریاضی انجام می‌شود. اما باز متغیر 32 بیتی سرعت اجرای بالاتری دارد چرا؟

چون برای یک متغیر 8 بیتی نیاز است که بررسی کنیم آیا سرریز رخ داده است یا نه، اما کنترل سرریز در متغیر 32 بیتی نیاز به بررسی توسط نرم‌افزار ندارد و به صورت سخت‌افزاری انجام می‌شود و نیاز به دستور اسمبلی ندارد.

پس توصیه می‌کنیم اگر میکروکنترلر شما 32 بیتی است، حتما از یک متغیر 32 بیتی برای شمارنده حلقه استفاده بکنید.