مسابقه چهارم: کدام حلقه سریع‌تر است؟

blog
۱۳۹۹-۱۲-۱۴
4 دقیقه

حدود ۷ ماه پیش، مسابقه سوم سیسوگ رو برگزار کردیم و کلی نکته در مورد خواندن رشته‌های ورودی را بررسی کردیم. فکر کردم که بد نیست یک چالش جدید داشته باشیم! البته چالش‌ها هیچ وقت بی حاشیه نیستند مثل سه مسابقه قبل، در واقع مسئله آینه که کنار هم چیزهای جدیدی یاد بگیریم نه اینکه بخواهیم بگیم کی بهتره!‌ هرکسی هرچقدر هم عالی باشه توی سطح خودش باز چیزهای جدید برای فراگرفتن هست.

 

مقدمه

اگر شبکه‌های اجتماعی سیسوگ رو دنبال می‌کنید احتمالاً میدانید که چند هفته‌ای هست درگیر ساخت یه هوش مصنوعی شطرنج هستم که روی میکروکنترلر stm32 قابل اجراست و اولین قسمت این پروژه رو تحت عنوان “پیاده سازی هوش مصنوعی شطرنج” منتشر کردم. نکته‌ای که توی این پیاده سازی خیلی مهمه دریافت بهترین پرفورمنس از میکروکنترلر است. برای این که عملکرد قابل قبولی داشته باشه لازمه که یه سری بهینه سازی‌ها روی کد انجام بشه نظیر این که مثلاً این که توابع پر استفاده به حافظه RAM منتقل بشن یا تا جای ممکن کد بهینه بشه. ایده این مسابقه هم دقیقاً از همینجا میاد. برای چالش چهارم با سیسوگ همراه باشید.

 

صورت مساله

با فرض این که از میکروکنترلر STM32Fxxx استفاده می کنیم سرعت اجرای حلقه‌های زیر به چه صورت است؟

یا

فکر می‌کنید کدام حلقه سریع‌تر اجرا می‌شود؟ یا شاید سرعت اجرای برابری دارند! شما چه فکر می‌کنید؟

 

شرایط داوری و جایزه

با توجه به صورت مسئله علاوه بر جواب لازم است دلیل آن نیز ذکر شود. پاسخ‌های صحیح با توضیحات کامل‌تر دارای اولویت بالاتری هستند. منظور از کامل بودن توضیحات صرفاً بلند بودن کامنت نیست بلکه دلیل باید به شکل گویا بیان شده باشد.

به دو نفر از کسانی که بتوانند جواب صحیح را با ذکر دلیل ارائه دهند به قید قرعه مبلغ دو میلیون ریال جایزه نقدی تعلق خواهد گرفت.

 

ارسال جواب

پاسخ‌های خود را در زیر همین پست کامنت کنید.

ممکن است که لازم باشد کدی را برای ما کامنت می‌کنید، در قسمت کامنت نظم کد به هم می‌ریزد، بهتر است که ابتدا به سایت paste.ubuntu.com بروید، Syntax را زبان C انتخاب کنید و کد خود را در قسمت Content کپی کرده و بر روی Paste کلیک کنید و در نهایت فقط URL را در قسمت کامنت برای ما ارسال کنید.

مهلت پاسخ هم تا آخر روز شنبه 16 اسفند ماه ۱۳۹۹ است.

 

پایان و جواب چالش چهارم سیسوگ

پاسخ این مسابقه در ادامه هم به صورت ویدئو و هم به صورت متن وجود دارد.

اگر تمایل به دیدن ویدئو دارید، می‌توانید پاسخ مسابقه را در ویدئوی زیر ببینید و اگر تمایل به خواندن متن دارید، متنی که پس از ویدئو قرار داده شده است، معادل با همین ویدئو است که می‌توانید آن را بخوانید.

 

 

پاسخ متنی:

سوال مسابقه این بود که آیا نوع متغیر استفاده شده در حلقه، تاثیری در سرعت اجرای حلقه دارد یا خیر؟ برای همین شمارنده یک حلقه را از نوع char که یک بایتی است و حلقه دیگر را از نوع int که چهار بایتی است انتخاب کردیم.

و به عنوان یک کار مهم با استفاده از کلمه کلیدی volatile، کامپایلر را مجبور کردیم که متغیرها را درون RAM قرار بدهد. در واقع اگر ما از کلاس volatile استفاده نمی‌کردیم، ممکن بود کامپایلر متغیرها را درون رجیسترهای CPU قرار بدهد، که این موضوع مدنظر ما نبود.

خب برای تست اجازه بدهید برنامه را به صورت عملی بر روی یک میکروکنترلر اجرا کنیم.

برای این کار هر دو حلقه loop_x و loop_y را در main برنامه فراخوانی می‌کنیم، تا هر حلقه یک بار اجرا شود.

پس از این کار وارد محیط دیباگ برنامه می‌شویم تا کدهای اسمبلی معادل را بررسی کنیم.

 

کد اسمبلی

کد اسمبلی

 

خب می‌دانیم که قرار است متغیر i درون یک خانه از حافظه تعریف بشود، حال این خانه حافظه در کجا قرار دارد؟ این خانه حافظه در جایی قرار داد که SP به آن اشاره می‌کند. در ابتدا مقدار 200 را درون رجیستر R3 قرار می‌دهیم، سپس مقدار R3 را درون آن خانه از حافظه که گفتیم بارگذاری می‌کنیم. در واقع این عمل مقداردهی اولیه متغیر را انجام می‌دهد.

پس از آن وارد روتین حلقه می‌شویم، در روتین حلقه اولین کاری که نیاز است انجام بدهیم این است که مقدار متغیر را از حافظه بارگذاری و آن را درون رجیستر R3 قرار بدهیم.

پس از این مرحله، به مرحله‌ای خواهیم رسید که چالش اصلی را ایجاد می‌کند.

همانطور که می‌دانید میکروکنترلر ما 32 بیتی است و محاسباتی که ALU یک میکروکنترلر 32 بیتی می‌تواند انجام بدهد، حتما باید 32 بیت باشد. برای همیسن قبل از اینکه ما بخواهیم مقداری را از رجیستر R3 کم بکنیم، نیاز است که متغیر یک بایتی را به یک متغیر 32 بیتی تبدیل بکنیم.

از آنجایی که متغیر ما علامتدار است، در این مرحله از دستور اسمبلی sxtb استفاده می‌شود که این دستور یک متغیر 8 بیتی علامت‌دار را به یک متغیر 32 بیتی علامت‌دار تبدیل می‌کند.

پس از این مرحله، ALU یک واحد از متغیر کم می‌کند و این متغیر در رجیستر R2 ذخیره می‌شود. و در نهایت R2 را در خانه حافظه ذخیره می‌کنیم.

حال اجازه بدهید ببینیم وقتی متغیر شمارنده 32 بیتی است چه اتفاقی می‌افتد. در اینجا در روتین حلقه، پس از اینکه متغیر بارگذاری شد، بدون اینکه طول متغیر افزایش یا کاهش یابد، متغیر یک واحد کاهش می‌یابد و در دوباره درون حافظه نوشته می‌شود.

در واقی تبدیل 8 به 32 و 32 به 8 بیت، سیکل‌های اضافی هستند که ما با تعریف متغیر یک بایتی به CPU تحمیل می‌کنیم. برای بهبود راندمان در اینجور مواقع ما می‌توانیم شمارنده حلقه را 32 بیتی تعریف کنیم.

اما اگر ما متغیرها را درون RAM تعریف نکنیم چه اتفاقی می‌افتد؟

برای اینکه متغیرها درون RAM قرار نگیرند، باید کلاس volatile را از ابتدای تعریف متغیر یک بایتی و چهار بایتی حذف کنیم.

 

کد اسمبلی

کد اسمبلی

در این حالت متغیر دیگر گسترش پیدا نمی‌کند، چون دیگر قرار نیست داخل RAM نوشته بشود. یکی از رجیسترهای CPU به عنوان متغیر در نظر گرفته می‌شود و بر روی آن محاسبات ریاضی انجام می‌شود. اما باز متغیر 32 بیتی سرعت اجرای بالاتری دارد چرا؟

چون برای یک متغیر 8 بیتی نیاز است که بررسی کنیم آیا سرریز رخ داده است یا نه، اما کنترل سرریز در متغیر 32 بیتی نیاز به بررسی توسط نرم‌افزار ندارد و به صورت سخت‌افزاری انجام می‌شود و نیاز به دستور اسمبلی ندارد.

پس توصیه می‌کنیم اگر میکروکنترلر شما 32 بیتی است، حتما از یک متغیر 32 بیتی برای شمارنده حلقه استفاده بکنید.

اطلاعات
101
0
لینک و اشتراک
profile

Zeus ‌

متخصص الکترونیک

زئوس هستم ساکن المپ

مقالات بیشتر
slide

پالت | بازار خرید و فروش قطعات الکترونیک

قطعات اضافه و بدون استفاده همیشه یکی از سرباره‌‌های شرکتها و طراحان حوزه برق و الکترونیک بوده و هست. پالت سامانه‌ای است که بصورت تخصصی اجازه خرید و فروش قطعات مازاد الکترونیک را فراهم می‌کند. فروش در پالت
family

آیسی | موتور جستجوی قطعات الکترونیک

سامانه آی سی سیسوگ (Isee) قابلیتی جدید و کاربردی از سیسوگ است. در این سامانه سعی شده است که جستجو، انتخاب و خرید مناسب تر قطعات برای کاربران تسهیل شود. وقتی شما در این سامانه، قطعه الکترونیکی را جستجو می‌کنید؛ آی سی به سرعت نتایج جستجوی شما در اکثر فروشگاه‌های آنلاین در حوزه قطعات الکترونیک را نمایش می‌دهد. جستجو در آیسی
family

فروشگاه سیسوگ

فروشگاه سیسوگ مجموعه ای متمرکز بر تکنولوژی های مبتنی بر IOT و ماژول های M2M نظیر GSM، GPS، LTE، NB-IOT، WiFi، BT و ... جایی که با تعامل فنی و سازنده، بهترین راهکارها انتخاب می شوند. برو به فروشگاه سیسوگ
family

سیسوگ فروم | محلی برای پاسخ پرسش‌های شما

دغدغه همیشگی فعالان تخصصی هر حوزه وجود بستری برای گفتگو و پرسش و پاسخ است. سیسوگ فروم یک انجمن آنلاین است که بصورت تخصصی امکان بحث، گفتگو و پرسش و پاسخ در حوزه الکترونیک را فراهم می‌کند. پرسش در سیسوگ فرم
become a writer

نویسنده شو !

سیسوگ با افتخار فضایی برای اشتراک گذاری دانش شماست. برای ما مقاله بنویسید.

ارسال مقاله
become a writer

نویسنده شو !

سیسوگ با افتخار فضایی برای اشتراک گذاری دانش شماست. برای ما مقاله بنویسید.

ارسال مقاله
خانواده سیسوگ

پالت | بازار خرید و فروش قطعات الکترونیک

قطعات اضافه و بدون استفاده همیشه یکی از سرباره‌‌های شرکتها و طراحان حوزه برق و الکترونیک بوده و هست. پالت سامانه‌ای است که بصورت تخصصی اجازه خرید و فروش قطعات مازاد الکترونیک را فراهم می‌کند.
family

آیسی | موتور جستجوی قطعات الکترونیک

سامانه آی سی سیسوگ (Isee) قابلیتی جدید و کاربردی از سیسوگ است. در این سامانه سعی شده است که جستجو، انتخاب و خرید مناسب تر قطعات برای کاربران تسهیل شود. وقتی شما در این سامانه، قطعه الکترونیکی را جستجو می‌کنید؛ آی سی به سرعت نتایج جستجوی شما در اکثر فروشگاه‌های آنلاین در حوزه قطعات الکترونیک را نمایش می‌دهد.
family

فروشگاه سیسوگ

فروشگاه سیسوگ مجموعه ای متمرکز بر تکنولوژی های مبتنی بر IOT و ماژول های M2M نظیر GSM، GPS، LTE، NB-IOT، WiFi، BT و ... جایی که با تعامل فنی و سازنده، بهترین راهکارها انتخاب می شوند.
family

سیسوگ فروم | محلی برای پاسخ پرسش‌های شما

دغدغه همیشگی فعالان تخصصی هر حوزه وجود بستری برای گفتگو و پرسش و پاسخ است. سیسوگ فروم یک انجمن آنلاین است که بصورت تخصصی امکان بحث، گفتگو و پرسش و پاسخ در حوزه الکترونیک را فراهم می‌کند.
family

دیدگاه ها

profile
فاروق کریمی زاده گفت :
۱۴۰۲-۱۲-۱۸ ۲۱:۱۳

ببخشید انقدر تعداد نظرات من زیاده. میگم این کد‌های اسمبلی بزرگ‌تر بودن بهتر می‌بود.

profile
فاروق کریمی زاده گفت :
۱۴۰۲-۱۲-۱۸ ۲۱:۰۳

یک پیشنهاد دارم. مطالبتون رو تحت CC BY منتشر کنید. یا حتی CC BY SA.

profile
فاروق کریمی زاده گفت :
۱۴۰۲-۱۲-۱۸ ۲۰:۱۷

واقعا جالب بود. خیلی ممنون. من جدیدا یه stm32 خریدم هنوز فرصت بازی باهاش رو پیدا نکردم متاسفانه.

profile
متنی گفت :
۱۴۰۰-۱۱-۱۴ ۲۳:۳۴

سلام اول ممنون از شما بابت مطرح کردن این نکته مهم ، اما خب باید عرض کنم جوابی که به این سوال دادید کاملا اشتباهه. به کد اسمبلی نگاه کنید متوجه میشوید.
در واقع بحث سرریز اصلا مطرح نیس

profile
Zeus ‌ گفت :
۱۴۰۰-۱۱-۱۶ ۱۱:۳۵

سلام دوست عزیز
ممکنه من اشتباه کرده باشم، خوشحال می‌شدم دلیلش رو از نظر خودتون بیان کنید

profile
متین گفت :
۱۴۰۰-۱۱-۱۶ ۱۶:۵۷

والا دلیلش نیاز به توضیحات طولانی داره ،اما به صورت خلاصه اگه برید توضیحات اون دستور اسمبلی را بخونید میبینید که داره Zero extending انجام میده که تئوری خودش را داره و اصلا ربطی به سرریز نداره

اجالاتا این توضیحاتی که دادید را اصلاح یا پاک کنید تا سر فرصت مناسب یه توضیح طولانی در موردش بنویسم و بدم که جایگزینش کنید

profile
Zeus ‌ گفت :
۱۴۰۰-۱۱-۱۸ ۱۵:۴۳

دوست عزیز این چیزی که شما بهش میگی کلید واژه، خودش اشتباهه 😐
در واقع همونطور که در توضیحات هم ذکر شده داره Sign extension اتفاق می افته نه Zero extension

profile
Zeus ‌ گفت :
۱۴۰۰-۱۱-۱۶ ۱۷:۲۴

سلام متین عزیز
الان من دوباره مطلب رو مطالعه کردم، به نظر توضیحات مشکلی نداره البته قبول دارم که واژه سرریز احتمالا کژتابی داره و باعث سوءتفاهم میکننه بشه
منتظرم توضیحات تکمیلی شما هستم تا جایگزین کنم
متشکرم برای دقت شما

profile
متین گفت :
۱۴۰۰-۱۱-۱۸ ۱۱:۳۲

یعنی مقاومتتون در مقابل اینکه اشتباه کردید را دوست دارم
دوست من خب معلومه که با خوندن دوباره باز هم نمیفهمید که اشتباه کردید ، من گفتم اشتباه کردید که برید یکم معماری بخونید و این مورد را بررسی کنید نه اینکه دوباره نوشته خودتون را بخونید و بگید من بررسی کردم اشتباه نبود

سری اول اونجوری صحبت کردم که هر ادمی حق داره اشتباه کنه و شما هم دارید برا این نوشته ها زحمت میکشید پس بهتره با اون لحن بهتون بگم که اشتباه میکنید که پیش بقیه حالت بدی نداشته باشه ولی با خوندن یه مسابقه دیگه هم دیدم که اونجا هم یه اشتباه غاحش تر از این کردید و این به ذهن من این رو متبادر میکنه که شما فقط ادای حرفه ای بودن را در میاورید

بازم ببخشید من یکم تند صحبت کردم حقیقتا وقتی یه نفر اطلاعات غلط به خورد بقیه میده و قبول هم نمیکنه یکم کفری میشم و دوست ندارم بقیه با اطلاعات اشتباه کسی که خودش را در جایگاه معلم میدونه یه عمر یه موضوع را اشتباه یاد بگیرن

شاید بپرسید چرا خودم درستش را نمیگم حقیقتش اینه که من وقت این کار را ندارم فقط میتونم کیورد بگم و بقیه برن دنبالش و اگه دیدم اطلاعات غلطی داده میشه یاداوری کنم همین
موفق باشید

profile
رضا گفت :
۱۴۰۰-۰۸-۱۱ ۱۱:۵۵

مطالب خیلی عالی و تاثیر گذاربود.

profile
علی گفت :
۱۳۹۹-۱۲-۲۰ ۲۳:۲۹

سلام جناب زئوس
میبینم از خفا در امدید??
اتفاق خاصی افتاده قاعده رو عوض کردید??
خوب لااقل چشممون به جمالتون روشن شد☺☺

profile
Sisoog Os گفت :
۱۴۰۰-۰۱-۰۳ ۱۸:۲۲

سلام دوست عزیز
البته ایشون خفا هم نبودند و قاعده خاصی هم نبوده:-)

این هم ساختار متفاوتی برای اموزش هست که البته دوستان زیادی اون را میپسندند سعی کردیم این روش را هم تست کنیم

profile
علی گفت :
۱۴۰۰-۰۱-۰۴ ۱۱:۵۷

بله بله صد البته
موفق باشید

profile
کامین جلیلی گفت :
۱۳۹۹-۱۲-۱۷ ۰۰:۰۹

حلقه loop_y سریع‌تر است، دلیلش هم به Zero extending برمی‌گردد.
اگر به کد اسمبلی این دو حلقه توجه کنیم، می‌بینیم که در حلقه اول دستور اسمبلی UXTB وجود دارد که در حلقه دوم وجود ندارد.
دستور اسمبلی UXTB در واقع عمل Zero extending یا همون اضافه کردن 0 به سمت چپ عدد را انجام می‌دهد (به دلیل مثبت بودن، عدد 0 اضافه می‌شود. اگر عدد ما منفی بود، عدد 1 اضافه می‌شد البته با یک دستور اسمبلی دیگر.)
حالا چرا این کار را انجام می‌دهد؟ چون نوع char با طول 8 بیت است، برای انجام عملیات ریاضی two’s complement که مرجع آن بالاتر از 8 بیت، خواه 16 بیت یا 32 بیت باشد در واقع این یک اجبار است و حتما باید عمل Zero extending انجام بشود.

اما در نهایت دلیل اصلی این که چرا این کار در ARM انجام می‌شود برمی‌گردد به تئوری two’s complement که بحثش کمی مفصل است. اما به طور خلاصه برای انجام عملیات ریاضی در این سیستم اعداد باید طول اعداد از قبل مشخص باشد و اگر طول عددی کمتر از مرجع در نظر گرفته شده است حتما باید با توجه به علامتش اکستند شود.

خب می‌شه خیلی بیشتر در این مورد توضیح داد. این توضیحات شاید بنا به کوتاه بودن کمی گنگ باشند، اما سعی کردم خلاصه و مفید دلیلش رو بگم.

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۰۸:۴۲

دقیقا این اتفاق بخاطر ۳۲ بیت بودن پردازنده می افته و جواب شما درسته

profile
mobina mosannafat گفت :
۱۳۹۹-۱۲-۱۶ ۲۳:۳۴

با توجه به نوع میکروکنترلر گفته شده که 32 بیتی است ، سرعت اجرای دومین حلقه که با int است بیشتر است. زیرا سخت افزار به گونه ای طراحی شده که برای داده های ۳۲ بیتی کارایی بهتری دارد.
متغیر int ،
32 بیت و متغیر char ،
8 بیتی است … cpu ممکنه ممکن است دستور العمل هایی جهت load , store و opration روی داده های ۳۲ بیتی داشته باشد و چنین دستورالعمل هایی برای داده از نوع char وجود نداشته باشد ، حال برای بارگزاری یک مقدار 8 بیتی ، باید یک مقدار 32 بیتی را بارگزاری کند پس‌مجبور است این 8 بیت را extract کند که خود زمان میبرد …
همچنین برای ذخیره char که 8 بیتی است ممکن است مجبور باشد ۳۲ بیت را بارگزاری کند ، پس برای تنظیم زیرمجموعه ۸ بیتی مورد نظر باید از عملیات bitwise استفاده کند و سپس آن را ذخیره کند

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۰۸:۳۸

بله کاملا درست است.

profile
حسین گفت :
۱۳۹۹-۱۲-۱۶ ۲۳:۲۰

سرعت لوپی که کانتر اون int هستش بیشتره، دلیلش هم اینه که دستورالعمل هایی برای عملیات ها وجود داره که به صورت ۳۲ بیتی کار میکنن، حالا ما از داده ۸ بیتی استفاده کنیم باید تبدیل داده انجام بدیدم که زمان میبره

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۰۸:۴۱

بله همینطوره 🙂

profile
سرباز وطن گفت :
۱۳۹۹-۱۲-۱۶ ۲۰:۵۹

ببخشید عجله کردم در ارسال دیدگاه
دلیلش رو کامل توضیح ندادم
یکی از دلایلی که دارم ساختار ALU هست وقتی واحد محاسبات منطقی هشت بیتی باشه برای یک داده 16 بیتی نیاز به دوبار پردازش اون داره ولی زمانی که این واحد 16 یا 32 بیتی باشه مسلما فرقی نمیکنه داده 16 32 یا 8 بیتی هست.

خیلی دوست داشتم شرایط تستش رو سخت افزاری داشتم تا این تئوری رو ازمایش کنم

به نظر اگر در یک شبیه ساز مانند پروتیوس میشد یک لایبرری قابل شبیه سازی پیدا کردبرای STM32 حتما یک بنچمارک میگرفتم بعد جواب میدادم با اینحا 3 ماه دیگه که خدمتم تموم شد حتما یه سر به این URL میزنم خیلی مشتاق پاسخ درست هستم…

در سخن پایانی باید بگم وجود یک واحد محاسبه گر منطقی 32 بیتی فقط یکی از دلایل پردازش سریعتر حافظه میتونه باشه! برای اینکه پاسخ سریح تری بدم به وقت بیشتری برای مطالعه دیتاشیت یک میکروکنترلر پیچیده مانند ARM با اینهمه پیشرفت اونم برای اولین بار نیاز دارم

پاینده و پیروز باشید زنده باد Open sorce

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۰۸:۴۸

برای انجام محاسبات باید عدد توی یکی از رجیسترهای پردازنده لود بشه – و تمام رجیسترها ۳۲ بیت هستند- پس نیازه که برای لود یک عدد یک بایتی اونو کست کرد به ۳۲ بیت که همین کار زمان بیشتری رو در پردازنده میگیره.

profile
سرباز وطن گفت :
۱۳۹۹-۱۲-۱۶ ۲۰:۵۱

ببخشید عجله کردم در ارسال دیدگاه

profile
سرباز وطن گفت :
۱۳۹۹-۱۲-۱۶ ۲۰:۳۴

با سلام و خسته نباشید
بنده تازه از AVR به Stm32 مهاجرت کردم (مهاجرت کلمه مناسبی نیست هردو میکروکنترلر عالی هستند) در risc های 8 بیتی داده نوع هشت بیتی زودتر پردازش میشه اما در مورد STM32 به نظرم با اینکه هنوز برگه اطلاعاتی اون رو مطالعه نکردم بخاطر معماریش زمان اجرای دو حلقه برابر هست یقین دارم

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۰۸:۴۶

سلام دوست عزیز
در واقع به دلیل این که ثبات ها و رجیسترهای میکروکنترلر ۳۲ بیتی هست باید عدد خوانده شده از روی حافظه به یک عدد ۳۲ بیتی تبدیل بشه تا محاسبات ریاضی روی اون انجام بشه و همین امر زمان بیشتری خواهد برد.
در واقع حلقه دوم سریعتر اجرا میشه چون از همون ابتدا به شکل ۳۲ بیتی است و این عمل ۳۲ بیتی کردن داده نیاز نیست روی اون انجام بشه.

profile
محمد امراللهی گفت :
۱۳۹۹-۱۲-۱۶ ۰۹:۱۲

عرض سلام و ادب
حلقه دوم سریع تر است.
با توجه به اینکه در stm32 باس حافظه و حافظه 32 بیتی است، در حلقه دوم int 32 بیتی است و بدون هیچ عملیات اضافه ای به آن دسترسی پیدا می کند اما در حلقه اول char یک بایت است و برای دسترسی به آن ابتدا باید تبدیل به 32 بیت شود تا در باس حافظه که 32 بیتی است قرار گیرد و در دسترس CPU قرار گیرد. بنابراین چند عملیات اضافه انجام می دهد.

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۰۸:۴۸

بله کاملا درسته 🙂

profile
سینا فقیهی گفت :
۱۳۹۹-۱۲-۱۵ ۲۰:۴۶

سرعت اجرا حلقه با متغیر اینتجر سریعتر است. متغیر اینتجر در کامپایلر های معمول اس تی ام ۳۲ به صورت یک عدد ۳۲ بیتی با علامت دیده میشه، با توجه به معماری کورتکس ام ۳ که از دستورات فشرده ۱۶ بیتی استفاده میکنند (بر خلاف نسل های قبلی مثل آرم ۷ ها که هم دستورات قوی ۳۲ بیتی داشتند و هم دستورات فشرده ۱۶ بیتی) محاسبه های ریاضی و منطقی فقط به صورت ۳۲ بیتی انجام میشود. در نتیجه عملیات های ۱۶ بیتی و ۸ بیتی(متغیر کاراکتر) با چند محاسبه و مقایسه به صورت ۳۲ بیتی انجام میشود که سرعت اجرا حلقه را کندتر میکند . برای اطمینان از این عملکرد میکروکنترلر میتوان سرعت اجرا برنامه را با یک تایمر یا حتی سیستیک تایمر هم استفاده کرد.

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۰۸:۵۱

بله درسته همینطوره

profile
مصطفی حیدری گفت :
۱۳۹۹-۱۲-۱۵ ۱۹:۵۹

متغییر نوع char نمیتونه عدد ۲۰۰ رو ذخیره کنه و بجاش عدد منفی ۶۳ جاش میشینه. بعد اون حلقه char حدود ۶۴ بار اجرا میشه که به مراتب کمتر از حلقه int هست و این حلقه سریعتر اجرا میشه

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۰۸:۵۲

متغییر char به شکل پیش فرض بدون علامت در نظر گرفته میشه !

profile
مصطفی حیدری گفت :
۱۳۹۹-۱۲-۱۷ ۰۹:۰۴

نه عزیز. در تمام پلتفرم ها پیشفرض signd هست. از زمان z80 تا امروز صبح !!!!!

profile
پویا مرادی گفت :
۱۳۹۹-۱۲-۱۷ ۱۱:۳۷

در واقع نه. signed یا unsigned بودن char بسته به پیاده‌سازی و معماری داره:
استاندارد C99:
https://i.imgur.com/NlP7fWK.png
https://stackoverflow.com/a/40772217/1506761

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۰۹:۱۳

اوه – بله حق با شماست، توی ادیتوری که من استفاده میکنم به شکل پیش فرض تیک بی علامت بودن خورده
با این حال شک نکنید حلقه ۲۰۰ بار اجرا خواهد شد – چرا ؟
شما وقتی از منفی ۵۷ یکی کم کنید میشود منفی ۵۸ و این تا منفی ۱۲۸ ادامه خواهد داشت بعد به مثبت ۱۲۷ خواهید رسید و تا صفر ادامه خواهد داشت.
پس حلقه شما همچنان ۲۰۰ بار اجرا خواهد شد.

کاری که اغلب دوستان انجام دادند 🙂

profile
پویا مرادی گفت :
۱۳۹۹-۱۲-۱۵ ۱۸:۲۰

ابتدا باید توجه کرد که برای مقایسه معنادار باید بهینه‌سازی کامپایلر خاموش شود (سوییچ O0). volatile کردن متغیرها هم به این موضوع کمک کرده است.
تفاوت دو روش مورد اشاره این است که 200 در واقع یک int هست. هنگامی که این مقدار به پارامتر حلقه cast میشود، از آنجایی که نوع پارامتر i از نوع char هست، مقداری که در واقع درون i وجود دارد اصطلاحاً implementation defined است.
در معماری Arm Cortex M، در حالت char به جای اینکه مقدار ۲۰۰ که قرار بود در یک رجیستر ۳۲ بیتی ذخیره شود،مقدار منفی ۵۵ در یک بایت قرار گرفته است. این باعث می‌شود که پروسسور برای جابه جایی بایت ها، از دو instruction اضافی استفاده نماید. در نتیجه loop باید زمان بیشتری را برای صفر کردن این عدد صرف کند.
در تصویر زیر، تفاوت disassembly این دو روش (char و int) نشان داده شده است: (خطوط .loc مربوط به دیباگ هستند و حذف شده اند)
https://i.imgur.com/VcvpnwN.png
این کد در STM32F103 تست شد (صدهزار مرتبه) :
تفاوت زمانی به شکل زیر است:

tests: 100000, total char_version(): 3407 millisecs.
tests: 100000, total int_version(): 2826 millisecs.

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۰۸:۵۶

بله درسته در واقع نیازه که متغششر قبل از بارگیری کست بشه.

profile
مجید گفت :
۱۳۹۹-۱۲-۱۵ ۱۷:۳۷

سلام، اول اینکه باید به بررسی معماری و عرض بیت هسته ها پرداخته بشه، عرض بیت هسته و رجیستر های CortexM دارای 32 بیت هست، این به این معنی هست که وقتی متغیری تعریف میکنیم مقدارش درون رجیستر های 32 بیتی پردازش میشه، حالا میریم سراغ متغیر های تعریف شده:

1. متغیر اول از نوع int هست و به صورت پیشفرض 32 بیتی به حساب میاد و طولش به اندازه طول رجیستر ها است.
2. متغیر دوم از نوع char است و طول آن برابر با 8 بیت است.

تا اینجا متوجه میشیم که متغیر دوم کل بیت های رجیستر را استفاده نمیکند، پس پردازش روی این متغیر به چه صورت هست؟
در Cortex-M وقتی پردازش روی متغیر هایی کوچکتر از سایز رجیستر هاش انجام میشه کامپایلر بیت های اضافی را با 0 پر میکند! (جهت تبدیل به سایز بزرگتر)

بررسی کد:
تا قبل از حلقه while میزان پردازش را میتوان برابر در نظر گرفت (با توجه به اینکه دستورات پردازنده برای هردو وجود دارد)، اما وقتی وارد حلقه میشویم روی متغیر پردازش انجام میدهیم، در کد اول با متغیر int نیازی به پر کردن بیت های دیگر نیست ولی در کد دوم بدلیل استفاده از char پس از بارگزاری داده در رجیستر و بعد از کاهش مقدار متغیر نیاز به پر کردن بیت های 31~8 با مقدار 0 داریم، در نتیجه دو دستور دیگر نیز به ساختار کد اضافه میشود.

در نتیجه تابع loop_y سرعت بیشتری در اجرا دارد!

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۰۸:۵۹

بله کاملا درسته 🙂

profile
مهرداد رستمی گفت :
۱۳۹۹-۱۲-۱۵ ۱۷:۰۷

حلقه دوم صحیح است
در arm ثبات ها و پشته و تمام ورودی های آن اکثر دستورهای پردازش داده arm ۳۲ بیتی هستند.به همین دلیل بایستی درصورت امکان از انواع داده ۳۲ بیتی مثل int برای متغیر های محلی استفاده کنیم (این تفکر اشتباه است چون char فضای کمتر اشغال میکند بهتر است از آن استفاده کنیم….)

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۰۹:۰۰

بله درسته – در اوقع باید ببینیم معماری سخت افزار چی هست و بر اساس اون معماری انتخاب انجام بدیم.

profile
امیر گفت :
۱۳۹۹-۱۲-۱۵ ۱۷:۰۴

سلام
چرا جواب من پاک شده؟
:-((((

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۰۹:۰۰

اوپس متاسفم !

profile
سروش موسی پور گفت :
۱۳۹۹-۱۲-۱۵ ۱۳:۲۴

ابتدا فکر کردم شاید 32-bit بودن باعث شود که فرقی بین 2 کد نباشد. بنابراین گفتم از این مسئله مطمئن شوم و جواب را ارسال کنم. با استفاده از DMA به منظورتغییر وضعیت یه پین با هربار تکرار شدن حلقه، متوجه تفاوت ناچیز فرکانسی 2 حلقه شدم. حلقه ای که از int استفاده میکرد کمی سریعتر بود و تقریبا 3% فرکانس بالاتری داشت.
برای بررسی بیشتر از تبدیل کد c به اسمبلی استفاده کردم و متوجه شدم کاهش یک واحد توی 4 بایت (DWORD) یک مرحله کوتاه تر از یه تک بایته.
برای بررسی صحت این قضیه، کد زیر رو توی https://godbolt.org/ با هر کامپایلر c به اسمبلی موجود بررسی کنید.

void loop_x()
{
volatile char i=200;
while(i–)
__NOP();
}

void loop_y()
{
volatile int i=200;
while(i–)
__NOP();
}

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۰۹:۰۲

بله درسته حلقه int سریعتر است.

profile
میلاد نیک پندار گفت :
۱۳۹۹-۱۲-۱۵ ۱۳:۱۴

سلام با توجه به استفاده از تابع اصلاح کننده volatile سرعت مقدار دهی متغییر به دلیل نیاز نبودن به درخواست ها و حلقه ها بیشتر میشود هرچند که در اینجا بی تاثیر هست چون داخل یک حلقه فقط برنامه اجرا شده و دوم اینک در هر دو مورد سوال از این تابع استفاده شده
مثلا بعدی متغیر char هست که ۸ بیت فضا دارد در حالی که متغیر int فقط ۲ بیت فضا دارد و مقدار دهی int به دلیل کم بودن فضا بیشتر است
به نظر من مورد دوم سوال که با int انجام شده سرعت بیشتری دارد

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۰۹:۰۴

بله حلقه ای که با int است سریعتر است
و این به دلیل volatile بودن متغیر هاست که کامپایلر را مجبور میکند متغییرها رو داخل رم ذخیره کند.

profile
فرید ابراهیمی گفت :
۱۳۹۹-۱۲-۱۵ ۱۲:۵۷

سرعت اجرای تابع loop_x کمتر از تابع loop_y است . ولی حلقه های تعریف شده در هر کدام با سرعتی یکسان اجرا میشوند .

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۰۹:۱۵

من فکر میکنم سرعت اجرای حلقه ها هم متفاوت خواهد بود چون متغییرها درون رم تعریف میشوند

profile
فرید ابراهیمی گفت :
۱۳۹۹-۱۲-۱۷ ۲۳:۲۳

در اینجا ما در هر فراخوانی تابع یک ارجاع به آدرس دیگر داریم . به آدرس حلقه . و این ربطی به بیرون حلقه نداره . int یا char بودن متغیر در حلقه تاثیر گذار نیست . چرا که خود char یک نوع int . باید توجه داشته باشیم که حلقه پس از فراخوانی تابع ، فراخوانی میشه .

profile
zeus گفت :
۱۳۹۹-۱۲-۱۸ ۱۰:۲۹

دوست عزیز تاثیر گذار هست – اجازه بدید جواب تفصیلی رو منتشر کنیم – خواهید دید

profile
علی گفت :
۱۳۹۹-۱۲-۱۵ ۱۲:۵۰

کدی که با int نوشته شده سریعتر خواهد بود
چونکه کامپایلر نیازی به تبدیلش نداره تا عملیت ریاضی رو انجام بده
حتی توی کامپیوتر هم همینه
دلیل وجودی bool هم همینه

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۰۹:۱۶

بله درسته 🙂

profile
مهدی گفت :
۱۳۹۹-۱۲-۱۵ ۱۲:۱۲

درود
باهم فرقی ندارن از لحاظ سرعت اجرا
معماری آرم ورژن ۷ طبق مستنداتش برای خوندن و نوشتن مقادیر ۸ بیتی ۱۶ بیتی و ۳۲ بیتی میتونه از دستورالعمل های اتومیک که یک سیکل ماشین زمان میخوان استفاده کنه ،تعریف متغیر شما و مقدار دهی بهش یک سیکل زمان میگیره
ولی احتمال میدم اگه متغیر رو ۳۲ بیتی تعریف میکردین
حلقه وایل متفاوت تر ترجمه میشد و سرعت اجرا بیشتر میشد.
کد رو تست نکردم دسترسی ندارم
?

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۰۹:۲۸

در واقع مساله اینه که حلقه int سریعتر اجرا میشه
بخاطر این که متغیرها توی رم هستند و هنگام لودشدن توی رجیسترهای cpu نیازه که به سی و دو بیت کست بشه و همین زمان بر خواهد بود.

profile
حسین حسینی گفت :
۱۳۹۹-۱۲-۱۵ ۱۱:۵۶

من فکر میکنم برای میکروکنترلر stm32 فرقی نداره سرعتشون تو اجرای این حلقه ها.
چون نوع int دو بایت هست میشه ۱۶ بیت ، و میکرو میتونه ۳۲ بیت رو تو یه کلاک پالس بنویسه ، حالا چه فرقی داره داده char یه بایتی یا ۸ بیتی باشه یا int دو بایتی یا ۱۶ بیتی.

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۰۹:۳۳

خوب توی میکروکنترلرهای ۳۲ متغییر int به شکل ۳۲ بیتی تعریف میشه
مساله دقیقا برمیگرده به لود کردن مقادیر از توی رم که برای int نیاز به کست کردن نداره ولی برای char نیازه این اتفاق بیفته.

profile
حسین گفت :
۱۳۹۹-۱۲-۱۵ ۱۱:۵۴

با سلام .
من فکر میکنم اون کدی که متغیر رو به صورت int تعریف میکنه سریعتر هست .
stm32 ها 32 بیتی هستن .
من در حالت دیبا گ کدهای اسمبلی رو در یک مورد نگاه میکردم .
وقتی متغیر رو 8 بیتی تعریف میکردم برای دسترسی به اون دستورات اسمبلی بیشتری استفاده میشد .
ولی برای دسترسی به متغیر 32 بیتی فرمانهای کمتری استفاده شده بود. فکر میکنم به خاطر اینکه باس دیتای cpu طولش 32 بیت هست این اتفاق میفته .البته کمپایلری هم که من استفاده کردم GCC بود.
به نظر میرسه برای stm32 دسترسی 8 بیتی به صورت مستقیم امکانپذیر نباشه و علت این باشه.

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۰۹:۳۵

بله درسته کاملا 🙂

profile
آرش گفت :
۱۳۹۹-۱۲-۱۵ ۰۹:۲۸

با توجه به ۳۲ بیت بودن این سری میکرو ها، استفاده از متغییر int در تبدیل به دستورات اسمبلی به کدهای کمتری تبدیل می شود همچین به معماری حافظه این میکرو سازگارتر، بطوریکه مدیریت این کدها کمتر و سریع خواهد بود.
لذا حالت دوم سریعتر هست.

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۰۹:۳۶

بله کاملا درسته 🙂

profile
مجید باقری گفت :
۱۳۹۹-۱۲-۱۵ ۰۲:۰۸

درکل ۳۲ بیت در stmما هست ک یک ریجستر کامل رو تشکیل بده که ب نامgeneral purposeهست و ثبات هایی ب نام R0,R1,..در ان ها وجود داره هر R ۵بیت هست در حالتchar ۲ تا از Rها درگیر میشن و در حالت کلی برای ریجستر *۳(۲×۵) که میشه ۳۰ بیت پس ۷تا باید R وجود داشته باشد
چون تو حالت char که 8بیتیه باید 7 تا rداشته باشیم ولی تو int که ۱۶ بیتی هست و ۵*۳ و ۳تا ثبات rنیازه ولی در ۳۲ بیت ۶ تا ثبات r نیاز هست
6تا rداریم پس در هر صورت intسرعت بیشتری داره

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۰۹:۳۹

چطور به سه تا ثبات برای نگه داری یه عدد ۱۶ بیتی رسیدید ؟
در ضمن متغییر int در خانواده های ۳۲ بیتی به شکل ۳۲ بیتی تعریف میشه

profile
مجید باقری گفت :
۱۳۹۹-۱۲-۱۵ ۰۱:۳۶

چون تو حالت char که 8بیتیه باید 4 تا rداشته باشیم در قسمت ریجیستر (general purpose )
ولی تو int که ۱۶بیتی هست
3تا rداریم
پس intسرعت بیشتری داره

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۰۹:۳۸

ببینید این که حلقه int سریعتره درسته
ولی توضیح شما رو متوجه نشدم :/

profile
امیر علی گفت :
۱۳۹۹-۱۲-۱۵ ۰۰:۰۵

قطعا این کد اصلا اجرا نمیشه چون توی حلقه وایل هیچ شرطی نوشته نشده

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۰۹:۴۲

😐
چرا اجرا نشه دوست عزیز – همین که i مقداری غیر صفر داشته باشه حلقه صحیح است و تا وقتی که i مقداری غیر صفر داشته باشه اجرا میشه :/

profile
مهدی گفت :
۱۳۹۹-۱۲-۱۵ ۰۰:۰۴

سلام . توی یه پست اموزشی داخل سایت در مورد بهینه سازی کد توی میکروهای avr گفته بودید که استفاده از متغیر هشت بیتی برای این پردازنده های هشت بیتی کارامد تر هستش نسبت به استفاده از متغییر 16 بیتی . پس اینجا هم چون میکروی مورد نظرمون 32 بیتی هست ، اسفاده از int کار امد تر هست. انشاا…

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۰۹:۴۳

بله منطق و جواب درستی است 🙂

profile
فرزین گفت :
۱۳۹۹-۱۲-۱۴ ۲۳:۵۹

از مقایسه ی اینستراکشن های دوتابع بصورت disassemble شده، میتوان دید که در حلقه ی while موجود در تابع loop_x برای لود کردن متغیر i از حافظه، کم کردن یک واحد از آن و ذخیره ی متغیر درحافظه، علاوه بر دستورات ldrb، strb، cmp که متناظر این دستورات در حلقه ی while موجود در تابع loop_y نیز مشاهده میشود، شاهد دو دستور and هستیم. از انجایی که این حلقه 201 بار اجرا میشود، در تابع loop_x هزینه ی اجرای 402 (201 * 2) دستور and وجود دارد که این هزینه در تابع loop_y وجود ندارد. در نتیجه میتوان گفت که تابع loop_y سریع تر از تابع loop_x اجرا خواهد شد.
لینک اینستراکشن توابع:
https://paste.ubuntu.com/p/2JxszDMgxn

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۰۹:۴۱

بله درست است 🙂

profile
فرزین گفت :
۱۳۹۹-۱۲-۱۵ ۰۰:۱۳

برای کامپایل و disassemble کردن این توابع بصورت زیر عمل کردم:
اول برنامه ای نوشتم که در اون فقط دو تابع رو پیاده سازی کردم و تابع main رو صدا زدم(نیازی به فراخوانی توابع در تابع miain نبود). سپس با کامند زیر برنامه رو کامپایل کردم.

( arm-none-eabi-gcc –specs=nosys.specs loop.c -o loop.out )

سپس توسط دو دستور زیر اینستراکشن های توابع رو استخراج کردم و در دو فایل جدا از هم ذخیره کردم.و محتویات دو فایل رو کنار هم ارسال کردم.

(arm-none-eabi-objdump –no-show-raw-insn –visualize-jumps –disassemble=loop_x ./loop.out > loopx.objdump )

(arm-none-eabi-objdump –no-show-raw-insn –visualize-jumps –disassemble=loop_y ./loop.out > loopy.objdump )

profile
پوریا گفت :
۱۳۹۹-۱۲-۱۴ ۲۳:۵۱

این نیاز به تست روی معماری همون میکرو داره و همچنین وابسته به کامپایلر هستش ولی با فرض اینکه با -O0 کامپایل میکنید zero extension میتونه overhead داشته باشه و لوپ با uint_8 کندتر باشه

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۰۹:۴۴

بله درسته

profile
amirhos_esm گفت :
۱۳۹۹-۱۲-۱۴ ۲۳:۴۰

حلقه دوم سریع تر است
شاید به این فکر کرده باشید که اگر این کد را در یک سیستم 8 بیتی مانند avr تست کنیم ، کدام حلقه سریع تر است؟ بله حلقه 1 قطعا در این سیستم سریع تر است چون یک تفریق 32 بیتی در یک سیستم 8 بیتی به چند کلاک متوالی نیاز دارد و این کار باعث کند شدن سیستم می شود
اما در یک سیستم 32 بیتی چی طور ؟ شاید بگید چون سیستم 32 بیتی هست ، پس یک تفریق 32 بیتی را می تونه تو یک کلاک انجام بده . بدین ترتیب پس یک عملیات 8 بیتی رو هم باید در یک کلاک انجام بده . بله جواب درسته . پس چرا دو حلقه بالا باهم متفاوتند ؟
جواب به قبل تفریق بر می گرده وقتی می خواد پردازنده دیتا رو از رم به ریجستر ها خودش منتقل کنه. می دونید که در stm32 رجیستر های cpu طولشون 32 بیت هستش . پس وقتی یک داده 32 بیتی رو از رم به یکی از رجیستر های cpu منتقل می کنیم در واقع 32 بیت داده رم ، رو 32 بیت داده رجیستر ریخته میشوند. اما اگه دیتا 8 بیتی داشتیم چی ؟ خوب اون دیتا می یاد رو 8 بیت اول ریجستر cpu ریخته میشه . اما تکلیف 24 بیت بعدی چی میشه ؟ آیا تضمینی وجود داره که اونا صفر باشن ( مشکل ایجاد نکنن ) جواب خیر هستش در واقع کد باید کاری کنه که وقتی یک دیتا 8 بیتی از رم به cpu منتقل میشه یک فکری به حال 24 بیت بعدی بکنه اگر دیتا بی علامت باشد باید عملیات zero extention انجام بده یعنی 24 بیته بعدی رو صفر بکنه اما اگر عدد علامت دار باشه باید signed extention بکنه یعنی مثلا عدد 11110001 که برابر -15 هستش به 32 بیت گسترش بده که مقدار در 32 بیت همون -15 بشه ( 0xfffffff1) . این عملیات ها هستن که باعث میشه پردازش یک داده 8 بیتی در سیستم 32 بیتی با سرعت کمتری به نسبت داده 32 بیتی انجام بشه

در ادامه با تست عملی مشخص شد که حلقه دوم در cortex m3 و با فعال بودن بهینه سازی رو سایز ، حدود 2017 کلاک و حلقه اول با حدود 402 کلاک بیشتر اجرا می شوند.
چون حلقه 201 بار اجرا می شود و اختلاف 402 تایی کلاک دو حلقه = دو دستور extetion برای گسترش دادن دیتای 8بیتی توسط کامپایلر ایجاد شده است

خروجی اسمبلی کامپایلر gcc را برای cortex m3
https://paste.ubuntu.com/p/zX9hfxQHNG/

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۰۹:۴۶

بله درسته – یکی از کامل ترین جواب هایی که دیدم 🙂

profile
Ramin گفت :
۱۳۹۹-۱۲-۱۴ ۲۲:۳۵

با عرض سلام خدمت گروه بسیار فعال و ارزشمند سیسوگ.
من این دو حلقه رو در دیباگر و محیط دیس اسمبلر مشاهده کردم و طبق مطالعه ای که روی دستورات instruction set Cortex انجام دادم
به این نتیجه رسیدم که loop_y که متغیر آن از نوع int تعریف شده دارای سرعت بیشتریه.
چون کامپایلر برای تفسیر کدی که از متغیر char استفاده شده میاد از دستورات اسمبلی مربوط به byte استفاده میکنه مثل دسترور STRB و UXTB
و … تا بتونه با مقادیر به صورت byte کار بکنه در صورتی که تابعی که با متغیر از نوع int تعریف شده چون سایز متغیر 32 بیتیه و چون آدرس دهی در پردازنده ی ما هم 32 بیتی هست خیلی راحت و با دستورات کمتر کامپایلر میتونه کد رو به اسمبلی ترجمه کنه (همچنین حجم کد اسمبلی while در تابعی که از متغیر int استفاده شده بود کمتر از تابعی بود که از متغیر char استفاده شده )
با تشکر.

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۰۹:۴۹

بله کاملا درسته 🙂

profile
qwerty13 گفت :
۱۳۹۹-۱۲-۱۴ ۲۱:۵۹

تابع اولی سریعتر باید باشه چون Char یک بایتیه ولی int دو بایتی…

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۰۹:۵۱

البته توی میکروی ۳۲ بیتی اینت هم ۳۲ بیت خواهد بود
و چون رجیسترها و ثبات ها ۳۲ بیتی هستند در واقع حلقه int سریعتر اجرا میشه

profile
keivan_shakerifar گفت :
۱۳۹۹-۱۲-۱۴ ۱۷:۱۲

سلام
من فکر میکنم حلقه ی دوم جواب درست باشه
چون که متغیر از نوع int برای این منظور مناسب تره
چون متغیر از نوع char حجم بیشتری از رم رو اشغال میکنه در صورتی که نیازی نیست و متغیر از نوع int برای این حلقه کفایت میکنه

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۰۹:۵۲

این که حلقه دوم سریعتر اجرا میشه درسته ولی متغییر char رم کمتری میگره ها !

profile
Amir گفت :
۱۳۹۹-۱۲-۱۴ ۱۶:۵۳

سلام
با توجه به اینکه هسته از معماری ۳۲ بیت استفاده میکنه و متغیر ها ۳۲ بیتی آدرس دهی میشن، قاعدتا برای تعریف نوع int یا char چهار بایت در نظر گرفته میشه و با توجه به اینکه برای اجرای دستور x– یا y– یه کلاک صرف خواهد شد، سرعت اجرای هر دو تابع برابر خواهد بود.
ارادتمند.

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۰۹:۵۵

سلام دوست عزیز
نکته که ای که باید بهش توجه میکردید این هست که متغییرها قرار از توی رم لود بشن و ذخیره بشن
همین نکته کوچک معادلات رو بهم میریزه 🙂

profile
مرتضی کاظمی گفت :
۱۳۹۹-۱۲-۱۴ ۱۶:۳۵

متغیر char هشت بیت و متغیر int شانزده بیت است پس فضای کمتری اشغال میکنه و نصف اونه، اما اگر از میکرو ۳۲ بیتی استفاده کنید فرقی نداره چون در هر کلاک میتونه تا ۳۲ بیت رو پردازش یا منتقل کنه اما اگر از میکرو ۸ بیتی استفاده می‌کردید تفاوت در سرعت وجود داشت و استفاده از char سریعتر بود. زیرا برای خواندن int دوبار مراجعه به ram نیاز بود.

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۰۹:۵۹

در میکروکنترلرهای ۳۲ بیتی متغییر اینت نیز ۳۲ بیت خواهند بود
درسته که عملیات ریاضی مورد نظر بر روی هر کدام از این متغییرها یک سیکل نیاز داره ولی بارگذاری اونها توی رجیستر پردازنده متفاوت خواهد بود.

profile
دانیال حیدری مقدم گفت :
۱۳۹۹-۱۲-۱۴ ۱۶:۱۹

سلام
جواب سوال حلقه x هست، به دلیل استفاده از char که یک بایتی هستش.

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۱۰:۰۱

اما حلقه y سریعتر اجرا میشه 🙂
دقیقا به خاطر معماری ۳۲ بیتی پردازنده و ۳۲ بیتی بودن متغییر ذخیره شده !

profile
Omid Azadeh گفت :
۱۳۹۹-۱۲-۱۴ ۱۶:۱۵

من فکر کنم میکرو حلقه ای رو که متغیرش intهستش رو سریعتر تموم میکنه … بخاطر اینکه نیازی نیست متغیر رو cast کنه …بخاطر ۳۲ بیتی بودن میکرو … چون توابع رو هم اگر ورودی و خروجی تابع int باشه سریعتر اجرا میکنه ( فکر کنم از نوشته های خود شما بود ، مطمئن نیستم ) … امید وارم اشتبا نکرده باشم … ممنون … به امید دیدار ….

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۱۰:۰۱

بله درسته 🙂

profile
مریم بایرام دوست گفت :
۱۳۹۹-۱۲-۱۴ ۱۶:۰۱

حلقه دوم سریع تر است

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۰۹:۵۳

بله درسته ای کاش دلایل خودتون رو ارائه می کردید.

profile
مریم بایرام دوست گفت :
۱۳۹۹-۱۲-۱۴ ۱۶:۰۰

حلقه دوم

profile
حسین گفت :
۱۳۹۹-۱۲-۱۴ ۱۵:۲۷

سلام
من دقیقا از معماری و دستورات اسمبلی STM32 خبر ندارم ولی به صورت کلی به نظرم کد دوم (loop_y) که متغیر از نوع int داره سریع تر هستش. دلیلش هم اینه که STM32 همونطور که از اسمش مشخصه باس 32 بیتی داره و نوع int هم 32 بیت پهنا داره. پس با کمینه کلاک میتونه به متغیر int دسترسی داشته باشه و روی اون عملیات انجام بده. اما در عوض نوع char پهنای 8 بیتی داره و لازمه علاوه بر این که به این متغیر دسترسی پیدا میکنه، محتویات حافظه مجاور رو هم تغییر نده که این خودش احتیاج به پردازش و کلاک بیشتر داره.

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۱۰:۰۵

بله درسته از منطق خوبی استفاده کردید 🙂

profile
Omid گفت :
۱۳۹۹-۱۲-۱۴ ۱۴:۴۳

من با میکروکنترلر و کامپایلرش آشنایی ندارم ولی یک حالت اینه که char یک بایت هست پس عملیات کم‌کردنش باید سبک‌تر باشه و سریعتر. حالت دیگه که احتمال بیشتری میدم، اپتیمایز کردن کامپایلر هست که با دیدن nop یا در حقیقت ندیدن هیچ عملیات داخل حلقه، کل اون را با ست کردن i به 0 جایگزین می‌کنه و در عمل دو تا حلقه یک پرفورمنس خواهند داشت.

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۱۰:۰۸

از اونجایی که عملیات باید به شکلی باشه که روی خونه های دیگر حافظه تغییری ایجاد نکنه توی نوع char پس باید کار بیشتری رو انجام بده منطقا و حلقه char کندتر خواهد بود.

profile
نیما گفت :
۱۳۹۹-۱۲-۱۴ ۱۰:۰۲

با توجه به اینکه معماری 32 بیتی هست loop_y باید سریع تر باشه . اگر کامپایلر int رو 32 بیتی بگیره و معماری هم 32 بیتی باشه سریعترین ادرسدهی هست

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۱۰:۰۹

بله منطق شما درسته

profile
علی گفت :
۱۳۹۹-۱۲-۱۴ ۱۰:۰۲

با int سریع تر است چون میکرو stm32 پردازنده ۳۲ بیتی دارد و محاسبات در همان نوع سریع تر از ۸ بیتی است

profile
zeus گفت :
۱۳۹۹-۱۲-۱۷ ۱۰:۱۱

جوابتون درسته ولی نه به این دلیل که محاسبات نوع ۳۲ بیتی سریعتره به دلیل که دسترسی به حافظه ۳۲ بیتی سریعتره

become a writer

نویسنده شو !

سیسوگ با افتخار فضایی برای اشتراک گذاری دانش شماست. برای ما مقاله بنویسید.

ارسال مقاله
become a writer

نویسنده شو !

سیسوگ با افتخار فضایی برای اشتراک گذاری دانش شماست. برای ما مقاله بنویسید.

ارسال مقاله