بلاگ خبری سیسوگ

فناوری FOMO جهشی در زمینه بینایی ماشین

فناوری FOMO

مدل FOMO (Faster Object, More Object) باهدف کاهش نیاز سخت‌افزاری پردازش‌های تشخیص اشیاء و همچنین بهبود کارایی آن‌ها، به‌خصوص در کاربردهای با منابع محدود (سیستم‌های Embedded) طراحی‌شده است.

طبق ادعای شرکت سازنده، فناوری FOMO تا 30 برابر از شبکه MobileNet SSD سریع‌تر است و می‌تواند با کمتر از 200 کیلوبایت RAM کار کند! طبق گزارش دیگری از Edge Impulse، فناوری FOMO حالت‌های مختلف تشخیص اشیاء را ارائه می‌کند؛ دسته‌بندی ابتدای تصاویر (مثلاً اینکه آیا در تصویر چهره‌ای وجود دارد یا نه؟) و انواع پیچیده‌تر تشخیص اشیاء (چند چهره در تصویر دیده می‌شوند، در صورت وجود چهره، مکان آن در تصویر کجاست و اندازه آن چقدر است؟) در نوع ساده تشخیص شیء ممکن است مثلاً تنها موقعیت اشیاء در تصویر پیدا شود و اندازه آن‌ها راندانیم.

 

فناوری FOMO

بنابراین در زمان پردازش تصویر توسط این مدل، به‌جای کادر معمول در اطراف چهره، تنها موقعیت چهره به همراه یک دایره کوچک (به نام centroid) نشان داده می‌شود. تصویر ورودی FOMO می‌تواند در اندازه‌های مختلفی باشد. این مدل می‌تواند تصویری به کوچکی 96‌x96 پیکسل را پردازش کند. در مرحله اول پردازش، تصویر اصلی به جدولی از تصاویر کوچک‌تر (با اندازه پیش‌فرض 8‌x8) تقسیم می‌شود. سپس عمل دسته‌بندی، به‌صورت موازی و مستقل روی همه این تصاویر کوچک‌تر، انجام خواهد شد. به‌عنوان‌مثال، برای یک تصویر با اندازه 96‌x96 و اندازه سلول جدول 8‌x8، به تعداد 12‌x12 تقسیم‌بندی خواهیم داشت؛

 

هر چه اندازه تصویر ورودی کوچک‌تر باشد، نیازمندی‌های سخت افزاری نیز کمتر خواهد بود. برای مثال فناوری FOMO به همراه MobileNetV2 0.05 alpha، برای پردازش یک تصویر grayscale با ابعاد 96‎ x 96 و به سرعت حدود 10‎ fps، روی یک پردازنده Cortex-M4F (با فرکانس 80‎ MHz) به کمتر از 100KB RAM نیاز خواهد داشت.

باید توجه شود که به دلیل محدودیت‌های مربوط به تقسیم‌بندی تصویر، مدل FOMO زمانی که اشیاء در تصویر، اندازه مشابهی داشته باشند و  بیش‌ازحد به هم نزدیک نباشند، عملکرد بهتری دارد.

ویدیوی زیر عملکرد یک بورد Arduino Nicla Vision (که در آن از یک میکروکنترلر STM32H7 Cortex-M7 استفاده‌شده است) در تشخیص اشیاء قوطی و بطری با سرعت 30‌ fps را نشان می‌دهد؛

 

 

نتیجه

اگرچه فناوری FOMO با میکروکنترلرها سازگاری زیادی دارد، اما کاربردش به آن‌ها محدود نمی‌شود از FOMO می‌توان روی سخت‌افزار لینوکسی هم استفاده کرد. به‌عنوان مثال درجایی که به عملکرد قوی‌تری نیاز داشته باشیم، می‌توانیم برای تشخیص اشیاء با سرعت 60 فریم بر ثانیه، از بورد Raspberry Pi 4 SBC استفاده کنیم.

FOMO تنها روی بوردهایی قابل‌استفاده است که به دوربین مجهز باشند و توسط Edge Impulse پشتیبانی شوند. جزییات بیشتر در این زمینه، در بیانیه و اسناد منتشرشده، قابل‌دسترسی است.

منبع

انتشار مطالب با ذکر نام و آدرس وب سایت سیسوگ، بلامانع است.

شما نیز میتوانید یکی از نویسندگان سیسوگ باشید.   همکاری با سیسوگ

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *