به گفته hackster
TARANG دستگاهی است برای ترجمهی خودکار زبان اشاره که هدفش آسانکردن ارتباط بین افراد ناشنوا یا کمشنوا با دیگران است. بهجای طراحی خشک و صنعتی، سازنده تلاش کرده ظاهری دوستانه به آن بدهد؛ چیزی که بیشتر به یک موجود کوچک با «چشمهایی روی نمایشگر OLED» شبیه است تا یک گجت الکترونیکی. همین چشمکزدنها به دستگاه شخصیت میدهد و تجربهی استفاده را گرمتر میکند.
در نگاه اول شاید بپرسید «TARANG چیست و چه میکند؟» پاسخ کوتاه این است: این دستگاه از یک دوربین برای دیدن ژستهای دست استفاده میکند، با تکیه بر MediaPipe آنها را تشخیص میدهد، و معنا را روی نمایشگر نشان میدهد. همهی این فرایند بهصورت بلادرنگ انجام میشود تا دو طرف گفتوگو بتوانند بدون وقفه ارتباط برقرار کنند.
کار برای گویندهی زبان اشاره ساده است: کافی است پشت دستگاه بایستد و دقیقاً همان حرکات و علائمی را که همیشه استفاده میکند اجرا کند. مخاطب یا شنونده طرف دیگر دستگاه قرار میگیرد و نمایشگر OLED را میبیند. هر زمان که یک علامت شناخته شد، معنای آن روی نمایشگر ظاهر میشود. این الگوی تعامل دوطرفه، بدون نیاز به واسطه یا اپلیکیشن جداگانه، جریان ارتباط را طبیعی نگه میدارد.
هستهی هوشمندی TARANG در زنجیرهی بینایی ماشین آن است. یک دوربین پیوسته از دستان کاربر تصویر میگیرد. این فریمها وارد سامانهی رهگیری دست مبتنی بر MediaPipe میشوند. MediaPipe برای استخراج موقعیتها و الگوهای حرکتی دستها استفاده شده و خروجی آن به یک نگاشت از «موقعیتها/ژستها» به «معانی علائم شناختهشده» پیوند میخورد. نتیجهی نهایی یک رشتهی متنی یا معادل معنایی است که روی نمایشگر OLED نشان داده میشود.
بهصورت مفهومی، خط لولهی پردازش به این ترتیب پیش میرود:
این مسیر، با وجود سادگی توضیح، باید بهاندازهی کافی سریع و پایدار باشد تا تجربهی «بلادرنگ» واقعی بهدست دهد؛ نکتهای که در TARANG با انتخاب سختافزار مناسب و اجرای محلی پردازش هدفگذاری شده است.
سازنده برای هستهی محاسباتی دستگاه از Raspberry Pi 5 استفاده کرده است. این رایانهی SBC بهاندازهی کافی قدرتمند است تا بار پردازش بینایی ماشین—از دریافت فریمها تا اجرای عملیات رهگیری دست—را بهصورت محلی انجام دهد. انتخاب این معماری به معنی حذف وابستگی به سرویسهای ابری است؛ در نتیجه، تأخیر شبکه، نیاز به اتصال پایدار اینترنت، و مخاطرات امنیتی مرتبط با ارسال دادهها به بیرون وجود ندارد.
این تصمیم برای دستگاهی که با حرکات دست و در مواردی با محتوای ارتباطی حساس سروکار دارد، اهمیت ویژهای دارد. وقتی تمام پردازش روی خود دستگاه انجام شود، کنترل داده در دست کاربر میماند و احتمال افشای ناخواستهی مکالمات به حداقل میرسد.
سازنده بهصراحت از نگرانیهای مربوط به ارسال دادههای شخصی به ابر یاد میکند—از جمله خطر نشت اطلاعات یا نگهداری غیرشفاف «مکالمات قدیمی». TARANG با اجرای تمام مراحل تشخیص روی Raspberry Pi 5 این نگرانیها را رفع میکند. هیچ فریمی برای پردازش به بیرون ارسال نمیشود و تمام تحلیلها همانجا انجام میگیرد. این معماری محلی، علاوهبر ارتقای حریم خصوصی، به پاسخدهی سریعتر هم کمک میکند، چون مسیر رفتوبرگشت به سرور حذف شده است.
ظاهر دستگاه طوری طراحی شده که برای کاربر «دوستانه» باشد. نمایشگر OLED کوچک با «چشمهایی که پلک میزنند» به TARANG حالوهوایی شبیه یک موجود زنده میدهد. این انتخاب ظاهری، بهخصوص در محیطهای عمومی یا آموزشی، به کاهش اضطراب کاربر و ایجاد تجربهای مثبتتر کمک میکند. جایگاه دوربین و تقسیم فضا بین گویندهی زبان اشاره و مخاطب هم بهگونهای توصیف شده که هر دو طرف بهصورت طبیعی در دو سوی دستگاه قرار بگیرند و تعامل بدون مزاحمت انجام شود.
در حال حاضر جزئیات فنی ساخت منتشرشده محدود است. با این حال، سازنده اعلام کرده است که «تمام کد منبع» طی چند هفتهی آینده در GitHub قرار میگیرد. این یعنی علاقهمندان میتوانند پس از انتشار، به پیادهسازیها، وابستگیها، و احتمالا نحوهی آموزش یا تنظیم نگاشت علائم دسترسی داشته باشند و در صورت تمایل دستگاه را بازتولید یا توسعه دهند.
با توجه به ماهیت پروژه، انتظار میرود مخزن کد شامل بخشهایی برای دریافت تصویر دوربین، فراخوانی ماژولهای MediaPipe، نگاشت ژستها به معانی، و درایورهای نمایش روی OLED باشد. تا زمان انتشار رسمی، اما، تنها توصیفهای کلی از جریان کار در دسترس است.
این خبر بیشتر بر معرفی و ایدهی اصلی TARANG تمرکز دارد و وارد جزییات فنی عمیق مانند مجموعهی علائم پشتیبانیشده، زبان یا زبانهای اشارهی هدف، سنجههای دقت، یا نرخ فریم سیستم نشده است. بنابراین هرگونه ارزیابی دقیق از کارایی یا پوشش علائم باید به بعد از انتشار کد و مستندات موکول شود. با این وجود، از توصیفهای موجود میتوان فهمید که دستگاه برای گفتوگوی رو در رو و سناریوهای روزمرهی ارتباطی طراحی شده است..
نویسنده شو !
سیسوگ با افتخار فضایی برای اشتراک گذاری دانش شماست. برای ما مقاله بنویسید.