خداحافظی با الکسا و گوگل؟ Espressif به شما اجازه می‌دهد دستیار صوتی خصوصی خود را روی ESP32 بسازید!

بلاگ خبری

77 بازدید

۱۴۰۴-۰۹-۲۷

3 دقیقه

نویسنده: 0x7a657573
درباره نویسنده: من اون دیوونه‌ام که وقتی بورد روشن نمی‌شه، ذوق می‌کنم؛ یعنی یه شب تا صبح قراره با منبع تغذیه و لاجیک آنالایزر عشق کنم! آدما قهوه می‌خورن که بیدار بمونن، ولی من بیدار می‌مونم تا بفهمم این بورد چرا باهام قهر کرده! زندگی من یه لوپ بی‌نهایته بین باگ و دیباگ... با چاشنی یه کم امید و یه عالمه دیوونگی!

Espressif پلتفرم ESP Private Agents را معرفی کرد؛ چارچوبی برای ساخت دستیارهای خصوصی و سفارشی روی ESP32 با پردازش روی‌دستگاه و امکان کار هیبریدی با ابر. مبتنی بر AWS Fargate و Amazon Bedrock است، دموی وب دارد و ابزارهای Remote/Local را پشتیبانی می‌کند. فریمور آماده (Generic Assistant یا Matter با Thread) و کیت‌های EchoEar، ESP32‑S3‑Box و M5Stack CoreS3 را پوشش می‌دهد.

مرور کلی پلتفرم

Espressif از ESP Private Agents رونمایی کرده است؛ یک چارچوب یکپارچه برای ساخت دستیارهای محلی و خصوصی که روی دستگاه‌های مبتنی بر ESP32 اجرا می‌شوند و همزمان از سناریوهای هیبریدی (ترکیب پردازش روی‌دستگاه و پردازش ابری) پشتیبانی می‌کنند. این پلتفرم امکان ساخت اپلیکیشن‌هایی را می‌دهد که سرعت، بینایی ماشین، اتوماسیون و تعاملات عامل‌محور را ترکیب می‌کنند؛ از یک دستیار صوتی چندزبانه روی‌دستگاه (smart speaker) تا عامل‌های وظیفه‌گرا برای خودکارسازی فرایندها. در اینجا «عامل» را به‌عنوان Agent (عامل) به‌کار می‌بریم و ماهیت خصوصی/محلی آن، آن را برای سناریوهای Edge AI مناسب می‌کند.

معماری در سطح کلان

زیرساخت این راهکار بر خدمات ابری AWS بنا شده است: AWS Fargate (پلتفرم اجرای برنامه بدون مدیریت سرور) به‌عنوان بستر اصلی اجرای سرویس‌ها، و Amazon Bedrock Foundation Models (مدل‌های پایه LLM) به‌عنوان سیستم‌های پشتیبان LLM. این معماری نه‌تنها روی دستگاه‌های ESP32 دارای میکروفون و اسپیکر کار می‌کند، بلکه از کلاینت‌های موبایل و وب نیز پشتیبانی می‌کند. نتیجه، انعطاف‌پذیری در انتخاب مسیرهای پردازش و استقرار عامل‌هاست؛ از اجرای کامل روی‌دستگاه تا تکیه بر مدل‌های ابری در مواقع نیاز.

نمای معماری سطح‌بالای ESP Private Agents

دموی وب و تجربه کاربری

Espressif یک دموی تحت‌وب منتشر کرده که می‌توان آن را به‌صورت چت‌بات متنی یا دستیار صوتی (با استفاده از میکروفون و اسپیکر کامپیوتر) امتحان کرد. برای سناریوهای تولیدی، شرکت می‌گوید مشتریان می‌توانند این راهکار را در حساب AWS خودشان مستقر کنند. در آزمایش روی Ubuntu 24.04 با مرورگر Firefox، ورود از طریق ESP RainMaker (پلتفرم ابری Espressif برای دستگاه‌های IoT) انجام شد و چت‌بات متنی به‌خوبی کار کرد.

نسخه آزمایشی آنلاین ESP برای عوامل خصوصی

پس از کلیک روی آیکون میکروفون و تغییر حالت به صوتی، دستیار پاسخ‌ها را با صدا تکرار کرد، اما علی‌رغم شناسایی میکروفون، صدای کاربر شنیده نشد. کلیک روی میکروفون، صحبت، و زدن دکمه توقف، فایل صوتی را ارسال می‌کرد اما پاسخی برنمی‌گشت. میکروفون سیستم سالم بود؛ احتمالاً دموی ESP Private Agents با Firefox هماهنگی کامل ندارد.

پیش‌نمایش صوتی عامل‌های خصوصی ESP

دموی EchoEar: دستیار صوتی چندزبانه

دمویی که بر پایه سخت‌افزار EchoEar تهیه شده، جذابیت عملی این پلتفرم را بهتر نشان می‌دهد: یک دستیار صوتی چندزبانه که به انگلیسی، هندی (TBC)، آلمانی و اسپانیایی صحبت می‌کند و با تغییر گوینده، زبان را عوض می‌کند. این نشان می‌دهد کاربر می‌تواند عامل‌های صوتی را با پرسونای متفاوت و زبان‌های مختلف، بدون اتکا به سخت‌افزار پرهزینه، روی ESP32 اجرا کند.

ساخت Agent: از مدل تا ابزار

در یادداشت فنی Espressif مراحل ساخت یک عامل (Agent) و سخت‌افزار مرتبط آن توضیح داده شده است. خلاصه مراحل تعریف عامل به‌صورت زیر است:

انتخاب LLM: از میان مجموعه مدل‌های پشتیبانی‌شده در Amazon Bedrock Foundation Models. هر مدل رفتار، هزینه و کارایی متفاوتی دارد. «مدل زبانی بزرگ (LLM)» بر بستر Bedrock نقش موتور استدلالی عامل را ایفا می‌کند.
System Prompt: «راهنمای سامانه (System Prompt)» رفتار عامل و پرسونا را تعیین می‌کند؛ مثلاً کنترل‌کننده صوتی، قصه‌گو، یا دستیار پشتیبانی مشتری.
Tools: «ابزارها» اقدام‌های افزایشی هستند که Agent می‌تواند برای انجام کارهای مشخص فراخوانی کند (مانند کنترل ESP RainMaker، کنترل Volume، یا تشخیص Emotion). دو نوع ابزار تعریف شده است:
- Remote Tools: ابزارهای راه‌دور سازگار با Model Context Protocol (MCP).
- Local Tools: ابزارهایی که مستقیماً روی کلاینت اجرا می‌شوند؛ چه روی خود دستگاه IoT و چه روی اپلیکیشن موبایل همراه. نمونه: روشن‌کردن چراغ یا تنظیم سرعت فن.

پس از تعریف Agent، می‌توان آن را مستقیماً از داشبورد وب تست کرد. وقتی نتیجه رضایت‌بخش بود، نوبت رفتن به سمت سخت‌افزار واقعی و توسعه روی کیت‌های پشتیبانی‌شده است.

از پروتوتایپ تا سخت‌افزار: فریمور و راه‌اندازی

سه کیت توسعه برای شروع پیشنهاد شده‌اند: EchoEar، ESP32‑S3‑Box و M5Stack CoreS3. گام‌های عملیاتی روی سخت‌افزار به این صورت است:

برنامه‌ریزی فریمور (firmware): راهکار، سورس‌کد و باینری فریمور را تولید می‌کند و می‌توانید از طریق مرورگر آن را فلش کنید. فعلاً دو نوع فریمور در دسترس است:
- Generic Assistant: دستیار عمومی برای تعاملات متنی/صوتی.
- کنترلر Matter با کنترل صوتی و پشتیبانی Thread: برای سناریوهای خانه هوشمند مبتنی بر Matter. جزئیات بیشتر در GitHub موجود است.
Provision دستگاه با اپلیکیشن ESP RainMaker Home: جفت‌سازی و پیکربندی اولیه دستگاه از طریق اپ رسمی.
پیکربندی Agent جدید روی دستگاه (اختیاری): تغییر Agent پیش‌فرض دستگاه با استفاده از QR code.
تعامل صوتی با دستگاه: فعال‌سازی میکروفون/اسپیکر و اجرای فرامین.