خداحافظی با الکسا و گوگل؟ Espressif به شما اجازه می‌دهد دستیار صوتی خصوصی خود را روی ESP32 بسازید!

1 بازدید
۱۴۰۴-۰۹-۲۷
3 دقیقه
  • نویسنده: 0x7a657573
  • درباره نویسنده: من اون دیوونه‌ام که وقتی بورد روشن نمی‌شه، ذوق می‌کنم؛ یعنی یه شب تا صبح قراره با منبع تغذیه و لاجیک آنالایزر عشق کنم! آدما قهوه می‌خورن که بیدار بمونن، ولی من بیدار می‌مونم تا بفهمم این بورد چرا باهام قهر کرده! زندگی من یه لوپ بی‌نهایته بین باگ و دیباگ... با چاشنی یه کم امید و یه عالمه دیوونگی!

به گفته cnx-software

Espressif پلتفرم ESP Private Agents را معرفی کرد؛ چارچوبی برای ساخت دستیارهای خصوصی و سفارشی روی ESP32 با پردازش روی‌دستگاه و امکان کار هیبریدی با ابر. مبتنی بر AWS Fargate و Amazon Bedrock است، دموی وب دارد و ابزارهای Remote/Local را پشتیبانی می‌کند. فریمور آماده (Generic Assistant یا Matter با Thread) و کیت‌های EchoEar، ESP32‑S3‑Box و M5Stack CoreS3 را پوشش می‌دهد.

مرور کلی پلتفرم

Espressif از ESP Private Agents رونمایی کرده است؛ یک چارچوب یکپارچه برای ساخت دستیارهای محلی و خصوصی که روی دستگاه‌های مبتنی بر ESP32 اجرا می‌شوند و همزمان از سناریوهای هیبریدی (ترکیب پردازش روی‌دستگاه و پردازش ابری) پشتیبانی می‌کنند. این پلتفرم امکان ساخت اپلیکیشن‌هایی را می‌دهد که سرعت، بینایی ماشین، اتوماسیون و تعاملات عامل‌محور را ترکیب می‌کنند؛ از یک دستیار صوتی چندزبانه روی‌دستگاه (smart speaker) تا عامل‌های وظیفه‌گرا برای خودکارسازی فرایندها. در اینجا «عامل» را به‌عنوان Agent (عامل) به‌کار می‌بریم و ماهیت خصوصی/محلی آن، آن را برای سناریوهای Edge AI مناسب می‌کند.

معماری در سطح کلان

زیرساخت این راهکار بر خدمات ابری AWS بنا شده است: AWS Fargate (پلتفرم اجرای برنامه بدون مدیریت سرور) به‌عنوان بستر اصلی اجرای سرویس‌ها، و Amazon Bedrock Foundation Models (مدل‌های پایه LLM) به‌عنوان سیستم‌های پشتیبان LLM. این معماری نه‌تنها روی دستگاه‌های ESP32 دارای میکروفون و اسپیکر کار می‌کند، بلکه از کلاینت‌های موبایل و وب نیز پشتیبانی می‌کند. نتیجه، انعطاف‌پذیری در انتخاب مسیرهای پردازش و استقرار عامل‌هاست؛ از اجرای کامل روی‌دستگاه تا تکیه بر مدل‌های ابری در مواقع نیاز.

نمای معماری سطح‌بالای ESP Private Agents

نمای معماری سطح‌بالای ESP Private Agents

دموی وب و تجربه کاربری

Espressif یک دموی تحت‌وب منتشر کرده که می‌توان آن را به‌صورت چت‌بات متنی یا دستیار صوتی (با استفاده از میکروفون و اسپیکر کامپیوتر) امتحان کرد. برای سناریوهای تولیدی، شرکت می‌گوید مشتریان می‌توانند این راهکار را در حساب AWS خودشان مستقر کنند. در آزمایش روی Ubuntu 24.04 با مرورگر Firefox، ورود از طریق ESP RainMaker (پلتفرم ابری Espressif برای دستگاه‌های IoT) انجام شد و چت‌بات متنی به‌خوبی کار کرد.

نسخه آزمایشی آنلاین ESP برای عوامل خصوصی

نسخه آزمایشی آنلاین ESP برای عوامل خصوصی

پس از کلیک روی آیکون میکروفون و تغییر حالت به صوتی، دستیار پاسخ‌ها را با صدا تکرار کرد، اما علی‌رغم شناسایی میکروفون، صدای کاربر شنیده نشد. کلیک روی میکروفون، صحبت، و زدن دکمه توقف، فایل صوتی را ارسال می‌کرد اما پاسخی برنمی‌گشت. میکروفون سیستم سالم بود؛ احتمالاً دموی ESP Private Agents با Firefox هماهنگی کامل ندارد.

پیش‌نمایش صوتی عامل‌های خصوصی ESP

پیش‌نمایش صوتی عامل‌های خصوصی ESP

دموی EchoEar: دستیار صوتی چندزبانه

دمویی که بر پایه سخت‌افزار EchoEar تهیه شده، جذابیت عملی این پلتفرم را بهتر نشان می‌دهد: یک دستیار صوتی چندزبانه که به انگلیسی، هندی (TBC)، آلمانی و اسپانیایی صحبت می‌کند و با تغییر گوینده، زبان را عوض می‌کند. این نشان می‌دهد کاربر می‌تواند عامل‌های صوتی را با پرسونای متفاوت و زبان‌های مختلف، بدون اتکا به سخت‌افزار پرهزینه، روی ESP32 اجرا کند.

ساخت Agent: از مدل تا ابزار

در یادداشت فنی Espressif مراحل ساخت یک عامل (Agent) و سخت‌افزار مرتبط آن توضیح داده شده است. خلاصه مراحل تعریف عامل به‌صورت زیر است:

  • انتخاب LLM: از میان مجموعه مدل‌های پشتیبانی‌شده در Amazon Bedrock Foundation Models. هر مدل رفتار، هزینه و کارایی متفاوتی دارد. «مدل زبانی بزرگ (LLM)» بر بستر Bedrock نقش موتور استدلالی عامل را ایفا می‌کند.
  • System Prompt: «راهنمای سامانه (System Prompt)» رفتار عامل و پرسونا را تعیین می‌کند؛ مثلاً کنترل‌کننده صوتی، قصه‌گو، یا دستیار پشتیبانی مشتری.
  • Tools: «ابزارها» اقدام‌های افزایشی هستند که Agent می‌تواند برای انجام کارهای مشخص فراخوانی کند (مانند کنترل ESP RainMaker، کنترل Volume، یا تشخیص Emotion). دو نوع ابزار تعریف شده است:
    • Remote Tools: ابزارهای راه‌دور سازگار با Model Context Protocol (MCP).
    • Local Tools: ابزارهایی که مستقیماً روی کلاینت اجرا می‌شوند؛ چه روی خود دستگاه IoT و چه روی اپلیکیشن موبایل همراه. نمونه: روشن‌کردن چراغ یا تنظیم سرعت فن.

پس از تعریف Agent، می‌توان آن را مستقیماً از داشبورد وب تست کرد. وقتی نتیجه رضایت‌بخش بود، نوبت رفتن به سمت سخت‌افزار واقعی و توسعه روی کیت‌های پشتیبانی‌شده است.

از پروتوتایپ تا سخت‌افزار: فریمور و راه‌اندازی

سه کیت توسعه برای شروع پیشنهاد شده‌اند: EchoEar، ESP32‑S3‑Box و M5Stack CoreS3. گام‌های عملیاتی روی سخت‌افزار به این صورت است:

  • برنامه‌ریزی فریمور (firmware): راهکار، سورس‌کد و باینری فریمور را تولید می‌کند و می‌توانید از طریق مرورگر آن را فلش کنید. فعلاً دو نوع فریمور در دسترس است:
    • Generic Assistant: دستیار عمومی برای تعاملات متنی/صوتی.
    • کنترلر Matter با کنترل صوتی و پشتیبانی Thread: برای سناریوهای خانه هوشمند مبتنی بر Matter. جزئیات بیشتر در GitHub موجود است.
  • Provision دستگاه با اپلیکیشن ESP RainMaker Home: جفت‌سازی و پیکربندی اولیه دستگاه از طریق اپ رسمی.
  • پیکربندی Agent جدید روی دستگاه (اختیاری): تغییر Agent پیش‌فرض دستگاه با استفاده از QR code.
  • تعامل صوتی با دستگاه: فعال‌سازی میکروفون/اسپیکر و اجرای فرامین.
عامل هوش مصنوعی ESP32 برای ترجمه و تفسیر

عامل هوش مصنوعی ESP32 برای ترجمه و تفسیر

اطلاعات
1
0
0
اشتراک و حمایت
profile نویسنده: 0x7a657573 متخصص الکترونیک

من اون دیوونه‌ام که وقتی بورد روشن نمی‌شه، ذوق می‌کنم؛ یعنی یه شب تا صبح قراره با منبع تغذیه و لاجیک آنالایزر عشق کنم! آدما قهوه می‌خورن که بیدار بمونن، ولی من بیدار می‌مونم تا بفهمم این بورد چرا باهام قهر کرده! زندگی من یه لوپ بی‌نهایته بین باگ و دیباگ... با چاشنی یه کم امید و یه عالمه دیوونگی!


مقالات بیشتر

slide

پالت | بازار خرید و فروش قطعات الکترونیک

قطعات اضافه و بدون استفاده همیشه یکی از سرباره‌‌های شرکتها و طراحان حوزه برق و الکترونیک بوده و هست. پالت سامانه‌ای است که بصورت تخصصی اجازه خرید و فروش قطعات مازاد الکترونیک را فراهم می‌کند. فروش در پالت
family

آیسی | موتور جستجوی قطعات الکترونیک

سامانه آی سی سیسوگ (Isee) قابلیتی جدید و کاربردی از سیسوگ است. در این سامانه سعی شده است که جستجو، انتخاب و خرید مناسب تر قطعات برای کاربران تسهیل شود. جستجو در آیسی
family

سیسوگ‌شاپ | فروشگاه محصولات Quectel

فروشگاه سیسوگ مجموعه ای متمرکز بر تکنولوژی های مبتنی بر IOT و ماژول های M2M نظیر GSM، GPS، LTE، NB-IOT، WiFi، BT و ... جایی که با تعامل فنی و سازنده، بهترین راهکارها انتخاب می شوند. برو به فروشگاه سیسوگ
family

سیسوگ فروم | محلی برای پاسخ پرسش‌های شما

دغدغه همیشگی فعالان تخصصی هر حوزه وجود بستری برای گفتگو و پرسش و پاسخ است. سیسوگ فروم یک انجمن آنلاین است که بصورت تخصصی امکان بحث، گفتگو و پرسش و پاسخ در حوزه الکترونیک را فراهم می‌کند. پرسش در سیسوگ فرم
family

سیکار | اولین مرجع متن باز ECU در ایران

بررسی و ارائه اطلاعات مربوط به ECU (واحد کنترل الکترونیکی) و نرم‌افزارهای متن باز مرتبط با آن برو به سیکار
become a writer
نویسنده شو !

سیسوگ با افتخار فضایی برای اشتراک گذاری دانش شماست. برای ما مقاله بنویسید.

ارسال مقاله
become a writer
نویسنده شو !

سیسوگ با افتخار فضایی برای اشتراک گذاری دانش شماست. برای ما مقاله بنویسید.

ارسال مقاله

خانواده سیسوگ

سیسوگ‌شاپ

فروشگاه محصولات Quectel

پالت
سیسوگ فروم

محلی برای پاسخ پرسش‌های شما

سیسوگ جابز
سیسوگ
سیسوگ فروم
سی‌کار

اولین مرجع متن باز ECU در ایران

سیسوگ مگ
آی‌سی

موتور جستجوی قطعات الکترونیکی

سیسوگ آکادمی
پالت

بازار خرید و فروش قطعات الکترونیک

دیدگاه ها

become a writer
نویسنده شو !

سیسوگ با افتخار فضایی برای اشتراک گذاری دانش شماست. برای ما مقاله بنویسید.

ارسال مقاله
become a writer
نویسنده شو !

سیسوگ با افتخار فضایی برای اشتراک گذاری دانش شماست. برای ما مقاله بنویسید.

ارسال مقاله