به گفته cnx-software
Espressif از ESP Private Agents رونمایی کرده است؛ یک چارچوب یکپارچه برای ساخت دستیارهای محلی و خصوصی که روی دستگاههای مبتنی بر ESP32 اجرا میشوند و همزمان از سناریوهای هیبریدی (ترکیب پردازش رویدستگاه و پردازش ابری) پشتیبانی میکنند. این پلتفرم امکان ساخت اپلیکیشنهایی را میدهد که سرعت، بینایی ماشین، اتوماسیون و تعاملات عاملمحور را ترکیب میکنند؛ از یک دستیار صوتی چندزبانه رویدستگاه (smart speaker) تا عاملهای وظیفهگرا برای خودکارسازی فرایندها. در اینجا «عامل» را بهعنوان Agent (عامل) بهکار میبریم و ماهیت خصوصی/محلی آن، آن را برای سناریوهای Edge AI مناسب میکند.
زیرساخت این راهکار بر خدمات ابری AWS بنا شده است: AWS Fargate (پلتفرم اجرای برنامه بدون مدیریت سرور) بهعنوان بستر اصلی اجرای سرویسها، و Amazon Bedrock Foundation Models (مدلهای پایه LLM) بهعنوان سیستمهای پشتیبان LLM. این معماری نهتنها روی دستگاههای ESP32 دارای میکروفون و اسپیکر کار میکند، بلکه از کلاینتهای موبایل و وب نیز پشتیبانی میکند. نتیجه، انعطافپذیری در انتخاب مسیرهای پردازش و استقرار عاملهاست؛ از اجرای کامل رویدستگاه تا تکیه بر مدلهای ابری در مواقع نیاز.

نمای معماری سطحبالای ESP Private Agents
Espressif یک دموی تحتوب منتشر کرده که میتوان آن را بهصورت چتبات متنی یا دستیار صوتی (با استفاده از میکروفون و اسپیکر کامپیوتر) امتحان کرد. برای سناریوهای تولیدی، شرکت میگوید مشتریان میتوانند این راهکار را در حساب AWS خودشان مستقر کنند. در آزمایش روی Ubuntu 24.04 با مرورگر Firefox، ورود از طریق ESP RainMaker (پلتفرم ابری Espressif برای دستگاههای IoT) انجام شد و چتبات متنی بهخوبی کار کرد.

نسخه آزمایشی آنلاین ESP برای عوامل خصوصی
پس از کلیک روی آیکون میکروفون و تغییر حالت به صوتی، دستیار پاسخها را با صدا تکرار کرد، اما علیرغم شناسایی میکروفون، صدای کاربر شنیده نشد. کلیک روی میکروفون، صحبت، و زدن دکمه توقف، فایل صوتی را ارسال میکرد اما پاسخی برنمیگشت. میکروفون سیستم سالم بود؛ احتمالاً دموی ESP Private Agents با Firefox هماهنگی کامل ندارد.

پیشنمایش صوتی عاملهای خصوصی ESP
دمویی که بر پایه سختافزار EchoEar تهیه شده، جذابیت عملی این پلتفرم را بهتر نشان میدهد: یک دستیار صوتی چندزبانه که به انگلیسی، هندی (TBC)، آلمانی و اسپانیایی صحبت میکند و با تغییر گوینده، زبان را عوض میکند. این نشان میدهد کاربر میتواند عاملهای صوتی را با پرسونای متفاوت و زبانهای مختلف، بدون اتکا به سختافزار پرهزینه، روی ESP32 اجرا کند.
در یادداشت فنی Espressif مراحل ساخت یک عامل (Agent) و سختافزار مرتبط آن توضیح داده شده است. خلاصه مراحل تعریف عامل بهصورت زیر است:
پس از تعریف Agent، میتوان آن را مستقیماً از داشبورد وب تست کرد. وقتی نتیجه رضایتبخش بود، نوبت رفتن به سمت سختافزار واقعی و توسعه روی کیتهای پشتیبانیشده است.
سه کیت توسعه برای شروع پیشنهاد شدهاند: EchoEar، ESP32‑S3‑Box و M5Stack CoreS3. گامهای عملیاتی روی سختافزار به این صورت است:

عامل هوش مصنوعی ESP32 برای ترجمه و تفسیر
من اون دیوونهام که وقتی بورد روشن نمیشه، ذوق میکنم؛ یعنی یه شب تا صبح قراره با منبع تغذیه و لاجیک آنالایزر عشق کنم! آدما قهوه میخورن که بیدار بمونن، ولی من بیدار میمونم تا بفهمم این بورد چرا باهام قهر کرده! زندگی من یه لوپ بینهایته بین باگ و دیباگ... با چاشنی یه کم امید و یه عالمه دیوونگی!
سیسوگ با افتخار فضایی برای اشتراک گذاری دانش شماست. برای ما مقاله بنویسید.