اجرای DeepSeek این بار روی Rockchip با استفاده از NPU درون تراشه

321 بازدید

۱۴۰۳-۱۱-۲۱

2 دقیقه

نویسنده: Zeus ‌
درباره نویسنده: زئوس هستم ساکن المپ

🔥تو این مدت، هوش مصنوعی چنان پیشرفت سریعی داشته که هر روز شاهد مدل‌های جدیدتر و قوی‌تری هستیم. یکی از مدل‌هایی که اخیراً سروصدای زیادی به پا کرده، DeepSeek R1 هست. این مدل با هدف رقابت با بزرگانی مثل GPT و LLaMA عرضه شده و قابلیت اجرا روی سخت‌افزارهای سبک‌تر رو هم داره. حالا خبر جدید اینه که Radxa موفق شده این مدل رو روی پردازنده‌ی Rockchip RK3588 با شتاب‌دهنده‌ی هوش مصنوعی 👾 اجرا کنه و سرعتی در حدود ۱۵ توکن بر ثانیه به دست بیاره!

✅ اجرای DeepSeek R1 روی Raspberry Pi و بهینه‌سازی‌های انجام‌شده

چند هفته پیش، مدل DeepSeek R1 منتشر شد و Brian Roemmele ادعا کرد که تونسته این مدل رو به‌صورت لوکال روی Raspberry Pi اجرا کنه، اون هم با سرعت ۲۰۰ توکن بر ثانیه!☄️ اون قول داده بود که به‌محض اتمام تست‌ها، یه ایمیج مخصوص رزبری پای منتشر کنه. البته تنها اطلاعاتی که در این مورد داریم اینه که Raspberry Pi 5 در این آزمایش از چندتا HAT از جمله Hailo AI Accelerator استفاده کرده. به‌نظر می‌رسه این تست روی نسخه‌ی distilled مدل با ۱.۵ میلیارد پارامتر انجام شده باشه.

Jeff Geerling هم اومده بود DeepSeek-R1 رو (که درواقع همون Qwen 14B هست) تست کنه، ولی فقط روی CPU اجراش کرد و سرعتش به ۱.۴ توکن بر ثانیه رسید. بعدش برای بهبود عملکرد، یه کارت گرافیک AMD W7700 هم روی سیستمش نصب کرد. دراین‌بین، بعضی از افراد مدل‌های TinyZero رو که بر اساس DeepSeek-R1 بهینه شده بودن، برای رزبری پای آماده کردن. البته این مدل‌ها بیشتر روی کارهای خاصی مثل محاسبات شمارشی و ضرب تمرکز دارن و همچنان فقط روی CPU اجرا می‌شن.

📍 اجرای DeepSeek R1 روی NPU پردازنده‌ی RK3588 با ابزار RKLLM

اما خبر خوب اینجاست! Radxa بالاخره راهنمای اجرای DeepSeek R1 (Qwen2 1.5B) روی NPU رو منتشر کرد. درواقع، این مدل روی تسریع‌کننده‌ی ۶ TOPS NPU پردازنده‌ی Rockchip RK3588 اجرا می‌شه و از ابزار RKLLM استفاده می‌کنه.
اگه دوست دارین سریع امتحانش کنین، Radxa یه نسخه‌ی از پیش کامپایل‌شده‌ی RKLLM رو روی ModelScope گذاشته که می‌تونین با این دستور دریافتش کنین:👇🏻

git clone https://www.modelscope.cn/radxa/DeepSeek-R1-Distill-Qwen-1.5B_RKLLM.git

1	git clone https://www.modelscope.cn/radxa/DeepSeek-R1-Distill-Qwen-1.5B_RKLLM.git

📂 این مخزن شامل این فایل‌هاست:

• configuration.json – فایل تنظیمات
• librkllmrt.so – کتابخانه‌ی RKLLM
• llm_demo – برنامه‌ی دمو
• DeepSeek-R1-Distill-Qwen-1.5B.rkllm (1.9GB) – مدل کامپایل‌شده‌ی DeepSeek R1 Qwen 1.5B برای RKLLM
• README.md

📌اگه می‌خواین تستش کنین، این دستورات رو اجرا کنین:

export RKLLM_LOG_LEVEL=1
./llm_demo DeepSeek-R1-Distill-Qwen-1.5B.rkllm 10000 10000

1 2	export RKLLM_LOG_LEVEL=1 ./llm_demo DeepSeek-R1-Distill-Qwen-1.5B.rkllm 10000 10000

طبق گفته‌ی Radxa، پردازنده‌ی RK3588 در یک تست ریاضی، سرعت ۱۴.۹۳ توکن بر ثانیه داشته. مثلا این معادله رو حل کرده:

x+y=12,2x+4y=34

و مقدار x و y رو محاسبه کرده.📝

اجرای DeepSeek این بار روی Rockchip با استفاده از NPU درون تراشه

این دمو روی Radxa ROCK 5B تست شده. البته من خودم امتحانش نکردم چون هنوز این برد رو ندارم! اما این روش روی بردهای دیگه‌ای که از RK3588/RK3588S استفاده می‌کنن هم جواب می‌ده، حتی روی پلتفرم‌های Rockchip RK3576.

💡جالبه بدونین که Banana Pi هم یه ویدئو منتشر کرده که این مدل رو روی Banana Pi BPI-M7 (RK3588) اجرا کرده.✅

منبع : cnx-software

تگ ها :

اخبار Ai