llama.cpp: الدليل الشامل لأهم محرك استدلال LLM مفتوح المصدر

في مارس 2023، كتب مطور واحد — Georgi Gerganov — ملف C++ واحد يمكنه تشغيل نموذج LLaMA من Meta على جهاز MacBook. أصبح ذلك الملف llama.cpp، وغيّر جذرياً طريقة تشغيل نماذج اللغة الكبيرة في العالم.
بعد ثلاث سنوات، أصبح llama.cpp أكثر مشروع استدلال LLM نجوماً على GitHub مع أكثر من 97,500 نجمة و15,370+ فورك و1,502 مساهم. يعمل كأساس لـ Ollama وNVIDIA RTX AI Garage وعشرات المشاريع الأخرى.
إحصائيات المشروع
| المقياس | القيمة |
|---|---|
| نجوم GitHub | +97,500 |
| الفوركات | +15,370 |
| المساهمون | 1,502 |
| تاريخ الإنشاء | مارس 2023 |
| المنظمة | ggml-org |
| اللغة | C++ (97%+) |
| الترخيص | MIT |
| الإصدارات | +5,000 |
| النماذج المدعومة | +70 بنية |
| الواجهات الخلفية | +15 منصة عتاد |
لماذا يهم llama.cpp
صفر تبعيات
تطبيق C/C++ خالص بدون أي تبعيات خارجية. لا Python، لا PyTorch، لا أدوات CUDA مطلوبة.
دعم عتاد عالمي
- Apple Silicon: مواطن من الدرجة الأولى عبر ARM NEON وAccelerate وMetal
- x86: AVX، AVX2، AVX512، AMX
- NVIDIA: نوى CUDA مخصصة
- AMD: عبر HIP
- Intel: عبر SYCL
- Vulkan: GPU متعدد المنصات
- والمزيد: MUSA، CANN، OpenCL، WebGPU (قيد التطوير)
تكميم قوي
1.5 بت إلى 8 بت من التكميم الصحيح يسمح بتشغيل نماذج تحتاج عادةً 80+ جيجابايت VRAM على حاسوب محمول بـ 8 جيجابايت RAM.
معيار GGUF
عرّف llama.cpp تنسيق ملف GGUF الذي أصبح المعيار العالمي لمشاركة النماذج المكممة. يستضيف Hugging Face آلاف نماذج GGUF.
بنيات النماذج المدعومة
أكثر من 70 بنية: LLaMA 1/2/3، Mistral، Mixtral، Gemma، Phi، Qwen، DeepSeek، Command-R، Falcon، DBRX، Granite، OLMo، GPT-NeoX، Mamba، Starcoder، والمزيد.
نماذج متعددة الوسائط
LLaVA، Gemma 3 Vision، Pixtral، Qwen 2 VL، Phi Vision، InternVL، والمزيد.
الأدوات الأساسية
llama-cli
واجهة سطر الأوامر الرئيسية لتوليد النصوص.
llama-server
خادم HTTP خفيف الوزن متوافق مع API OpenAI مع دعم chat completions والتضمينات وإعادة الترتيب والقواعد المخصصة وإخراج JSON المنظم.
llama-bench
أداة قياس أداء الاستدلال.
المقارنة مع البدائل
| الميزة | llama.cpp | Ollama | vLLM | MLX |
|---|---|---|---|---|
| النجوم | 97.5K | ~120K | ~50K | ~25K |
| التركيز | محرك/مكتبة | غلاف UX | خدمة إنتاج | Apple Silicon |
| التكميم | ✅ 1.5-8bit | ✅ عبر GGUF | ✅ AWQ/GPTQ | ✅ محدود |
| Apple Silicon | ✅ درجة أولى | ✅ عبر llama.cpp | ❌ CUDA | ✅ أصلي |
| GPU NVIDIA | ✅ CUDA | ✅ CUDA | ✅ محسّن | ❌ |
| API OpenAI | ✅ llama-server | ✅ مدمج | ✅ مدمج | ❌ |
| متعدد المستخدمين | محدود | محدود | ✅ الأفضل | محدود |
| التبعيات | لا شيء | الحد الأدنى | PyTorch | Apple |
الخلاصة
llama.cpp هو بلا شك المشروع مفتوح المصدر الأكثر أهمية في ثورة الذكاء الاصطناعي المحلي. من خلال توفير محرك استدلال C/C++ بدون تبعيات يعمل على كل شيء، من Raspberry Pi إلى خادم متعدد وحدات GPU، قام Georgi Gerganov و1,500+ مساهم بـديمقراطية الوصول إلى نماذج اللغة الكبيرة.
مع أكثر من 97,500 نجمة و5,000+ إصدار ودعم 70+ بنية نموذج عبر 15+ واجهة خلفية للعتاد، llama.cpp ليس مجرد مكتبة — إنه الطبقة الأساسية التي بُني عليها نظام LLM المحلي بأكمله.
