llama.cpp: الدليل الشامل لأهم محرك استدلال LLM مفتوح المصدر

في مارس 2023، كتب مطور واحد — Georgi Gerganov — ملف C++ واحد يمكنه تشغيل نموذج LLaMA من Meta على جهاز MacBook. أصبح ذلك الملف llama.cpp، وغيّر جذرياً طريقة تشغيل نماذج اللغة الكبيرة في العالم.

بعد ثلاث سنوات، أصبح llama.cpp أكثر مشروع استدلال LLM نجوماً على GitHub مع أكثر من 97,500 نجمة و15,370+ فورك و1,502 مساهم. يعمل كأساس لـ Ollama وNVIDIA RTX AI Garage وعشرات المشاريع الأخرى.

إحصائيات المشروع

المقياس	القيمة
نجوم GitHub	+97,500
الفوركات	+15,370
المساهمون	1,502
تاريخ الإنشاء	مارس 2023
المنظمة	ggml-org
اللغة	C++ (97%+)
الترخيص	MIT
الإصدارات	+5,000
النماذج المدعومة	+70 بنية
الواجهات الخلفية	+15 منصة عتاد

لماذا يهم llama.cpp

صفر تبعيات

تطبيق C/C++ خالص بدون أي تبعيات خارجية. لا Python، لا PyTorch، لا أدوات CUDA مطلوبة.

دعم عتاد عالمي

Apple Silicon: مواطن من الدرجة الأولى عبر ARM NEON وAccelerate وMetal
x86: AVX، AVX2، AVX512، AMX
NVIDIA: نوى CUDA مخصصة
AMD: عبر HIP
Intel: عبر SYCL
Vulkan: GPU متعدد المنصات
والمزيد: MUSA، CANN، OpenCL، WebGPU (قيد التطوير)

تكميم قوي

1.5 بت إلى 8 بت من التكميم الصحيح يسمح بتشغيل نماذج تحتاج عادةً 80+ جيجابايت VRAM على حاسوب محمول بـ 8 جيجابايت RAM.

معيار GGUF

عرّف llama.cpp تنسيق ملف GGUF الذي أصبح المعيار العالمي لمشاركة النماذج المكممة. يستضيف Hugging Face آلاف نماذج GGUF.

بنيات النماذج المدعومة

أكثر من 70 بنية: LLaMA 1/2/3، Mistral، Mixtral، Gemma، Phi، Qwen، DeepSeek، Command-R، Falcon، DBRX، Granite، OLMo، GPT-NeoX، Mamba، Starcoder، والمزيد.

نماذج متعددة الوسائط

LLaVA، Gemma 3 Vision، Pixtral، Qwen 2 VL، Phi Vision، InternVL، والمزيد.

الأدوات الأساسية

llama-cli

واجهة سطر الأوامر الرئيسية لتوليد النصوص.

llama-server

خادم HTTP خفيف الوزن متوافق مع API OpenAI مع دعم chat completions والتضمينات وإعادة الترتيب والقواعد المخصصة وإخراج JSON المنظم.

llama-bench

أداة قياس أداء الاستدلال.

المقارنة مع البدائل

الميزة	llama.cpp	Ollama	vLLM	MLX
النجوم	97.5K	~120K	~50K	~25K
التركيز	محرك/مكتبة	غلاف UX	خدمة إنتاج	Apple Silicon
التكميم	✅ 1.5-8bit	✅ عبر GGUF	✅ AWQ/GPTQ	✅ محدود
Apple Silicon	✅ درجة أولى	✅ عبر llama.cpp	❌ CUDA	✅ أصلي
GPU NVIDIA	✅ CUDA	✅ CUDA	✅ محسّن	❌
API OpenAI	✅ llama-server	✅ مدمج	✅ مدمج	❌
متعدد المستخدمين	محدود	محدود	✅ الأفضل	محدود
التبعيات	لا شيء	الحد الأدنى	PyTorch	Apple

الخلاصة

llama.cpp هو بلا شك المشروع مفتوح المصدر الأكثر أهمية في ثورة الذكاء الاصطناعي المحلي. من خلال توفير محرك استدلال C/C++ بدون تبعيات يعمل على كل شيء، من Raspberry Pi إلى خادم متعدد وحدات GPU، قام Georgi Gerganov و1,500+ مساهم بـديمقراطية الوصول إلى نماذج اللغة الكبيرة.

مع أكثر من 97,500 نجمة و5,000+ إصدار ودعم 70+ بنية نموذج عبر 15+ واجهة خلفية للعتاد، llama.cpp ليس مجرد مكتبة — إنه الطبقة الأساسية التي بُني عليها نظام LLM المحلي بأكمله.

llama.cpp: الدليل الشامل لأهم محرك استدلال LLM مفتوح المصدر

llama.cpp: الدليل الشامل لأهم محرك استدلال LLM مفتوح المصدر

إحصائيات المشروع

لماذا يهم llama.cpp

صفر تبعيات

دعم عتاد عالمي

تكميم قوي

معيار GGUF

بنيات النماذج المدعومة

نماذج متعددة الوسائط

الأدوات الأساسية

llama-cli

llama-server

llama-bench

المقارنة مع البدائل

الخلاصة

الموارد

Tags

Claude Code Best Practice: The Complete Guide to Mastering Agentic Coding

Paperclip: The Complete Guide to Open-Source Orchestration for Zero-Human Companies

Crawlee Python: The Complete Guide to Web Scraping and Browser Automation