Ollama

लोकल एलएलएम होस्टिंग: पूर्ण 2025 गाइड - ओलामा, वीएलएलएम, लोकलएआई, जन, एलएम स्टूडियो और अधिक

लोकल डिप्लॉयमेंट ऑफ़ एलएलएम्स अब increasingly popular हो गया है क्योंकि डेवलपर्स और संगठन enhanced privacy, reduced latency, और greater control over their AI infrastructure चाहते हैं।

उपभोक्ता हार्डवेयर पर एआई इन्फ्रास्ट्रक्चर

एआई का लोकतांत्रीकरण अब यहाँ है। ओपन-सोर्स एलएलएम जैसे लामा 3, मिक्स्ट्रल, और क्वेन अब प्रोप्राइटरी मॉडल्स के साथ प्रतिस्पर्धा कर रहे हैं, टीम्स पावरफुल एआई इन्फ्रास्ट्रक्चर कन्स्यूमर हार्डवेयर का उपयोग करके बना सकते हैं - लागत को कम करते हुए डेटा प्राइवेसी और डिप्लॉयमेंट पर पूर्ण नियंत्रण बनाए रखते हैं।

एनवीडिया डीजीएक्स स्पार्क बनाम मैक स्टूडियो बनाम आरटीएक्स-4080: ओल्लामा प्रदर्शन तुलना

मैंने कुछ दिलचस्प प्रदर्शन परीक्षणों का पता लगाया है GPT-OSS 120b का जो Ollama पर चल रहा है, तीन अलग-अलग प्लेटफॉर्मों पर: NVIDIA DGX Spark, Mac Studio, और RTX 4080। Ollama लाइब्रेरी का GPT-OSS 120b मॉडल 65GB का है, जिसका मतलब है कि यह RTX 4080 के 16GB VRAM में नहीं फिट होता है (या नए RTX 5080).

डॉकर मॉडल रनर बनाम ओल्लामा: किसे चुनना चाहिए?

स्थानीय रूप से बड़े भाषा मॉडल (LLMs) चलाना अब गोपनीयता, लागत नियंत्रण, और ऑफ़लाइन क्षमताओं के लिए increasingly popular हो गया है। अप्रैल 2025 में, जब Docker ने Docker Model Runner (DMR) पेश किया, तो परिदृश्य महत्वपूर्ण रूप से बदल गया, जो AI मॉडल डिप्लॉयमेंट के लिए इसका आधिकारिक समाधान है।

ओलामा के लिए गो क्लाइंट्स: SDK तुलना और क्वेन3/जीपीटी-ओएसएस उदाहरण

यह गाइड उपलब्ध Go SDKs for Ollama के विस्तृत समीक्षा प्रदान करता है और उनके विशेषताओं के सेट की तुलना करता है।

यहाँ Qwen3:30b और GPT-OSS:20b के बीच तुलना है, जो निर्देश पालन और प्रदर्शन पैरामीटर्स, स्पेसिफिकेशन्स और गति पर केंद्रित है:

ओल्लामा को पाइथन के साथ एकीकृत करना: REST API और पाइथन क्लाइंट उदाहरण

इस पोस्ट में, हम दो तरीकों का पता लगाएंगे जिससे आप अपने Python एप्लिकेशन को Ollama से कनेक्ट कर सकते हैं: 1. HTTP REST API के माध्यम से; 2. अधिकृत Ollama Python लाइब्रेरी के माध्यम से।

ओलामा जीपीटी-ओएसएस संरचित आउटपुट समस्याएँ

Ollama के GPT-OSS मॉडल्स में संरचित आउटपुट को हैंडल करने में बार-बार समस्याएं आती हैं, विशेष रूप से जब उन्हें LangChain, OpenAI SDK, vllm जैसे फ्रेमवर्क्स के साथ उपयोग किया जाता है, और अन्य।

संरचित आउटपुट के साथ एलएलएम को सीमित करना: ओल्लामा, क्वेन3 & पाइथन या गो

बड़े भाषा मॉडल (LLMs) शक्तिशाली हैं, लेकिन उत्पादन में हम आमतौर पर मुक्त-रूप पेराग्राफ नहीं चाहते। बजाय इसके, हम प्रत्याशित डेटा चाहते हैं: विशेषताएं, तथ्य, या संरचित वस्तुएं जिन्हें आप एक ऐप में फीड कर सकते हैं। यह है LLM संरचित आउटपुट।

मेमोरी आवंटन मॉडल अनुसूचना नया संस्करण में - व0.12.1

मैं नए ओल्लामा संस्करण में मॉडल के लिए आवंटित VRAM की तुलना (Ollama VRAM allocation) पुराने संस्करण के साथ कर रहा हूँ। नया संस्करण खराब है।

Ollama ने स्थानीय रूप से एलएलएम चलाने के लिए सबसे लोकप्रिय उपकरणों में से एक बनने में तेजी से प्रगति की है। इसके सरल सीएलआई और सुलभ मॉडल प्रबंधन ने इसे क्लाउड के बाहर एआई मॉडल्स के साथ काम करने वाले डेवलपर्स के लिए एक प्राथमिक विकल्प बना दिया है। लेकिन कई वादा करने वाले प्लेटफॉर्म की तरह, Enshittification के संकेत पहले से ही दिखाई देने लगे हैं:

स्थानीय ओल्लामा इंस्टेंस के लिए चैट यूआई

स्थानीय रूप से होस्टेड Ollama आपको अपने मशीन पर बड़े भाषा मॉडल चलाने की अनुमति देता है, लेकिन कमांड-लाइन के माध्यम से इसका उपयोग करना उपयोगकर्ता-मित्र नहीं है। यहाँ कुछ ओपन-सोर्स प्रोजेक्ट्स हैं जो ChatGPT-स्टाइल इंटरफेस प्रदान करते हैं जो स्थानीय Ollama से कनेक्ट होते हैं।

ओलामा और क्वेन3 रीरैंकर मॉडल के साथ दस्तावेजों को फिर से रैंक करें - गो में

चूंकि मानक Ollama में सीधा रीरैंक एपीआई नहीं है,
आपको Qwen3 Reranker के साथ रीरैंकिंग करें GO में जेनरेट करके प्रश्न-दस्तावेज़ जोड़े के एम्बेडिंग्स और उनके स्कोरिंग करना होगा।

हुगो पेज अनुवाद की गुणवत्ता की तुलना - ओलामा पर एलईएमसँ

इस परीक्षण में मैं अलग-अलग LLMs के ओलामा पर होस्ट करने के बारे में जांच कर रहा हूं अंग्रेजी से जर्मन में अनुवाद करते हैं।
मैंने जो तीन पेजों की परीक्षा की वे अलग-अलग विषयों पर थे, कुछ अच्छे मार्कडाउन के साथ थे, जिसमें कुछ संरचना थी: मुख्य शीर्षक, सूची, तालिका, लिंक आदि।

ओलमा और क्वेन-3 एमबेडिंग मॉडल का उपयोग करके टेक्स्ट दस्तावेजों को पुनर्अभिषेक - गो भाषा में

यह छोटा सा
पुनर्विन्यास Go केode उदाहरण में Ollama को रनिंग (Reranking) करके एम्बेडिंग (embeddings) जनरेट करने का प्रयोग हुआ है
क्वेरी (query) और प्रत्येक कैंडिडेट दस्तावेज़ (candidate document) के लिए,
फिर कोसाइन समानता (cosine similarity) के आधार पर अवरोधकता (descending order) में दर्जीन (sorting) करना है।

ओलामा पर Qwen3 एम्बेडिंग एवं रीरैंकर मॉडल: अत्याधुनिक प्रदर्शन

Qwen3 Embedding और Reranker मॉडल Qwen परिवार के नवीनतम रिलीज हैं, जो उन्नत पाठ एम्बेडिंग, पुनर्प्राप्ति और पुनर्क्रमण कार्यों के लिए विशेष रूप से डिज़ाइन किए गए हैं।

Ollama

लोकल एलएलएम होस्टिंग: पूर्ण 2025 गाइड - ओलामा, वीएलएलएम, लोकलएआई, जन, एलएम स्टूडियो और अधिक

उपभोक्ता हार्डवेयर पर एआई इन्फ्रास्ट्रक्चर

एनवीडिया डीजीएक्स स्पार्क बनाम मैक स्टूडियो बनाम आरटीएक्स-4080: ओल्लामा प्रदर्शन तुलना

डॉकर मॉडल रनर बनाम ओल्लामा: किसे चुनना चाहिए?

ओलामा के लिए गो क्लाइंट्स: SDK तुलना और क्वेन3/जीपीटी-ओएसएस उदाहरण

तुलना: क्वेन3:30बी vs जीपीटी-ओएसएस:20बी

ओल्लामा को पाइथन के साथ एकीकृत करना: REST API और पाइथन क्लाइंट उदाहरण

ओलामा जीपीटी-ओएसएस संरचित आउटपुट समस्याएँ

संरचित आउटपुट के साथ एलएलएम को सीमित करना: ओल्लामा, क्वेन3 & पाइथन या गो

मेमोरी आवंटन मॉडल अनुसूचना नया संस्करण में - व0.12.1

ओल्लामा एंशिटिफिकेशन - प्रारंभिक संकेत

स्थानीय ओल्लामा इंस्टेंस के लिए चैट यूआई

ओलामा और क्वेन3 रीरैंकर मॉडल के साथ दस्तावेजों को फिर से रैंक करें - गो में

हुगो पेज अनुवाद की गुणवत्ता की तुलना - ओलामा पर एलईएमसँ

ओलमा और क्वेन-3 एमबेडिंग मॉडल का उपयोग करके टेक्स्ट दस्तावेजों को पुनर्अभिषेक - गो भाषा में

ओलामा पर Qwen3 एम्बेडिंग एवं रीरैंकर मॉडल: अत्याधुनिक प्रदर्शन