AI token
संदर्भ:
हाल ही में चीन की DeepSeek और MiniMax जैसी कंपनियों ने AI टोकन की कीमतों में भारी कटौती कर वैश्विक बाज़ार में हलचल मचा दी है। इसे ‘AI टोकन मूल्य युद्ध’ के रूप में देखा जा रहा है, जहाँ चीन अपनी लागत दक्षता के दम पर अमेरिका को पीछे छोड़ रहा है।
AI टोकन (AI Tokens) क्या है?
AI टोकन (AI Tokens) को सरल शब्दों में “AI की भाषा की मूल इकाई” या “AI की मुद्रा” कहा जा सकता है। जब हम किसी AI मॉडल से संवाद करते हैं, तो वह हमारे वाक्यों को सीधे शब्दों के रूप में नहीं पढ़ता, बल्कि उन्हें छोटे-छोटे टुकड़ों में तोड़ देता है, जिन्हें टोकन कहा जाता है।
- टोकन डेटा की वह सबसे छोटी इकाई है जिसे एक Large Language Model (LLM) संसाधित (process) कर सकता है। यह एक पूरा शब्द हो सकता है, शब्द का एक हिस्सा (sub-word), या केवल एक विराम चिह्न (punctuation)।
- अंग्रेजी में गणना: औसतन, 1,000 टोकन लगभग 750 शब्दों के बराबर होते हैं।
- अनुपात: मोटे तौर पर 1 टोकन ≈ 4 वर्ण (characters)।
- उदाहरण: “Apple” एक टोकन हो सकता है, लेकिन “unbelievable” जैसे लंबे शब्दों को AI ‘un-‘, ‘believ-‘, और ‘-able’ जैसे 2-3 टोकन में तोड़ सकता है।
टोकनाइजेशन की प्रक्रिया:
- विभाजन (Splitting): इनपुट टेक्स्ट को छोटे खंडों में विभाजित किया जाता है।
- संख्यात्मक कोडिंग (Numerical Encoding): प्रत्येक टोकन को एक विशिष्ट संख्यात्मक आईडी (Token ID) दी जाती है। कंप्यूटर शब्दों को नहीं, बल्कि इन नंबरों (वेक्टर्स) को समझते हैं।
- भविष्यवाणी (Prediction): मॉडल इन नंबरों के पैटर्न के आधार पर अगले सबसे संभावित टोकन की भविष्यवाणी करता है।
- डी-टोकनाइजेशन (De-tokenization): अंत में, AI इन नंबरों को वापस मानव-पठनीय टेक्स्ट में बदल देता है।
टोकन के प्रकार:
- शब्द-आधारित (Word-level): पूरे शब्द को एक टोकन मानना (जैसे: “Run”)।
- उप-शब्द (Sub-word): शब्दों के हिस्सों को अलग करना (जैसे: “Running” को “Run” और “ning” में)। यह जटिल शब्दों और व्याकरण को समझने में मदद करता है।
- वर्ण-आधारित (Character-level): प्रत्येक अक्षर को एक टोकन मानना (जैसे: ‘A’, ‘I’)।
- मल्टीमॉडल टोकन: आधुनिक AI इमेज के पिक्सल, ऑडियो के क्लिप्स और वीडियो के हिस्सों को भी टोकन के रूप में संसाधित करते हैं।
महत्व:
- संदर्भ खिड़की (Context Window): प्रत्येक AI मॉडल की एक सीमा होती है कि वह एक बार में कितने टोकन “याद” रख सकता है। उदाहरण के लिए, 128k टोकन की लिमिट का मतलब है कि मॉडल लगभग 300 पन्नों की किताब को एक साथ प्रोसेस कर सकता है।
- सटीक संवाद (Better Understanding): टोकन AI को हमारी भाषा के बारीक टुकड़ों को समझने में मदद करते हैं। इससे सामान्य यूजर को अधिक सटीक और “इंसानी” जैसे जवाब मिलते हैं।
- बड़ी फाइलों का विश्लेषण (Large Data Handling): उच्च टोकन क्षमता के कारण आम लोग लंबी PDF, कानूनी दस्तावेज या पूरी किताबें AI को देकर उनका सार (Summary) तुरंत प्राप्त कर सकते हैं।
- भाषा की सुगमता (Native Language Support): बेहतर टोकनाइजेशन से हिंदी और अन्य क्षेत्रीय भाषाओं में AI का उपयोग आसान और तेज हो गया है, जिससे डिजिटल साक्षरता बढ़ रही है।
