नई दिल्ली, 24 जून 2026 (हरियाणा न्यूज पोस्ट)। दुनियाभर में अपनी धाक जमा चुकीं ओपनएआई, गूगल और एंथ्रोपिक जैसी दिग्गज टेक कंपनियां भले ही अपने नए एआई मॉडल्स को हर देश और हर भाषा के लिए एक समान बताने का बड़ा दावा ठोकती हों, लेकिन परदे के पीछे का सच पूरी तरह अलग है। अगर आप चैटजीपीटी या क्लाउड जैसे एआई चैटबॉट्स से अंग्रेजी के बजाय अपनी मातृभाषा हिंदी, अरबी या चीनी में बातचीत करते हैं तो आपको भारी आर्थिक चपत लगनी तय है। रिसर्चर्स के बिल्कुल नए डेटा ने इस बड़े खेल का भंडाफोड़ किया है। महंगा पड़ेगा हिंदी का इस्तेमाल।
तकनीकी विशेषज्ञों ने इस अतिरिक्त गुप्त वित्तीय बोझ को सीधे तौर पर ‘लैंग्वेज टैक्स’ का नाम दिया है जो हर उस गैर-अंग्रेजी यूजर की जेब पर डाका डाल रहा है जो अपनी भाषा में निर्देश देता है। दरअसल पूरा खेल टोकन जनरेशन पर टिका हुआ है। टोकन असल में वह बुनियादी तकनीकी यूनिट्स होती हैं जिनकी मदद से कोई भी एआई सिस्टम किसी भी टेक्स्ट को पढ़ता, समझता और प्रोसेस करता है। जब आप कोई निर्देश हिंदी में टाइप करते हैं, तो कंप्यूटर कोडिंग उसे अंग्रेजी के मुकाबले कई गुना ज्यादा टुकड़ों में तोड़ती है। बढ़ जाती है टोकन की रफ्तार।
कुछ हफ्ते पहले ओपनएआई के ही जाने-माने रिसर्चर अहान कोमात्सुज़ाकी ने एक विशेष एक्सपेरिमेंट के जरिए इस कड़वे सच को दुनिया के सामने उजागर किया था। उन्होंने एआई रिसर्चर रिच सटन के मशहूर लेख ‘द बिटर लेसन’ को मुख्य बेंचमार्क मानते हुए उसका दुनिया की कई प्रमुख भाषाओं में अनुवाद किया और फिर डेटा खंगाला। नतीजे बेहद चौंकाने वाले रहे।
हरियाणा न्यूज़ पोस्ट पर ये भी पढ़ें: UPI Autopay New Rule: बिजली बिल, EMI और OTT का झंझट खत्म, एनपीसीआई ला रहा सिंगल स्क्रीन ऑटोपे ट्रैकिंग फीचर
इस विश्लेषण के विधिक आंकड़ों को देखें तो ओपनएआई के ऑफिशियल टोकेनाइज़र पर हिंदी भाषा के किसी भी टेक्स्ट को पढ़ने के लिए अंग्रेजी के मुकाबले सीधे 1.37 गुना ज्यादा टोकन खर्च करने पड़े। वहीं एंथ्रोपिक कंपनी के क्लाउड (Claude) टोकेनाइजर पर तो स्थिति और भी ज्यादा भयावह दर्ज हुई, जहां हिंदी टेक्स्ट प्रोसेस करने के लिए सीधे 3.24 गुना अधिक टोकन की खपत हो गई। खाली होगा आपका अकाउंट।
यही हाल दूसरी वैश्विक भाषाओं का भी है जहां क्लाउड एआई पर अरबी भाषा के लिए 2.86 गुना और चीनी भाषा की प्रोसेसिंग के लिए 1.71 गुना ज्यादा टोकन धड़ाधड़ कट गए। चूंकि एआई कंपनियों का पूरा कमर्शियल बिलिंग सिस्टम इन्हीं टोकन्स की संख्या पर आधारित होता है, इसलिए हिंदी या अन्य क्षेत्रीय भाषाओं में काम करने वाले डेवलपर्स और आम यूजर्स को अनजाने में ही बहुत भारी भुगतान करना पड़ रहा है। इस भेदभावपूर्ण कोडिंग से गैर-अंग्रेजी भाषी यूजर्स पूरी तरह पिछड़ रहे हैं।










