Google आपली TPU रणनीती inference आणि training यांमध्ये विभागत आहे
Google ने दोन विशेषीकृत आठव्या पिढीचे TPU डिझाइन्स सादर केले आहेत, आणि कंपनीचा युक्तिवाद असा आहे की AI infrastructure चा पुढचा टप्पा अशा autonomous agents मुळे घडेल जे विचार करतात, योजना आखतात आणि बहु-टप्प्यांची कामे पूर्ण करतात. Google blog वरील पोस्टमध्ये, TPU 8i हे AI agents नी कामे इतक्या वेगाने पूर्ण करावीत की वापरकर्ता अनुभव चांगला राहील, यासाठी खास बांधले गेले आहे, तर TPU 8t training साठी optimized आहे आणि एका प्रचंड memory pool वर अतिशय जटिल models चालवू शकते, असे कंपनी सांगते.
ही घोषणा केवळ नवीन chips लाँच होत आहेत म्हणून महत्त्वाची नाही, तर Google त्यांना एका नव्या workload narrative भोवती स्पष्टपणे मांडत आहे म्हणूनही आहे. अनेक वर्षांपासून AI accelerator चर्चांचा केंद्रबिंदू training आणि inference या पारंपरिक विभागणीवर होता. Google तो फरक कायम ठेवतो, पण inference बाजूचा एक भाग conventional model serving ऐवजी agents भोवती पुनर्रचित करतो. यावरून कंपनीचा विश्वास असा दिसतो की भविष्यातील मागणी स्वतंत्र prompt-response interactions पेक्षा वापरकर्त्यांच्या वतीने कृतींच्या मालिका पार पाडणाऱ्या systems वर अधिक अवलंबून असेल.
दोन विशेष TPU का
Google चे वर्णन एका सोप्या आधारावर उभे आहे: agentic AI च्या infrastructure गरजा frontier model training च्या गरजांसारख्या नाहीत. Agents ना responsiveness लागते. जर त्यांना कामांवर विचार करायचा, tools कॉल करायचे आणि workflows पूर्ण करायचे असतील, तर latency मुळे अनुभव उपयुक्त वाटतो की नाही, हे ठरते. Google च्या मते TPU 8i याच जागी बसते. ते अशा प्रकारे डिझाइन केले आहे की त्या interactions व्यावहारिक deployment ला पाठबळ देतील इतक्या जलद राहतील.
TPU 8t एका वेगळ्या समस्येचे निराकरण करते. प्रगत models चे training आता केवळ raw compute नाही, तर मोठ्या आणि अधिक जटिल systems सामावून घेऊ शकणाऱ्या memory capacity चीही मागणी करते. Google सांगते की TPU 8t ही भूमिका निभावण्यासाठी tune केलेली आहे आणि एका प्रचंड memory pool वर अतिशय जटिल models चालवू शकते. हा दावा या chip ला अशा developers आणि organizations साठी tool म्हणून मांडतो, जे infrastructure ला अतिप्रमाणात तुकडे न करता scale वाढवू इच्छितात.
मोठा stack हाही संदेशाचा भाग आहे
Google chips ला आपल्या full-stack infrastructure कथेतही काळजीपूर्वक बसवत आहे. blog post नवीन TPUs ला networking, data centers आणि energy-efficient operations शी जोडते, आणि त्या व्यापक system ला अत्यंत responsive agentic AI mass audience पर्यंत नेणारा engine म्हणते. हे framing महत्त्वाचे आहे, कारण AI infrastructure मधील स्पर्धा आता फक्त chip बद्दल राहिलेली नाही. ती silicon, software, networking आणि power efficiency यांचे एकत्रित platform बनली आहे, जे मोठ्या प्रमाणात खरेदी करून तैनात करता येईल.
Google साठी हा एक strategic advantage आहे, ज्यावर तो बराच काळ भर देत आला आहे. कंपनी केवळ accelerator access विकत नाही. ती custom chips ला cloud services आणि मोठ्या प्रमाणात machine learning systems चालवण्याच्या वर्षानुवर्षांच्या अंतर्गत अनुभवाशी जोडलेले vertically integrated environment सादर करत आहे.
व्यवहारात “agentic” काय सूचित करते
“agentic era” या शब्दप्रयोगाचा वापर स्वतःच बोलका आहे. AI companies increasingly promote systems that can do more than generate text or images on request. The aspiration is software that can plan, decide and execute across multiple steps, often with access to tools or enterprise workflows. Whether or not every marketed “agent” lives up to that description, infrastructure providers clearly see the category as commercially important enough to shape hardware roadmaps.
TPU 8i ला agents साठी chip असे नाव देऊन Google मूलतः असा दांव लावत आहे की जटिल, बहु-टप्प्यांच्या workloads मध्ये responsiveness हा एक defining performance metric बनेल. तो peak benchmark numbers इतकाच महत्त्वाचा ठरू शकतो. प्रत्यक्ष वापरात, हळू चालणारा किंवा chained tasks मध्ये अडकणारा agent, underlying model मजबूत असला तरी, broken वाटू शकतो.
हे launch का महत्त्वाचे आहे
सर्वसाधारण-purpose GPU demand चर्चेत वर्चस्व गाजवत असताना असलेल्या काळानंतर AI hardware पुन्हा झपाट्याने specialized होत आहे, हे या घोषणेतून दिसते. बाजार आता वेगवेगळ्या गरजांभोवती विभागला जात आहे: giant models training करणे, त्यांना स्वस्तात serve करणे, multimodal workloads हाताळणे, interactive agent systems सक्षम करणे. Google ची नवीन TPU जोडी ही fragmentation दाखवते.
हे infrastructure messaging कसे बदलले आहे हेही दाखवते. Chip launches आता केवळ speedups किंवा throughput gains वर मांडले जात नाहीत. त्यांना AI कसा वापरला जाईल याविषयीच्या ठोस दृष्टिकोनांशी जोडले जाते. या प्रकरणात, Google इच्छिते की ग्राहकांनी असा जग कल्पावा जिथे agents वापरकर्त्यांच्या वतीने काम करतील, आणि त्या systems च्या training साठी आणि त्यांच्या जलद real-time execution साठी खालील infrastructure purpose-built असेल.
तो दृष्टिकोन खरा ठरला, तर TPU 8i आणि TPU 8t हे साधे generation update नसून, AI demand पुढे कोणत्या वास्तुशास्त्रीय दिशेने जात आहे याबद्दलचे विधान ठरतील.
हा लेख Google AI Blog च्या रिपोर्टिंगवर आधारित आहे. मूळ लेख वाचा.
Originally published on blog.google
