AI দক্ষতার জন্য ভিন্ন একটি পথ

AI মডেল যত বড় হচ্ছে, শিল্প ততই একটি পরিচিত tradeoff-এর মুখে পড়ছে: বড় সিস্টেম বিস্তৃত ক্ষমতা দেয়, কিন্তু সেগুলো আরও বেশি শক্তি, আরও বেশি মেমরি, এবং চালাতে বেশি সময় চায়। এই খরচ নিয়ন্ত্রণের অনেক প্রচেষ্টা মডেল ছোট করা বা numerical precision কমানোর ওপর কেন্দ্রীভূত হয়েছে। এখন আরেকটি গবেষণা-ধারা বলছে, আরও ভালো উত্তর হতে পারে হার্ডওয়্যারকে এমন একটি বৈশিষ্ট্যকে কেন্দ্র করে নতুনভাবে ডিজাইন করা, যা বড় মডেলে আগেই বিপুলভাবে উপস্থিত: শূন্য।

এই বৈশিষ্ট্যকে sparsity বলা হয়। অনেক neural network-এ বিপুল সংখ্যক weight এবং activation একেবারে শূন্য, অথবা শূন্যের এত কাছাকাছি যে সেগুলোকে অর্থপূর্ণ accuracy loss ছাড়াই শূন্য হিসেবে ধরা যায়। নীতিগতভাবে, ওই প্রায়-ফাঁকা অঞ্চলগুলো বিশাল সুযোগ। যেসব মান খুব সামান্য বা কিছুই অবদান রাখে না, সেগুলোকে multiply ও add করতে শক্তি খরচ করার বদলে সিস্টেম সেগুলো এড়িয়ে যেতে পারে। দীর্ঘ শূন্য-সারি সংরক্ষণ করার বদলে, এটি সত্যিই গুরুত্বপূর্ণ nonzero অংশগুলোর ওপর মনোযোগ দিতে পারে।

সমস্যা হলো, প্রধানধারার computing hardware স্বাভাবিকভাবে এই কাঠামোর সুবিধা নেয় না। CPU এবং GPU dense numerical work-এ ভালো, যেখানে matrix-এর প্রতিটি অবস্থানকেই গুরুত্বপূর্ণ ধরা হয়। Sparse computation কঠিন, কারণ মেশিনকে জানতে হয় কী বাদ দিতে হবে, প্রাসঙ্গিক মানগুলো কীভাবে দক্ষতার সঙ্গে আনতে হবে, এবং অনিয়মিত data পরিচালনার overhead এতটা না বাড়তে দিতে হবে যাতে লাভটাই হারিয়ে যায়।

কেন গবেষকেরা মনে করেন পুরো stack বদলাতে হবে

স্ট্যানফোর্ডের প্রকৌশলীরা বলছেন, sparsity-কে গুরুত্ব দিতে hardware, low-level firmware, এবং software-সহ পুরো stack জুড়ে redesign দরকার। তাদের গবেষণা দল এমন একটি chip তৈরি করেছে বলে জানিয়েছে, যা sparse এবং traditional workload উভয়কেই দক্ষতার সঙ্গে সামলাতে পারে, dense-computing assumptions-এর ওপর জোড়া লাগানো awkward special case হিসেবে নয়।

দলের মতে, ফল ছিল উল্লেখযোগ্য। তারা যেসব workload মূল্যায়ন করেছে, সেগুলোতে chipটি গড়ে একটি CPU-এর এক সত্তর ভাগ শক্তি ব্যবহার করেছে এবং গড়ে প্রায় আট গুণ দ্রুত computation শেষ করেছে। এই সংখ্যাগুলো workload অনুযায়ী বদলেছে, কিন্তু মূল দাবি হলো sparse-native design উচ্চ-ক্ষমতার মডেল ত্যাগ না করেই শিল্পকে বড় সুবিধা দিতে পারে।

যদি এই ফলাফল স্কেলে টিকে যায়, তাহলে তা academic benchmarking-এর বাইরেও গুরুত্বপূর্ণ হবে। AI-এর ভবিষ্যৎ এখন কেবল algorithmic progress নয়, power availability, cooling, carbon footprint, এবং ক্রমেই বড় inference system চালানোর খরচের দ্বারাও সীমাবদ্ধ হচ্ছে। কম-শক্তির computation-এর যেকোনো বিশ্বাসযোগ্য পথ কৌশলগতভাবে গুরুত্বপূর্ণ।

ছোট মডেলের তুলনায় sparsity কী দেয়

Sparsity-র আকর্ষণ হলো, এতে মডেলের আকার বা performance ছাড়তে হয় না। ছোট মডেল এবং lower-precision arithmetic খরচ কমাতে পারে, কিন্তু সেগুলো প্রায়ই ক্ষমতাও সীমিত করে। Sparsity আরেকটি বিকল্প দেখায়: খুব বড় মডেল ধরে রাখুন, কিন্তু যেসব অংশ সবচেয়ে কম অবদান রাখে, সেগুলোতে compute নষ্ট করবেন না।

এই ধারণা বিশেষভাবে প্রাসঙ্গিক, কারণ শীর্ষ কোম্পানিগুলো ক্রমাগত বিশাল system প্রকাশ করছে। নিবন্ধে বলা হয়েছে, Meta-এর সর্বশেষ Llama release 2 trillion parameters-এ পৌঁছেছে, যা দেখায় scale কীভাবে শক্তির চাহিদা দ্রুত বাড়াতে পারে। যদি ওই parameters বা তাদের activations-এর বড় অংশ কার্যত নগণ্য হয়, তাহলে এমন hardware যা সেগুলো বুদ্ধিমত্তার সঙ্গে পরিচালনা করে, scale থেকে পিছিয়ে না গিয়েই efficiency খুলে দিতে পারে।

ব্যবহারে, সুবিধাগুলো হতে পারে:

  • মডেল training বা inference-এর জন্য কম শক্তি খরচ
  • Sparse workload-এর জন্য কম runtime
  • শূন্যের বড় ব্লক সংরক্ষণ না করায় কম memory burden
  • বড় পরিসরের AI deployment-এর জন্য কম carbon footprint

এগুলো ছোটখাটো উন্নতি নয়। এগুলো আধুনিক AI-এর অর্থনীতি এবং পরিবেশগত স্থায়িত্বের সঙ্গে সরাসরি সম্পর্কিত।

Sparse computing-কে বাস্তব করার চ্যালেঞ্জ

Sparsity বহু বছর ধরে ধারণাগতভাবে আকর্ষণীয় হলেও, তা ব্যবহার করা কঠিন। Dense hardware নিয়মিততার ওপর নির্ভর করে। Sparse data স্বভাবতই অনিয়মিত। এর মানে, ডিজাইনারদের indexing, routing, scheduling, এবং memory access-এর মতো সমস্যা সমাধান করতে হয়, যা অনেক মান অনুপস্থিত থাকলে আরও জটিল হয়ে যায়।

এ কারণেই Stanford দল stack-wide design-এর ওপর জোর দেয়। firmware এবং software যদি এখনও dense execution pattern ধরে নেয়, তবে একটি specialized accelerator যথেষ্ট নয়। টুলগুলিকে sparse representation বুঝতে হবে, hardware-কে সেগুলো দক্ষভাবে প্রক্রিয়াকরণ করতে হবে, এবং পুরো system-কে “zeros এড়াও”কে “zeros কোথায়, তা খুঁজতে সময় নষ্ট করো”তে পরিণত করতে দেওয়া যাবে না।

এই systems perspective-ই কাজটিকে উল্লেখযোগ্য করে তোলে। এটি sparsity-কে কোনো একক algorithmic trick হিসেবে দেখায় না। এটি AI workload-কে মেশিনে কীভাবে মানানো উচিত, তার আর্কিটেকচারাল পুনর্বিবেচনা হিসেবে উপস্থাপন করে।

বিস্তৃত AI buildout-এর জন্য কেন এটি গুরুত্বপূর্ণ

শিল্পের তাত্ক্ষণিক compute-চাহিদা থামার লক্ষণ নেই। কিছু বিশেষজ্ঞ বলছেন, সাধারণ scaling কমতে থাকা ফলাফলের মুখে পড়ছে, তবুও কোম্পানিগুলো আরও বড় মডেল এবং আরও বিস্তৃত deployment অনুসরণ করে চলেছে। ফলে শক্তি দক্ষতা আর দ্বিতীয় স্তরের engineering concern নয়, বরং first-order problem হয়ে উঠছে।

যদি lab-এর বাইরে gains টিকে যায়, sparse-native hardware সবচেয়ে গুরুত্বপূর্ণ প্রতিক্রিয়াগুলোর একটি হতে পারে। এটি advanced মডেলকে কার্যকর রাখার পাশাপাশি power draw এবং runtime কমানোর উপায় দেবে। তার ফলে প্রভাব পড়তে পারে:

  • ডেটা সেন্টার ডিজাইন এবং পরিচালন ব্যয়
  • বড় মডেলকে স্কেলে পরিষেবা দেওয়ার সম্ভাব্যতা
  • কঠোর power limits-সহ edge বা embedded AI systems
  • AI বৃদ্ধিকে ঘিরে জলবায়ু এবং অবকাঠামো বিতর্ক

গুরুত্বপূর্ণভাবে, ভবিষ্যতের মডেল কীভাবে তৈরি হবে সেটিও এতে বদলাতে পারে। hardware যখন sparsity-কে সরাসরি পুরস্কৃত করবে, তখন model designers architectures এবং training methods-কে আরও sparsity প্রকাশের মতো করে optimize করতে পারেন।

বাস্তবসম্মত কিন্তু গুরুত্বপূর্ণ অগ্রগতি

শক্তিশালী গবেষণা-ফল এবং মূলধারার গ্রহণের মধ্যে এখনও ফারাক আছে। বর্তমান AI infrastructure গভীরভাবে এমন GPU এবং software ecosystem-এ বিনিয়োগ করা, যা dense computation-এর জন্য তৈরি। নতুন hardware-কে কেবল কাজ করে তা নয়, integration, scale, এবং switching cost ন্যায্য কি না, সেটিও প্রমাণ করতে হবে।

তবুও, এই গবেষণা থেকে আসা যুক্তি উপেক্ষা করা কঠিন। যদি বড় AI মডেলে এমন মান ভরা থাকে যেগুলোকে প্রচলিত উপায়ে প্রক্রিয়া করার দরকার নেই, তাহলে বর্তমান hardware stack বাস্তব efficiency টেবিলে ফেলে রাখছে। Sparse computing সেই inefficiency-কে একটি design target-এ পরিণত করে।

যখন AI progress benchmark score-এর মতোই energy limit-এর বিরুদ্ধে মাপা হচ্ছে, তখন এটি হয়তো ক্ষেত্রটির সবচেয়ে গুরুত্বপূর্ণ engineering targetগুলোর একটি। শক্তিশালী AI-এর ভবিষ্যৎ হয়তো বড় মডেল বাদ দেওয়ার চেয়ে, অবশেষে যা তারা ব্যবহারই করে না তা compute করা বন্ধ করতে শেখার ওপর বেশি নির্ভর করতে পারে।

এই নিবন্ধটি IEEE Spectrum-এর প্রতিবেদনের ভিত্তিতে। মূল নিবন্ধ পড়ুন.

Originally published on spectrum.ieee.org