
প্রযুক্তি বিশ্বে সম্প্রতি Google অত্যন্ত অস্বাভাবিক কিন্তু চমকপ্রদ একটি কাজ করেছে। তারা তাদের অষ্টম প্রজন্মের AI Chip ঘোষণা করেছে, কিন্তু সবাইকে অবাক করে দিয়ে তারা একটির বদলে দুটি আলাদা Chip বাজারে এনেছে। একই Silicon Team-এর তৈরি এবং একই প্রজন্মের অংশ হওয়া সত্ত্বেও এই দুটি TPU-এর কাজ সম্পূর্ণ আলাদা।
কিন্তু কেন Google একটি Chip-কে দুটি ভাগে ভাগ করল? এই রহস্য বুঝতে হলে আমাদের একদম গোঁড়া থেকে কম্পিউটিং হার্ডওয়্যারের জগতকে বুঝতে হবে। চলুন, একদম সহজ ভাষায় জেনে নিই CPU, GPU এবং TPU-এর মধ্যকার সেই সূক্ষ্ম কিন্তু বিশাল পার্থক্যগুলো এবং কেন Google-এর এই নতুন পদক্ষেপটি পুরো ইন্ডাস্ট্রির জন্য একটি বড় সংকেত।

সবচেয়ে সহজ জায়গা হলো সেই Chip-টি যা সম্পর্কে আপনি অলরেডি জানেন— CPU বা Central Processing Unit। এটি আপনার ল্যাপটপ বা স্মার্টফোনের মস্তিস্ক হিসেবে গত ৫০ বছর ধরে কম্পিউটিং-এর ভিত্তি হিসেবে কাজ করছে।
একটি CPU মূলত অনেকগুলো Core দিয়ে তৈরি। খুব সহজভাবে বললে, একটি Core হলো একটি স্বাধীন Execution Unit। এটি হার্ডওয়্যারের এমন একটি ক্ষুদ্রতম অংশ যা নিজেই একটি Instruction সংগ্রহ (Fetch) করতে পারে, সেটিকে Decode করতে পারে, Execute করতে পারে এবং শেষমেশ ফলাফলটি পুনরায় Write Back করতে পারে।
প্রতিটি Core-এর নিজস্ব Pipeline, Registers এবং Arithmetic Logic Unit (ALU) থাকে। এর মানে হলো, একটি Single Core অন্য কোনো Core-এর জন্য অপেক্ষা না করেই একটি Thread of Code সম্পূর্ণ একা চালিয়ে নিতে পারে। আপনি যখন শোনেন যে একটি ল্যাপটপে ৮টি Core আছে, তার মানে হলো সেই Silicon-এর ওপর ৮টি স্বাধীন কাজের ইউনিট বসে আছে। ফলে আপনার Browser একটি Core-এ, আপনার IDE অন্যটিতে এবং আপনার Video Call তৃতীয় একটি Core-এ কোনো বাধা ছাড়াই একই সাথে চলতে পারে।
আধুনিক CPU Core-গুলো অত্যন্ত Sophisticated বা উন্নত। এতে আছে Branch Prediction, যা একটি If Statement মূল্যায়নের আগেই অনুমান করতে পারে ফলাফল কী হতে পারে। আরও আছে Out-of-Order Execution, যা দ্রুত কাজের প্রয়োজনে Instruction-গুলোকে নিজের মতো সাজিয়ে নিতে পারে। এছাড়া বিশাল Caches এবং বড় বড় Instruction Sets থাকার কারণে একে বলা হয় General-Purpose Processor। অর্থাৎ, Operating Systems, Compilers, Databases বা Games—যেকোনো Program একটি CPU চালাতে সক্ষম।
কিন্তু এই আভিজাত্যের একটি সীমাবদ্ধতা আছে। প্রতিটি Core আকারে বড় এবং তৈরি করা বেশ ব্যয়বহুল। তাই একটি চিপে খুব বেশি Core রাখা সম্ভব হয় না। সাধারণ Consumer CPU-তে সর্বোচ্চ ১৬টি এবং Server CPU-তে বড়জোর ১০০টির মতো Core থাকে। ১০ বছর আগে পর্যন্ত এটি ঠিক ছিল, কিন্তু তারপরই দৃশ্যপটে এলো AI। আর তখনই এই সংখ্যাটি একটি বড় বাধা হয়ে দাঁড়ালো।

Neural Network ট্রেনিং দেওয়ার কাজটা খুব একটা জটিল নয়, কিন্তু এটি অত্যন্ত পুনরাবৃত্তিমূলক একটি কাজ যা বিলিয়ন বিলিয়ন বার করতে হয়।
যেকোনো Neural Network-এর হৃদপিণ্ড হলো Matrix Multiplication। এখানে Inputs-এর একটি Matrix-কে Weights-এর একটি Matrix দিয়ে গুণ করা হয় এবং একটি Bias যোগ করে পরবর্তী Layer-এর Output পাওয়া যায়। Gemini বা GPT-এর মতো মডেলে একটি Forward Pass করার জন্য ট্রিলিয়ন ট্রিলিয়ন বার এই একই কাজ করতে হয়।
CPU এই কাজ করতে পারে, কিন্তু ১৬টি বা ১০০টি Core দিয়ে ট্রিলিয়ন ট্রিলিয়ন অপারেশন করতে গেলে বছরের পর বছর সময় লেগে যাবে। আমাদের তখন ১৬টি বুদ্ধিমান Core-এর বদলে ১৬, ০০০ সাধারণ বা "Dumb" Core-এর প্রয়োজন ছিল।
GPU বা Graphics Processing Unit আদতে AI-এর জন্য তৈরি হয়নি, এটি তৈরি হয়েছিল Video Games-এর জন্য। একটি 4K Frame রেন্ডার করতে ৮ মিলিয়নের বেশি Pixels থাকে এবং প্রতিটি Pixel-এর রঙ আলাদাভাবে গণনা করতে হয়। Nvidia এবং AMD-এর ডিজাইনাররা তাই CPU-এর মতো জটিল Core না বানিয়ে হাজার হাজার ছোট Core বানালেন।
একটি আধুনিক Nvidia H100 চিপে ১৬, ০০০-এর বেশি Core থাকে। এদের Branch Prediction বা জটিল ক্ষমতা নেই, কেবল দ্রুত Arithmetic বা অংক করার ক্ষমতা আছে। এই মডেলকে বলা হয় SIMD (Single Instruction Multiple Data), যেখানে একটি মাত্র Instruction ব্যবহার করে হাজার হাজার সংখ্যার ওপর সমান্তরালে কাজ করা হয়। ২০১২ সালের দিকে গবেষকরা লক্ষ্য করলেন যে, Graphics-এর গণিত আর Neural Network-এর Matrix Multiplication গঠনগতভাবে হুবহু এক। এই "আকস্মিক" মিলই Nvidia-কে বিশ্বের অন্যতম দামী চিপ কোম্পানিতে পরিণত করেছে। তবে মনে রাখতে হবে, GPU এখনও একটি General-Purpose Parallel Chip, যা Graphics, Physics বা Cryptography-এর কাজও করে। এটি কেবল AI-এর জন্যই শতভাগ Optimized নয়।

Google এই জায়গাটিই দখল করতে চেয়েছিল। ২০১৫ সাল নাগাদ তারা নিজেদের ইন-হাউস AI চিপ তৈরি শুরু করে, যার নাম দেওয়া হয় TPU বা Tensor Processing Unit। এটি কোনো General-Purpose Chip নয়; এটি কোনো Operating System চালাতে পারে না বা গেম খেলতে পারে না। এর একমাত্র লক্ষ্য: সর্বোচ্চ Efficiency-তে Matrix Multiplication করা।
TPU-এর ডিজাইনে একটি বিশেষ স্ট্রাকচার ব্যবহার করা হয়েছে যাকে বলে Systolic Array। এটি মূলত ছোট ছোট হার্ডওয়্যার ইউনিটের একটি Grid। প্রতিটি ইউনিট কেবল একটি কাজই করে: দুটি সংখ্যা নেয়, গুণ করে, আগের যোগফলের সাথে তা যোগ করে এবং ফলাফলটি পাশের ইউনিটে পাঠিয়ে দেয়।
এখানে ডেটা একটি তরঙ্গের (Wave) মতো চিপের ভেতর দিয়ে প্রবাহিত হয়। GPU-তে যেখানে বারবার Memory Read বা Instruction Fetch করতে হয়, TPU-তে ডেটা চিপের ভেতরেই একনাগাড়ে বয়ে চলে। এতে সময় বাঁচে, Control Logic-এর পেছনে শক্তি কম খরচ হয় এবং গাণিতিক কাজে বেশি সময় দেওয়া যায়। ফলস্বরূপ, TPU প্রতি ওয়াট বিদ্যুতের বিপরীতে CPU বা GPU-এর চেয়ে অনেক বেশি কার্যকর। Google Search, YouTube Recommendations, Translate এবং Gemini-এর প্রতিটি ভার্সনের পেছনে এই TPU-ই নীরবে কাজ করে যাচ্ছে।

এখন আসা যাক আসল প্রশ্নে: Google কেন দুটি ভিন্ন চিপ আনলো? কারণ ইন্ডাস্ট্রি এখন বুঝতে পেরেছে যে AI মডেলকে Training দেওয়া এবং সেই মডেলকে বাস্তবে চালানো (Inference) দুটি সম্পূর্ণ ভিন্ন ধরনের চ্যালেঞ্জ।

Google এই দুটি ভিন্ন ধরনের কাজের চাপ সামলানোর জন্যই দুটি আলাদা চিপ তৈরি করেছে:
সবচেয়ে বড় বিষয় হলো, এই দুটি চিপই এখন Google-এর নিজস্ব Axion ARM CPU-কে Host Processor হিসেবে ব্যবহার করছে। অর্থাৎ, উপর থেকে নিচ পর্যন্ত পুরো সিস্টেমটিই এখন Google-এর নিজস্ব। তারা দাবি করছে, এটি গত বছরের চিপের তুলনায় ২ গুণ বেশি Performance Per Watt প্রদান করবে।

Nvidia-র কৌশল গত এক দশক ধরে ছিল "One Chip for Everything"—অর্থাৎ একটি চিপ দিয়েই সব ধরনের কাজ সামলানো। কিন্তু Google এখন একটি পরিষ্কার সংকেত দিচ্ছে: ট্রেনিং এবং ইনফারেন্স এখন এতটাই আলাদা হয়ে গেছে যে আপনি আর একটি চিপ দিয়ে দুটিতেই সেরা হতে পারবেন না। আপনাকে হয় Specialization (বিশেষায়ন) করতে হবে, নয়তো আপনি দক্ষতার দৌড়ে পিছিয়ে পড়বেন।
Google-এর এই ঘোষণার দিন Nvidia-র Stock ১.৫% কমলেও দ্রুতই তা সামলে নিয়েছে। তবে আসল বার্তাটি হলো—আমরা এখন General-Purpose কম্পিউটিং থেকে নির্দিষ্ট কাজের জন্য নিবেদিত হার্ডওয়্যারের যুগে প্রবেশ করছি। Google-এর এই সাহসী পদক্ষেপ কেবল তাদের নিজেদের সক্ষমতা বাড়ানো নয়, বরং পুরো ইন্ডাস্ট্রিকে দেখিয়ে দেওয়া যে প্রযুক্তির ভবিষ্যৎ আসলে কোন দিকে ধাবিত হচ্ছে।
আপনি যদি TPU এবং GPU-এর এই জটিল কাজগুলো কীভাবে চলে তা নিয়ে আরও গভীর বিশ্লেষণ চান, তবে টিউমেন্টে জানাতে ভুলবেন না। টেকটিউনসে আপনার প্রতিটি জোস এবং ফলো এমন তথ্যবহুল টিউন তৈরিতে উৎসাহিত করে। ধন্যবাদ সাথে থাকার জন্য!
-
টেকটিউনস টেকবুম
আমি টেকটিউনস টেকবুম। বিশ্বের সর্ববৃহৎ বিজ্ঞান ও প্রযুক্তির সৌশল নেটওয়ার্ক - টেকটিউনস এ আমি 12 বছর 9 মাস যাবৎ যুক্ত আছি। টেকটিউনস আমি এ পর্যন্ত 1272 টি টিউন ও 0 টি টিউমেন্ট করেছি। টেকটিউনসে আমার 3 ফলোয়ার আছে এবং আমি টেকটিউনসে 0 টিউনারকে ফলো করি।