এবার কি তবে GPU এর দিন শেষ! গুগলের নতুন TPU একাই কাঁপিয়ে দিচ্ছে দুনিয়া!

প্রযুক্তি বিশ্বে সম্প্রতি Google অত্যন্ত অস্বাভাবিক কিন্তু চমকপ্রদ একটি কাজ করেছে। তারা তাদের অষ্টম প্রজন্মের AI Chip ঘোষণা করেছে, কিন্তু সবাইকে অবাক করে দিয়ে তারা একটির বদলে দুটি আলাদা Chip বাজারে এনেছে। একই Silicon Team-এর তৈরি এবং একই প্রজন্মের অংশ হওয়া সত্ত্বেও এই দুটি TPU-এর কাজ সম্পূর্ণ আলাদা।

কিন্তু কেন Google একটি Chip-কে দুটি ভাগে ভাগ করল? এই রহস্য বুঝতে হলে আমাদের একদম গোঁড়া থেকে কম্পিউটিং হার্ডওয়্যারের জগতকে বুঝতে হবে। চলুন, একদম সহজ ভাষায় জেনে নিই CPU, GPU এবং TPU-এর মধ্যকার সেই সূক্ষ্ম কিন্তু বিশাল পার্থক্যগুলো এবং কেন Google-এর এই নতুন পদক্ষেপটি পুরো ইন্ডাস্ট্রির জন্য একটি বড় সংকেত।

CPU: আমাদের চিরচেনা কম্পিউটিং-এর ভিত্তি

এবার কি তবে GPU এর দিন শেষ! গুগলের নতুন TPU একাই কাঁপিয়ে দিচ্ছে দুনিয়া!

সবচেয়ে সহজ জায়গা হলো সেই Chip-টি যা সম্পর্কে আপনি অলরেডি জানেন— CPU বা Central Processing Unit। এটি আপনার ল্যাপটপ বা স্মার্টফোনের মস্তিস্ক হিসেবে গত ৫০ বছর ধরে কম্পিউটিং-এর ভিত্তি হিসেবে কাজ করছে।

CPU কীভাবে কাজ করে?

একটি CPU মূলত অনেকগুলো Core দিয়ে তৈরি। খুব সহজভাবে বললে, একটি Core হলো একটি স্বাধীন Execution Unit। এটি হার্ডওয়্যারের এমন একটি ক্ষুদ্রতম অংশ যা নিজেই একটি Instruction সংগ্রহ (Fetch) করতে পারে, সেটিকে Decode করতে পারে, Execute করতে পারে এবং শেষমেশ ফলাফলটি পুনরায় Write Back করতে পারে।

প্রতিটি Core-এর নিজস্ব Pipeline, Registers এবং Arithmetic Logic Unit (ALU) থাকে। এর মানে হলো, একটি Single Core অন্য কোনো Core-এর জন্য অপেক্ষা না করেই একটি Thread of Code সম্পূর্ণ একা চালিয়ে নিতে পারে। আপনি যখন শোনেন যে একটি ল্যাপটপে ৮টি Core আছে, তার মানে হলো সেই Silicon-এর ওপর ৮টি স্বাধীন কাজের ইউনিট বসে আছে। ফলে আপনার Browser একটি Core-এ, আপনার IDE অন্যটিতে এবং আপনার Video Call তৃতীয় একটি Core-এ কোনো বাধা ছাড়াই একই সাথে চলতে পারে।

CPU-এর আভিজাত্য ও সীমাবদ্ধতা:

আধুনিক CPU Core-গুলো অত্যন্ত Sophisticated বা উন্নত। এতে আছে Branch Prediction, যা একটি If Statement মূল্যায়নের আগেই অনুমান করতে পারে ফলাফল কী হতে পারে। আরও আছে Out-of-Order Execution, যা দ্রুত কাজের প্রয়োজনে Instruction-গুলোকে নিজের মতো সাজিয়ে নিতে পারে। এছাড়া বিশাল Caches এবং বড় বড় Instruction Sets থাকার কারণে একে বলা হয় General-Purpose Processor। অর্থাৎ, Operating Systems, Compilers, Databases বা Games—যেকোনো Program একটি CPU চালাতে সক্ষম।

কিন্তু এই আভিজাত্যের একটি সীমাবদ্ধতা আছে। প্রতিটি Core আকারে বড় এবং তৈরি করা বেশ ব্যয়বহুল। তাই একটি চিপে খুব বেশি Core রাখা সম্ভব হয় না। সাধারণ Consumer CPU-তে সর্বোচ্চ ১৬টি এবং Server CPU-তে বড়জোর ১০০টির মতো Core থাকে। ১০ বছর আগে পর্যন্ত এটি ঠিক ছিল, কিন্তু তারপরই দৃশ্যপটে এলো AI। আর তখনই এই সংখ্যাটি একটি বড় বাধা হয়ে দাঁড়ালো।

AI-এর চ্যালেঞ্জ এবং GPU-এর অভাবনীয় উত্থান

এবার কি তবে GPU এর দিন শেষ! গুগলের নতুন TPU একাই কাঁপিয়ে দিচ্ছে দুনিয়া!

Neural Network ট্রেনিং দেওয়ার কাজটা খুব একটা জটিল নয়, কিন্তু এটি অত্যন্ত পুনরাবৃত্তিমূলক একটি কাজ যা বিলিয়ন বিলিয়ন বার করতে হয়।

Matrix Multiplication-এর ম্যাজিক:

যেকোনো Neural Network-এর হৃদপিণ্ড হলো Matrix Multiplication। এখানে Inputs-এর একটি Matrix-কে Weights-এর একটি Matrix দিয়ে গুণ করা হয় এবং একটি Bias যোগ করে পরবর্তী Layer-এর Output পাওয়া যায়। Gemini বা GPT-এর মতো মডেলে একটি Forward Pass করার জন্য ট্রিলিয়ন ট্রিলিয়ন বার এই একই কাজ করতে হয়।

CPU এই কাজ করতে পারে, কিন্তু ১৬টি বা ১০০টি Core দিয়ে ট্রিলিয়ন ট্রিলিয়ন অপারেশন করতে গেলে বছরের পর বছর সময় লেগে যাবে। আমাদের তখন ১৬টি বুদ্ধিমান Core-এর বদলে ১৬, ০০০ সাধারণ বা "Dumb" Core-এর প্রয়োজন ছিল।

GPU কীভাবে গেমিং থেকে AI-তে আসলো?

GPU বা Graphics Processing Unit আদতে AI-এর জন্য তৈরি হয়নি, এটি তৈরি হয়েছিল Video Games-এর জন্য। একটি 4K Frame রেন্ডার করতে ৮ মিলিয়নের বেশি Pixels থাকে এবং প্রতিটি Pixel-এর রঙ আলাদাভাবে গণনা করতে হয়। Nvidia এবং AMD-এর ডিজাইনাররা তাই CPU-এর মতো জটিল Core না বানিয়ে হাজার হাজার ছোট Core বানালেন।

একটি আধুনিক Nvidia H100 চিপে ১৬, ০০০-এর বেশি Core থাকে। এদের Branch Prediction বা জটিল ক্ষমতা নেই, কেবল দ্রুত Arithmetic বা অংক করার ক্ষমতা আছে। এই মডেলকে বলা হয় SIMD (Single Instruction Multiple Data), যেখানে একটি মাত্র Instruction ব্যবহার করে হাজার হাজার সংখ্যার ওপর সমান্তরালে কাজ করা হয়। ২০১২ সালের দিকে গবেষকরা লক্ষ্য করলেন যে, Graphics-এর গণিত আর Neural Network-এর Matrix Multiplication গঠনগতভাবে হুবহু এক। এই "আকস্মিক" মিলই Nvidia-কে বিশ্বের অন্যতম দামী চিপ কোম্পানিতে পরিণত করেছে। তবে মনে রাখতে হবে, GPU এখনও একটি General-Purpose Parallel Chip, যা Graphics, Physics বা Cryptography-এর কাজও করে। এটি কেবল AI-এর জন্যই শতভাগ Optimized নয়।

TPU: Google-এর নিজস্ব উদ্ভাবন

এবার কি তবে GPU এর দিন শেষ! গুগলের নতুন TPU একাই কাঁপিয়ে দিচ্ছে দুনিয়া!

Google এই জায়গাটিই দখল করতে চেয়েছিল। ২০১৫ সাল নাগাদ তারা নিজেদের ইন-হাউস AI চিপ তৈরি শুরু করে, যার নাম দেওয়া হয় TPU বা Tensor Processing Unit। এটি কোনো General-Purpose Chip নয়; এটি কোনো Operating System চালাতে পারে না বা গেম খেলতে পারে না। এর একমাত্র লক্ষ্য: সর্বোচ্চ Efficiency-তে Matrix Multiplication করা।

Systolic Array-এর বিশেষত্ব:

TPU-এর ডিজাইনে একটি বিশেষ স্ট্রাকচার ব্যবহার করা হয়েছে যাকে বলে Systolic Array। এটি মূলত ছোট ছোট হার্ডওয়্যার ইউনিটের একটি Grid। প্রতিটি ইউনিট কেবল একটি কাজই করে: দুটি সংখ্যা নেয়, গুণ করে, আগের যোগফলের সাথে তা যোগ করে এবং ফলাফলটি পাশের ইউনিটে পাঠিয়ে দেয়।

এখানে ডেটা একটি তরঙ্গের (Wave) মতো চিপের ভেতর দিয়ে প্রবাহিত হয়। GPU-তে যেখানে বারবার Memory Read বা Instruction Fetch করতে হয়, TPU-তে ডেটা চিপের ভেতরেই একনাগাড়ে বয়ে চলে। এতে সময় বাঁচে, Control Logic-এর পেছনে শক্তি কম খরচ হয় এবং গাণিতিক কাজে বেশি সময় দেওয়া যায়। ফলস্বরূপ, TPU প্রতি ওয়াট বিদ্যুতের বিপরীতে CPU বা GPU-এর চেয়ে অনেক বেশি কার্যকর। Google Search, YouTube Recommendations, Translate এবং Gemini-এর প্রতিটি ভার্সনের পেছনে এই TPU-ই নীরবে কাজ করে যাচ্ছে।

কেন একটি চিপের বদলে দুটি? Training বনাম Inference

এবার কি তবে GPU এর দিন শেষ! গুগলের নতুন TPU একাই কাঁপিয়ে দিচ্ছে দুনিয়া!

এখন আসা যাক আসল প্রশ্নে: Google কেন দুটি ভিন্ন চিপ আনলো? কারণ ইন্ডাস্ট্রি এখন বুঝতে পেরেছে যে AI মডেলকে Training দেওয়া এবং সেই মডেলকে বাস্তবে চালানো (Inference) দুটি সম্পূর্ণ ভিন্ন ধরনের চ্যালেঞ্জ।

  1. Training (Compute Bound): এখানে ট্রিলিয়ন ট্রিলিয়ন উদাহরণ নেটওয়র্করে ভেতর দিয়ে পাঠাতে হয়। এখানে বিশাল Batch Sizes নিয়ে কাজ করতে হয় এবং একই Matrix Multiplication বিলিয়ন বার করতে হয়। এর জন্য প্রয়োজন প্রচুর Floating Point Throughput এবং চিপগুলোর মধ্যে High Bandwidth, যাতে তারা প্রতিটি ট্রেনিং স্টেপে দ্রুত Gradients শেয়ার করতে পারে।
  2. Inference (Memory Bound): যখন একজন ইউজার কোনো প্রশ্ন করে এবং AI উত্তর দেয়, তখন সেটি একটির পর একটি Token আকারে তৈরি হয়। এখানে বিশাল ব্যাচ নয়, বরং একেকটি টোকেন তৈরি করার সময় চিপটিকে Memory-র জন্য অপেক্ষা করতে হয়। বিশেষ করে Agentic Inference-এর ক্ষেত্রে, যেখানে AI বারবার লুপে কাজ করে, সেখানে প্রতি মিলিসেকেন্ডের Latency অনেক বড় সমস্যা হয়ে দাঁড়ায়। এছাড়া দীর্ঘ কথোপকথনের জন্য মডেলকে মেমোরিতে একটি বড় Key-Value Cache (KV Cache) ধরে রাখতে হয়।

TPU 8T এবং TPU 8I: বিশেষ কাজের বিশেষ যোদ্ধা

এবার কি তবে GPU এর দিন শেষ! গুগলের নতুন TPU একাই কাঁপিয়ে দিচ্ছে দুনিয়া!

Google এই দুটি ভিন্ন ধরনের কাজের চাপ সামলানোর জন্যই দুটি আলাদা চিপ তৈরি করেছে:

  • TPU 8T (The Training Chip): এটি প্রশিক্ষণের জন্য তৈরি। একটি Single Pod-এ ৯, ৬০০টি TPU 8T চিপ সংযুক্ত থাকে, যা ২ Petabytes Memory শেয়ার করে এবং ১২১ Exaflops কম্পিউটিং ক্ষমতা প্রদান করে। Google-এর দাবি, এর ফলে বিশাল মডেলের ট্রেনিং সময় মাস থেকে সপ্তাহে নেমে আসবে এবং এটি ১ মিলিয়ন চিপ পর্যন্ত স্কেল করা সম্ভব।
  • TPU 8I (The Inference Chip): এটি ইউজারদের প্রশ্নের উত্তর দেওয়ার বা ইনফারেন্সের জন্য বিশেষায়িত। এতে ১, ১৫২টি চিপের ছোট Pod থাকলেও এর একটি বিশেষ শক্তি আছে—৩৮৪ Megabytes-এর অন-চিপ SRAM। এটি গত প্রজন্মের চেয়ে তিনগুণ বেশি। SRAM হলো চিপের সবচেয়ে দ্রুতগতির মেমোরি যা সরাসরি Core-এর পাশেই থাকে। KV Cache-কে এই অন-চিপ SRAM-এ রাখার ফলে উত্তরের গতি বা Latency নাটকীয়ভাবে কমে যায়।

সবচেয়ে বড় বিষয় হলো, এই দুটি চিপই এখন Google-এর নিজস্ব Axion ARM CPU-কে Host Processor হিসেবে ব্যবহার করছে। অর্থাৎ, উপর থেকে নিচ পর্যন্ত পুরো সিস্টেমটিই এখন Google-এর নিজস্ব। তারা দাবি করছে, এটি গত বছরের চিপের তুলনায় ২ গুণ বেশি Performance Per Watt প্রদান করবে।

কম্পিউটিং-এর ভবিষ্যৎ কোন পথে?

এবার কি তবে GPU এর দিন শেষ! গুগলের নতুন TPU একাই কাঁপিয়ে দিচ্ছে দুনিয়া!

Nvidia-র কৌশল গত এক দশক ধরে ছিল "One Chip for Everything"—অর্থাৎ একটি চিপ দিয়েই সব ধরনের কাজ সামলানো। কিন্তু Google এখন একটি পরিষ্কার সংকেত দিচ্ছে: ট্রেনিং এবং ইনফারেন্স এখন এতটাই আলাদা হয়ে গেছে যে আপনি আর একটি চিপ দিয়ে দুটিতেই সেরা হতে পারবেন না। আপনাকে হয় Specialization (বিশেষায়ন) করতে হবে, নয়তো আপনি দক্ষতার দৌড়ে পিছিয়ে পড়বেন।

Google-এর এই ঘোষণার দিন Nvidia-র Stock ১.৫% কমলেও দ্রুতই তা সামলে নিয়েছে। তবে আসল বার্তাটি হলো—আমরা এখন General-Purpose কম্পিউটিং থেকে নির্দিষ্ট কাজের জন্য নিবেদিত হার্ডওয়্যারের যুগে প্রবেশ করছি। Google-এর এই সাহসী পদক্ষেপ কেবল তাদের নিজেদের সক্ষমতা বাড়ানো নয়, বরং পুরো ইন্ডাস্ট্রিকে দেখিয়ে দেওয়া যে প্রযুক্তির ভবিষ্যৎ আসলে কোন দিকে ধাবিত হচ্ছে।

আপনি যদি TPU এবং GPU-এর এই জটিল কাজগুলো কীভাবে চলে তা নিয়ে আরও গভীর বিশ্লেষণ চান, তবে টিউমেন্টে জানাতে ভুলবেন না। টেকটিউনসে আপনার প্রতিটি জোস এবং ফলো এমন তথ্যবহুল টিউন তৈরিতে উৎসাহিত করে। ধন্যবাদ সাথে থাকার জন্য!

-

টেকটিউনস টেকবুম

Level 9

আমি টেকটিউনস টেকবুম। বিশ্বের সর্ববৃহৎ বিজ্ঞান ও প্রযুক্তির সৌশল নেটওয়ার্ক - টেকটিউনস এ আমি 12 বছর 9 মাস যাবৎ যুক্ত আছি। টেকটিউনস আমি এ পর্যন্ত 1272 টি টিউন ও 0 টি টিউমেন্ট করেছি। টেকটিউনসে আমার 3 ফলোয়ার আছে এবং আমি টেকটিউনসে 0 টিউনারকে ফলো করি।


টিউনস


আরও টিউনস


টিউনারের আরও টিউনস


টিউমেন্টস