এবার কি তবে GPU এর দিন শেষ! গুগলের নতুন TPU একাই কাঁপিয়ে দিচ্ছে দুনিয়া!

Awesome! টিউনস

সকল Awesome! টিউনস

স্যাটেলাইট ব্রডব্যান্ড ইন্টারনেট | ডিশ এন্টেনা থেকে কীভাবে ইন্টারনেট সম্ভব হয়? স্যাটেলাইট ব্রডব্যান্ড এর সুবিধা,...

তাহমিদ বোরহান

আপনার ছবিগুলোকে ম্যানেজ করুন 3D র পরিবেশে

দুঃসাহসী টিনটিন

প্রয়োজন এবং আনন্দকে এক সূতোয় গেঁথে দিতে আমার আজকের আয়োজন অবসর কিংবা ব্যস্ততার ফাঁকে সৃজনশীল...

সানিম মাহবীর ফাহাদ

চলুন জানি পিরামিড, আরো একটি মমির অভিশাপ এবং টাইটানিকের পরিনতির আসল কারন সম্পর্কে [মেগা টিউন]

শুভ্র আকাশ

188 দেখা 0 টিউমেন্টস জোসস

টিউন বিভাগ টেকটিউনস টেকবুম

প্রকাশিত

Level 9

টেকটিউনস টেকবুম

1296 টিউনস 0 টিউমেন্টস 3 ফলোয়ার

টিউমেন্ট ফলো জোসস

প্রযুক্তি বিশ্বে সম্প্রতি Google অত্যন্ত অস্বাভাবিক কিন্তু চমকপ্রদ একটি কাজ করেছে। তারা তাদের অষ্টম প্রজন্মের AI Chip ঘোষণা করেছে, কিন্তু সবাইকে অবাক করে দিয়ে তারা একটির বদলে দুটি আলাদা Chip বাজারে এনেছে। একই Silicon Team-এর তৈরি এবং একই প্রজন্মের অংশ হওয়া সত্ত্বেও এই দুটি TPU-এর কাজ সম্পূর্ণ আলাদা।

কিন্তু কেন Google একটি Chip-কে দুটি ভাগে ভাগ করল? এই রহস্য বুঝতে হলে আমাদের একদম গোঁড়া থেকে কম্পিউটিং হার্ডওয়্যারের জগতকে বুঝতে হবে। চলুন, একদম সহজ ভাষায় জেনে নিই CPU, GPU এবং TPU-এর মধ্যকার সেই সূক্ষ্ম কিন্তু বিশাল পার্থক্যগুলো এবং কেন Google-এর এই নতুন পদক্ষেপটি পুরো ইন্ডাস্ট্রির জন্য একটি বড় সংকেত।

CPU: আমাদের চিরচেনা কম্পিউটিং-এর ভিত্তি

সবচেয়ে সহজ জায়গা হলো সেই Chip-টি যা সম্পর্কে আপনি অলরেডি জানেন— CPU বা Central Processing Unit। এটি আপনার ল্যাপটপ বা স্মার্টফোনের মস্তিস্ক হিসেবে গত ৫০ বছর ধরে কম্পিউটিং-এর ভিত্তি হিসেবে কাজ করছে।

CPU কীভাবে কাজ করে?

একটি CPU মূলত অনেকগুলো Core দিয়ে তৈরি। খুব সহজভাবে বললে, একটি Core হলো একটি স্বাধীন Execution Unit। এটি হার্ডওয়্যারের এমন একটি ক্ষুদ্রতম অংশ যা নিজেই একটি Instruction সংগ্রহ (Fetch) করতে পারে, সেটিকে Decode করতে পারে, Execute করতে পারে এবং শেষমেশ ফলাফলটি পুনরায় Write Back করতে পারে।

প্রতিটি Core-এর নিজস্ব Pipeline, Registers এবং Arithmetic Logic Unit (ALU) থাকে। এর মানে হলো, একটি Single Core অন্য কোনো Core-এর জন্য অপেক্ষা না করেই একটি Thread of Code সম্পূর্ণ একা চালিয়ে নিতে পারে। আপনি যখন শোনেন যে একটি ল্যাপটপে ৮টি Core আছে, তার মানে হলো সেই Silicon-এর ওপর ৮টি স্বাধীন কাজের ইউনিট বসে আছে। ফলে আপনার Browser একটি Core-এ, আপনার IDE অন্যটিতে এবং আপনার Video Call তৃতীয় একটি Core-এ কোনো বাধা ছাড়াই একই সাথে চলতে পারে।

CPU-এর আভিজাত্য ও সীমাবদ্ধতা:

আধুনিক CPU Core-গুলো অত্যন্ত Sophisticated বা উন্নত। এতে আছে Branch Prediction, যা একটি If Statement মূল্যায়নের আগেই অনুমান করতে পারে ফলাফল কী হতে পারে। আরও আছে Out-of-Order Execution, যা দ্রুত কাজের প্রয়োজনে Instruction-গুলোকে নিজের মতো সাজিয়ে নিতে পারে। এছাড়া বিশাল Caches এবং বড় বড় Instruction Sets থাকার কারণে একে বলা হয় General-Purpose Processor। অর্থাৎ, Operating Systems, Compilers, Databases বা Games—যেকোনো Program একটি CPU চালাতে সক্ষম।

কিন্তু এই আভিজাত্যের একটি সীমাবদ্ধতা আছে। প্রতিটি Core আকারে বড় এবং তৈরি করা বেশ ব্যয়বহুল। তাই একটি চিপে খুব বেশি Core রাখা সম্ভব হয় না। সাধারণ Consumer CPU-তে সর্বোচ্চ ১৬টি এবং Server CPU-তে বড়জোর ১০০টির মতো Core থাকে। ১০ বছর আগে পর্যন্ত এটি ঠিক ছিল, কিন্তু তারপরই দৃশ্যপটে এলো AI। আর তখনই এই সংখ্যাটি একটি বড় বাধা হয়ে দাঁড়ালো।

AI-এর চ্যালেঞ্জ এবং GPU-এর অভাবনীয় উত্থান

Neural Network ট্রেনিং দেওয়ার কাজটা খুব একটা জটিল নয়, কিন্তু এটি অত্যন্ত পুনরাবৃত্তিমূলক একটি কাজ যা বিলিয়ন বিলিয়ন বার করতে হয়।

Matrix Multiplication-এর ম্যাজিক:

যেকোনো Neural Network-এর হৃদপিণ্ড হলো Matrix Multiplication। এখানে Inputs-এর একটি Matrix-কে Weights-এর একটি Matrix দিয়ে গুণ করা হয় এবং একটি Bias যোগ করে পরবর্তী Layer-এর Output পাওয়া যায়। Gemini বা GPT-এর মতো মডেলে একটি Forward Pass করার জন্য ট্রিলিয়ন ট্রিলিয়ন বার এই একই কাজ করতে হয়।

CPU এই কাজ করতে পারে, কিন্তু ১৬টি বা ১০০টি Core দিয়ে ট্রিলিয়ন ট্রিলিয়ন অপারেশন করতে গেলে বছরের পর বছর সময় লেগে যাবে। আমাদের তখন ১৬টি বুদ্ধিমান Core-এর বদলে ১৬, ০০০ সাধারণ বা "Dumb" Core-এর প্রয়োজন ছিল।

GPU কীভাবে গেমিং থেকে AI-তে আসলো?

GPU বা Graphics Processing Unit আদতে AI-এর জন্য তৈরি হয়নি, এটি তৈরি হয়েছিল Video Games-এর জন্য। একটি 4K Frame রেন্ডার করতে ৮ মিলিয়নের বেশি Pixels থাকে এবং প্রতিটি Pixel-এর রঙ আলাদাভাবে গণনা করতে হয়। Nvidia এবং AMD-এর ডিজাইনাররা তাই CPU-এর মতো জটিল Core না বানিয়ে হাজার হাজার ছোট Core বানালেন।

একটি আধুনিক Nvidia H100 চিপে ১৬, ০০০-এর বেশি Core থাকে। এদের Branch Prediction বা জটিল ক্ষমতা নেই, কেবল দ্রুত Arithmetic বা অংক করার ক্ষমতা আছে। এই মডেলকে বলা হয় SIMD (Single Instruction Multiple Data), যেখানে একটি মাত্র Instruction ব্যবহার করে হাজার হাজার সংখ্যার ওপর সমান্তরালে কাজ করা হয়। ২০১২ সালের দিকে গবেষকরা লক্ষ্য করলেন যে, Graphics-এর গণিত আর Neural Network-এর Matrix Multiplication গঠনগতভাবে হুবহু এক। এই "আকস্মিক" মিলই Nvidia-কে বিশ্বের অন্যতম দামী চিপ কোম্পানিতে পরিণত করেছে। তবে মনে রাখতে হবে, GPU এখনও একটি General-Purpose Parallel Chip, যা Graphics, Physics বা Cryptography-এর কাজও করে। এটি কেবল AI-এর জন্যই শতভাগ Optimized নয়।

TPU: Google-এর নিজস্ব উদ্ভাবন

Google এই জায়গাটিই দখল করতে চেয়েছিল। ২০১৫ সাল নাগাদ তারা নিজেদের ইন-হাউস AI চিপ তৈরি শুরু করে, যার নাম দেওয়া হয় TPU বা Tensor Processing Unit। এটি কোনো General-Purpose Chip নয়; এটি কোনো Operating System চালাতে পারে না বা গেম খেলতে পারে না। এর একমাত্র লক্ষ্য: সর্বোচ্চ Efficiency-তে Matrix Multiplication করা।

Systolic Array-এর বিশেষত্ব:

TPU-এর ডিজাইনে একটি বিশেষ স্ট্রাকচার ব্যবহার করা হয়েছে যাকে বলে Systolic Array। এটি মূলত ছোট ছোট হার্ডওয়্যার ইউনিটের একটি Grid। প্রতিটি ইউনিট কেবল একটি কাজই করে: দুটি সংখ্যা নেয়, গুণ করে, আগের যোগফলের সাথে তা যোগ করে এবং ফলাফলটি পাশের ইউনিটে পাঠিয়ে দেয়।

এখানে ডেটা একটি তরঙ্গের (Wave) মতো চিপের ভেতর দিয়ে প্রবাহিত হয়। GPU-তে যেখানে বারবার Memory Read বা Instruction Fetch করতে হয়, TPU-তে ডেটা চিপের ভেতরেই একনাগাড়ে বয়ে চলে। এতে সময় বাঁচে, Control Logic-এর পেছনে শক্তি কম খরচ হয় এবং গাণিতিক কাজে বেশি সময় দেওয়া যায়। ফলস্বরূপ, TPU প্রতি ওয়াট বিদ্যুতের বিপরীতে CPU বা GPU-এর চেয়ে অনেক বেশি কার্যকর। Google Search, YouTube Recommendations, Translate এবং Gemini-এর প্রতিটি ভার্সনের পেছনে এই TPU-ই নীরবে কাজ করে যাচ্ছে।

কেন একটি চিপের বদলে দুটি? Training বনাম Inference

এখন আসা যাক আসল প্রশ্নে: Google কেন দুটি ভিন্ন চিপ আনলো? কারণ ইন্ডাস্ট্রি এখন বুঝতে পেরেছে যে AI মডেলকে Training দেওয়া এবং সেই মডেলকে বাস্তবে চালানো (Inference) দুটি সম্পূর্ণ ভিন্ন ধরনের চ্যালেঞ্জ।

Training (Compute Bound): এখানে ট্রিলিয়ন ট্রিলিয়ন উদাহরণ নেটওয়র্করে ভেতর দিয়ে পাঠাতে হয়। এখানে বিশাল Batch Sizes নিয়ে কাজ করতে হয় এবং একই Matrix Multiplication বিলিয়ন বার করতে হয়। এর জন্য প্রয়োজন প্রচুর Floating Point Throughput এবং চিপগুলোর মধ্যে High Bandwidth, যাতে তারা প্রতিটি ট্রেনিং স্টেপে দ্রুত Gradients শেয়ার করতে পারে।
Inference (Memory Bound): যখন একজন ইউজার কোনো প্রশ্ন করে এবং AI উত্তর দেয়, তখন সেটি একটির পর একটি Token আকারে তৈরি হয়। এখানে বিশাল ব্যাচ নয়, বরং একেকটি টোকেন তৈরি করার সময় চিপটিকে Memory-র জন্য অপেক্ষা করতে হয়। বিশেষ করে Agentic Inference-এর ক্ষেত্রে, যেখানে AI বারবার লুপে কাজ করে, সেখানে প্রতি মিলিসেকেন্ডের Latency অনেক বড় সমস্যা হয়ে দাঁড়ায়। এছাড়া দীর্ঘ কথোপকথনের জন্য মডেলকে মেমোরিতে একটি বড় Key-Value Cache (KV Cache) ধরে রাখতে হয়।

TPU 8T এবং TPU 8I: বিশেষ কাজের বিশেষ যোদ্ধা

Google এই দুটি ভিন্ন ধরনের কাজের চাপ সামলানোর জন্যই দুটি আলাদা চিপ তৈরি করেছে:

TPU 8T (The Training Chip): এটি প্রশিক্ষণের জন্য তৈরি। একটি Single Pod-এ ৯, ৬০০টি TPU 8T চিপ সংযুক্ত থাকে, যা ২ Petabytes Memory শেয়ার করে এবং ১২১ Exaflops কম্পিউটিং ক্ষমতা প্রদান করে। Google-এর দাবি, এর ফলে বিশাল মডেলের ট্রেনিং সময় মাস থেকে সপ্তাহে নেমে আসবে এবং এটি ১ মিলিয়ন চিপ পর্যন্ত স্কেল করা সম্ভব।
TPU 8I (The Inference Chip): এটি ইউজারদের প্রশ্নের উত্তর দেওয়ার বা ইনফারেন্সের জন্য বিশেষায়িত। এতে ১, ১৫২টি চিপের ছোট Pod থাকলেও এর একটি বিশেষ শক্তি আছে—৩৮৪ Megabytes-এর অন-চিপ SRAM। এটি গত প্রজন্মের চেয়ে তিনগুণ বেশি। SRAM হলো চিপের সবচেয়ে দ্রুতগতির মেমোরি যা সরাসরি Core-এর পাশেই থাকে। KV Cache-কে এই অন-চিপ SRAM-এ রাখার ফলে উত্তরের গতি বা Latency নাটকীয়ভাবে কমে যায়।

সবচেয়ে বড় বিষয় হলো, এই দুটি চিপই এখন Google-এর নিজস্ব Axion ARM CPU-কে Host Processor হিসেবে ব্যবহার করছে। অর্থাৎ, উপর থেকে নিচ পর্যন্ত পুরো সিস্টেমটিই এখন Google-এর নিজস্ব। তারা দাবি করছে, এটি গত বছরের চিপের তুলনায় ২ গুণ বেশি Performance Per Watt প্রদান করবে।

কম্পিউটিং-এর ভবিষ্যৎ কোন পথে?

Nvidia-র কৌশল গত এক দশক ধরে ছিল "One Chip for Everything"—অর্থাৎ একটি চিপ দিয়েই সব ধরনের কাজ সামলানো। কিন্তু Google এখন একটি পরিষ্কার সংকেত দিচ্ছে: ট্রেনিং এবং ইনফারেন্স এখন এতটাই আলাদা হয়ে গেছে যে আপনি আর একটি চিপ দিয়ে দুটিতেই সেরা হতে পারবেন না। আপনাকে হয় Specialization (বিশেষায়ন) করতে হবে, নয়তো আপনি দক্ষতার দৌড়ে পিছিয়ে পড়বেন।

Google-এর এই ঘোষণার দিন Nvidia-র Stock ১.৫% কমলেও দ্রুতই তা সামলে নিয়েছে। তবে আসল বার্তাটি হলো—আমরা এখন General-Purpose কম্পিউটিং থেকে নির্দিষ্ট কাজের জন্য নিবেদিত হার্ডওয়্যারের যুগে প্রবেশ করছি। Google-এর এই সাহসী পদক্ষেপ কেবল তাদের নিজেদের সক্ষমতা বাড়ানো নয়, বরং পুরো ইন্ডাস্ট্রিকে দেখিয়ে দেওয়া যে প্রযুক্তির ভবিষ্যৎ আসলে কোন দিকে ধাবিত হচ্ছে।

আপনি যদি TPU এবং GPU-এর এই জটিল কাজগুলো কীভাবে চলে তা নিয়ে আরও গভীর বিশ্লেষণ চান, তবে টিউমেন্টে জানাতে ভুলবেন না। টেকটিউনসে আপনার প্রতিটি জোস এবং ফলো এমন তথ্যবহুল টিউন তৈরিতে উৎসাহিত করে। ধন্যবাদ সাথে থাকার জন্য!

টেকটিউনস টেকবুম

টিউমেন্ট ফলো জোসস

Level 9

টেকটিউনস টেকবুম

আমি টেকটিউনস টেকবুম। বিশ্বের সর্ববৃহৎ বিজ্ঞান ও প্রযুক্তির সৌশল নেটওয়ার্ক - টেকটিউনস এ আমি 12 বছর 11 মাস যাবৎ যুক্ত আছি। টেকটিউনস আমি এ পর্যন্ত 1296 টি টিউন ও 0 টি টিউমেন্ট করেছি। টেকটিউনসে আমার 3 ফলোয়ার আছে এবং আমি টেকটিউনসে 0 টিউনারকে ফলো করি।