Text World-এ বর্তমানে আলোচনার কেন্দ্রবিন্দুতে রয়েছে Artificial Intelligence। আর এই আলোচনার পারদ আরও বাড়িয়ে দিয়ে Google বিশ্বজুড়ে রিলিজ করেছে তাদের সবথেকে শক্তিশালী এবং আধুনিক Open Model Series— Gemma 4। আপনারা যারা AI প্রযুক্তির খোঁজখবর রাখেন, তারা জানেন যে Google-এর আগের Models-গুলো নিয়েও অনেক এক্সাইটেড ছিল। কিন্তু এবারের Gemma 4 রিলিজের পর পরিস্থিতি পুরোপুরি বদলে গেছে। এটি শুধু একটি Model নয়, বরং চারটি ভিন্ন ভিন্ন Model-এর একটি শক্তিশালী Family, যা Multi-Modality, Internal Thinking, Function Calling এবং আরও অনেক অত্যাধুনিক Features-এ ভরপুর।
আজকের টিউনে এই Gemma 4 নিয়ে In-depth আলোচনা করব এবং বোঝার চেষ্টা করব কেন এটি Developers এবং সাধারণ Users-দের জন্য একটি বিশাল আশীর্বাদ।
Gemma 4 নিয়ে কথা বলার শুরুতে সবচেয়ে বড় যে বিষয়টি সামনে আসে, তা Model-এর Performance নয় বরং এর License। অতীতে Google যখন Gemma Series-এর আগের Models-গুলো রিলিজ করেছিল, তখন সেগুলোতে কিছু জটিল Custom License এবং Restrictions ছিল। যেমন— "আমাদের সাথে প্রতিযোগিতা করা যাবে না" বা Model ব্যবহারের ক্ষেত্রে অনেক সীমাবদ্ধতা ছিল। এর ফলে অনেক Developer বাধ্য হয়ে Llama বা Qwen-এর দিকে ঝুঁকে পড়েছিলেন।
কিন্তু এবার Google পুরো Game বদলে দিয়েছে। Gemma 4 এখন সম্পূর্ণভাবে একটি প্রকৃত Apache 2 License-এর অধীনে বাজারে এসেছে। এর মানে হলো, এখন কোনো রকম শর্ত ছাড়াই আপনি Google-এর এই শক্তিশালী Model-টিকে নিজের মতো করে Modify করতে পারবেন, আপনার নিজস্ব Data দিয়ে Fine-Tune করতে পারবেন এবং সম্পূর্ণ Commercially Deploy করতে পারবেন। এই উদারতা প্রমাণ করে যে Google এখন অন্যান্য Open Model Providers-দের সাথে সমান তালে পাল্লা দিতে প্রস্তুত। মজার ব্যাপার হলো, যখন China-এর কিছু বড় বড় Company তাদের Models-গুলো সাধারণের জন্য বন্ধ করে দিচ্ছে, ঠিক তখনই Google তাদের সেরা প্রযুক্তি সবার জন্য উন্মুক্ত করে দিয়েছে।
Google মূলত Gemma 4-কে দুটি প্রধান স্তরে বা Tiers-এ ভাগ করেছে যাতে Professional থেকে শুরু করে সাধারণ শখের বশে AI ব্যবহারকারী—সবাই উপকৃত হতে পারেন।
এই Models-গুলো মূলত শক্তিশালী PC বা Server-এ চালানোর জন্য Design করা হয়েছে।
এগুলো হলো E2B (2 Billion) এবং E4B (4 Billion) Model। এগুলো এতটাই ছোট যে আপনি অনায়াসেই আপনার Phone, Raspberry Pi, বা Jetson Nano-তে চালাতে পারবেন। এগুলোর Context Window হলো 128K। সবথেকে বড় চমক হলো, এই ছোট Models-গুলোতেই মূলত Native Audio Support রাখা হয়েছে।
অনেকেই হয়তো ভাবছেন Gemma 4-এর এই অসাধারণ শক্তির উৎস কী? Google পরিষ্কার জানিয়েছে যে, এই Models-গুলো তৈরি করা হয়েছে তাদের Flagship Gemini 3 Research-এর ওপর ভিত্তি করে। অর্থাৎ Google তাদের সবচেয়ে দামী এবং শক্তিশালী Commercial Models-এ যেসব উদ্ভাবন ব্যবহার করে, সেগুলোই এখন তারা এই Open Weights Models-এর ভেতরে দিয়ে দিয়েছে।
বর্তমান বাজারে অনেক Model রয়েছে যেগুলো মূলত Text-Only অথবা বড়জোর Text Plus Vision। আপনি যদি আগে Audio ব্যবহার করতে চাইতেন, তবে আপনাকে আলাদা করে Whisper বা অন্য কোনো External ASR Pipeline যোগ করতে হতো। কিন্তু Gemma 4-এর বিশেষত্ব হলো— এর Vision, Audio, Thinking, এবং Function Calling সবকিছুই Model-এর Architecture-এর ভেতরে সরাসরি গেঁথে দেওয়া হয়েছে (Natively Built-in)। এটি কোনো আলাদাভাবে জুড়ে দেওয়া বা Bolted on কোনো ফিচার নয়, বরং এটি একদম ভেতর থেকে তৈরি।
Gemma 4-এর অন্যতম শক্তিশালী দিক হলো এর Thinking বা চিন্তা করার সক্ষমতা। এটি এখন কোনো জটিল প্রশ্নের উত্তর দেওয়ার আগে মানুষের মতো করে গভীরভাবে ভাবতে পারে, যাকে প্রযুক্তির ভাষায় Long Chain of Thought Reasoning বলা হয়। এর সবথেকে আধুনিক দিকটি হলো, এই Reasoning শুধু Text-এর মধ্যে সীমাবদ্ধ নয়। এটি এখন Images এবং প্রথমবারের মতো Audio-এর ওপর ভিত্তি করেও Reasoning করতে পারে।
এই সক্ষমতার কারণেই এটি MMU Pro এবং SweetBench Pro-এর মতো অত্যন্ত কঠিন সব Benchmarks-এ অবিশ্বাস্য ফলাফল দেখাতে সক্ষম হয়েছে। ব্যবহারকারীরা যখন Model-টি ব্যবহার করবেন, তখন চাইলে Model-এর Chat Template-এ খুব সহজেই Enable Thinking = True বা False করে এই সুবিধাটি নিয়ন্ত্রণ করতে পারবেন।
আপনি যদি AI দিয়ে কোনো অটোমেশন বা Agentic কাজ করাতে চান, তবে আপনার জন্য Function Calling অত্যন্ত জরুরি। Gemma 4-এ Google তাদের গত বছরের জনপ্রিয় Function Gemma Model-এর সব গবেষণাকে একীভূত করেছে। এটি এখন শুধু Instruction ফলো করে না, বরং Model-এর ভেতরেই Function Calling করার ক্ষমতা গেঁথে দেওয়া হয়েছে। এটি Multi-Turn Agentic Flows এবং একাধিক Tools ব্যবহারের ক্ষেত্রে অসাধারণ পারফরম্যান্স দেখায়। এটি মূলত Production Level-এর কাজের জন্য একদম Perfect।
Gemma 4-এর ছোট Models-গুলোতে (E2B এবং E4B) চমৎকার Audio Support দেওয়া হয়েছে। এটি আগের Gemma 3N-এর চেয়ে অনেক গুণ ভালো। Google এর Audio Encoder-কে 50% ছোট করে ফেলেছে— 681 মিলিয়ন Parameter থেকে কমিয়ে মাত্র 305 মিলিয়ন করা হয়েছে। এর ফলে Disk Space 390 মেগাবাইট থেকে কমিয়ে মাত্র 87 মেগাবাইট হয়ে গেছে। এছাড়া এর Frame Duration 160 মিলিসেকেন্ড থেকে কমিয়ে 40 মিলিসেকেন্ড করার ফলে এটি এখন অনেক দ্রুত গতিতে এবং নিখুঁতভাবে Transcription বা ASR করতে পারে। এর মাধ্যমে আপনি সরাসরি Speech to Translated Text (যেমন English ভাষায় কথা বলে Japanese Text Output পাওয়া) সুবিধা পাবেন।
মডেলটির Vision Encoder এখন আগের চেয়ে অনেক হালকা এবং দ্রুত (মাত্র 150 মিলিয়ন Parameter)। এতে Native Aspect Ratio Processing যুক্ত করা হয়েছে, যার ফলে এটি Image বা Document-এর সঠিক Size এবং Dimension নিজেই Handle করতে পারে। এটি OCR (Optical Character Recognition) এবং Document Understanding-এর জন্য অত্যন্ত কার্যকর। যেহেতু এটি Interleaved Multi-Image Inputs সমর্থন করে, তাই আপনি চাইলে এটি দিয়ে Video বিশ্লেষণ বা একই সাথে অনেকগুলো Image নিয়ে চিন্তা করার কাজও করাতে পারেন।
Workstation Models-গুলো মূলত Developers-দের ব্যক্তিগত Coding Assistant হিসেবে কাজ করার জন্য তৈরি। এটি Code Generation, Completion এবং Correction-এ অত্যন্ত দক্ষ। যারা Coding শিখছেন বা Professional Developers, তাদের জন্য এটি একটি IDE Copilot হিসেবে কাজ করবে। এছাড়া এটি সম্পূর্ণ Multilingual; এর Pre-Training-এ 140টি ভাষা এবং Post-Training বা Instruction Fine-Tuning-এ 35টি ভাষা ব্যবহার করা হয়েছে। ফলে ভাষার বৈচিত্র্য নিয়ে আপনাকে একদম চিন্তা করতে হবে না।
আপনি যদি এই Models-গুলো নিয়ে হাতে-কলমে কাজ করতে চান, তবে আপনার জন্য ভালো খবর আছে। ছোট Models-গুলো (যেমন E2B) আপনি সাধারণ একটি T4 GPU-তেই অনায়াসেই চালাতে পারবেন। বড় Models-গুলোর জন্য আপনাকে কিছুটা শক্তিশালী Hardware যেমন H100 বা RTX 6000 Pro ব্যবহার করতে হতে পারে।
Google তাদের QAT Checkpoints (Quantized Aware Training) রিলিজ করছে, যাতে কম Memory খরচ করেও Model-এর গুণগত মান একদম ঠিক থাকে। বাস্তব পরীক্ষায় দেখা গেছে, এটি একটি মেয়ের সাথে কুকুরের Image বা জটিল কোনো Audio File থেকে অত্যন্ত নিখুঁতভাবে তথ্য বের করে আনতে পারে। এমনকি একটি Audio File-এ নারী ও পুরুষের আলাদা আলাদা কণ্ঠস্বরও এটি নিখুঁতভাবে সনাক্ত করতে পারে।
Gemma 4 এখন Hugging Face এবং Google Cloud-এ সহজলভ্য। যারা বড় Models সার্ভারে চালাতে চান, তাদের জন্য একটি দুর্দান্ত ফিচার হলো Serverless Cloud Run। Google Cloud-এর মাধ্যমে এখন আপনি G4 GPU (Nvidia RTX Pro 6000) ব্যবহার করে এই Models-গুলো চালাতে পারবেন, যেখানে 96GB VRAM পাওয়া যাবে। এর সবথেকে বড় সুবিধা হলো, আপনার কাজ শেষ হওয়ার পর এটি নিজে থেকেই বন্ধ হয়ে যাবে (Spin Down to Zero), যার ফলে অহেতুক বিল আসার কোনো ভয় নেই।
পরিশেষে বলা যায়, Gemma 4 রিলিজের মাধ্যমে Google AI দুনিয়ায় এক বিশাল মাইলফলক স্থাপন করল। এর Open Weights এবং স্বচ্ছ Apache 2 License Developers এবং Innovators-দের জন্য এক বিশাল স্বাধীনতার দুয়ার খুলে দিয়েছে। আপনি যদি আপনার নিজস্ব কোনো App, Chatbot বা Coding Project-এ একটি শক্তিশালী এবং সাশ্রয়ী AI Model ব্যবহার করতে চান, তবে Gemma 4 হতে পারে আপনার শ্রেষ্ঠ হাতিয়ার।
সামনে হয়তো এই Family-র আরও নতুন Model আসবে, তবে এই চারটি Version-ই আমাদের AI ব্যবহারের ধারণা বদলে দেওয়ার জন্য যথেষ্ট। এখনই সময় এই Models-গুলো নিয়ে Experiment করার এবং নতুন কিছু উদ্ভাবন করার! আপনার এই Model-টি কেমন লাগল বা ভবিষ্যতে এটি দিয়ে কী করতে চান, তা জানাতে ভুলবেন না। আজকের মতো এখানেই শেষ করছি, দেখা হবে নতুন কোনো প্রযুক্তির গল্প নিয়ে! বিদায়!
আমি টেকটিউনস টেকবুম। বিশ্বের সর্ববৃহৎ বিজ্ঞান ও প্রযুক্তির সৌশল নেটওয়ার্ক - টেকটিউনস এ আমি 12 বছর 8 মাস যাবৎ যুক্ত আছি। টেকটিউনস আমি এ পর্যন্ত 1244 টি টিউন ও 0 টি টিউমেন্ট করেছি। টেকটিউনসে আমার 3 ফলোয়ার আছে এবং আমি টেকটিউনসে 0 টিউনারকে ফলো করি।