
টেক দুনিয়ায় বর্তমানে এক মহাবিপ্লব চলছে। আমরা এমন এক সময়ে দাঁড়িয়ে আছি যেখানে প্রতিটি সকালে ঘুম থেকে উঠলে নতুন কোনো AI Model-এর খবর পাওয়া যায়। কিন্তু আজকের দিনটি একটু স্পেশাল, কারণ একই সাথে তিনটি জায়ান্ট কোম্পানি— Xiaomi, Microsoft, এবং Google তাদের তুরুপের তাসগুলো টেবিলে নামিয়েছে। আজকের এই ইন-ডেপথ টিউনে আমরা এই তিনটি রিলিজের প্রতিটি খুঁটিনাটি একদম সহজ এবং প্রাণবন্ত ভাষায় বিশ্লেষণ করবো। আপনার কফিটা হাতে নিন, কারণ আমরা টেকনোলজির গভীরে ডুব দিতে যাচ্ছি!
এতদিন আমরা Xiaomi-কে চিনতাম সাশ্রয়ী দামে দারুণ সব স্মার্টফোন বা ইলেকট্রনিক্স গ্যাজেটের জন্য। কিন্তু এখন তারা সরাসরি Foundation Model War-এ প্রবেশ করেছে। তারা মাত্রই ড্রপ করেছে MiMo V2 Flash, যা একটি 309 Billion Parameter Openweight Mixture of Experts (MoE) Model।
এটি সোজাসুজি টার্গেট করছে Deepseek V3.2, Hei K2, এবং এমনকি GPT5 High-এর মতো হেভিওয়েট মডেলগুলোকে। এটি মূলত Reasoning, Coding, এবং Agentic Workflows-এর ওপর বিশেষ নজর দিয়ে তৈরি করা হয়েছে। কিন্তু এর সবথেকে বড় চমক হলো এর দাম—এটি একটি সত্যিকারের Budget Killer!
MIMO V2 Flash-এর ভেতরে রয়েছে 309 Billion Parameter-এর বিশাল এক আর্কিটেকচার। তবে এর কার্যকারিতা বাড়ানোর জন্য এতে Mixture of Experts ব্যবহার করা হয়েছে, যার ফলে প্রতি Token-এ মাত্র 15 Billion Active Parameters ব্যবহৃত হয়। এটি মডেলটির Capacity এবং Efficiency-এর মধ্যে এক অসাধারণ ভারসাম্য বজায় রাখে। এটি Chinese এবং English উভয় ভাষাতেই General Reasoning, Coding, এবং Tool Using Agent Scenarios-এর জন্য বিশেষভাবে প্রশিক্ষিত।
ডেভেলপারদের জন্য খুশির খবর হলো, এটি SWE Bench Verified-এ প্রায় 73.4% স্কোর করেছে। এর মানে হলো Software Engineering স্টাইলের কাজগুলোতে এটি Deepseek V3.2 এবং Moonshot-এর Ki K2-এর একদম সমপর্যায়ে। যদিও এর Long Context Reasoning এবং Chain of Thought স্কোরগুলো GPT5 High-এর থেকে কিছুটা নিচে, কিন্তু পুরনো অনেক Closed Models-এর তুলনায় এটি Code এবং Logic Benchmarks-এ অনেক এগিয়ে আছে।
গতির দিক থেকে এটি বেশ চমৎকার। Optimized Server Configs-এ এর Throughput এবং Latency প্রতি সেকেন্ডে প্রায় 150 Tokens পর্যন্ত হতে পারে। এর API Pricing রীতিমতো অবিশ্বাস্য—প্রতি Million Input Tokens-এর জন্য মাত্র 10 Cents এবং প্রতি Million Output Tokens-এর জন্য 30 Cents।
এটি Xiaomi-এর বিশাল ইকোসিস্টেমের সাথে যুক্ত। আপনার পকেটের Phones, Tablets, Smart Home Devices, এমনকি আপনার গ্যারেজে থাকা EVs (Electric Vehicles)-এর জন্য এটি একটি Unified Brain হিসেবে কাজ করবে। এটি HyperOS-এর সাথে মিলে On-Device অ্যাসিস্ট্যান্স এবং কার কো-পাইলট হিসেবে আপনার কাজ সহজ করে দেবে। Weightsগুলো পাওয়া যাচ্ছে MIMO Studio, HuggingFace, এবং তাদের নিজস্ব Cloud Endpoints-এ।
পরবর্তী বড় চমকটি এসেছে Microsoft-এর পক্ষ থেকে। তারা উন্মোচন করেছে Trellis 2, যা বর্তমানে বাজারের সেরা Open-Source Image to 3D Model হতে পারে। এটি একটি 4 Billion Parameter Model যা মাত্র একটি ছবি থেকে প্রোডাকশন-রেডি PBR Textured 3D Asset তৈরি করতে পারে।
ভাবুন তো, একটি ছবি থেকে ক্লিন Topology এবং PBR Textures সহ একটি পূর্ণাঙ্গ 3D Model পেতে কতক্ষণ সময় লাগতে পারে? Trellis 2 এটি করে দেয় এক মিনিটেরও কম সময়ে! এটি MIT License-এর অধীনে সম্পূর্ণ ফ্রি এবং এর Full Code ও Weights পাওয়া যাচ্ছে GitHub এবং HuggingFace-এ।
এটি পুরনো এবং ভারী Nerf Style Pipelines-এর বদলে Ooxals নামক একটি নতুন 3D Representation এবং একটি Structured 3D Latent Space ব্যবহার করে। এর ফলে Geometry এবং Materials অনেক বেশি সংকুচিত বা কম্প্যাক্ট অবস্থায় থাকে। একটি Flow Matching Transformer খুব দ্রুত সেই 3D Latents-গুলোকে High-Fidelity Meshes-এ Denoise করতে পারে।
একটি Nvidia H100-এ 512 Cubed-এর জন্য মাত্র 3 Seconds এবং 1536 Cubed-এর জন্য মাত্র 60 Seconds সময় লাগে। আপনার কম্পিউটারে যদি RTX 4099-এর মতো 24 GB VRAM সমৃদ্ধ একটি কার্ড থাকে, তবে আপনি হাই-রেজোলিউশন রান অনায়াসেই দিতে পারবেন। এটি Mesh, Materials, Base Color, Roughness, Metallic, এবং Opacity সহ আউটপুট দেয়। আপনি এটি সরাসরি Blender, Unreal, বা Unity-তে ব্যবহার করতে পারেন। এটি GLB, OBJ, PLY, Radiance Fields, এবং 3D Gaussians সাপোর্ট করে। গেম ডেভেলপার বা Vtubers-দের জন্য এটি একটি আশীর্বাদ।
সবশেষে আসা যাক Google-এর কাছে। তারা তাদের Gemini 3 Flash-কে এখন গুগলের বেশিরভাগ AI Experiences-এর ডিফল্ট মডেল হিসেবে ঘোষণা করেছে। এটি Gemini 2.5 Flash-এর তুলনায় অনেক বেশি Faster, Cheaper, এবং Sharper।
গুগলের ভাষায়, যদি Gemini 3 Pro একজন জিনিয়াস হয়, তবে Flash হলো সেই দক্ষ কর্মী বা Workhorse যা নিরবে পর্দার আড়ালে আপনার Browser, Document এবং এজেন্টগুলোকে শক্তি জোগাবে। এটি Gemini 3 Pro এবং Deep Think-এর নিচে অবস্থান করলেও প্রতিদিনের ছোট-বড় সব কাজে এটিই হবে প্রধান চালিকাশক্তি।
Gemini 3 Flash-এ রয়েছে উন্নত Multi-Step Reasoning, শক্তিশালী Coding Abilities, এবং আরও দক্ষ Browsing ও Tool Calling সুবিধা। এটি মূলত Agentic Patterns-এর জন্য অপ্টিমাইজ করা হয়েছে—অর্থাৎ এটি খুব দ্রুত কোনো তথ্য খোঁজা, পেজ পড়া বা প্ল্যান আপডেট করার কাজগুলো করতে পারে।
বর্তমানে আপনি যখন Gemini App ব্যবহার করছেন বা Google Search-এর AI Mode ব্যবহার করছেন, তখন এর পেছনে এই Flash কাজ করছে। Chrome-এর নতুন ফিচারগুলো যেমন Page Q&A, Cross Tab Flows, Smarter Autofill, এবং Notifications—সবকিছুর মূল মস্তিষ্ক হলো এই মডেলটি।
Google এখানে গুরুত্ব দিচ্ছে Scale-কে। তাদের লক্ষ্য হলো প্রতিদিনের বিলিয়ন বিলিয়ন রিকোয়েস্টের বিপরীতে একটি 'Good Enough' কিন্তু অত্যন্ত দ্রুত এবং সাশ্রয়ী বুদ্ধিমত্তা সরবরাহ করা। এর ফলে Chrome, Search, এবং Workspace-এর প্রতিটি ফিচারে কোনো অতিরিক্ত খরচ ছাড়াই আপনি উন্নত Reasoning ক্ষমতা পাবেন। Gemini 3 Lineup-এ হয়তো Pro মডেলটি আলোচনার কেন্দ্রবিন্দুতে থাকে, কিন্তু বাস্তব জীবনে Flash-ই জয়ী হচ্ছে।
এই ছিল আজকের টেক জগতের তিনটি বিশাল আপডেট। একদিকে Xiaomi ওপেন-সোর্স জগতের দাম কমিয়ে নতুন কম্পিটিশন শুরু করেছে, অন্যদিকে Microsoft ৩ডি ডিজাইনের জগতকে সহজ করে দিয়েছে, আর Google এআই-কে আমাদের প্রতিদিনের অভ্যাসে পরিণত করছে। আজকের এই পর্বটি কেমন লাগলো? টিউমেন্টে আপনার প্রিয় আপডেটটি নিয়ে আলোচনা করুন। টেকনোলজির এই রোমাঞ্চকর পথচলায় টেকটিউনসের সাথেই থাকুন! দেখা হবে পরের টিউনে।
আমি টেকটিউনস টেকবুম। বিশ্বের সর্ববৃহৎ বিজ্ঞান ও প্রযুক্তির সৌশল নেটওয়ার্ক - টেকটিউনস এ আমি 12 বছর 4 মাস যাবৎ যুক্ত আছি। টেকটিউনস আমি এ পর্যন্ত 1070 টি টিউন ও 0 টি টিউমেন্ট করেছি। টেকটিউনসে আমার 3 ফলোয়ার আছে এবং আমি টেকটিউনসে 0 টিউনারকে ফলো করি।