
অনেকেরই ছোটবেলার একটি ফ্যান্টাসি থাকে—এমন একটি কাল্পনিক ঘর বা Hollow Deck থাকবে যেখানে যেকোনো জায়গায় মুহূর্তেই পৌঁছে যাওয়া যাবে এবং সেখানে যা ইচ্ছা তা-ই করা যাবে। কখনও কি ভেবে দেখা হয়েছে, চারপাশের এই অতি পরিচিত বাস্তব জগতকে যদি একটি নিখুঁত Simulation বা ছায়ারূপের ভেতরে ঢুকিয়ে দেওয়া যায়, তবে কেমন হবে? সম্প্রতি অনুষ্ঠিত হওয়া Google IO ইভেন্টে Google ঠিক এই অসম্ভবকে সম্ভব করার পথেই বড় একটি ঘোষণা দিয়েছে। তারা নিয়ে এসেছে তাদের অত্যাধুনিক Real-Time Video Generator, যার নাম Gen3 বা Genie 3। এই প্রযুক্তির বিশেষত্ব হলো, এখন এটি Google Maps Imagery-এর শক্তিশালী ভিত্তির ওপর দাঁড়িয়ে কাজ করতে সক্ষম। অর্থাৎ, বাস্তবের যেকোনো Street View Photography-কে রেফারেন্স হিসেবে ব্যবহার করে সেটিকে একটি সম্পূর্ণ নতুন গেম বা ভিডিওর দুনিয়ায় রূপান্তর করা সম্ভব।
এই প্রযুক্তির Early Access-এর সূত্র ধরে জানা গেছে এটি কীভাবে কাজ করে এবং ভবিষ্যতে Interactive Media বা ইন্টারঅ্যাক্টিভ বিনোদনের দুনিয়াকে এটি কীভাবে পুরোপুরি বদলে দেবে।

শুরুতেই বলা যায় এটি ব্যবহার করা কতটা সহজ। Genie 3 Interface-এর ভেতরে একটি বিশেষ Button রয়েছে যেখানে লেখা থাকে— Choose Location from Google Maps। এটি অনেকটা স্বপ্নের মতো। এটি ব্যবহারের ক্ষেত্রে প্রথমেই মাথায় আসতে পারে বিশ্বখ্যাত গেম GTA বা Grand Theft Auto-এর কথা। ধারণা করা হচ্ছে, ভবিষ্যতে যখন GTA 7 আসবে, তা হয়তো ঠিক এই প্রযুক্তির ওপর ভিত্তি করেই তৈরি হবে।
সিস্টেমটিতে যখন Prompt দেওয়া হয় যেন সেটি Las Vegas Strip-এর রাস্তায় একটি Google Maps Themed Formula 1 Car চালিয়ে দেখায়, তখন ফলাফল ছিল চমৎকার! গাড়িটি যখন দ্রুত গতিতে রাস্তার বাঁক নিচ্ছিল, তখন সেখানে একটি সচল Speedometer দেখা যাচ্ছিল এবং এআই নিজে থেকেই রাস্তায় বিভিন্ন Checkpoints তৈরি করে দিচ্ছিল। এই মুহূর্তে প্রযুক্তিটি মূলত Panoramic Imagery বা ৩৬০ ডিগ্রি ছবি ব্যবহার করছে। এখনও এতে Aerial Imagery বা আকাশপথের ছবি যোগ করা হয়নি; যখন সেটি হবে, তখন ব্যবহারকারীরা বাস্তবের একদম One to One Rendition বা হুবহু প্রতিলিপি তৈরি করে সেখানে ইচ্ছেমতো ঘুরে বেড়াতে পারবেন।

অনেকেই হয়তো Gaussian Splatting বা 3D Reconstruction সম্পর্কে জানেন। কিন্তু Google এখানে যা করেছে তা ভিন্ন। যেমন, Palace of Fine Arts-এর চারপাশে একটি Raccoon-কে Scooter চালানোর নির্দেশ দেওয়া হলে দেখা যায় এটি কেবল একটি স্থির চিত্র নয়। এটি একটি Autoregressive Video Model, যা কোটি কোটি YouTube ভিডিও দেখে শিখেছে পৃথিবী কীভাবে চলে। এটি কোনো স্ট্যাটিক মডেল নয় বরং এটি on The Fly অর্থাৎ তাৎক্ষণিকভাবে ভিডিও তৈরি করে। এখানে Shadow Catching বা ছায়ার প্রতিফলন এতটাই বাস্তব যে এটি এআই দিয়ে তৈরি তা সহজে বোঝা যায় না।
Palace of Fine Arts-এর ভেতরে প্রাণীর লাফালাফি দেখার জন্যও চেষ্টা করা হয়েছে, যার জন্য আলাদা একটি Panorama বেছে নেওয়া হয়েছিল। Google Maps-এর সাবেক কর্মী বা সাধারণ ম্যাপ-প্রেমী—সবার জন্যই বাস্তবের এই ম্যাপের প্রতি এক ধরনের আকর্ষণ কাজ করতে পারে। যেমন, Ferry Building-এর সামনে Pegman-কে দৌড়াতে দেখা অত্যন্ত আকর্ষণীয় ও নস্টালজিক একটি অভিজ্ঞতা তৈরি করে।
সবচেয়ে বড় কথা হলো, ভবিষ্যতে কোনো বড় প্রজেক্ট বা Game Engine-এ কোনো আইডিয়া নিয়ে কাজ করতে চাইলে, সেটি মূল কাজ শুরু করার আগেই এই Genie 3-এ Prototype হিসেবে পরীক্ষা করে নেওয়া সম্ভব। এতে ডেভেলপার ও ডিজাইনারদের সময় এবং শ্রম দুটোই বাঁচবে।

Austin, Texas-এর Ladybird Lake-কে নিয়ে একটি পরীক্ষায় Prompt দেওয়া হয়েছিল যে লেকের চারপাশে ট্যাটু করা একদল মানুষ দৌড়াচ্ছে। মজার ব্যাপার হলো, ভিডিওতে যখন ক্যামেরা ঘুরানো বা Swivel করা হয়, তখন সেখানে বাস্তবের Google Building এবং Skyline অত্যন্ত নিখুঁতভাবে দেখা যাচ্ছিল।
এমনকি একজন Avatar হিসেবে Ladybird Lake-এর পানিতে একটি Boat চালিয়েও পরীক্ষা করা হয়েছে। Google-এর কাছে পানির ওপর দিয়ে চলাচলের বিশেষ Special Collects ডাটা থাকায় ব্রিজের নিচের দৃশ্যগুলো একদম বাস্তব মনে হচ্ছিল। শুধু বাইরে নয়, Street View-তে থাকা Indoor Special Collects ব্যবহার করে আক্ষরিক অর্থেই White House-এর ভেতরেও ঘুরে বেড়ানো যায়।

এই প্রযুক্তির মাধ্যমে বাস্তবতাকে কেবল অনুকরণ করা হয় না, বরং তাকে নিজের মতো করে সাজানো যায়। যেমন- চাইলে Golden Gate Bridge-কে পানির নিচে পাঠিয়ে দিয়ে একজন Scuba Diver হিসেবে সেখানে ডাইভ দেওয়া সম্ভব। অথবা একটি চিরচেনা শহরকে মুহূর্তেই তুষারে ঢাকা বা Snow Covered অবস্থায় দেখা যায়। এমনকি Historical Collections থেকে পুরনো দিনের Aerial Photo ব্যবহার করে প্রাচীন San Francisco-এর ওপর দিয়েও উঁকি দেওয়া সম্ভব।
এই যে বাস্তব জগতকে ডিজিটাল মহাকাশে বা Latent Space-এ নিয়ে আসা, এর ফলে কেবল Text Prompts বা Image References ব্যবহার করে পুরো পৃথিবীর রূপ বদলে দেওয়া যাচ্ছে। চাইলে দৃশ্যে Godzilla নিয়ে আসা সম্ভব, একটি প্রলয়ঙ্কারী Tsunami তৈরি করা সম্ভব অথবা আকাশ চিরে একটি Alien Portal খুলে দেওয়া যেতে পারে। এমনকি মুহূর্তের মধ্যে দিনকে রাত বা Day to Night করে ফেলাও সম্ভব।

বর্তমানে প্রযুক্তি বিশ্বে World Models নিয়ে অনেক বিতর্ক চলছে। একেকজন একেকভাবে একে সংজ্ঞায়িত করছেন। একদিকে আছে 3D Gaussian Splatting-এর দল, অন্যদিকে SLAM Computer Vision বা যারা পুরনো ঘরানার ভিশন নিয়ে কাজ করেন। আবার মেটার Yann LeCun-এর অনুসারী JEPA গ্রুপ আর Large Language Model-এর সমর্থকদের মধ্যে বড় ধরনের রেষারেষি চলছে। কিন্তু Google এই লড়াইয়ে Google Maps এবং Video Gen-এর একটি চমৎকার সমন্বয় ঘটিয়েছে।
কয়েক মাস আগে Soleworld Model নামে একটি গবেষণাপত্র এসেছিল, যেখানে দেখানো হয়েছিল কীভাবে Street View ডাটা ব্যবহার করে একটি Diffusion Model-কে Condition করা যায়। এর ফলে ব্যবহারকারীরা এখন Free Roam Simulations-এর সুবিধা পাচ্ছেন। অর্থাৎ ম্যাপের গাড়ি যে রাস্তা দিয়ে গেছে কেবল সেখানেই সীমাবদ্ধ থাকতে হয় না, বরং রাস্তার বাইরেও অজানাকে খুঁজে বের করা যায়।

তবে এই প্রযুক্তি এখনও নিখুঁত নয়। বর্তমানে সিস্টেমটি ব্যবহারকারীর গন্তব্য বা Trajectory অনুযায়ী নিকটতম Panorama লোড করে কাজ চালায়। যেহেতু এটি একটি Real-Time প্রসেস, তাই এটি অনেক সময় ভুল তথ্য বা Hallucinations তৈরি করে। যেমন- Palace of Fine Arts-এর গম্বুজ বা Dome-এর অন্য পাশে যাওয়ার পরীক্ষায় সেখানে কিছু ঘরবাড়ি দেখা যাচ্ছিল যা বাস্তবে সেখানে নেই। এর কারণ হলো মডেলটি এখনও পুরো Context একবারে লোড করতে পারছে না।
বর্তমানে এই Real-Time Video Models-এর কোয়ালিটি মূল অফলাইন ভিডিও মডেলের চেয়ে এক বা দুই ভার্সন পিছিয়ে আছে। প্রযুক্তিবিদ Parker-এর মতে, V3.1 আসার সাথে সাথে এই গুণগত মান আরও কয়েকগুণ বেড়ে যাবে। তবে সবচেয়ে বড় সুবিধা হলো এর Interactivity। ব্যবহারকারীরা প্রথমে তাদের পছন্দের শটগুলো ফ্রেমবন্দি করে নিতে পারেন এবং পরে অন্য কোনো এআই মডেল ব্যবহার করে সেগুলোকে Upscale বা আরও উন্নত মানে রূপান্তর করতে পারেন।

Google আজ যা দেখিয়েছে তা কেবল একটি শুরু। এই World Models-এর প্রভাব বিনোদন জগত ছাড়িয়ে Creative, Enterprise, এমনকি Defense Applications-এর ক্ষেত্রেও ব্যাপক পরিবর্তন আনবে। এটি গেম ইন্ডাস্ট্রি, রোবটিক্স এবং মিডিয়া জগতের প্রচলিত নিয়মগুলো ভেঙে চুরমার করে দেবে।
এই প্রযুক্তির প্রতিটি সূক্ষ্ম দিক নিয়ে বিস্তারিত আলোচনার জন্য World Models Will Break The Internet And Gaming, Robots, And Media এবং Genie 3 Deep Dive বিশ্লেষণধর্মী ভিডিওগুলো দেখা যেতে পারে।
ভবিষ্যতের ভিডিও গেম কি ঠিক এভাবেই বাস্তব পৃথিবীকে গ্রাস করে নেবে? GTA 7 নিয়ে বিভিন্ন কল্পনা ও মতামত নিচের Comments-এ শেয়ার করা যেতে পারে। আজকের মতো এখানেই বিদায়। দেখা হবে আগামী পর্বে! Cheers!
-
টেকটিউনস টেকবুম
আমি টেকটিউনস টেকবুম। বিশ্বের সর্ববৃহৎ বিজ্ঞান ও প্রযুক্তির সৌশল নেটওয়ার্ক - টেকটিউনস এ আমি 12 বছর 10 মাস যাবৎ যুক্ত আছি। টেকটিউনস আমি এ পর্যন্ত 1296 টি টিউন ও 0 টি টিউমেন্ট করেছি। টেকটিউনসে আমার 3 ফলোয়ার আছে এবং আমি টেকটিউনসে 0 টিউনারকে ফলো করি।