
China থেকে আসা অবিশ্বাস্য ওপেন ওয়েটস মডেল হলো Qwen-Image Edit। নামটি শুনেই এর কাজ সম্পর্কে ধারণা পাওয়া যায় – এটি একটি ইমেজ এডিটিং মডেল, এবং এর ক্ষমতা সত্যিই অসাধারণ! এটি কেবল বেসিক এডিটিং নয়, বরং ইমেজ এর ডিপ আন্ডারস্ট্যান্ডিং এবং ম্যানিপুলেশন এর ক্ষমতা রাখে। এর Key ফিচার গুলো খুবই ইম্প্রেসিভ এবং ডিটেল-ওরিয়েন্টেড, যা ক্রিয়েটিভ প্রফেশনাল থেকে শুরু করে ক্যাজুয়াল ইউজার পর্যন্ত সবার জন্যই অত্যন্ত উপকারী হতে পারে।


Qwen-Image Edit শুধু টেক্সট এডিট ই করে না, এটি বাইল্যাঙ্গুয়াল সাপোর্ট সহ তা অত্যন্ত নির্ভুলভাবে করতে পারে। ভাবুন তো, একটি ছবির সাইনবোর্ডের লেখা আপনি এক ভাষা থেকে অন্য ভাষায় পরিবর্তন করতে পারছেন, অথবা বানান ঠিক করতে পারছেন, বা ফন্ট স্টাইল পরিবর্তন করতে পারছেন, তাও প্রায় ফ্ললেসলি এবং কনটেক্সট বজায় রেখে! এটি গ্লোবাল কন্টেন্ট ক্রিয়েশন এর জন্য একটি গেম চেঞ্জার।
এটি শুধুমাত্র পিক্সেল ম্যানিপুলেশন করে না, বরং ইমেজ এর সিম্যান্টিক আন্ডারস্ট্যান্ডিং রয়েছে। এর মাধ্যমে অবজেক্ট রোটেশন, আইপি ক্রিয়েশন (ইমেজ এর নির্দিষ্ট অংশের ইনপেন্টিং বা আউটপেন্টিং, অর্থাৎ কোনো অবজেক্টস যোগ করা বা সরানো), কন্টেন্ট-অ্যাওয়ার ফিল এর মতো জটিল কাজগুলো করা যায়। যেমন, আপনি একটি গাড়ির ছবি থেকে সেটিকে ফ্রন্ট ভিউ তে রোটেট করতে চাইছেন; এটি কেবল সিম্পল রোটেশন নয়, বরং গাড়ির স্ট্রাকচারাল ইন্টিগ্রিটি এবং রিয়েলিস্টিক অ্যাপিয়ারেন্স বজায় রেখে সিম্যান্টিক রোটেশন করে। এটি অবজেক্ট গুলোর রিয়েল-ওয়ার্ল্ড জিওমেট্রি বুঝতে পারে।

অ্যাডিশন, ডিলিশন, ইনসারশন – এই ধরনের ফাইন-গ্রেইনড অ্যাডজাস্টমেন্ট গুলোও এটি খুব দক্ষতার সাথে সামলায়। আপনি ইমেজ থেকে অপ্রয়োজনীয় জিনিস ডিলিট করতে পারেন (যেমন, একটি অবাঞ্ছিত স্ট্র্যান্ড অফ হেয়ার) বা নতুন কিছু অ্যাড করতে পারেন (যেমন, একটি ওয়েলকাম সাইন), তাও কনটেক্সচুয়াল অ্যাওয়ারনেস সহকারে, যাতে এডিটেড ইমেজ টি রিয়েলিস্টিক্যালি দেখায়।
এর ক্যাপবিলিটির ভিজ্যুয়াল এক্সাম্পল দেখলে আপনি মুগ্ধ হবেন এবং এর পোটেনশিয়াল সম্পর্কে ধারণা পাবেন।
Qwen মাস্কট এর ইনপুট থেকে বিভিন্ন কনসিস্টেন্ট ভার্সন তৈরি করা হয়েছে, যেখানে মাস্কট টি বিভিন্ন পোজ এবং সিচুয়েশন এ রয়েছে। এটি দেখায় যে মডেল টি একটি আইডেন্টেকটিউনস বা স্টাইল ধরে রেখে একাধিক ক্রিয়েটিভ ভ্যারিয়েশন তৈরি করতে পারে, যা ব্র্যান্ড আইডেন্টেকটিউনস বা ক্যারেক্টার ডিজাইন এর জন্য অসাধারণ।
একটি ইনপুট ইমেজ (যেমন একজন ব্যক্তি বা একটি BMW গাড়ি) থেকে সেটিকে ফ্রন্ট ভিউ তে রোটেট করা হয়েছে। এটি এত নির্ভুলভাবে কাজ করে যে BMW এর ক্ষেত্রে রোটেশন টি ফ্ললেস মনে হয়, যেন ছবিটি শুরু থেকেই ফ্রন্ট ভিউ তে তোলা হয়েছিল। এমনকি ব্যক্তির সাইড ভিউ বা ব্যাক ভিউ থেকে ফ্রন্ট ভিউ অবটেইন করার সময় মডেল টি বাস্তবিক গেসিং পাওয়ার দেখায় যে ব্যক্তি টিকে সামনে থেকে কেমন দেখাবে – এটি হিউম্যান অ্যানাটমি এবং পার্সপেক্টিভ এর একটি ডিপ আন্ডারস্ট্যান্ডিং এর প্রমাণ!

একটি ইনপুট ইমেজ থেকে আপনি একটি সিম্পল প্রম্পট এর মাধ্যমে টি-শার্ট এর কালার বা টেক্সট পরিবর্তন করতে পারছেন (যেমন, "টি-শার্ট কে ব্ল্যাক টি-শার্ট এ পরিবর্তন করুন যেখানে Qwen টেক্সট লেখা আছে")। শুধু তাই নয়, এটিকে গিবলি স্টাইল, থ্রিডি কার্টুন স্টাইল বা চিবি স্টাইল এর মতো জনপ্রিয় ভিজ্যুয়াল স্টাইল এ ট্রান্সফর্ম ও করা যাচ্ছে, যা ক্রিয়েটিভ প্রফেশনাল, ডিজিটাল আর্টিস্ট এবং ক্যাজুয়াল ইউজার দের জন্য দারুণ সুবিধা।

একটি ইনপুট ইমেজ যেখানে বিচ এ কিছু পেঙ্গুইন ছিল, সেখানে "Welcome To Penguin Beach" সাইন যোগ করা হয়েছে। সবচেয়ে অবাক করা বিষয় হলো, সমস্ত পেঙ্গুইন গুলো প্রায় আইডেন্টিকাল রয়ে গেছে, তাদের মধ্যে কোনো ভিজ্যুয়াল ডিফারেন্স নেই। এটি মডেল এর অবিশ্বাস্য ক্ষমতা দেখায় যে এটি ইমেজ এর স্পেসিফিক পার্ট গুলোকে (যেমন সাইন এর এরিয়া) আইসোলেট করে পরিবর্তন করতে পারে এবং অন্য সবকিছুকে (যেমন পেঙ্গুইন এর কনসিস্টেন্সি) যেমন আছে তেমনই রাখতে পারে, যা ফটো রিয়েলিজম বজায় রাখে।
একটি মাইনর এডিট এর উদাহরণে, একটি ইনপুট ইমেজ থেকে গ্রোস স্ট্র্যান্ড অফ হেয়ার সরানো হয়েছে, এবং এটি কমপ্লিটলি গন! সবচেয়ে গুরুত্বপূর্ণ হলো, অন্য কোনো ডিটেল, যেমন ব্যাকগ্রাউন্ড এর ওয়ার্ড, প্রাইস, এমনকি একটি সংখ্যা (25) যা হালকা ডানদিকে অন্যান্য প্রাইস এর সাথে অ্যালাইন্ড ছিল, সেগুলোর সবকিছু এডিটেড ইমেজ এ এক্স্যাক্টলি সেম রয়ে গেছে। এটি মডেল এর পিক্সেল-পারফেক্ট অ্যাকুরেসি এবং কনটেক্সচুয়াল অ্যাওয়ারনেস প্রমাণ করে।
এমনকি মডেল টির ইমেজ এর সিম্যান্টিক আন্ডারস্ট্যান্ডিং ও এর রয়েছে, যা শুধু পিক্সেল ম্যানিপুলেশন এর চেয়ে অনেক বেশি। অ্যালফাবেট A থেকে Z এর একটি ইমেজ এ, মডেল টি শুধুমাত্র 'N' লেটার এর কালার কে ব্লু তে পরিবর্তন করেছে। এটি শুধু এডিটিং নয়, এটি একটি নির্দিষ্ট অবজেক্ট (লেটার N) কে আইডেন্টিফাই করে তার একটি স্পেসিফিক অ্যাট্রিবিউট (কালার) পরিবর্তন করার ক্ষমতা, যা AI এর ভিজ্যুয়াল রিজনিং পাওয়ার এর একটি প্রুফ।
ব্যাকগ্রাউন্ড সোয়াপ (একই ওম্যান কে ক্লাসরুম এর মতো ভিন্ন ব্যাকগ্রাউন্ড এ রাখা), ভার্চুয়াল ট্রাইঅন (একই ওম্যান এর জন্য ডিফারেন্ট আউটফিট চেষ্টা করা), এবং টেক্সট এডিটিং – সবই খুব ইম্প্রেসিভ। ভার্চুয়াল ট্রাইঅন ফিচারটি ই-কমার্স এবং ফ্যাশন ইন্ডাস্ট্রি এর জন্য একটি গেম চেঞ্জার হতে পারে, যেখানে গ্রাহকরা ক্লোথস কেনার আগে ডিজিটালি ট্রাই করে দেখতে পারবে।
আমি ব্যক্তিগতভাবে Qwen-Image Edit ট্রাই করার জন্য আর অপেক্ষা করতে পারছি না! এটি ক্রিয়েটিভ ইন্ডাস্ট্রি, কন্টেন্ট ক্রিয়েটর, মার্কেটার, এবং এমনকি ক্যাজুয়াল ইউজার দের জন্য একটি গেম চেঞ্জার হতে পারে, যা তাদের ইমেজ এডিটিং ওয়ার্কফ্লো কে সহজ, দ্রুত এবং আরও ক্রিয়েটিভ করে তুলবে। আপনি এখন Quen AI তে এটি ট্রাই করতে পারবেন, HuggingFace থেকে Download করতে পারবেন, এবং GitHub এ এটি বিল্ড করার প্রসেস খুঁজে পাবেন।
-
টেকটিউনস টেকবুম
আমি টেকটিউনস টেকবুম। বিশ্বের সর্ববৃহৎ বিজ্ঞান ও প্রযুক্তির সৌশল নেটওয়ার্ক - টেকটিউনস এ আমি 12 বছর 4 মাস যাবৎ যুক্ত আছি। টেকটিউনস আমি এ পর্যন্ত 1061 টি টিউন ও 0 টি টিউমেন্ট করেছি। টেকটিউনসে আমার 3 ফলোয়ার আছে এবং আমি টেকটিউনসে 0 টিউনারকে ফলো করি।