Buzz – OpenAI এর Whisper দিয়ে Audio থেকে Text ট্রান্সক্রাইব করার অসাধারণ AI টুল

Level 34
সুপ্রিম টিউনার, টেকটিউনস, ঢাকা

আসসালামু আলাইকুম কেমন আছেন সবাই, আশা করছি ভাল আছেন। বরাবরের মত হাজির হলার নতুন একটি টিউন নিয়ে।

Buzz কী?

Buzz হচ্ছে OpenAI এর Whisper ভিত্তিক একটি ডেক্সটপ অ্যাপ। এটা স্বয়ংক্রিয় ভাবে অডিও কে টেক্সটে ট্রান্সক্রিপ্ট করতে পারে। ট্রান্সক্রিপ্ট করার জন্য এর রয়েছে একাধিক মডেল, আপনি শুধু কথা বলবেন এটি রিয়েল টাইমে আপনার অডিও টেক্সটে রূপান্তর করে দেবে। এটি একটি ওপেনসোর্স টুল যা Windows, macOS, এবং Linux এ রান করা যায়।

যে মেশিন লার্নিং মডেল এটি ব্যবহার করে সেটি বেশ পাওয়ারফুল। এবং মাইক্রোফোনের মাধ্যমে আপনি অডিও গান, ভিডিও সব কিছুই ট্রান্সক্রিপ্ট করতে পারবেন। অ্যাপটি আপনি লঞ্চ করবেন এটি মাইক্রোফোনের মাধ্যমে অডিও শুনবে এবং ট্রান্সক্রিপ্ট করা শুরু করবে।

অডিও ট্রান্সক্রিপ্টের পাশাপাশি এটি ট্রান্সলেশনও করতে পারে। টার্গেট ভাষা সিলেক্ট করে দিন বাকি কাজ এটিই করবে। এই মুহূর্তে এটি শুধুমাত্র ইংরেজি সাপোর্ট করে। ট্রান্সক্রিপ্ট বা ট্রান্সলেশনের ইনপুট হিসেবে আপনি কেবল ইংরেজি ব্যবহার করতে পারবেন।

OpenAI কিছুদিন আগে Whisper লঞ্চ করেছে। এটি একটি ওপেনসোর্স নিউরাল নেটওয়ার্ক যা ইংলিশ স্পিচ রিকোগনেশন এবং হিউম্যান লেভেল একুরেসি দিতে পারে।

Buzz

গিটহাব লিংক @ Buzz

Buzz কীভাবে ব্যবহার করবেন?

Buzz এই মুহূর্তে GitHub এ এভেইলেবল রয়েছে যা Python দিয়ে লেখা। আপনি চাইলে সরাসরি সোর্স থেকেও এটি রান করতে পারেন অথবা ডেভেলপারের বাইনারি রিলিজটিও ব্যবহার করতে পারেন।

আপনি যদি সোর্স থেকে রান করতে চান তাহলে আপনার সিস্টেমে Python এবং Poetry লাইব্রেরী ইন্সটল থাকতে হবে। এগুলো থাকলে নিচের কমান্ডটি দিন, এটি প্রয়োজনীয় এলিমেন্ট ইন্সটল করে নেবে।

poetry install

তবে আপনি এসব ঝামেলায় যেতে না চাইলে বাইনারি রিলিজ ডাউনলোড করে সরাসরিও অ্যাপটি রান করতে পারেন। এখন পর্যন্ত Mac, Windows, এবং Linux ভার্সন এভেইলেবল রয়েছে।

আমি উইন্ডোজ ভার্সন ইন্সটল করব। আগে থেকে বলে নেয়া ভাল এটি একটি ভারী সফটওয়্যার সুতরাং আপনার হাই হার্ডওয়্যার কনফিগারেশন থাকলেই ইন্সটল করুন।

প্রথমে আপনার মাইক্রোফোন সিলেক্ট করতে হবে। ডিফল্ট ভাবে এটি ট্রান্সক্রিপশন মুডে থাকবে।

প্রথম বার রান করার পর এটি মডেল গুলো ব্যাকগ্রাউন্ডে ডাউনলোড করবে। তাই প্রথম রান কিছুটা স্লো হতে পারে। সব কিছু রেডি হলে রেকর্ড বাটন পাবেন এবং আপনি কথা বলা শুরু করতে পারেন। আপনার টেক্সট এডিটরে দেখা যাবে। পুরো ট্রান্সক্রিপশন প্রক্রিয়া বিভিন্ন ফ্যাক্টরের উপর নির্ভর করবে।

এই সফটওয়্যারের একুরেসি যথেষ্ট ভাল তবে Windows 10, 11 এর ভয়েস টাইপিং অথবা Speechnotes ওয়েবসাইটের মত এতটা স্মুথ না।

শেষ কথা

নিউরাল নেটওয়ার্ক হিসেবে Whisper চমৎকার। প্রোগ্রামার এবং ডেভেলপার হিসেবে আপনি স্পিচ টু টেক্সট ফাংশনালিটির অ্যাপ তৈরিতে এটি ব্যবহার করতে পারেন। একুরেসি ওকে কিন্তু এতটা স্মুথ না। তবে এটা GUI এর লিমিটেশন মডেলের না। আশা করা যায় পরবর্তী আপডেট গুলোতে এই সমস্যা থাকবে না।

আজকে এ পর্যন্তই শীঘ্রই দেখা হবে নতুন কোন টিউনের সাথে ততদিন ভাল থাকুন, আল্লাহ হাফেজ।

Level 34

আমি সোহানুর রহমান। সুপ্রিম টিউনার, টেকটিউনস, ঢাকা। বিশ্বের সর্ববৃহৎ বিজ্ঞান ও প্রযুক্তির সৌশল নেটওয়ার্ক - টেকটিউনস এ আমি 10 বছর 7 মাস যাবৎ যুক্ত আছি। টেকটিউনস আমি এ পর্যন্ত 568 টি টিউন ও 200 টি টিউমেন্ট করেছি। টেকটিউনসে আমার 112 ফলোয়ার আছে এবং আমি টেকটিউনসে 0 টিউনারকে ফলো করি।

কখনো কখনো প্রজাপতির ডানা ঝাপটানোর মত ঘটনা পুরো পৃথিবী বদলে দিতে পারে।


টিউনস


আরও টিউনস


টিউনারের আরও টিউনস


টিউমেন্টস