ChatGPT ও Bard এর মত AI তৈরি করার ৮ টি ওপেনসোর্স Framework

Level 34
সুপ্রিম টিউনার, টেকটিউনস, ঢাকা

আসসালামু আলাইকুম, কেমন আছেন টেকটিউনস কমিউনিটি? আশা করছি সবাই ভাল আছেন। আজকে আবার হাজির হলাম নতুন টিউন নিয়ে।

ChatGPT একটি LLM এবং Framework এর উপর তৈরি করা এটি আমরা সবাই জানি। আজকের এই টিউনে আমরা আটটি ওপেন সোর্স Framework এবং মডেল আপনাদের সাথে পরিচয় করিয়ে দেব যেগুলো ব্যবহার করে আপনি নিজের চ্যাটবট বা AI প্রোডাক্ট তৈরি করতে পারবেন।

১. LLaMA

LLaMA প্রজেক্ট ফান্ডামেন্টাল ল্যাংগুয়েজ মডেলের উপর ভিত্তি করে তৈরি করা। যার রয়েছে ৭ বিলিয়ন থেকে ৬৫ বিলিয়ন প্যারামিটার। এই মডেল গুলোকে মিলিয়ন এর মত টোকেন এবং পাবলিক এভেইলেবল ডেটাসেটের উপর ট্রেনিং করানো হয়েছে। ফলাফল সরূপ, LLaMA-13B, GPT-3 (175B) কে ছাড়িয়ে গেছে এবং LLaMA-65B, Chinchilla-70B এবং PaLM-540B এর মত মডেল গুলোর মত পারফরম্যান্স দেখাতে পারে।

GitHub: facebookresearch/llama

Demo: Baize Lora 7B

২. Alpaca

Stanford Alpaca দাবী করে তারা ChatGPT এর সাথে প্রতিদ্বন্দ্বিতা করতে পারে এবং যেকেউ চাইলে ৬০০ ডলারেরও কমে নিজস্ব ChatGPT তৈরি করে ফেলতে পারবে। Alpaca 7B কে ৫২ হাজার ইন্সট্রাকশনের ভিত্তিতে LLaMA 7B মডেল থেকে ফাইনটিউন করা হয়েছে।

GitHub: tatsu-lab/stanford_alpaca

Demo: Alpaca-LoRA

৩. Vicuna

Vicuna কে ShareGPT থেকে কালেক্ট করা ইউজার শেয়ারড কনভারসেশনের ভিত্তিতে, LLaMA মডেল থেকে ফাইনটিউনড করা হয়েছে। Vicuna-13B ইতিমধ্যে OpenAI এর ChatGPT এবং Google Bard থেকে ৯০% কোয়ালিটি দক্ষতা অর্জন করেছে। এটি প্রায় ৯০% ক্ষেত্রে LLaMA এবং Stanford Alpaca মডেলকে ছাড়িয়ে গেছে। Vicuna কে ট্রেনিং করাতে খরচ হয়েছে প্রায় ৩০০ ডলারের মত।

GitHub: lm-sys/FastChat

Demo: FastChat (lmsys.org)

৪. OpenChatKit

OpenChatKit একটি ওপেনসোর্স ChatGPT অলটারনেটিভ কমপ্লিট টুলকিট যা দিয়ে আপনি নিজের চ্যাটবট তৈরি করে ফেলতে পারবেন। এটি আপনার মডেলকে ট্রেইন করা এবং ফাইন টিউন করার ইন্সট্রাকশন দেবে। সর্বোপরি চ্যাটবট তৈরিতে সাহায্য করবে OpenChatKit। GPT-NeoXT-Chat-Base-20B মডেল ইতিমধ্যে মধ্যে প্রশ্ন-উত্তরের দিক থেকে GPT-NoeX কেও ছাড়িয়ে গেছে।

GitHub: togethercomputer/OpenChatKit

Demo: OpenChatKit 

Model card: togethercomputer/GPT-NeoXT-Chat-Base-20B

৫. GPT4ALL

GPT4ALL একটি কমিউনিটি ড্রাইভেন প্রজেক্ট যাকে ম্যাসিভ ডেটা যেমন কোড, এসিস্ট্যান্ট ইন্টারেকশন, স্টোরি ইত্যাদির উপর ট্রেইন করা হয়েছে। এই মডেলটির টিম তাদের ডেটাসেট, মডেলের পরিমাণ, ডেটা কিউরেশন প্রসেস, ট্রেনিং কোড সব কিছু ওপেন সোর্সে দিয়েছে। তারা এই মডেলের একটি ৪ বিট ভার্সনও রিলিজ করেছে যা আপনি ল্যাপটপে রান করতে পারবেন। আপনি চাইলে Python ক্লাইন্টেও এই মডেল রান করতে পারবেন।

GitHub: nomic-ai/gpt4al

Demo: GPT4All

Model card: nomic-ai/gpt4all-lora · Hugging Face

৬. Raven RWKV

RWKV ল্যাংগুয়েজ মডেল দ্বারা তৈরি Raven RWKV 7B একটি ওপেন সোর্স চ্যাটবট যা ChatGPT এর মত রেজাল্ট দিতে পারে। এই মডেলটি RNN ইউজ করে যা কোয়ালিটি এবং স্ক্যালিং এর দিক থেকে Transformer গুলোর এর সাথে ম্যাচ করে এবং এতে প্রচুর VRAM সেভ হয়। Raven, কে Stanford Alpaca, code-alpaca, সহ আরও অনেক ডেটাসেট থেকে ফাইনটিউন করা হয়েছে।

GitHub: BlinkDL/ChatRWKV

Demo: Raven RWKV 7B

Model card: BlinkDL/rwkv-4-raven

৭. OPT

OPT বা Open Pre-trained Transformer ল্যাংগুয়েজ মডেল ChatGPT থেকে সেরা এমনটি বলা যাবে না তবে Stereotypical Bias এনালাইসিসের ক্ষেত্রে এটি দারুণ পারফরম্যান্স দেখিয়েছে। আরও সেরা ফলাফল পেতে আপনি এটার সাথে Alpa, Colossal-AI, CTranslate2, এবং FasterTransformer ইন্টেগ্রেট করতে পারেন।

এটি এই লিস্টে কারণ টেক্সট জেনারেশন ক্যাটাগরিতে এর মাসিক ডাউনলোড ৬২৪৭১০ এর মত।

GitHub: facebookresearch/metaseq

Demo: A Watermark for LLMs

Model card: facebook/opt-1.3b

৮. Flan-T5-XXL

Flan-T5-XXL একটি ফাইনটিউন T5 মডেল। এখানে এক ধরনের ইন্সট্রাকশন ভিত্তিক ফাইন টিউন করা হয়েছে। এই ধরনের ইন্সট্রাকশন ফাইন টিউনিং PaLM, T5, এবং U-PaLM এর মত বিভিন্ন মডেলের পারফরম্যান্স নাটকীয় ভাবে বৃদ্ধি করেছে। এছাড়াও Flan-T5-XXL মডেলকে আরও ১০০০ টিরও বেশি অতিরিক্ত টাস্কে ফাইন টিউন করা হয়েছে যা এর কার্যক্ষমতা আরও বাড়িয়েছে।

GitHub: google-research/t5x

Demo: Chat Llm Streaming

Model card: google/flan-t5-xxl

শেষ কথা

ইন্টারনেটে এমন অনেক ওপেন সোর্স অপশন এভেইলেবল রয়েছে আমি সেরা কয়েকটা তুলে ধরার চেষ্টা করলাম। এই ওপেনসোর্স চ্যাটবট বা মডেল গুলো আগামী কয়েক মাসের মধ্যে আরও দুর্দান্ত হয়ে উঠবে তখন হয়তো এটি পারফরম্যান্স এর দিক থেকে ChatGPT কেও পেছনে ফেলে দিতে পারে।

তো আজকে এই পর্যন্তই পরবর্তী টিউন পর্যন্ত ভাল থাকুন আল্লাহ হাফেজ।

Level 34

আমি সোহানুর রহমান। সুপ্রিম টিউনার, টেকটিউনস, ঢাকা। বিশ্বের সর্ববৃহৎ বিজ্ঞান ও প্রযুক্তির সৌশল নেটওয়ার্ক - টেকটিউনস এ আমি 10 বছর 8 মাস যাবৎ যুক্ত আছি। টেকটিউনস আমি এ পর্যন্ত 536 টি টিউন ও 200 টি টিউমেন্ট করেছি। টেকটিউনসে আমার 115 ফলোয়ার আছে এবং আমি টেকটিউনসে 0 টিউনারকে ফলো করি।

কখনো কখনো প্রজাপতির ডানা ঝাপটানোর মত ঘটনা পুরো পৃথিবী বদলে দিতে পারে।


টিউনস


আরও টিউনস


টিউনারের আরও টিউনস


টিউমেন্টস