আজকে প্রতিতিন একটা করে গবেষণাপত্র পড়ার ৯ম দিন। গতকাল কিছু কাজের জন্য আমাকে nano banana দিয়ে ছবি জেনারেট করতে হয়েছে। তখনই ভাবছিলাম, যে আচ্ছা আমার প্রম্পটের কোন অংশের সাথে কীভাবে এই ছবির মিল ঘটিয়ে AI ছবি বানাচ্ছে? মজার ব্যাপার, একটু খুঁজতেই ২০২৩ ACL এর Best Paper তালিকায় exactly এরকম একটা পেপার পেয়ে গেলাম।
আমরা সবাই
"একটা বিড়াল গিটার বাজাচ্ছে"
বা
"ঢাকায় তুষারপাত"
ইত্যাদি লিখে এআই দিয়ে অদ্ভুত সুন্দর সব ছবি বানাচ্ছি। কিন্তু কখনো কি ভেবে দেখেছেন, আপনি যখন একটা লম্বা প্রম্পট বা নির্দেশ দেন, এআই ঠিক কোন শব্দটার জন্য ছবির কোন অংশটা আঁকে? এটা একটা রহস্য, একটা 'ব্ল্যাক বক্স'। সম্প্রতি গবেষকরা এই ব্ল্যাক বক্সটা খোলার একটা দারুণ উপায় বের করেছেন।
গবেষণার নাম 'What the DAAM'। এই গবেষণাটি প্রথমবার দেখিয়েছে, স্টেবল ডিফিউশনের মতো বড় বড় টেক্সট টু ইমেজ এআই মডেলগুলো আসলে কীভাবে আমাদের লেখা পড়ে ছবি তৈরি করে। এটা শব্দের সাথে পিক্সেলের সম্পর্ক খুঁজে বের করেছে।
আসল চ্যালেঞ্জটা হলো, এই এআই মডেলগুলো একটা 'ব্ল্যাক বক্স' এর মতো। আমরা নির্দেশ দেই, সে ছবি বানিয়ে দেয়। কিন্তু ভেতরে কী ঘটলো, তা আমরা জানতে পারি না। "একটা নীল পাখি সবুজ ঘাসের উপর বসা" বললে, এআই ঠিক কীভাবে বুঝলো 'নীল' শব্দটা পাখির জন্য আর 'সবুজ' শব্দটা ঘাসের জন্য? এটা বের করা খুব কষ্টসাপেক্ষ ছিল, কারণ ছবি তৈরির প্রক্রিয়াটা অনেকগুলো ধাপে হয় এবং খুবই জটিল।
এই গবেষকরা একটা নতুন পদ্ধতি আবিষ্কার করেছেন, যার নাম DAAM। তাদের মতে, এআই যখন ছবিটা আঁকে, সে এটা একবারে করে না। সে অনেকগুলো ধাপে (ধরুন ৫০টা ধাপে) ছবিটাকে ধীরে ধীরে স্পষ্ট করে। প্রতিটা ধাপে, এআই আপনার লেখা প্রম্পটটা আবার পড়ে দেখে। "একটা নীল পাখি" এই বাক্যে সে 'নীল' শব্দটা পড়ে, তারপর ছবির যে অংশে নীল রং দেওয়া দরকার, সেদিকে 'মনোযোগ' দেয়।
এই 'মনোযোগ' দেওয়ার ব্যাপারটাকে বলে ক্রস অ্যাটেনশন। DAAM যা করে তা হলো:
- ছবি তৈরির প্রতিটা ধাপে, প্রতিটা শব্দের জন্য এই 'মনোযোগ' বা অ্যাটেনশন স্কোরগুলো সে সংগ্রহ করে।
- একেকটা ধাপে এই অ্যাটেনশনের ম্যাপগুলো একেক সাইজের হয়। DAAM সবগুলোকে টেনেটুনে মূল ছবির আকারে নিয়ে আসে।
- সবশেষে, সব ধাপের সব ম্যাপকে সে একসাথে জোড়া লাগায়।
- ফলাফল? একটা হিটম্যাপ। এই ম্যাপে দেখা যায়, আপনার প্রম্পটের 'পাখি' শব্দটা ছবির ঠিক কোন পিক্সেলগুলোর ওপর সবচেয়ে বেশি প্রভাব ফেলেছে, আর 'নীল' শব্দটা কোন পিক্সেলগুলোর ওপর।
এই পদ্ধতি ব্যবহার করে তারা কিছু দারুণ জিনিস খুঁজে পেয়েছেন।
প্রথমে তারা দেখলেন, এই DAAM ম্যাপগুলো ছবি থেকে অবজেক্ট খুঁজে বের করতে পারে। তারা এআইকে দিয়ে ছবি বানিয়ে, সেই ছবির ওপর DAAM ম্যাপ ফেলে দেখলো, এটা প্রায় ৫৮ থেকে ৬৪ শতাংশ নিখুঁতভাবে ছবির বিড়াল, কুকুর বা অন্য জিনিসকে আলাদা করে ফেলতে পারছে। এটা বেশ ভালো একটা রেজাল্ট।
তারপর তারা মানুষকে এই ম্যাপগুলো দেখালো। মানুষও বললো, হ্যাঁ, ম্যাপগুলো আসলেই ঠিকঠাক দেখাচ্ছে। বিশেষ করে বিশেষ্য (noun), ক্রিয়া (verb) বা বিশেষণ (adjective) গুলোর জন্য ম্যাপগুলো খুবই ভালো ছিল।
তারা আরও দেখলেন, এআই শুধু শব্দ নয়, বরং ব্যাকরণও বোঝে। যেমন "আইস ক্রিম" (ice cream) লিখলে, 'আইস' আর 'ক্রিম' দুটোর ম্যাপই প্রায় একই জায়গায় থাকে। আবার "সে আপেল খায়" লিখলে, 'খায়' (ক্রিয়া) এর ম্যাপটা 'আপেল' (কর্ম) এর ম্যাপটাকে পুরো কভার করে ফেলে। অর্থাৎ, এআই বুঝতে পারে যে খাওয়াটা আপেলকে ঘিরেই ঘটছে।
সবচেয়ে মজার আবিষ্কার হলো এআই এর কিছু মারাত্মক দুর্বলতা।
- দুর্বলতা এক: আপনি যদি এআইকে "একটা জিরাফ আর একটা জেব্রা" আঁকতে বলেন, সে প্রায়ই তালগোল পাকিয়ে ফেলে। ছবিটা ভালো হয় না। DAAM দিয়ে দেখা গেলো, এর কারণ হলো 'জিরাফ' আর 'জেব্রা' দুটোই প্রাণী হওয়ায় এআই এদের মনোযোগের ম্যাপকে গুলিয়ে ফেলে, দুটো ম্যাপ একটার ওপর আরেকটা উঠে যায়। কিন্তু "একটা কেক আর একটা বাস" বললে এই সমস্যা হয় না।
- দুর্বলতা দুই: এটাই সবচেয়ে অদ্ভুত। আপনি যদি বলেন "একটা মরিচা পড়া কোদাল একটা পরিষ্কার শেডের মধ্যে", এআই শুধু কোদালটাকে মরিচা পড়া বানায় না, সে পেছনের 'পরিষ্কার' শেডটাকেও মরিচা পড়া পুরাতন বানিয়ে ফেলে! অর্থাৎ, 'মরিচা পড়া' বিশেষণটা শুধু কোদালে আটকে থাকে না, এটা পুরো ছবিতে 'লিক' হয়ে ছড়িয়ে পড়ে।
গবেষকরা নিজেরাই কিছু সীমাবদ্ধতার কথা বলেছেন। যেমন, এই পদ্ধতিটা ব্যাকরণ বোঝার জন্য অন্য একটা টুলের ওপর নির্ভরশীল। আর এটা দিয়ে শুধু দৃশ্যমান জিনিস (যেমন কুকুর, গাড়ি, আকাশ) পরীক্ষা করা গেছে। বিমূর্ত বা অ্যাবস্ট্রাক্ট ধারণা (যেমন 'ভালোবাসা' বা 'দুঃখ') নিয়ে প্রম্পট দিলে এআই কীভাবে ছবি আঁকে, তা এখনো জানা যায়নি।
তাহলে এই গবেষণার গুরুত্ব কী?
-
প্রথমত, এই প্রথম আমরা এআই এর ছবি বানানোর প্রক্রিয়াটা ভেতর থেকে দেখার একটা নির্ভরযোগ্য উপায় পেলাম।
-
দ্বিতীয়ত, এখন আমরা জানি এআই ঠিক কোথায় ভুল করে (যেমন ওই মরিচা পড়া কোদালের উদাহরণে)। এআই নির্মাতারা এখন এই সমস্যাগুলো সমাধান করে মডেলগুলোকে আরও নিখুঁত করে তুলতে পারবেন।
এক কথায়, এই গবেষণা এআই এর 'ব্ল্যাক বক্স' খুলে একে আরও স্বচ্ছ এবং উন্নত করার পথে একটা বড় ধাপ।
পরের বার যখন এআই জেনারেটরে কোনো অদ্ভুত প্রম্পট লিখবেন, তখন মনে রাখবেন, আপনার প্রতিটি শব্দের জন্য এআই এর ভেতরে একটা আস্ত মনোযোগের মানচিত্র তৈরি হচ্ছে। বিজ্ঞান আসলেই দারুণ, তাই না?
Attention কে মনোযোগ, map কে মানচিত্র আর Abstract কে বিমূর্ত বলায় রাগ করবেন না আবার! বাংলা ভাষায় কথাগুলো পরিচিত করার কোন চেষ্টাই হয়নি তাই অদ্ভুত শোনায়।