এ আই প্রম্পট থেকে ছবি জেনারেট করে কীভাবে? DAAM Experiment and Paper Reflection

আজকে প্রতিতিন একটা করে গবেষণাপত্র পড়ার ৯ম দিন। গতকাল কিছু কাজের জন্য আমাকে nano banana দিয়ে ছবি জেনারেট করতে হয়েছে। তখনই ভাবছিলাম, যে আচ্ছা আমার প্রম্পটের কোন অংশের সাথে কীভাবে এই ছবির মিল ঘটিয়ে AI ছবি বানাচ্ছে? মজার ব্যাপার, একটু খুঁজতেই ২০২৩ ACL এর Best Paper তালিকায় exactly এরকম একটা পেপার পেয়ে গেলাম।

আমরা সবাই

"একটা বিড়াল গিটার বাজাচ্ছে"

বা

"ঢাকায় তুষারপাত"

ইত্যাদি লিখে এআই দিয়ে অদ্ভুত সুন্দর সব ছবি বানাচ্ছি। কিন্তু কখনো কি ভেবে দেখেছেন, আপনি যখন একটা লম্বা প্রম্পট বা নির্দেশ দেন, এআই ঠিক কোন শব্দটার জন্য ছবির কোন অংশটা আঁকে? এটা একটা রহস্য, একটা 'ব্ল্যাক বক্স'। সম্প্রতি গবেষকরা এই ব্ল্যাক বক্সটা খোলার একটা দারুণ উপায় বের করেছেন।

গবেষণার নাম 'What the DAAM'। এই গবেষণাটি প্রথমবার দেখিয়েছে, স্টেবল ডিফিউশনের মতো বড় বড় টেক্সট টু ইমেজ এআই মডেলগুলো আসলে কীভাবে আমাদের লেখা পড়ে ছবি তৈরি করে। এটা শব্দের সাথে পিক্সেলের সম্পর্ক খুঁজে বের করেছে।

আসল চ্যালেঞ্জটা হলো, এই এআই মডেলগুলো একটা 'ব্ল্যাক বক্স' এর মতো। আমরা নির্দেশ দেই, সে ছবি বানিয়ে দেয়। কিন্তু ভেতরে কী ঘটলো, তা আমরা জানতে পারি না। "একটা নীল পাখি সবুজ ঘাসের উপর বসা" বললে, এআই ঠিক কীভাবে বুঝলো 'নীল' শব্দটা পাখির জন্য আর 'সবুজ' শব্দটা ঘাসের জন্য? এটা বের করা খুব কষ্টসাপেক্ষ ছিল, কারণ ছবি তৈরির প্রক্রিয়াটা অনেকগুলো ধাপে হয় এবং খুবই জটিল।

এই গবেষকরা একটা নতুন পদ্ধতি আবিষ্কার করেছেন, যার নাম DAAM। তাদের মতে, এআই যখন ছবিটা আঁকে, সে এটা একবারে করে না। সে অনেকগুলো ধাপে (ধরুন ৫০টা ধাপে) ছবিটাকে ধীরে ধীরে স্পষ্ট করে। প্রতিটা ধাপে, এআই আপনার লেখা প্রম্পটটা আবার পড়ে দেখে। "একটা নীল পাখি" এই বাক্যে সে 'নীল' শব্দটা পড়ে, তারপর ছবির যে অংশে নীল রং দেওয়া দরকার, সেদিকে 'মনোযোগ' দেয়।

এই 'মনোযোগ' দেওয়ার ব্যাপারটাকে বলে ক্রস অ্যাটেনশন। DAAM যা করে তা হলো:

ছবি তৈরির প্রতিটা ধাপে, প্রতিটা শব্দের জন্য এই 'মনোযোগ' বা অ্যাটেনশন স্কোরগুলো সে সংগ্রহ করে।
একেকটা ধাপে এই অ্যাটেনশনের ম্যাপগুলো একেক সাইজের হয়। DAAM সবগুলোকে টেনেটুনে মূল ছবির আকারে নিয়ে আসে।
সবশেষে, সব ধাপের সব ম্যাপকে সে একসাথে জোড়া লাগায়।
ফলাফল? একটা হিটম্যাপ। এই ম্যাপে দেখা যায়, আপনার প্রম্পটের 'পাখি' শব্দটা ছবির ঠিক কোন পিক্সেলগুলোর ওপর সবচেয়ে বেশি প্রভাব ফেলেছে, আর 'নীল' শব্দটা কোন পিক্সেলগুলোর ওপর।

এই পদ্ধতি ব্যবহার করে তারা কিছু দারুণ জিনিস খুঁজে পেয়েছেন।

প্রথমে তারা দেখলেন, এই DAAM ম্যাপগুলো ছবি থেকে অবজেক্ট খুঁজে বের করতে পারে। তারা এআইকে দিয়ে ছবি বানিয়ে, সেই ছবির ওপর DAAM ম্যাপ ফেলে দেখলো, এটা প্রায় ৫৮ থেকে ৬৪ শতাংশ নিখুঁতভাবে ছবির বিড়াল, কুকুর বা অন্য জিনিসকে আলাদা করে ফেলতে পারছে। এটা বেশ ভালো একটা রেজাল্ট।

তারপর তারা মানুষকে এই ম্যাপগুলো দেখালো। মানুষও বললো, হ্যাঁ, ম্যাপগুলো আসলেই ঠিকঠাক দেখাচ্ছে। বিশেষ করে বিশেষ্য (noun), ক্রিয়া (verb) বা বিশেষণ (adjective) গুলোর জন্য ম্যাপগুলো খুবই ভালো ছিল।

তারা আরও দেখলেন, এআই শুধু শব্দ নয়, বরং ব্যাকরণও বোঝে। যেমন "আইস ক্রিম" (ice cream) লিখলে, 'আইস' আর 'ক্রিম' দুটোর ম্যাপই প্রায় একই জায়গায় থাকে। আবার "সে আপেল খায়" লিখলে, 'খায়' (ক্রিয়া) এর ম্যাপটা 'আপেল' (কর্ম) এর ম্যাপটাকে পুরো কভার করে ফেলে। অর্থাৎ, এআই বুঝতে পারে যে খাওয়াটা আপেলকে ঘিরেই ঘটছে।

সবচেয়ে মজার আবিষ্কার হলো এআই এর কিছু মারাত্মক দুর্বলতা।

দুর্বলতা এক: আপনি যদি এআইকে "একটা জিরাফ আর একটা জেব্রা" আঁকতে বলেন, সে প্রায়ই তালগোল পাকিয়ে ফেলে। ছবিটা ভালো হয় না। DAAM দিয়ে দেখা গেলো, এর কারণ হলো 'জিরাফ' আর 'জেব্রা' দুটোই প্রাণী হওয়ায় এআই এদের মনোযোগের ম্যাপকে গুলিয়ে ফেলে, দুটো ম্যাপ একটার ওপর আরেকটা উঠে যায়। কিন্তু "একটা কেক আর একটা বাস" বললে এই সমস্যা হয় না।
দুর্বলতা দুই: এটাই সবচেয়ে অদ্ভুত। আপনি যদি বলেন "একটা মরিচা পড়া কোদাল একটা পরিষ্কার শেডের মধ্যে", এআই শুধু কোদালটাকে মরিচা পড়া বানায় না, সে পেছনের 'পরিষ্কার' শেডটাকেও মরিচা পড়া পুরাতন বানিয়ে ফেলে! অর্থাৎ, 'মরিচা পড়া' বিশেষণটা শুধু কোদালে আটকে থাকে না, এটা পুরো ছবিতে 'লিক' হয়ে ছড়িয়ে পড়ে।

গবেষকরা নিজেরাই কিছু সীমাবদ্ধতার কথা বলেছেন। যেমন, এই পদ্ধতিটা ব্যাকরণ বোঝার জন্য অন্য একটা টুলের ওপর নির্ভরশীল। আর এটা দিয়ে শুধু দৃশ্যমান জিনিস (যেমন কুকুর, গাড়ি, আকাশ) পরীক্ষা করা গেছে। বিমূর্ত বা অ্যাবস্ট্রাক্ট ধারণা (যেমন 'ভালোবাসা' বা 'দুঃখ') নিয়ে প্রম্পট দিলে এআই কীভাবে ছবি আঁকে, তা এখনো জানা যায়নি।

তাহলে এই গবেষণার গুরুত্ব কী?

প্রথমত, এই প্রথম আমরা এআই এর ছবি বানানোর প্রক্রিয়াটা ভেতর থেকে দেখার একটা নির্ভরযোগ্য উপায় পেলাম।
দ্বিতীয়ত, এখন আমরা জানি এআই ঠিক কোথায় ভুল করে (যেমন ওই মরিচা পড়া কোদালের উদাহরণে)। এআই নির্মাতারা এখন এই সমস্যাগুলো সমাধান করে মডেলগুলোকে আরও নিখুঁত করে তুলতে পারবেন।

এক কথায়, এই গবেষণা এআই এর 'ব্ল্যাক বক্স' খুলে একে আরও স্বচ্ছ এবং উন্নত করার পথে একটা বড় ধাপ।

পরের বার যখন এআই জেনারেটরে কোনো অদ্ভুত প্রম্পট লিখবেন, তখন মনে রাখবেন, আপনার প্রতিটি শব্দের জন্য এআই এর ভেতরে একটা আস্ত মনোযোগের মানচিত্র তৈরি হচ্ছে। বিজ্ঞান আসলেই দারুণ, তাই না?

Attention কে মনোযোগ, map কে মানচিত্র আর Abstract কে বিমূর্ত বলায় রাগ করবেন না আবার! বাংলা ভাষায় কথাগুলো পরিচিত করার কোন চেষ্টাই হয়নি তাই অদ্ভুত শোনায়।

এ আই প্রম্পট থেকে ছবি জেনারেট করে কীভাবে? DAAM Experiment and Paper Reflection

Table of Contents

Share this article

Written by Sakhawat Adib

References

What the {DAAM}: Interpreting Stable Diffusion Using Cross Attention

AI মডেল কি গল্প লেখার প্রতিযোগিতায় মানুষ কে হারিয়ে দিতে পারবে? - "Measuring Psychological Depth in Language Models" - EMNLP 2024

জিপিটি ফোর কি একজন সাংবাদিকের মতো চিন্তা করতে পারে? EMNLP Outstanding Paper 2024

AI আমাদের বলা শব্দগুলোকে আলাদাভাবে চিনবে কেমন করে? - Tokenization in NLP

গবেষণাপত্র পড়ব কিভাবে ?

আর্টিফিসিয়াল ইন্টেলিজেন্স কি কৌতুহলী হতে পারে?