এ আই প্রম্পট থেকে ছবি জেনারেট করে কীভাবে? DAAM Experiment and Paper Reflection

DAAM ACL2023 Image AI Generative AI
এ আই প্রম্পট থেকে ছবি জেনারেট করে কীভাবে?  DAAM Experiment and Paper Reflection

আজকে প্রতিতিন একটা করে গবেষণাপত্র পড়ার ৯ম দিন। গতকাল কিছু কাজের জন্য আমাকে nano banana দিয়ে ছবি জেনারেট করতে হয়েছে। তখনই ভাবছিলাম, যে আচ্ছা আমার প্রম্পটের কোন অংশের সাথে কীভাবে এই ছবির মিল ঘটিয়ে AI ছবি বানাচ্ছে? মজার ব্যাপার, একটু খুঁজতেই ২০২৩ ACL এর Best Paper তালিকায় exactly এরকম একটা পেপার পেয়ে গেলাম।

আমরা সবাই

"একটা বিড়াল গিটার বাজাচ্ছে"

বা

"ঢাকায় তুষারপাত"

ইত্যাদি লিখে এআই দিয়ে অদ্ভুত সুন্দর সব ছবি বানাচ্ছি। কিন্তু কখনো কি ভেবে দেখেছেন, আপনি যখন একটা লম্বা প্রম্পট বা নির্দেশ দেন, এআই ঠিক কোন শব্দটার জন্য ছবির কোন অংশটা আঁকে? এটা একটা রহস্য, একটা 'ব্ল্যাক বক্স'। সম্প্রতি গবেষকরা এই ব্ল্যাক বক্সটা খোলার একটা দারুণ উপায় বের করেছেন।

গবেষণার নাম 'What the DAAM'। এই গবেষণাটি প্রথমবার দেখিয়েছে, স্টেবল ডিফিউশনের মতো বড় বড় টেক্সট টু ইমেজ এআই মডেলগুলো আসলে কীভাবে আমাদের লেখা পড়ে ছবি তৈরি করে। এটা শব্দের সাথে পিক্সেলের সম্পর্ক খুঁজে বের করেছে।

আসল চ্যালেঞ্জটা হলো, এই এআই মডেলগুলো একটা 'ব্ল্যাক বক্স' এর মতো। আমরা নির্দেশ দেই, সে ছবি বানিয়ে দেয়। কিন্তু ভেতরে কী ঘটলো, তা আমরা জানতে পারি না। "একটা নীল পাখি সবুজ ঘাসের উপর বসা" বললে, এআই ঠিক কীভাবে বুঝলো 'নীল' শব্দটা পাখির জন্য আর 'সবুজ' শব্দটা ঘাসের জন্য? এটা বের করা খুব কষ্টসাপেক্ষ ছিল, কারণ ছবি তৈরির প্রক্রিয়াটা অনেকগুলো ধাপে হয় এবং খুবই জটিল।

এই গবেষকরা একটা নতুন পদ্ধতি আবিষ্কার করেছেন, যার নাম DAAM। তাদের মতে, এআই যখন ছবিটা আঁকে, সে এটা একবারে করে না। সে অনেকগুলো ধাপে (ধরুন ৫০টা ধাপে) ছবিটাকে ধীরে ধীরে স্পষ্ট করে। প্রতিটা ধাপে, এআই আপনার লেখা প্রম্পটটা আবার পড়ে দেখে। "একটা নীল পাখি" এই বাক্যে সে 'নীল' শব্দটা পড়ে, তারপর ছবির যে অংশে নীল রং দেওয়া দরকার, সেদিকে 'মনোযোগ' দেয়।

এই 'মনোযোগ' দেওয়ার ব্যাপারটাকে বলে ক্রস অ্যাটেনশন। DAAM যা করে তা হলো:

  1. ছবি তৈরির প্রতিটা ধাপে, প্রতিটা শব্দের জন্য এই 'মনোযোগ' বা অ্যাটেনশন স্কোরগুলো সে সংগ্রহ করে।
  2. একেকটা ধাপে এই অ্যাটেনশনের ম্যাপগুলো একেক সাইজের হয়। DAAM সবগুলোকে টেনেটুনে মূল ছবির আকারে নিয়ে আসে।
  3. সবশেষে, সব ধাপের সব ম্যাপকে সে একসাথে জোড়া লাগায়।
  4. ফলাফল? একটা হিটম্যাপ। এই ম্যাপে দেখা যায়, আপনার প্রম্পটের 'পাখি' শব্দটা ছবির ঠিক কোন পিক্সেলগুলোর ওপর সবচেয়ে বেশি প্রভাব ফেলেছে, আর 'নীল' শব্দটা কোন পিক্সেলগুলোর ওপর।

এই পদ্ধতি ব্যবহার করে তারা কিছু দারুণ জিনিস খুঁজে পেয়েছেন।

প্রথমে তারা দেখলেন, এই DAAM ম্যাপগুলো ছবি থেকে অবজেক্ট খুঁজে বের করতে পারে। তারা এআইকে দিয়ে ছবি বানিয়ে, সেই ছবির ওপর DAAM ম্যাপ ফেলে দেখলো, এটা প্রায় ৫৮ থেকে ৬৪ শতাংশ নিখুঁতভাবে ছবির বিড়াল, কুকুর বা অন্য জিনিসকে আলাদা করে ফেলতে পারছে। এটা বেশ ভালো একটা রেজাল্ট।

তারপর তারা মানুষকে এই ম্যাপগুলো দেখালো। মানুষও বললো, হ্যাঁ, ম্যাপগুলো আসলেই ঠিকঠাক দেখাচ্ছে। বিশেষ করে বিশেষ্য (noun), ক্রিয়া (verb) বা বিশেষণ (adjective) গুলোর জন্য ম্যাপগুলো খুবই ভালো ছিল।

তারা আরও দেখলেন, এআই শুধু শব্দ নয়, বরং ব্যাকরণও বোঝে। যেমন "আইস ক্রিম" (ice cream) লিখলে, 'আইস' আর 'ক্রিম' দুটোর ম্যাপই প্রায় একই জায়গায় থাকে। আবার "সে আপেল খায়" লিখলে, 'খায়' (ক্রিয়া) এর ম্যাপটা 'আপেল' (কর্ম) এর ম্যাপটাকে পুরো কভার করে ফেলে। অর্থাৎ, এআই বুঝতে পারে যে খাওয়াটা আপেলকে ঘিরেই ঘটছে।

সবচেয়ে মজার আবিষ্কার হলো এআই এর কিছু মারাত্মক দুর্বলতা।

  • দুর্বলতা এক: আপনি যদি এআইকে "একটা জিরাফ আর একটা জেব্রা" আঁকতে বলেন, সে প্রায়ই তালগোল পাকিয়ে ফেলে। ছবিটা ভালো হয় না। DAAM দিয়ে দেখা গেলো, এর কারণ হলো 'জিরাফ' আর 'জেব্রা' দুটোই প্রাণী হওয়ায় এআই এদের মনোযোগের ম্যাপকে গুলিয়ে ফেলে, দুটো ম্যাপ একটার ওপর আরেকটা উঠে যায়। কিন্তু "একটা কেক আর একটা বাস" বললে এই সমস্যা হয় না।
  • দুর্বলতা দুই: এটাই সবচেয়ে অদ্ভুত। আপনি যদি বলেন "একটা মরিচা পড়া কোদাল একটা পরিষ্কার শেডের মধ্যে", এআই শুধু কোদালটাকে মরিচা পড়া বানায় না, সে পেছনের 'পরিষ্কার' শেডটাকেও মরিচা পড়া পুরাতন বানিয়ে ফেলে! অর্থাৎ, 'মরিচা পড়া' বিশেষণটা শুধু কোদালে আটকে থাকে না, এটা পুরো ছবিতে 'লিক' হয়ে ছড়িয়ে পড়ে।

গবেষকরা নিজেরাই কিছু সীমাবদ্ধতার কথা বলেছেন। যেমন, এই পদ্ধতিটা ব্যাকরণ বোঝার জন্য অন্য একটা টুলের ওপর নির্ভরশীল। আর এটা দিয়ে শুধু দৃশ্যমান জিনিস (যেমন কুকুর, গাড়ি, আকাশ) পরীক্ষা করা গেছে। বিমূর্ত বা অ্যাবস্ট্রাক্ট ধারণা (যেমন 'ভালোবাসা' বা 'দুঃখ') নিয়ে প্রম্পট দিলে এআই কীভাবে ছবি আঁকে, তা এখনো জানা যায়নি।

তাহলে এই গবেষণার গুরুত্ব কী?

  • প্রথমত, এই প্রথম আমরা এআই এর ছবি বানানোর প্রক্রিয়াটা ভেতর থেকে দেখার একটা নির্ভরযোগ্য উপায় পেলাম।

  • দ্বিতীয়ত, এখন আমরা জানি এআই ঠিক কোথায় ভুল করে (যেমন ওই মরিচা পড়া কোদালের উদাহরণে)। এআই নির্মাতারা এখন এই সমস্যাগুলো সমাধান করে মডেলগুলোকে আরও নিখুঁত করে তুলতে পারবেন।

এক কথায়, এই গবেষণা এআই এর 'ব্ল্যাক বক্স' খুলে একে আরও স্বচ্ছ এবং উন্নত করার পথে একটা বড় ধাপ।

পরের বার যখন এআই জেনারেটরে কোনো অদ্ভুত প্রম্পট লিখবেন, তখন মনে রাখবেন, আপনার প্রতিটি শব্দের জন্য এআই এর ভেতরে একটা আস্ত মনোযোগের মানচিত্র তৈরি হচ্ছে। বিজ্ঞান আসলেই দারুণ, তাই না?

Attention কে মনোযোগ, map কে মানচিত্র আর Abstract কে বিমূর্ত বলায় রাগ করবেন না আবার! বাংলা ভাষায় কথাগুলো পরিচিত করার কোন চেষ্টাই হয়নি তাই অদ্ভুত শোনায়।

Share this article

Sakhawat Adib

Written by Sakhawat Adib

I'm a Software Engineering undergraduate at IUT passionate about AI/ML/DL research. Love to read academic discoveries. Would love to spread the knowledge of science throughout the world.

Get an email whenever Sakhawat Adib publishes.

References

[1]

What the {DAAM}: Interpreting Stable Diffusion Using Cross Attention

Tang, Raphael and Liu, Linqing and Pandey, Akshat and Jiang, Zhiying and Yang, Gefei and Kumar, Karun and Stenetorp, Pontus and Lin, Jimmy and Ture, Ferhan · 2023

Diffusion models are a milestone in text-to-image generation, but they remain poorly understood, lacking interpretability analyses. In this paper, we perform a text-image attribution analysis on Stabl...

Read the paper