AI মডেল কি গল্প লেখার প্রতিযোগিতায় মানুষ কে হারিয়ে দিতে পারবে? - "Measuring Psychological Depth in Language Models" - EMNLP 2024

LLM AI 11th Paper EMNLP 2024 Outstanding Paper Bangla
AI মডেল কি গল্প লেখার প্রতিযোগিতায় মানুষ কে হারিয়ে দিতে পারবে? - "Measuring Psychological Depth in Language Models" - EMNLP 2024

#A_Paper_A_Day এর আজকে একাদশ দিন। ১১ তম পেপার হিসেবে “Measuring Psychological Depth in Language Models” নামের খুবই ইন্টারেস্টিং একটা পেপার পড়লাম। emnlp 2024 এ আউটস্ট্যান্ডিং পেপার এর খেতাব পাওয়া এই গবেষণা বেশ ভালোই চিন্তার খোরাক জাগায়। আপনাকে একটা প্রশ্ন করে শুরু করি,

মানুষের লেখা গল্প নাকি আর্টিফিশিয়াল ইন্টেলিজেন্স বা এআই এর লেখা গল্প কোনটা আপনার মন ছুঁয়ে যায় বেশি?

​আমরা এতদিন জানতাম, এআই খুব ভালো ব্যাকরণ মেনে লিখতে পারে, তথ্য গুছিয়ে দিতে পারে। কিন্তু গল্পের ভেতরে যে একটা 'প্রাণ' থাকে, যেটা পড়লে আনন্দ হয়, মন খারাপ হয়, মায়া লাগে বা বুকের ভেতরটা মোচড় দিয়ে ওঠে সেই গভীরতা কি এআই আনতে পারে?

​সম্প্রতি একদল গবেষক ঠিক এই প্রশ্নটির উত্তর খুঁজেছেন। এবং তাদের গবেষণার ফলাফল এককথায় যেমন অসাধারণ তেমনই শত শত নতুন চিন্তার জন্মও দেয়।

​তারা শুধু এটা মাপেননি যে এআই ভালো গল্প লিখতে পারে কিনা। তারা মাপতে চেষ্টা করেছেন এআই এর লেখা গল্প মানুষের মনে কতোটা 'মনস্তাত্ত্বিক গভীরতা' বা 'সাইকোলজিক্যাল ডেপথ' তৈরি করতে পারে।

​গবেষণাটির নতুনত্ব ঠিক এইখানে। তারা একটি একেবারে নতুন 'মাপকাঠি' বা স্কেল তৈরি করেছেন। নাম দিয়েছেন "সাইকোলজিক্যাল ডেপথ স্কেল" (পিডিএস)। এই স্কেল দিয়ে তারা গল্পকে পাঁচটি ধাপে পরীক্ষা করেছেন।

পরীক্ষণ

​গবেষকদের তৈরি সেই পাঁচটি ধাপ ছিলো:

  1. ইমোশন প্রোভোকেশন: গল্পটা পড়ে আপনার মনে কতটা তোলপাড় হলো? আপনি কি রেগে গেলেন, কষ্ট পেলেন বা আনন্দিত হলেন?

  2. এমপ্যাথি: গল্পের প্রধান চরিত্রের জন্য আপনার কতটা মায়া লাগলো? তার কষ্টে কি আপনার কষ্ট লেগেছে?

  3. এনগেজমেন্ট: গল্পটা কি আপনাকে এক বসায় শেষ করতে বাধ্য করেছে? নাকি পড়তে গিয়ে মনোযোগ হারিয়ে গেছে?

  4. অথেন্টিসিটি: পুরো গল্প আর তার চরিত্রদের কি আপনার কাছে 'বাস্তব' বা 'আসল' মনে হয়েছে?

  5. ন্যারেটিভ কমপ্লেক্সিটি: গল্পের কাহিনী বা চরিত্রগুলো কি খুবই সাদামাটা, নাকি সেগুলোর মধ্যে জটিলতা ও গভীরতা ছিল?

​গবেষকরা প্রথমে এই স্কেলটি সাধারণ মানুষের ওপর প্রয়োগ করে নিশ্চিত হয়েছেন যে এটা আসলেই কাজ করে।

​এরপর শুরু হলো আসল খেলা। একটা প্রতিযোগিতা। একদিকে মানুষ লেখক, আরেকদিকে এআই। ​ গবেষকরা প্রথমে রেডিট থেকে মানুষের লেখা প্রচুর গল্প সংগ্রহ করলেন। এই গল্পগুলোকে তারা আবার তিনটি ভাগে ভাগ করলেন।

  • সাধারণ মানের লেখা (নোভিস)
  • মাঝারি মানের লেখা (ইন্টারমিডিয়েট)
  • খুব ভালো মানের লেখা (অ্যাডভান্সড) যেগুলো সবচেয়ে বেশি ভোট পেয়েছে।

​এরপর তারা GPT-4 সহ বেশ কয়েকটি শক্তিশালী এআই মডেলকে ডাকলেন। মানুষ এবং এআই উভয়কেই একই গল্পের প্লট বা বিষয়বস্তু (প্রেমিস) দেওয়া হলো এবং তার ওপর ভিত্তি করে ছোট গল্প লিখতে বলা হলো।

​এখানেও একটা মজার ব্যাপার আছে। এআই কে দিয়ে ভালো গল্প লেখানোর জন্য গবেষকরা দুটি বিশেষ কৌশল ব্যবহার করেন।

  • "রাইটার প্রোফাইল" : এখানে এআই কে বলা হয়, "তুমি একজন বিশ্ববিখ্যাত, পুরস্কারপ্রাপ্ত লেখক। তোমার লেখা মানুষের মন ছুঁয়ে যায়। এখন সেইভাবে লেখো।"
  • "প্ল্যান প্লাস রাইট" : এখানে এআই কে বলা হয়, আগে গল্পের চরিত্রগুলোর মনের ভেতরের চিন্তা ভাবনাগুলো পরিকল্পনা করো, তারপর সেই পরিকল্পনা থেকে পুরো গল্পটা লেখো। ​

ফলাফল

​গবেষণায় দেখা গেলো, মানুষের লেখা সবচেয়ে সেরা গল্পগুলোর (রেডিটের অ্যাডভান্সড ক্যাটাগরি) সাথে যখন জিপিটি ফোর এর গল্পের তুলনা করা হলো, তখন দুটি ক্ষেত্রে জিপিটি ফোর সরাসরি জিতে গেছে। মানুষের চেয়েও জিপিটি ফোর এর লেখা গল্পে "এমপ্যাথি" (চরিত্রের জন্য মায়া) এবং "ন্যারেটিভ কমপ্লেক্সিটি" (গল্পের গভীরতা) বেশি ছিল।

​আর বাকি তিনটা ক্ষেত্রে অর্থাৎ গল্প পড়ে মনে তোলপাড় হওয়া, গল্প টেনে ধরে রাখা এবং গল্পকে বাস্তব মনে হওয়ার দিক দিয়ে জিপিটি ফোর এর লেখা সেরা মানুষ লেখকদের গল্পের সমান সমান অবস্থানে ছিলো। একবিন্দুও পিছিয়ে ছিলোনা।

ফলাফলের আরও একটা দিক ছিলো। গবেষকরা গল্পগুলো পড়ার পর মানুষদের জিজ্ঞেস করেছিলেন, "বলুন তো, কোনটা মানুষের লেখা আর কোনটা এআই এর?"

মানুষ বেশিরভাগ সময়ই ধরতে পারেনি।

​দেখা গেলো, যখন মানুষ জিপিটি ফোরের লেখা গল্প পড়েছে, ৭৩ শতাংশ সময়ই তারা ভুল করে বলেছে যে এটা কোনো মানুষের লেখা। মানুষ যখন কোনো গল্পকে "অতিরিক্ত সৃজনশীল" (হাইলি ক্রিয়েটিভ) বা "খুবই সূক্ষ্ম" (নুয়ান্সড) বলে রায় দিয়েছে, দেখা গেছে সেই গল্পগুলোর বেশিরভাগই জিপিটি ফোরের লেখা। এমনকি, এআই যখন মাঝে মাঝে ছোটখাটো ব্যাকরণগত ভুল করেছে, মানুষ ভেবেছে, "আরে! এটা তো মানুষের লেখার ধরণ। এআই এতো নিখুঁত ভুল করতে পারেনা!"

​গবেষকরা আরও এক ধাপ এগিয়ে চিন্তা করলেন। এভাবে মানুষ দিয়ে হাজার হাজার গল্প পরীক্ষা করা তো অনেক সময়সাপেক্ষ আর ব্যয়বহুল। তাই তারা পরীক্ষা করে দেখলেন যে,

একটা এআই কি অন্য এআই এর গল্পের গভীরতা মাপতে পারে?

​তারা জিপিটি ফোরও (GPT-4o) এর মতো নতুন মডেলকে বিচারক বানালেন। এবং তাদেরও একটা বিশেষ কৌশল শেখালেন, যার নাম "মিক্সচার অফ পারসোনাস"। অর্থাৎ এআই বিচারককে বলা হলো,

  • "তুমি একবার 'সহানুভূতি বিশেষজ্ঞ' হিসেবে গল্পটা পড়ো,
  • আরেকবার 'গল্পের জটিলতা বিশেষজ্ঞ' হিসেবে পড়ো।"

এবং এই পদ্ধতিতেও দারুণ কাজ হলো। এআই বিচারকের দেওয়া রেটিং মানুষের দেওয়া রেটিং এর খুব কাছাকাছি ছিলো।

​তবে, গবেষকরা নিজেরাই তাদের গবেষণার কিছু সীমাবদ্ধতার কথা স্বীকার করেছেন।

  • প্রথমত, তারা গল্পগুলো নিয়েছিলেন রেডিট থেকে। রেডিটের লেখকরা বেশ ভালো লেখেন, কিন্তু তারা হয়তো তলস্তয় বা হেমিংওয়ের মতো বিশ্বসেরা সাহিত্যিক নন। তাই জিপিটি ফোর রেডিটের লেখকদের হারাতে পারলেও, সেরা সাহিত্যিকদের হারাতে পারবে কিনা তা গ্যারান্টি দেওয়া যাচ্ছেনা।

  • দ্বিতীয়ত, এই পরীক্ষাটি ছিলো শুধু ছোট গল্পের (প্রায় ৪৫০ শব্দ) ওপর। একটা আস্ত বড় উপন্যাস লেখার সময় এআই এই মনস্তাত্ত্বিক গভীরতা ধরে রাখতে পারবে কিনা, তা এখনো অজানা।

  • তৃতীয়ত এবং এইটা আমার অবজারভেশন, মডেল পারছে কিন্তু অবস্যই ইংরেজীতে। বাংলায় যে মডেলের লেখা মানুষের ধারে কাছে যাবে না, এ আর বলে দেওয়ার না।

এই গবেষণার গুরুত্ব কী?

​এই গবেষণা প্রমাণ করে যে এআই শুধু তথ্য কপি করা বা তোতাপাখির মতো কথা বলা যন্ত্র নয়। এটি এমন শিল্প তৈরি করতে শুরু করেছে যা মানুষের মনকে গভীরভাবে স্পর্শ করতে পারে। আগে আমরা ভাবতাম, আবেগ, অনুভূতি, সহানুভূতি এগুলো মানুষের একচেটিয়া। এই ধারণাটি হয়তো আর বেশিদিন টিকবে না। লেখালিখি, সিনেমা বা সৃষ্টিশীল যে কোনো মাধ্যমে এআই হয়তো আর শুধু 'সহকারী' থাকবে না, হয়ে উঠবে একজন সত্যিকারের 'শিল্পী'।

Share this article

Sakhawat Adib

Written by Sakhawat Adib

I'm a Software Engineering undergraduate at IUT passionate about AI/ML/DL research. Love to read academic discoveries. Would love to spread the knowledge of science throughout the world.

Get an email whenever Sakhawat Adib publishes.

References

[1]

Measuring Psychological Depth in Language Models

Harel-Canada, Fabrice Y and Zhou, Hanyu and Muppalla, Sreya and Yildiz, Zeynep Senahan and Kim, Miryung and Sahai, Amit and Peng, Nanyun · 2024

Evaluations of creative stories generated by large language models (LLMs) often focus on objective properties of the text, such as its style, coherence, and diversity. While these metrics are indispen...

Read the paper