All That Glitters is Not Novel: Plagiarism in AI Generated Research

আজকে যে পেপারটা পড়েছি, আমার মতে সেইটা আমারমতই যারা নতুন নতুন গবেষণার দুনিয়ায় এসেছে সবার বুঝা দরকার। পেপার NLP নিয়ে হলেও ACL এর আউটস্ট্যান্ডিং পেপার এর খেতাব পাওয়া এই গবেষণাপত্র দেখায় যে, জিপিটি বা জেমিনি বা এরকম যেকোন আর্টিফিসিয়াল ইন্টেলিজেন্স দিয়ে আপনি যখন আপনার পেপার লিখিয়ে নিবেন তখন ঐ পেপার এর বিশাল অংশ আসলে প্লেজারিজম। কিন্তু বলবেন, আরে ভাই লিখাইলাম, টার্ন-ইট-ইন এ দিলাম। ৫% - ৬% প্লেজারিজম দেখায়। মজার বিষয় হল, AI গুলোকে তৈরিই করা হয়েছে ঘুরিয়ে কথা বলার জন্য। আর টার্ণ-ইট-ইন এতটাও বুদ্ধিমান না যে ঘুরিয়ে বলা সব কথা ধরে ফেলবে। আসুন দেখি গবেষকরা কি বলেন,

এআই এর লেখা পেপার নিয়ে আজকের আলচ্য গবেষকদের একটা খটকা থেকেই যায়। এই এআই দিয়ে বানানো আইডিয়াগুলো কি আসলেও 'নতুন'? নাকি সব পুরনো চাল নতুন করে রোদে শুকাতে দেওয়া হচ্ছে? চকচক করলেই যেমন সোনা হয় না, তেমনই 'নতুন' বললেই কি সব নতুন হয়ে যায়?

সম্প্রতি একদল গবেষক ঠিক এই খটকাটা নিয়েই একটা দারুণ কাজ করেছেন। তারা দেখতে চাইলেন, এআই এর এই 'নতুন' আইডিয়াগুলোর মধ্যে আসলেও কতটা নতুনত্ব আছে, আর কতটা পুরনো কাজের নকল।

এই গবেষণার আসল মজাটা হলো এর পদ্ধতিতে। গবেষকরা যেভাবে এই চুরিটা ধরেছেন, সেটাই একটা আর্ট। চলেন, ধাপে ধাপে দেখি তারা কী করলেন।

আগে কী হতো?

আগে যখন এআই দিয়ে বানানো কোনো পেপার যাচাই করা হতো, তখন বড় বড় প্রফেসর বা বিশেষজ্ঞদের ডেকে এনে বলা হতো, "দেখুন তো স্যার, এই আইডিয়াটা কেমন? নতুন মনে হয়? কাজের?" এটা একটা সমস্যা। কারণ যখন কাউকে 'নতুন কিছু' খুঁজতে বলা হয়, তখন তার মস্তিষ্ক সেভাবেই কাজ করে। সে ধরে নেয় জিনিসটা নতুন, শুধু সেটার মান যাচাই করতে হবে।

এই গবেষকরা ঠিক উল্টো কাজটা করলেন। তারা ভাবলেন, "চোরকে ধরতে হলে তো চোরের মতোই ভাবতে হবে।" তারা একটা দারুণ খেলা খেললেন। তারা প্রথমে পঞ্চাশটা এআই দিয়ে তৈরি করা গবেষণাপত্র নিলেন। এই পেপারগুলো এমন এআই দিয়ে বানানো যারা দাবি করে তারা 'নতুন' আইডিয়া তৈরি করতে পারে। তারা ১৩ জন বিশেষজ্ঞকে ডাকলেন। এই বিশেষজ্ঞরা তাদের ফিল্ডে সেরা, তারা জানেন এই বিষয়ে আগে কী কী কাজ হয়েছে।

'সিচুয়েশনাল লজিক'

গবেষকরা এখানে খেলা ঘুরিয়ে দিলেন। তারা ওই ১৩ জন বিশেষজ্ঞকে বললেন না যে, "দেখুন তো পেপারগুলো নতুন কিনা।" তারা ঠিক উল্টোটা বললেন। তারা বললেন, "আপনাদের আমরা পঞ্চাশটা পেপার দিচ্ছি। আপনারা ধরে নিন এই পঞ্চাশটা পেপারই চুরি করা বা নকল। আপনাদের কাজ হলো আসল পেপারটা বা উৎসটা খুঁজে বের করা। প্রমাণ করেন যে এটা নকল।"

দেখেন, মানসিকতার কী দারুণ পরিবর্তন! যখন আপনাকে 'নতুন কিছু' খুঁজতে বলা হয়, আর যখন 'চোর ধরতে' বলা হয়, আপনার মস্তিষ্ক দুইভাবে কাজ করে। গবেষকরা এই দ্বিতীয় পদ্ধতিটা কাজে লাগালেন। বিশেষজ্ঞরা তখন গোয়েন্দার মতো করে পেপারগুলো পড়া শুরু করলেন, মিল খুঁজতে লাগলেন।

বিশেষজ্ঞরা যখন কোনো পেপারকে সন্দেহ করলেন আর বললেন, "আরে, এই পেপারটার আইডিয়া তো অমুক পেপারের মতো লাগছে," গবেষকরা সেখানেই থেমে যাননি। এটা তো শুধু বিশেষজ্ঞের মতামত হলো।

তারা সাথে সাথে সেই 'আসল' পেপারটার লেখকদের খুঁজে বের করলেন। তাদের ইমেইল করলেন। তাদেরকে এআই এর বানানো পেপারটা পাঠিয়ে জিজ্ঞেস করলেন, "দেখেন তো ভাই, আপনার কি মনে হয় এটা আপনার কাজ নকল করেছে?" মানে একেবারে সরাসরি লেখকের কাছ থেকেই নিশ্চিত হওয়া। এর চেয়ে বড় প্রমাণ আর কী হতে পারে!

এর পাশাপাশি, তারা এই পেপারগুলো টার্নইটিন এর মতো বিখ্যাত সব প্লেজিয়ারিজম চেকার সফটওয়্যার দিয়েও পরীক্ষা করলেন। দেখতে চাইলেন সফটওয়্যার কি এই চুরি ধরতে পারে?

বিশেষজ্ঞরা যা খুঁজে পেলেন তা রীতিমতো ভয়ঙ্কর। ওই পঞ্চাশটা পেপারের মধ্যে প্রায় চব্বিশ শতাংশ, মানে প্রতি চারটার একটা পেপার, সরাসরি নকল বা একাধিক পুরনো পেপারের আইডিয়া হুবহু মেরে দেওয়া। মানে গবেষণার পদ্ধতিটা এক, শুধু শব্দগুলো পাল্টে ফেলা হয়েছে। আরও বত্রিশ শতাংশ পেপারের সাথে পুরনো কাজের আংশিক মিল পাওয়া গেছে। মানে আইডিয়ার কিছু অংশ নকল, কিছু অংশ নতুন। খুব সামান্য কিছু পেপারকেই তারা 'সম্পূর্ণ নতুন' বা মৌলিক বলেছেন।

আর সেই যে আসল লেখকদের ইমেইল করা হয়েছিল? তারাও নিশ্চিত করলেন যে হ্যাঁ, তাদের কাজই নকল করা হয়েছে। তাদের পদ্ধতিকেই এআই নতুন ভাবে উপস্থাপন করেছে।

কিন্তু সবচেয়ে বড় ধাক্কাটা এলো অন্য জায়গায়। মনে আছে সফটওয়্যার দিয়ে পরীক্ষা করার কথা? টার্নইটিন এর মতো নামকরা সব সফটওয়্যার এই 'আইডিয়া চুরি' গুলো ধরতে পুরোপুরি ব্যর্থ। তাদের সাফল্যের হার শূন্য শতাংশ! একটাও ধরতে পারেনি।

কেন এমন হলো?

কারণ এআই খুব চালাক। সে তো আর আপনার আমার মতো শব্দ ধরে ধরে কপি পেস্ট করে না। সে পুরো গবেষণার 'পদ্ধতি' বা 'আইডিয়া' টাকে বুঝে নেয়, তারপর সেটাকে সম্পূর্ণ নতুন শব্দ দিয়ে, নতুন করে গুছিয়ে লেখে। ওপর থেকে দেখলে মনে হবে দুটো আলাদা জিনিস, কিন্তু ভেতরে ইঞ্জিন একই। এই চালাকি ধরার ক্ষমতা সফটওয়্যারের নেই।

এই গবেষণাটা আমাদের একটা বড়সড় ঝাঁকুনি দিয়ে গেলো। আমরা এআই এর বানানো জিনিস দেখে যতটা মুগ্ধ হচ্ছি, তার অনেকটাই হয়তো পুরনো কাজের চতুর সংস্করণ। অ্যাকাডেমিক জগতে বা গবেষণার দুনিয়ায় এটা একটা বিশাল চ্যালেঞ্জ। এখন শুধু লেখা চুরি নয়, 'আইডিয়া' চুরি হচ্ছে কিনা, সেটা ধরার জন্য আমাদের নতুন করে ভাবতে হবে। সফটওয়্যার দিয়ে আর কাজ হচ্ছে না, মানুষের গভীর বিশ্লেষণ আর ওই 'চোর ধরার' মানসিকতাটাই আসল।

All That Glitters is Not Novel: Plagiarism in AI Generated Research

Table of Contents

Share this article

Written by Sakhawat Adib

References

All That Glitters is Not Novel: Plagiarism in {AI} Generated Research

AI মডেল কি গল্প লেখার প্রতিযোগিতায় মানুষ কে হারিয়ে দিতে পারবে? - "Measuring Psychological Depth in Language Models" - EMNLP 2024

জিপিটি ফোর কি একজন সাংবাদিকের মতো চিন্তা করতে পারে? EMNLP Outstanding Paper 2024

AI আমাদের বলা শব্দগুলোকে আলাদাভাবে চিনবে কেমন করে? - Tokenization in NLP

গবেষণাপত্র পড়ব কিভাবে ?

আর্টিফিসিয়াল ইন্টেলিজেন্স কি কৌতুহলী হতে পারে?