AlgorithmData structures

ডাটা স্ট্রাকচারঃ ট্রাই ট্রি (Trie tree) / প্রিফিক্স ট্রি / রেডিক্স ট্রি

Trie tree Bangla tutorial.

ট্রাই ট্রি (Trie tree) ব্যবহার করে আমরা মেমোরি তে কোন স্ট্রিং কে সার্চ করতে পারি। ধরেন আপনাকে একটা সফটওয়্যার তৈরি করতে হবে। যেখানে আপনাকে প্রতিবার একেকটি ওয়ার্ড কে আগে থেকেই মেমোরিতে থাকা ডিকশনারি তে চেক করে দেখতে হবে যে শব্দটির বানান ঠিক আছে কি না। এর একটা সমাধান হতে পারে যে, আমরা আমাদের ডিকশনারি (অ্যারে) কে আগেই সর্ট করে রাখবো। তারপর প্রতিবার শব্দ নিয়ে বাইনারি সার্চ করে দেখবো শব্দ টি আমাদের ডিকশনারি বা অ্যারে তে আছে কি না। থাকলে ওকে না থাকলে নাই। এই সমস্যাটিকে আমরা আবার ডাটা স্ট্রাকচারের ট্রাই ট্রি / প্রিফিক্স ট্রি / রেডিক্স ট্রি দিয়েও সমাধান করতে পারি।

কেনো ট্রাই ট্রি (Trie tree)  ব্যবহার করবো?

ট্রাই ট্রি আমরা ব্যবহার কেনো করবো? আমাদের ডিকশনারি থেকে আমরা কিন্তু std::set<string> এবং hash table দিয়েও শব্দ খুজে বের করতে পারি। তবে কেন আমরা ট্রাই ব্যাবহার করবো?

  • ট্রাই O(L) সময় এ insert এবং search করতে পারে, set এবং hash tables এর থেকে দ্রুত।
  • set এবং hash tables শুধু পুরোপুরি মিলে যায় এমন শব্দ খুজতে পারে। কিন্তু ট্রাই ট্রি দ্বারা আমরা সাধারণ প্রিফিক্স, সিঙ্গেল ক্যারেক্টার মিসিং এমন শব্দ গুলোও খুজে বের করতে পারি।

ট্রাই (Trie) শব্দটি এসেছে ইংরেজি “retrieval” থেকে। কারন ট্রাই শুধু প্রিফিক্স ব্যাবহার করেই ডিকশনারি থেকে শব্দ খুজতে পারে। যদিও এর (trie) উচ্চারন অনেকটা ট্রি এর মতন। তবুও যেহেতু ট্রি শব্দটি বহুল ব্যবহৃত তাই একে ট্রাই ই বলা হয়। ট্রাই ট্রি নিয়ে পড়ার আগে লিঙ্কড লিস্ট নিয়ে ধারনা থাকলে উপকার পাবেন। ট্রাই ট্রি এর বৈশিষ্ট্য গুলো হলোঃ

  1. ট্রাই ট্রি এর প্রত্যেকটা নোড কোনও না কোনও শব্দের শেষ অথবা প্রিফিক্স।
  2. রুট নোড একটি খালি স্ট্রিংকে নির্দেশ করে।

ধরেন আপনাকে নিচের মত কিছু শব্দ দেয়া হলো

  1. Bangali
  2. Bangla
  3. Love
  4. Lover
  5. Locker

এখন আমাদের টার্গেট হলো এই পাঁচটি শব্দ কে এমন ভাবে মেমোরি তে রাখা যাতে খুব সহজেই খুজে পেতে পারি। প্রথমেই চিত্রের মাধ্যমে কিছু উপস্থাপন দেখা যাক।

Trie tree structure
শব্দ গুলোকে ট্রাই ট্রি তে সজ্জিত করলে এমন দেখাবে

প্রথমে শুধু আমাদের রুট নোড টি থাকবে। এই নোড টি আমাদের রেফারেন্স নোড হিসেবে কাজ করবে। আমরা আমাদের প্রতিটি প্রসেস এই নোড থেকেই শুর করব।

root node

বামে আমাদের রুট নোড টি দেখতে পাচ্ছেন। এই নোড থেকেই আমাদের সকল প্রসেস চালাতে হবে।

এই নোডের সাথে বাকি নোড গুলো আমরা লিঙ্ক করব। এখন আসেন আমরা আমাদের রুট নোড এর সাথে Bangla শব্দটির ক্যারেক্টার গুলোকে লিঙ্ক করি।

Trie Bangla inserted

উপরের চিত্রে আমরা Bangla শব্দটির অক্ষর গুলোকে রুট নোড এর সাথে লিঙ্ক করে দিয়েছি। হলুদ নোড টি শব্দটির শেষ নির্দেশ করছে। এবার আমরা Bangali শব্দটি কে লিঙ্ক করব।

bangali inserted

এখানে লক্ষণীয় বিষয় হলো, আমরা কিন্তু নতুন শব্দটিকে পুনরায় রুট নোড থেকে আনিনি। পূর্বের Bangla এর g থেকে পরের গুলো শুধু রেখে দিয়েছি। কারণ আমরা দেখতে পাচ্ছি যে Bangla এবং Bangali এর মধ্যে Bang এইটুকু প্রিফিক্স সাধারণ অংশ। একই ভাবে,আমরা আমাদের বাকি অংশটুকু তৈরি করার চেষ্টা করব।

right side

এই অংশে আমরা ৩ টি শব্দ কে রেখেছি। হলুদ নোড গুলো এদের শেষ নির্দেশ করছে। শব্দ গুলো হলো, Love,Lover,Lock,Locker. দেখলেন আমরা কি সুন্দরভাবে ৩ টি শব্দকে রেখে দিলাম।

এখন আসেন আমরা আমাদের ট্রাই ট্রি টি ইমপ্লিমেন্ট করার চেস্টা করি


কোড এ ঝাপ দেয়ার আগে আমি এখানে কিছু কথা পরিষ্কার করে দিবো।

  1. প্রত্যেকটি নোডে একটি অ্যারে থাকবে child নামে যা ঐ নোড এর পয়েন্টার টাইপ এবং ৫২ সাইজ এর। কারন আমরা ইংরেজী Capital letter এবং Small letter উভয়টা নিয়েই কাজ করবো।
  2. উক্ত অ্যারেতে আমরা ইনডেক্স করবো নিচের ফাংশন ব্যবহার করে।

  3. আমরা জানি ‘z’-‘A’ = 57 কিন্তু ইংরেজীতে মোট বর্ন আছে ৫২ টি। ৫৭ আসছে কারন ‘a’-‘Z’=7। এখানে ৬ টি বাড়তি আছে। if(ch>='a') id-=6; এখানে আমরা বাড়তি গুলো বাদ দিয়েছি।
  4. Array টির প্রত্যেকটা ইনডেক্স কে NULL তে ইনিশিয়ালাইজ করা হবে।

শুরুতেই আমরা আমাদের নোড এর গঠনটি দেখে নেই।

এখানে আমরা দুইটা Variable নিয়েছি। একটি হলো bool endmark যা প্রথমে জিরো করা। এইটা ব্যাবহার করে আমরা কোন শব্দ শেষ হয়েছে কি না তা পরিক্ষা করবো। আরেকটি হলো node* child[52] = {NULL}; । এই অ্যারেটিতে আমাদের পরবর্তী চাইল্ড এর অ্যাড্রেস জমা রাখবো। বুঝিয়ে বলছি।

ধরেন আমরা Bangla শব্দটিকে ট্রাই এ insert করবো। তাহলে প্রথমে আমরা b এর জন্য রুট নোড এর child অ্যারের getId('B'); = 1 নং ইনডেক্স এ নতুন একটি নোড এর অ্যাড্রেস দিবো। একই ভাবে আমরা a insert করার সময়, b এর child অ্যারের getId('a') = 26 নং ইনডেক্স এ আরেকটা নোড এর অ্যাড্রেস রাখবো। একই ভাবে বাকি ক্যারেক্টার গুলোও আমরা রেখে দিবো। আশা করি বুঝা গেছে। না বুঝলে সমস্যা নেই। পরের টুকু তে ক্লিয়ার হয়ে যাবে।

শুরুতেই আমরা আমাদের রুট নোডটি তৈরি করে নিবো।

ট্রাই ট্রি (trie tree) তে কোনও শব্দ ইনসার্ট করা

ট্রাই ট্রি তে শব্দ ইনসার্ট (insert) করা খুবই সহজ। আগেই বলেছিলাম আমরা রুট নোড নিজে একটি খালি স্ট্রিং কে উপস্থাপন করবে। আমরা আমাদের কোডটিতে একবার চোখ বুলিয়ে আসি

আমরা উপরের কোডটি দেখি। ২ নং লাইন এ আমরা একটি ভ্যারিয়েবল নিয়েছি crnt নামে। এখানে আমরা বর্তমান নোড হিসেবে রুট নোড কে দিয়ে দিয়েছি। ৩ নং লাইন এ আমরা স্ট্রিং এর ক্যারেক্টার গুলোর উপর লুপ ঘুরিয়েছি।

৪নং লাইন int ascii = s[i]-'A'; এর মাধ্যমে আমরা আমাদের স্ট্রিং এর i তম ক্যারেক্টার s[i] এর জন্য বর্তমান নোড এর child অ্যারের কত তম ইনডেক্স এ তার ভ্যারিয়াবল রাখতে হবে তা বের করেছি এবং মানটি id তে রেখেছি। ৫ নং লাইনে দেখা হয়েছে ঐ ইনডেক্স এ আগেই কোনও নোড অ্যাড্রেস রাখা ছিল কি না। না থাকলে একটি অ্যাড্রেস রেখে দিবো (লাইন ৬) । ৭ নং লাইন এ ঐ অ্যাড্রেস টি কে বর্তমান অ্যাড্রেস করে দিবো crnt এর মাধ্যমে। ৯ নং লাইন টি execute হবে স্ট্রিং টিতে লুপিং শেষ হয়ে গেলে। তখন আমরা বর্তমান নোড এর crnt->endmark=1; করে দিয়ে বুঝাবো এই অ্যাড্রেস এর নোডটিতে একটি শব্দ শেষ হয়েছে।

ট্রাই ট্রি তে শব্দ সার্চ করা

এখন আমরা দেখবো ট্রাই ট্রি (trie tree) তে কিভাবে শব্দ সার্চ করতে হয়। এইটা অনেকটা ইনসার্ট করার মতই। একটু পার্থক্য আছে। চলুন কোড টি দেখি।

প্রথমে আমরা আগের মতই স্ট্রিং এর উপর লুপ চালিয়েছি এবং কততম ইনডেক্স এ i তম ক্যারেক্টার এর জন্য নোড টি আছে তা ৪ নং লাইন এ হিসাব করেছি। ৫ নং লাইন এ দেখেছি যে ইনডেক্স এ নোড টি থাকার কথা সেখানে আসলেই কোনও নোড আছে কি না। না থাকার মানে হলো আমাদের বর্তমান ক্যারেক্টার টি আমরা ফেলে আসা প্রিফিক্স এর নিচে রাখি নি। সুতরাং false রিটার্ন করে দিবো। না হলে ৭ নং লাইন এ আমরা ঐ নোড টি কে ভিজিট করবো।

এবার আসি সবার শেষের লাইন এ। এখানে আমরা currentNode->endmark; রিটার্ন করেছি।কারন আমাদের দুইটি শব্দের সাধারন প্রিফিক্স থাকতেই পারে। তাই আমাদের চেক করে দেখতে হয় এখানে কোন শব্দের শেষ হয়েসে কি না। উদাহরণ হসেবে আমরা love আর lover কে নিতে পারি। love এবং lover এ সাধারণ প্রিফিক্স হলো love। কিন্তু যদি আমরা love কে insert না করে, lover কে করতাম এবং search() এর মাধ্যমে love খুজতাম? তখন কিন্তু স্ট্রিং এর উপর লুপ চলাকালীন false রিটার্ন হতো না। কিন্তু যেহেতু আমরা love রাখিনি তাই অবশ্যই false দেয়ার কথা। এই কাজটিই আমরা return currentNode->endmark; এর মধ্যমে করি। যদি এখানে কনোও শব্দের শেষ হয় তবে অবশ্যই endmark এর মান ১ থাকবে।

এখন আসেন আমরা আমাদের সম্পূর্ণ কোড দেখে নিই

ট্রাই ট্রি এই টাইম কমপ্লেক্সিটি এবং স্পেস কমপ্লেক্সিটি

ট্রাই ট্রি তে insert এবং search করতে O(L) টাইম লাগে। এখানে L হলো স্ট্রিং এর length। কিন্তু ট্রাই ট্রি এর মেমরি কতখানি লাগবে তা ডিপেন্ড করে ইমপ্লিমেন্টেশন এবং শব্দ গুলোর প্রিফিক্স কতখানি ম্যাচ করে তার উপর।

ট্রাই ট্রি এর ব্যাবহার

  1. ডিকশনারিতে যদি একটি শব্দ খুজতে হয় তখন
  2. মোবাইল ফোন এর নাম্বার এর সাজেশন দেয়ার জন্য
  3. ডিকশনারি তে অনেক গুলো শব্দ থাকে। যদি আমাদের দেখতে হয় একটি শব্দ কয়বার প্রিফিক্স হিসেবে এসেছে।
  4. “Longest common prefix” বের করতে হলে।

কিছু প্রবলেম

আরও পরুন

‌প্রোগ্রা‌মিং: সে‌গমেন্ট ট্রি ডাটা স্ট্রাকচার। রেন্জ কু‌য়ে‌রি: যোগফল

ডাটা স্ট্রাকচার: সেগ‌মেন্ট ট্রি লে‌জি প্রপাগেশন।

ট্রাই (প্রিফিক্স ট্রি/রেডিক্স ট্রি)

মুটামুটি এই ছিলো আমাদের ট্রাই ট্রি নিয়ে আজকের আলোচনা।কনো সমস্যা কমেন্ট এ জানাতে ভুলবেন না। কোড টি হাতে কলমে খাতায় ড্রয়িং করে করে করলে আরও সহজ লাগবে। হাপি কোডিং 🙂 ।

3 Comments

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button
%d bloggers like this: