এই অধ্যায়ের আলোচ্য সূচি: ১. চলকের প্রকারভেদ
২. রিগ্রেশন মডেলের প্রকারভেদ ৩. কোন মডেল কখন ব্যবহার করবেন?
ডেটা অ্যানালাইসিসের জগতে যখন প্রথম পা রাখবেন, তখন হয়তো একটু দিশেহারা লাগতে পারে। অসংখ্য তথ্য আর সংখ্যা দেখে মনে হতে পারে, “এগুলো দিয়ে আমি কী করব? কোন পথটা ধরলে আসল উত্তর খুঁজে পাব?” চিন্তা নেই! এই অধ্যায়ে আমরা ডেটা অ্যানালাইসিসের দুটো খুব জরুরি জিনিস—ভেরিয়েবল (Variable) আর রিগ্রেশন মডেল (Regression Model)—খুব সহজ করে বুঝে নেব। এটা এমনভাবে বোঝাব, যেন আপনার একজন বন্ধু আপনাকে পাশে বসিয়ে ধাপে ধাপে সবকিছু বুঝিয়ে দিচ্ছে।
১. ভেরিয়েবল (Variable) কী জিনিস? চলেন একটা গল্প শুনি!
প্রথমে আসি ভেরিয়েবল (Variable)-এর কথায়। ভেরিয়েবল মানে হলো এমন কোনো কিছু যা পরিবর্তনশীল (changeable)। এর মান একরকম থাকে না, পরিস্থিতি অনুযায়ী পাল্টাতে পারে।
উদাহরণস্বরূপ, ধরুন আপনার বয়স (Age)। এটা তো আর সব সময় একই থাকে না, তাই না? প্রতি বছর এটা বাড়ে। আবার, আপনার লিঙ্গ (Gender) (পুরুষ বা মহিলা) এটাও একটা ভেরিয়েবল। অথবা ধরুন, আপনার পছন্দের খাবার (Favorite Food)—এটাও একেকজনের কাছে একেকরকম হতে পারে।
আমরা যখন কোনো গবেষণা করি, তখন আসলে এই বদলাতে থাকা জিনিসগুলোর (ভেরিয়েবল) মধ্যেই লুকিয়ে থাকা সম্পর্কগুলো খুঁজে বের করার চেষ্টা করি। ভেরিয়েবল ছাড়া তো ডেটা (Data) নিয়ে কাজই শুরু করা যায় না! এরা ডেটা জোগাড় করতে, সেগুলোকে গুছিয়ে রাখতে এবং তাদের ভেতরের মজার মজার সম্পর্কগুলো বের করতে আমাদের দারুণভাবে সাহায্য করে। যেমন, একটি জাপানিজ কোম্পানি তার কোয়ালিটি কন্ট্রোল (Quality Control) ডেটা বিশ্লেষণে ভেরিয়েবল ব্যবহার করে, যেখানে পণ্যের ত্রুটির সংখ্যা একটি ভেরিয়েবল।
২. ভেরিয়েবল (Variable) কত রকম হয়? চেনেন তো এদের?
ভেরিয়েবলদের আমরা তাদের স্বভাব অনুযায়ী প্রধানত দুটো বড় দলে ভাগ করতে পারি: সংখ্যাসূচক ভেরিয়েবল (Numerical Variables) আর শ্রেণীগত ভেরিয়েবল (Categorical Variables)। এই ভাগগুলো বোঝা খুব জরুরি, কারণ আপনি কোন ধরনের ভেরিয়েবল নিয়ে কাজ করছেন তার ওপর নির্ভর করবে আপনি ডেটা থেকে কী ধরনের উত্তর বের করতে পারবেন।
২.১. সংখ্যাসূচক ভেরিয়েবল (Numerical Variables)
এই ভেরিয়েবলগুলো সংখ্যা দিয়ে মাপা যায়। যেমন, তাপমাত্রা বা ওজন। এদের আবার দুটো মজার ধরন আছে:
২.১.১. ডিসক্রিট নিউমেরিক্যাল ভেরিয়েবল (Discrete Numerical Variables):
কী? এগুলো হলো সেইসব ভেরিয়েবল যাদের মান শুধু পূর্ণসংখ্যা হয়। মানে, আপনি এদেরকে গুনতে পারবেন (countable), কিন্তু ভাঙা সংখ্যা (দশমিক বা decimal) আসবে না।
উদাহরণ: আপনার পরিবারে কতজন সদস্য সংখ্যা (Number of Family Members) (২ জন, ৩ জন), আপনার ঘরে কয়টা জানালা (Number of Windows) আছে (৪টা), বা একটি নির্দিষ্ট দিনে হাসপাতালে কয়জন রোগী ভর্তি হয়েছে (Number of Patients Admitted)। আপনি তো আর বলতে পারবেন না, আমার ২.৫ জন সদস্য আছে, তাই না? এগুলোতে কোনো ভাঙা সংখ্যা আসে না।
কেন দরকারি? এগুলো কোনো কিছুর সঠিক সংখ্যা বা পরিমাণ বোঝায়।
২.১.২. কন্টিনিউয়াস নিউমেরিক্যাল ভেরিয়েবল (Continuous Numerical Variables):
কী? এই ভেরিয়েবলগুলোর মান একটি নির্দিষ্ট সীমার মধ্যে যেকোনো কিছু হতে পারে, এমনকি দশমিক মানও। এগুলোকে গণনা করা হয় না, বরং পরিমাপ করা হয় (measurable)।
উদাহরণ: আপনার উচ্চতা (Height) (৫.৭ ফিট), আপনার ওজন (Weight) (৬৮.২ কেজি), তাপমাত্রা (Temperature) (৩০.৫ ডিগ্রি সেলসিয়াস), বা কোনো কাজ শেষ করতে কত সময় (Time Taken) লাগল (২.৩ ঘণ্টা)। জাপানের টোকিওর দৈনিক তাপমাত্রা (Tokyo Daily Temperature) একটি কন্টিনিউয়াস নিউমেরিক্যাল ভেরিয়েবল।
কেন দরকারি? এগুলো নিখুঁত পরিমাপ প্রদান করে এবং ডেটার ছোট ছোট পার্থক্যও ধরতে সাহায্য করে।
২.২. শ্রেণীগত ভেরিয়েবল (Categorical Variables)
এই ভেরিয়েবলগুলো সংখ্যা দিয়ে প্রকাশ করা যায় না, বরং এদেরকে বিভিন্ন দল বা ভাগে ভাগ করা হয়। যেমন, আপনার লিঙ্গ বা রক্তের গ্রুপ। এদেরও কয়েকটা ধরন আছে:
২.২.১. নমিনাল ভেরিয়েবল (Nominal Variables):
কী? এই ভেরিয়েবলগুলোর বিভিন্ন দলের মধ্যে কোনো ছোট-বড় সম্পর্ক বা ক্রম (order) নেই। শুধু তাদের নামের পার্থক্য (different names) আছে।
উদাহরণ: আপনার লিঙ্গ (Gender) (পুরুষ/মহিলা), আপনার রক্তের গ্রুপ (Blood Group) (A, B, AB, O), বা আপনি কোন ধর্ম (Religion) পালন করেন (ইসলাম, হিন্দু, খ্রিস্টান)। আপনি তো আর বলতে পারবেন না পুরুষ মহিলার চেয়ে বড় বা ছোট, তাই না? জাপানের বিভিন্ন শহরের নাম (Names of Japanese Cities) একটি নমিনাল ভেরিয়েবল।
কেন দরকারি? এগুলো ডেটাকে বিভিন্ন অর্থপূর্ণ গ্রুপে ভাগ করতে সাহায্য করে, কিন্তু এই গ্রুপগুলোর মধ্যে কোনো স্বাভাবিক অর্ডার (natural order) থাকে না।
.২.২. অর্ডিনাল ভেরিয়েবল (Ordinal Variables):
কী? এই ভেরিয়েবলগুলোর দলের মধ্যে একটি নির্দিষ্ট ক্রম বা র্যাঙ্ক (rank) থাকে। মানে, আপনি বলতে পারবেন কোনটি বেশি বা কোনটি কম, কিন্তু তাদের মধ্যে পরিমাণের পার্থক্য (difference in quantity) সমান নাও হতে পারে।
উদাহরণ: আপনার শিক্ষাগত যোগ্যতা (Educational Qualification) (প্রাথমিক, মাধ্যমিক, উচ্চশিক্ষা)। এখানে একটি ক্রম আছে: প্রাথমিক শিক্ষার চেয়ে মাধ্যমিক শিক্ষা বেশি, আর মাধ্যমিকের চেয়ে উচ্চশিক্ষা বেশি। কিন্তু প্রাথমিক থেকে মাধ্যমিক-এর যে পার্থক্য, তা মাধ্যমিক থেকে উচ্চশিক্ষা-এর পার্থক্যের সমান নাও হতে পারে। আরেকটি উদাহরণ: আপনি কোনো খাবার খেয়ে কতটা সন্তুষ্ট (Satisfaction Level) (খুব অসন্তুষ্ট, অসন্তুষ্ট, নিরপেক্ষ, সন্তুষ্ট, খুব সন্তুষ্ট)।
কেন দরকারি? এই ভেরিয়েবলগুলো ডেটাকে একটি অর্থপূর্ণ ক্রমে সাজাতে এবং একটি নির্দিষ্ট স্তরের পার্থক্য বোঝাতে সাহায্য করে।
২.২.৩. বাইনারি ভেরিয়েবল (Binary Variables / Dichotomous Variables):
কী? এটি শ্রেণীগত ভেরিয়েবলেরই একটি বিশেষ ধরন, যেখানে শুধু দুটো সম্ভাব্য ফলাফল (two possible outcomes) থাকে। প্রায়শই এই ফলাফলগুলোকে ০ আর ১ দিয়ে বোঝানো হয়।
উদাহরণ: আপনি পরীক্ষায় পাস (Pass) করেছেন না ফেল (Fail) করেছেন, আপনি একটি নির্দিষ্ট রোগের রোগী (Patient) না সুস্থ (Healthy), কোনো কাজ হ্যাঁ (Yes) না না (No)। যেমন, একটি জাপানিজ গাড়িতে 'এয়ারব্যাগ আছে/নেই' (Airbag: Yes/No) একটি বাইনারি ভেরিয়েবল।
কেন দরকারি? যখন দুটো বিকল্পের মধ্যে সিদ্ধান্ত নিতে হয় বা কোনো ঘটনার ঘটার সম্ভাবনা (probability) বুঝতে হয়, তখন এই ভেরিয়েবলগুলো দারুণ কাজের।
যদি কোনো শ্রেণীগত ভেরিয়েবলের দুইটার বেশি বিভাগ থাকে এবং তাদের মধ্যে কোনো ক্রম না থাকে (যেমন: গাড়ির রঙ - লাল, নীল, সবুজ), তাহলে তাকে নন-বাইনারি ভেরিয়েবল (Non-Binary Variables) বলা হয়।
৩. রিগ্রেশন মডেল (Regression Model) কী? আপনার ডেটা গল্পের 'প্লাট'!
ভেরিয়েবল কী বুঝলাম, এখন আসি রিগ্রেশন মডেল (Regression Model)-এর কথায়। এটা হলো পরিসংখ্যানের এমন এক শক্তিশালী টুল (tool) যা আপনাকে দুটো বা তার বেশি ভেরিয়েবলের মধ্যে সম্পর্ক খুঁজে বের করতে সাহায্য করে। সহজ করে বললে, এটা আপনাকে দেখায় যে একটি চরিত্র (যাকে আমরা ডিপেন্ডেন্ট ভেরিয়েবল - Dependent Variable বলি) কীভাবে অন্য এক বা একাধিক চরিত্রের (যাদেরকে আমরা ইনডিপেন্ডেন্ট ভেরিয়েবল - Independent Variable বলি) কারণে প্রভাবিত হয়। এই মডেল ব্যবহার করে আমরা কোনো কিছুর ভবিষ্যদ্বাণীও (prediction) করতে পারি।
৩.১. ডিপেন্ডেন্ট ভেরিয়েবল (Dependent Variable): এটা হলো সেই ভেরিয়েবল যার ফলাফল আমরা জানতে চাই বা যার ভবিষ্যদ্বাণী করতে চাই। এর মান ইনডিপেন্ডেন্ট ভেরিয়েবলের পরিবর্তনের ওপর নির্ভর করে। যেমন, আপনি যদি 'পরীক্ষার রেজাল্টের' উপর 'পড়ার সময়ের' প্রভাব দেখতে চান, তাহলে 'পরীক্ষার রেজাল্ট' হলো ডিপেন্ডেন্ট ভেরিয়েবল। এটা আপনার গবেষণার মূল 'ফলাফল' (outcome)।
৩.২. ইনডিপেন্ডেন্ট ভেরিয়েবল (Independent Variable): এটা সেই ভেরিয়েবল যা ডিপেন্ডেন্ট ভেরিয়েবলের মানকে প্রভাবিত করে। এটি 'কারণ' (cause) হিসেবে কাজ করে। উপরের উদাহরণে, 'পড়ার সময়' হলো ইনডিপেন্ডেন্ট ভেরিয়েবল। এটা সেই ভেরিয়েবল যা আমরা পরীক্ষা করে দেখি ডিপেন্ডেন্ট ভেরিয়েবলের উপর তার কী প্রভাব আছে।
রিগ্রেশন মডেলগুলো কেন দরকারি জানেন? কারণ এরা আপনাকে ভেরিয়েবলগুলোর মধ্যে সম্পর্ক কেমন (পজিটিভ নাকি নেগেটিভ, স্ট্রং নাকি উইক) তা বুঝতে সাহায্য করে। আর এরা ভবিষ্যদ্বাণীও করতে পারে! যেমন, গত কয়েক বছরের বিক্রি ডেটা ব্যবহার করে আগামী মাসের বিক্রি কত হতে পারে, তার ভবিষ্যদ্বাণী করা যায়। ব্যবসা থেকে শুরু করে চিকিৎসা—সবখানে এরা দারুণভাবে কাজে লাগে। এমনকি জাপানের একটি কারখানায় কাইজেন (Kaizen) পদ্ধতিতে উৎপাদনশীলতা (productivity) বাড়াতেও রিগ্রেশন মডেল ব্যবহার করা যেতে পারে।
৪. বিভিন্ন ধরনের রিগ্রেশন মডেল (Regression Model): কখন কাকে ডাকবেন?
রিগ্রেশন মডেল বেছে নেওয়ার আসল টিপস হলো আপনার ডিপেন্ডেন্ট ভেরিয়েবল (Dependent Variable) টা কোন ধরনের তা দেখা। আপনার ডিপেন্ডেন্ট ভেরিয়েবলের স্বভাব অনুযায়ীই আপনি সঠিক মডেল বেছে নেবেন। চলুন, একে একে দেখে নিই কোন পরিস্থিতিতে কোন মডেল ব্যবহার করবেন:
৪.১. সিম্পল লিনিয়ার রিগ্রেশন (Simple Linear Regression)
কখন ব্যবহার করবেন?
যদি আপনার ডিপেন্ডেন্ট ভেরিয়েবলটা একটি সংখ্যাসূচক ভেরিয়েবল (Numerical Variable) হয় (যেমন: আপনার মাসিক আয়, বা কোনো দেশের জিডিপি)।
এবং আপনার মাত্র একটি ইনডিপেন্ডেন্ট ভেরিয়েবল (Independent Variable) থাকে, যেটা নিজেও সংখ্যাসূচক (যেমন: আপনার শিক্ষাগত বছর বা বয়স)।
আর আপনার অনুমান থাকে যে, এই দুটো ভেরিয়েবলের মধ্যে একটি সরাসরি সরলরেখার মতো সম্পর্ক (Linear Relationship) আছে।
'সরলরেখার মতো সম্পর্ক' মানে কী?
ভাবুন তো, আপনার একটি আইসক্রিমের দোকান আছে। আপনি লক্ষ্য করেছেন যে, যেদিন তাপমাত্রা বেশি থাকে, সেদিন আপনার দোকানে আইসক্রিম বিক্রিও বেশি হয়, আর লাভও বেশি হয়। আবার, যেদিন তাপমাত্রা কম থাকে, সেদিন বিক্রিও কম হয়।
এখানে 'দিনের তাপমাত্রা' হলো ইনডিপেন্ডেন্ট ভেরিয়েবল, আর 'আইসক্রিম বিক্রির লাভ' হলো ডিপেন্ডেন্ট ভেরিয়েবল।
যদি এই দুজনের সম্পর্কটা সরলরেখার মতো হয়, তাহলে ব্যাপারটা এমন হবে: তাপমাত্রা ১ ডিগ্রি সেলসিয়াস বাড়লে আপনার লাভ বাড়ে ১০০ টাকা। তাহলে ২ ডিগ্রি বাড়লে বাড়বে ২০০ টাকা, ৩ ডিগ্রি বাড়লে ৩০০ টাকা। দেখছেন? তাপমাত্রা যত বাড়ছে, লাভ ঠিক একই হারে (প্রতি ডিগ্রিতে ১০০ টাকা করে) বাড়ছে। এই সম্পর্কটাকে যদি আপনি একটি গ্রাফে (Graph) আঁকেন, তাহলে ডেটা পয়েন্টগুলো মিলে একটি সোজা লাইন (Straight Line) তৈরি করবে। এটাই হলো 'সরলরেখার মতো সম্পর্ক'।
যদি সম্পর্কটা এমন হতো যে, তাপমাত্রা অনেক বেশি বেড়ে গেলে আর তেমন লাভ বাড়ে না, বরং একটু কমে যায় (কারণ অতিরিক্ত গরমে মানুষ আর বেরই হতে চায় না), তাহলে কিন্তু সেটা আর সরলরেখা হতো না, একটি বাঁকা রেখা দেখা যেত। সেটাকে আমরা বলি নন-লিনিয়ার (Non-linear) সম্পর্ক।
কেন দরকারি? এই মডেলটা দুটো সংখ্যাসূচক ভেরিয়েবলের মধ্যে সবচেয়ে ভালো 'সরলরেখা'টা এঁকে তাদের সম্পর্ক বোঝায়। এটা বোঝা এবং এর ফলাফল ব্যাখ্যা করা খুবই সহজ।
কাঠামো ও ফর্মুলা:
আমরা এভাবে লিখি: Y = B0 + B1*X + Error
এখানে:
Y হলো ডিপেন্ডেন্ট ভেরিয়েবল (যা আমরা ভবিষ্যদ্বাণী করতে চাই)।
X হলো ইনডিপেন্ডেন্ট ভেরিয়েবল।
B0 হলো Y-ইন্টারসেপ্ট (যখন X শূন্য, তখন Y-এর একটি আনুমানিক মান)।
B1 হলো ইনডিপেন্ডেন্ট ভেরিয়েবলের সহগ (coefficient), যা দেখায় X-এর প্রতি একক পরিবর্তনের জন্য Y-এর কতটুকু পরিবর্তন হবে।
Error হলো ত্রুটি বা মডেলের ব্যাখ্যা করতে না পারা অংশ।
৪.২. মাল্টিপল লিনিয়ার রিগ্রেশন (Multiple Linear Regression)
কখন ব্যবহার করবেন?
যদি আপনার ডিপেন্ডেন্ট ভেরিয়েবলটা একটি সংখ্যাসূচক ভেরিয়েবল (Numerical Variable) হয় (যেমন: বাড়ির দাম)।
কিন্তু আপনার একাধিক ইনডিপেন্ডেন্ট ভেরিয়েবল (Multiple Independent Variables) থাকে (যেমন: বাড়ির আকার, ঘরের সংখ্যা, এলাকার স্কুল)। এই ইনডিপেন্ডেন্ট ভেরিয়েবলগুলো সংখ্যাসূচক বা বাইনারি (যেমন, গ্যারেজ আছে/নেই) হতে পারে।
আপনি ধরে নেন যে, এই ইনডিপেন্ডেন্ট ভেরিয়েবলগুলোর সাথে ডিপেন্ডেন্ট ভেরিয়েবলের রৈখিক সম্পর্ক আছে।
কেন দরকারি? বাস্তব জীবনে তো একটি জিনিস শুধু একটি কারণে হয় না, তাই না? যেমন, একটি বাড়ির দাম শুধু তার আকারেই নির্ভর করে না, আরও অনেক কিছুতে নির্ভর করে। এই মডেলটা আপনাকে একই সাথে অনেকগুলো ইনডিপেন্ডেন্ট ভেরিয়েবলের প্রভাব বিশ্লেষণ করতে সাহায্য করে। এটা দেখায় যে, অন্যান্য কারণগুলো একই রেখে একটি নির্দিষ্ট ইনডিপেন্ডেন্ট ভেরিয়েবল কীভাবে ডিপেন্ডেন্ট ভেরিয়েবলকে প্রভাবিত করে।
কাঠামো ও ফর্মুলা:
একাধিক ভেরিয়েবলের জন্য ফর্মুলাটা একটু বড় হয়: Y = B0 + B1*X1 + B2*X2 + ... + Bk*Xk + Error
এখানে:
Y হলো ডিপেন্ডেন্ট ভেরিয়েবল।
X1, X2, ..., Xk হলো বিভিন্ন ইনডিপেন্ডেন্ট ভেরিয়েবল।
B0 হলো Y-ইন্টারসেপ্ট।
B1, B2, ..., Bk হলো প্রতিটি ইনডিপেন্ডেন্ট ভেরিয়েবলের জন্য সহগ (coefficients), যা তাদের প্রভাব বোঝায়।
Error হলো ত্রুটি পদ।
৪.৩. লজিস্টিক রিগ্রেশন (Logistic Regression)
কখন ব্যবহার করবেন?
যদি আপনার ডিপেন্ডেন্ট ভেরিয়েবলটা বাইনারি (Binary) হয় (যেমন: কোনো রোগী সুস্থ হবে নাকি অসুস্থ থাকবে, কোনো কাস্টমার পণ্যটা কিনবে নাকি কিনবে না, আপনি নির্বাচনে জিতবেন নাকি হারবেন)।
আপনার এক বা একাধিক ইনডিপেন্ডেন্ট ভেরিয়েবল থাকতে পারে।
কেন দরকারি? সাধারণ লিনিয়ার রিগ্রেশন এখানে কাজ করে না, কারণ সেটা ০ থেকে ১-এর বাইরেও মান ভবিষ্যদ্বাণী করতে পারে, যা সম্ভাবনার ক্ষেত্রে ঠিক নয়। লজিস্টিক রিগ্রেশন আপনাকে একটি ঘটনার ঘটার সম্ভাবনা (probability) কতটুকু, তা বের করে দেয়, যা সবসময় ০ থেকে ১-এর মধ্যেই থাকে। এটা সাধারণত কোনো ঘটনা 'ঘটবে' বা 'ঘটবে না'—এই ধরনের প্রশ্নগুলোর উত্তর দিতে সাহায্য করে।
কাঠামো ও ফর্মুলা:
লজিস্টিক রিগ্রেশন সরাসরি সম্ভাবনা (Y) ভবিষ্যদ্বাণী না করে, একটি ঘটনার ঘটার লগ-অডস (log-odds) ভবিষ্যদ্বাণী করে। এর ফর্মুলা এরকম: ln(p/(1-p)) = B0 + B1*X1 + ... + Bk*Xk
এখানে:
p হলো ঘটনাটি ঘটার সম্ভাবনা।
ln(p/(1-p)) মানে হলো লগ-অডস।
বাকি B0, B1*X1 ইত্যাদি আগের মতোই।
৪.৪. অর্ডিনাল লজিস্টিক রিগ্রেশন (Ordinal Logistic Regression)
কখন ব্যবহার করবেন?
যদি আপনার ডিপেন্ডেন্ট ভেরিয়েবলটা ক্রমবাচক (Ordinal Categorical) হয় (যেমন: কোনো ফিল্ম দেখে আপনার রেটিং - 'খুব খারাপ', 'সাধারণ', 'ভালো'; বা কোনো রেস্টুরেন্টের সার্ভিস - 'কম', 'মাঝারি', 'অনেক')।
আপনার এক বা একাধিক ইনডিপেন্ডেন্ট ভেরিয়েবল থাকতে পারে।
কেন দরকারি? এটি লজিস্টিক রিগ্রেশনেরই একটি বিশেষ সংস্করণ যা ক্রমবাচক ডেটার জন্য বিশেষভাবে তৈরি। এটা ডেটার ভেতরের ক্রমকে সম্মান করে এবং সেই অনুযায়ী ফলাফল বিশ্লেষণ করে। এটা আপনাকে দেখায় যে কীভাবে ইনডিপেন্ডেন্ট ভেরিয়েবলগুলো ক্রমবাচক ফলাফলের বিভিন্ন স্তরের ওপর প্রভাব ফেলে।
৪.৫. মাল্টিনোমিয়াল লজিস্টিক রিগ্রেশন (Multinomial Logistic Regression)
কখন ব্যবহার করবেন?
যদি আপনার ডিপেন্ডেন্ট ভেরিয়েবলটা নামমাত্র (Nominal Categorical) হয় এবং এর দুইটার বেশি ভাগ থাকে (যেমন: আপনার পছন্দের রঙ - লাল, নীল, সবুজ; বা আপনি কোন মাধ্যমে যাতায়াত করেন - বাস, ট্রেন, প্রাইভেট কার)।
আপনার এক বা একাধিক ইনডিপেন্ডেন্ট ভেরিয়েবল থাকতে পারে।
কেন দরকারি? যখন আপনার ডিপেন্ডেন্ট ভেরিয়েবলের একাধিক শ্রেণী থাকে এবং তাদের মধ্যে কোনো নির্দিষ্ট ক্রম থাকে না, তখন এই মডেলটা প্রতিটি শ্রেণীর তুলনামূলক সম্ভাবনা অনুমান করতে সাহায্য করে। এটা একটি 'বেসলাইন' শ্রেণীর সাপেক্ষে প্রতিটি অন্য শ্রেণীর সম্ভাবনা তুলনা করে।
৪.৬. নন-লিনিয়ার রিগ্রেশন (Non-linear Regression)
কখন ব্যবহার করবেন?
যদি আপনার ডিপেন্ডেন্ট ভেরিয়েবলটা সংখ্যাসূচক (Numerical) হয়।
কিন্তু আপনি নিশ্চিত যে, ডিপেন্ডেন্ট আর ইনডিপেন্ডেন্ট ভেরিয়েবলের মধ্যে সম্পর্কটা সরলরেখার মতো নয় (Non-linear Relationship), বরং একটি বাঁকা রেখার মতো।
কেন দরকারি? লিনিয়ার রিগ্রেশন শুধু সরলরেখার সম্পর্ক ধরতে পারে। কিন্তু অনেক সময় বাস্তব ডেটায় সম্পর্ক বক্ররেখামূলক হয় (যেমন, একটি নির্দিষ্ট বিন্দুর পর প্রভাব কমে যায় বা বেড়ে যায়)। নন-লিনিয়ার মডেলগুলো এই ধরনের জটিল বাঁকা সম্পর্ককে আরও ভালোভাবে ডেটার সাথে মেলাতে পারে।
৫. কিছু জরুরি কথা যা নতুনরা প্রায়ই ভুলে যায়
চলুন, ভেরিয়েবল আর রিগ্রেশন মডেলের আলোচনা তো হলো। এবার কিছু টুকিটাকি বিষয় নিয়ে কথা বলি, যেগুলো একজন নতুন গবেষক বা শিক্ষার্থী হিসেবে আপনার ডেটা অ্যানালাইসিসের সময় প্রায়ই মনে না-ও থাকতে পারে, কিন্তু এগুলো খুবই জরুরি।
৫.১. মডেলের অনুমান (Assumptions of the Model) - যেন ডেটা আর মডেলের বোঝাপড়া
আপনি যখন একটি রিগ্রেশন মডেল ব্যবহার করবেন, তখন সেই মডেলটার কিছু নিজস্ব শর্ত থাকে। এগুলোকে আমরা বলি 'অনুমান' বা অ্যাসাম্পশন (Assumptions)। অনেকটা এমন যে, আপনি যদি একটি নির্দিষ্ট ধরনের জুতো পরতে চান, তাহলে আপনার পা'টা ওই জুতোর মাপে হতে হবে, তাই না? রিগ্রেশন মডেলের ক্ষেত্রেও ডেটাকে কিছু নির্দিষ্ট শর্ত পূরণ করতে হয়।
যেমন: লিনিয়ার রিগ্রেশনের একটি বড় শর্ত হলো, ডেটার মধ্যে যেন একটি সরলরেখার সম্পর্ক থাকে। আবার, ডেটার এরর (Error) বা ভুলগুলো যেন এলোমেলো হয়, কোনো প্যাটার্ন (Pattern) না থাকে।
কেন জরুরি? যদি আপনার ডেটা এই শর্তগুলো পূরণ না করে, তাহলে মডেলের ফলাফলগুলো ভুল হতে পারে বা সেগুলো বিশ্বাসযোগ্য হবে না। তাই মডেল চালানোর আগে এই অনুমানগুলো পরীক্ষা করা খুব দরকারি। বিভিন্ন স্ট্যাটিস্টিক্যাল সফটওয়্যারে (Statistical Software) (যেমন, R, Python, SPSS) এগুলো পরীক্ষা করার জন্য টুল (Tool) আছে।
৫.২. আউটলায়ার্স (Outliers) - ডেটার মধ্যে লুকিয়ে থাকা 'অদ্ভুত' মান
আউটলায়ার্স (Outliers) হলো আপনার ডেটাসেটের এমন কিছু মান, যেগুলো বাকি সব মান থেকে বেশ আলাদা বা অস্বাভাবিক (abnormal)। ধরুন, ক্লাসের সব শিক্ষার্থীর বয়স ১৫-১৬ বছর, কিন্তু একজন শিক্ষার্থীর বয়স ৫০ বছর—এই ৫০ হলো একটি আউটলায়ার।
কেন জরুরি? এই অদ্ভুত মানগুলো আপনার রিগ্রেশন মডেলের ফলাফলকে মারাত্মকভাবে প্রভাবিত করতে পারে, এমনকি ভুল দিকেও নিয়ে যেতে পারে। মডেল চালানোর আগে এদের খুঁজে বের করা এবং প্রয়োজনে এদেরকে বাদ দেওয়া বা ঠিক করার ব্যবস্থা নেওয়া খুব জরুরি।
৫.৩. মাল্টিকোলিনিয়ারিটি (Multicollinearity) - ইনডিপেন্ডেন্ট ভেরিয়েবলদের 'বন্ধুত্ব' যখন সমস্যার কারণ হয়
এটা একটি মজার কিন্তু জটিল সমস্যা, যেটা মাল্টিপল লিনিয়ার রিগ্রেশনের ক্ষেত্রে বেশি দেখা যায়। ধরুন, আপনার কাছে দুটো ইনডিপেন্ডেন্ট ভেরিয়েবল আছে—'পড়ার সময়' আর 'পরীক্ষার আগের রাতে ঘুমের সময়'। এখন যদি দেখেন যে, যারা বেশি পড়ে, তারা আবার কম ঘুমায় (মানে, দুটো ভেরিয়েবল একে অপরের সাথে খুব বেশি সম্পর্কযুক্ত), তাহলে মডেলের জন্য আলাদাভাবে তাদের প্রভাব বোঝা কঠিন হয়ে যায়। এটাই হলো মাল্টিকোলিনিয়ারিটি (Multicollinearity)।
কেন জরুরি? মাল্টিকোলিনিয়ারিটি থাকলে আপনার মডেলের ফলাফলগুলো অস্থিতিশীল হতে পারে, অর্থাৎ ইনডিপেন্ডেন্ট ভেরিয়েবলগুলোর প্রভাব ঠিকভাবে বোঝা নাও যেতে পারে। এটা পরীক্ষা করার জন্য VIF (Variance Inflation Factor) নামে একটি পদ্ধতি আছে। যদি এই সমস্যা ধরা পড়ে, তাহলে হয়তো কিছু ইনডিপেন্ডেন্ট ভেরিয়েবল বাদ দিতে হতে পারে বা তাদের একত্রিত করতে হতে পারে।
৫.৪. মডেল ফিট (Model Fit) এবং গুডনেস-অফ-ফিট (Goodness-of-Fit) - আপনার মডেল কতটা ভালো কাজ করছে?
আপনি একটি মডেল বেছে নিলেন, ডেটা দিয়ে চালালেন। কিন্তু কীভাবে বুঝবেন যে আপনার মডেলটা ডেটাগুলোকে কতটা ভালোভাবে ব্যাখ্যা করতে পারছে? এখানেই আসে মডেল ফিট (Model Fit) আর গুডনেস-অফ-ফিট (Goodness-of-Fit)-এর ধারণা।
কীভাবে বুঝবেন? লিনিয়ার রিগ্রেশনের জন্য R-squared (আর-স্কয়ার্ড) নামে একটি মান আছে, যেটা দেখায় আপনার ইনডিপেন্ডেন্ট ভেরিয়েবলগুলো মিলে ডিপেন্ডেন্ট ভেরিয়েবলের পরিবর্তনের কত অংশ ব্যাখ্যা করতে পারছে। লজিস্টিক রিগ্রেশনের জন্য AIC (Akaike Information Criterion) বা BIC (Bayesian Information Criterion)-এর মতো কিছু টুল আছে, যা বিভিন্ন মডেলের মধ্যে তুলনা করতে সাহায্য করে।
কেন জরুরি? এই পরিমাপগুলো আপনাকে বলবে যে আপনার মডেলটা কতটা কার্যকর। একটি ভালো ফিট করা মডেলের ফলাফল সাধারণত বেশি বিশ্বাসযোগ্য হয়।
পরিশেষে, এই অধ্যায়ে বর্ণিত ধারণাগুলো আপনার ডেটা অ্যানালাইসিসের ভিত্তি তৈরি করবে। মনে রাখবেন, সঠিক মডেল নির্বাচন আপনার গবেষণার ফলাফলকে আরও বিশ্বাসযোগ্য এবং নির্ভুল করে তুলবে। ডেটা নিয়ে কাজ করতে গিয়ে নতুন কিছু শেখার এই যাত্রা আপনার জন্য ফলপ্রসূ হোক! এরপরও যদি আপনার কোনো নির্দিষ্ট ডেটা বা মডেল নিয়ে প্রশ্ন থাকে, তাহলে একজন অভিজ্ঞ পরিসংখ্যানবিদ বা আপনার শিক্ষকের সাথে আলোচনা করতে দ্বিধা করবেন না।
0 Comments