نمودار Correlation Plot در Power BI

در دنیای کسب و کار گاهی اوقات نیاز است که رابطه بین دو متغییر مشخص باشد.در علم آمار از کوواریانس (Covariance) و همبستگی (Correlation) برای  رابطه بین متغیرها استفاده می شود.مثلا رابطه بین هوش افراد و نمره قبولی آن ها در درس X.معمولا ضریب همبستگی  بین ۱ و -۱ بیان میشود. درصورتی که مقدار عددی همبستگی برابر ۱+ باشد همبستگی را مستقیم کامل و اگر برابر ۱ – باشد آن را معکوس کامل و هر عدد نزدیک به صفر یا صفر را همستگی کم یا  همبستگی صفر می نامیم.رابطه مستقیم به این معنی است که با افزایش یک متغیر  اندازه متغیر دیگر نیز افزایش  می یابد و برعکس با کاهش اندازه یک متغیر اندازه متغیر دیگر نیز کاهش می یابد.در این مقاله با استفاده از ویژوال Correlation Plot  در پاور بی آی، به آنالیز رابطه بین متغیرها میپردازیم.با استفاده از Power BI ، بدون کاوش در هرگونه کدگذاری یا محاسبات آماری پیچیده ، می توان با استفاده از این نمودار به تجزیه و تحلیل همبستگی پرداخت.

عنوان مقاله :تجزیه و تحلیل همبستگی با استفاده از ویژوال Correlation Plot 

لینک ابزار ۱:نسخه پاور بی آی دسکتاپ ژانویه ۲۰۲۱

لینک ابزار ۲:نصب R Engine

لینک ابزار ۳:‌ فایل text

نمونه فایل اکسل: ۵۱۹۷_cars

 

 

مرحله ۱:پیش نیاز های مورد نیاز برای نصب و استفاده از ویژوال Correlation Plot

مرحله ۱ :نصب R Engine

برای اجرای اسکریپ R  در پاور بی آی باید R  را بر روی سیستم خود نصب کنید برای اینکار از لینک ابزار شماره ۲ در ابتدای مقاله استفاده نمایید.

در قسمت File->Option->R Scripting  مسیر نصب شده انتخاب می شود.

مرحله ۲ :نصب پکیج های مورد نیاز R

اسکریپ R  ضمیمه شده در لینک ابزار ۳ را دانلود نمایید و آن را اجرا کنید تا پکیج های مورد نیاز نصب شود.

 

مرحله ۲: نصب Correlation Plot

مرحله ۱: بعد از نصب در هنگام ایمپورت این ویژوال در پاور بی آی ، با پیغام زیر مواجه می شوید که با کلیک بر روی دکمه Enable، این ویژوال فعال می شود.

مرحله ۲: وارد کردن اطلاعات 

دیتای مورد نظر لیستی از ویژگی های خودرو های متفاوت می باشد که  این ویژگی ها باید از نوع عددی باشند.از جمله این ویژگی ها :

mpg: مسافت طی شده با یک گالن سوخت

cyl: تعداد سیلندر  (از ۴ و ۶ و  ۸)

disp: فضای کابین  (اینچ مکعب)

hp : قدرت موتور(اسب بخار)

drat: چرخ دنده های دیفرانسیل

wt : وزن (برحسب ۱۰۰۰ پوند)

qsec: زمان طی کردن یک‌چهارم مایل برحسب ثانیه

vs: نوع موتور (۰=خورجینی، ۱= خطی)

am: نوع گیربکس  (۰= اتوماتیک و ۱= دستی)

gear: تعداد دنده‌ها جلو (از ۳ تا ۵)

carb: تعداد کاربراتور(۱,۲,۳,۶,۸)

در واقع در این مثال میخواهیم رابطه بین هر کدام از این ویژگی های عددی را در یک خودرو محاسبه می کنیم و در ویژوال  Correlation Plot نمایش دهیم.

به عنوان مثال رابطه بین شتاب و وزن ماشین از چه نوعی می باشد و با افزایش یا کاهش یک ویژگی، ویژگی دیگر چه تغییری خواهد کرد.

در این قسمت تمامی فیلدها (فیلد های عددی)به جز فیلد متنی که شامل نام خودرو می باشد را انتخاب می نماییم.

 

دایره های آبی تیره در یک خط مورب از بالا به پایین  همبستگی یک ویژگی را با خود نشان می دهد ، که همیشه قوی ترین و مقدار آن برابر یک می باشد. بنابراین این را  نباید به عنوان همبستگی در نظر گرفت ، بلکه فقط به عنوان یک خط جدا کننده است. هرچه دایره بیشتر رنگ آبی تیره داشته باشد ، نشان دهنده همبستگی مثبت بیشتری است. هرچه رنگ قرمز تیره باشد ، این نشان دهنده همبستگی منفی است. رنگهای روشن یا سفید نشان دهنده ضعف یا عدم همبستگی است.

همانطور که مشاهده می کنید ، وزن (wt) با جابجایی (disp) همبستگی مثبت و مایل در هر گالن (mpg)  با وزن (wt) همبستگی منفی دارد. داده ها در قالب ماتریس نشان داده شده اند و گسترش همبستگی مثبت و منفی زیادی در نمودار وجود دارد.

برای تجزیه و تحلیل همبستگی ،اگر ویژگی های یک نوع همبستگی باهم خوشه بندی شوند بهتر میتوان تصمیم گیری بهتری انجام داد. برای این کار ،  ویژگی “Draw cluster” را روی “Auto” تنظیم کنید.خوشه بندی به صورت زیر خواهد بود:

 

تا اینجا قدرت همبستگی با عمق رنگ نشان داده شد. تجزیه و تحلیل داده ها با یک عدد که نشان دهنده این قدرت است آسان تر خواهد بود یعنی در واقع مقدار ضریب همبستگی را بر روی رنگ ها نمایش بدهیم تا این تجزیه و تحلیل آسان تر شود. برای انجام این کار ، بخش Correlation Coefficients را انتخاب کرده و مقدار Font Size را افزایش می دهیم ،با استفاده از مقادیر به عنوان مرجع ، به راحتی می توانید قوی ترین و ضعیف ترین ارتباط را در کل مجموعه داده پیدا کنید.

همانطور که میدانیم اعداد بدست آمده بر روی دایره ها (ضریب همبستگی) از فرمول زیر محاسبه خواهد شد:

در شکل بالا همانطور که مشاهده میشود ویژگی های که مقدار عددی آن ها نزدیک به یک است همبستگی بیشتر و برعکس مقادیر نزدیک به صفر یا صفر همبستگی کم یا عدم همبستگی وجود دارد.

 

0 پاسخ

دیدگاه خود را ثبت کنید

تمایل دارید در گفتگوها شرکت کنید؟
در گفتگو ها شرکت کنید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.