قسمت بیست و یکم – استفاده از تابع Cut در پانداس
تابع cut در پانداس برای دستهبندی (باین کردن) مقادیر عددی به گروههای مجزا استفاده میشود. این تابع به شما اجازه میدهد که یک متغیر پیوسته را به دستههای گسسته تقسیم کنید.
تابع cut در پانداس برای دستهبندی (باین کردن) مقادیر عددی به گروههای مجزا استفاده میشود. این تابع به شما اجازه میدهد که یک متغیر پیوسته را به دستههای گسسته تقسیم کنید.
تحلیل همبستگی در پانداس به ما کمک میکند که رابطه و میزان همبستگی میان دو یا چند متغیر عددی را ارزیابی کنیم. همبستگی در واقع نشان میدهد که تغییرات یک متغیر تا چه حد به تغییرات متغیر دیگر مرتبط است. این تحلیل معمولاً با استفاده از ضریب همبستگی پیرسون انجام میشود که مقداری بین -۱ و +۱ را نشان میدهد.مثالی که می خواهیم پیاده سازی کنیم بررسی همبستگی بین هزینه تبلیغات و فروش می باشد
در پانداس، pivot و unpivot دو روش برای تبدیل ساختار دادهها هستند که به ترتیب با استفاده از توابع pivot و melt اجرا میشوند. در ادامه توضیحات و مثالهایی برای این دو ارائه میدهم.
برای تحلیل متن با استفاده از پانداس، تبدیل رشتهها به کلمات، گروهبندی کلمات و شمارش کل کلمات، میتوانیم مراحل زیر را دنبال کنیم. در این مثال، ما از پانداس برای پردازش دادهها استفاده خواهیم کرد و سپس کلمات را گروهبندی کرده و تعداد آنها را شمارش خواهیم کرد.
در کتابخانه پانداس، کار با رشتهها یکی از قابلیتهای مفید برای تجزیه و تحلیل دادهها است. در زیر، چند مثال کاربردی از کار با رشتهها در پانداس آورده شده است:
برای خواندن فایلهای اکسل با ساختار یکسان که داخل یک پوشه قرار دارند و سپس ادغام (append) آنها در یک DataFrame نهایی، میتوانیم از کتابخانههای glob و os به همراه pandas استفاده کنیم. glob برای یافتن فایلها در مسیر مورد نظر و os برای مدیریت مسیرها و فایلها به کار میرود.
تعریف تابع با استفاده از def در پانداس مزایای متعددی دارد که در پروژههای پردازش دادهها به خصوص برای کارهای تکراری و پیچیده، کار را بسیار سادهتر و مؤثرتر میکند.
تابع percentiles به طور کلی ابزاری برای تقسیم دادهها به بخشهای مساوی در بازه ۰ تا ۱۰۰٪ است. در تحلیل دادهها، صدکها (Percentiles) به شما این امکان را میدهند که دادهها را به نسبتهای خاصی تقسیم کنید. هر صدک نشاندهنده نقطهای از دادههاست که درصد خاصی از مقادیر زیر آن نقطه قرار میگیرند. به عنوان مثال، صدک ۲۵ درصد نشان میدهد که ۲۵ درصد دادهها کمتر از این مقدار و ۷۵ درصد بالاتر از آن قرار دارند.
در کتابخانه پایتون پانداس، از تابع groupby برای گروهبندی دادهها بر اساس یک یا چند ستون استفاده میشود. groupby میتواند برای محاسبه مقادیر آماری مانند میانگین، مجموع، تعداد، و … روی هر گروه به کار رود.
در پانداس، روش z-score یکی دیگر از روشهای رایج برای شناسایی دادههای پرت است که شباهت زیادی به روش انحراف معیار دارد، اما تفاوت اصلی آن در استفاده از نرمالسازی مقادیر به کمک مقیاس استاندارد دارد. در روش z-score، هر مقدار داده با استفاده از میانگین و انحراف معیار استانداردسازی میشود و z-score یا نمره استاندارد برای هر مقدار محاسبه میشود.
شرکت فن آوران پیروز رایمند (رایپیتک) با ترکیبی از متخصص و مجربین در رشته های مهندسی سیستم، آمار ، مهندسی نرم افزار، مالی و… به ارائه خدمات در حوزه هوش تجاری در زمینه های گوناگون از جمله مشاوره و ارائه راه حل های نرم افزاری ، سامانه های سفارشی هوش تجاری ، طراحی داشبورد های مدیریتی ، طراحی انباره داده ، تحلیل بیزینس و تهیه سندهای استاندارد شناسنامه شاخص ، ارزیابی عملکرد، داده کاوی ، پیاده سازی پروژه های علم داده و… به شرکتها و سازمانها می کند.