نوشته‌ها

قسمت دهم – سناریو اول – شناسایی داده های پرت outlier از طریق چارک ها

در پانداس، می‌توانیم داده‌های پرت (یا همان داده‌های خارج از محدوده معمول) را شناسایی کنیم. این داده‌ها معمولاً به صورت مقادیر خیلی بزرگ یا خیلی کوچک در مجموعه داده ظاهر می‌شوند و می‌توانند تحلیل‌های آماری را تحت تأثیر قرار دهند. روش‌های مختلفی برای شناسایی داده‌های پرت وجود دارد که یکی از رایج‌ترین آنها استفاده از آماره‌های چارکی (IQR) است.

قسمت ششم – مقدمه – پاکسازی داده با Pandas

قبل از اینکه به ماجراجویی داده خود با پانداها بپردازیم، اجازه دهید لحظه ای را به توضیح اصطلاح “پاکسازی داده ها” اختصاص دهیم. به آن به عنوان سم زدایی دیجیتال برای مجموعه داده خود فکر کنید، جایی که ما آن را مرتب می کنیم، و دقت را بیش از هر چیز در اولویت قرار می دهیم.