نوشته‌ها

قسمت یازدهم- سناریو دوم- شناسایی داده های پرت outlier از طریق انحراف معیار

برای شناسایی داده‌های پرت می‌توانیم از روش انحراف معیار استفاده کنیم. این روش بر اساس میانگین و انحراف معیار مجموعه داده عمل می‌کند. مقادیری که بیش از یک محدوده معین (مثلاً ۳ برابر انحراف معیار) از میانگین فاصله دارند، به عنوان داده پرت شناسایی می‌شوند.

قسمت دهم – سناریو اول – شناسایی داده های پرت outlier از طریق چارک ها

در پانداس، می‌توانیم داده‌های پرت (یا همان داده‌های خارج از محدوده معمول) را شناسایی کنیم. این داده‌ها معمولاً به صورت مقادیر خیلی بزرگ یا خیلی کوچک در مجموعه داده ظاهر می‌شوند و می‌توانند تحلیل‌های آماری را تحت تأثیر قرار دهند. روش‌های مختلفی برای شناسایی داده‌های پرت وجود دارد که یکی از رایج‌ترین آنها استفاده از آماره‌های چارکی (IQR) است.

قسمت ششم – مقدمه – پاکسازی داده با Pandas

قبل از اینکه به ماجراجویی داده خود با پانداها بپردازیم، اجازه دهید لحظه ای را به توضیح اصطلاح “پاکسازی داده ها” اختصاص دهیم. به آن به عنوان سم زدایی دیجیتال برای مجموعه داده خود فکر کنید، جایی که ما آن را مرتب می کنیم، و دقت را بیش از هر چیز در اولویت قرار می دهیم.