دسترسی به اعضا – قسمت هشتم- پیاده سازی الگوریتم FP-Growthبا یک دیتاست واقعی

در مقاله قبلی درباره الگوریتم FP-Growth صحبت کردیم در این مقاله می خواهیم بر اساس یک دیتاست واقعی با ۱۹ هزار رکورد مشتری و ۸۰۰ هزاررکورد فروش رابطه بین خرید محصولات توسط مشتری را با پایتون پیاده سازی کنیم و در انتها داده ها را نیز بصری کنیم همچنین می توانید  دیتاست و اسکریپت پایتون را دانلود کنید و در انتها به آموزش قطعات کد پایتون و الگوریتم FP-Growthخواهیم پرداخت .

قسمت هفتم – الگوریتم FP-Growth (Frequent Pattern Growth)

در تحلیل داده‌های تراکنش، هدف این است که مجموعه‌های کالایی که به‌طور مکرر در تراکنش‌ها با هم خریداری می‌شوند، شناسایی شوند. این فرآیند به‌عنوان “استخراج الگوهای فراوان” شناخته می‌شود. الگوریتم FP-Growth یک روش کارآمد برای پیدا کردن این مجموعه‌ها است و برخلاف الگوریتم Apriori نیازی به انجام بررسی‌های متعدد بر روی همه مجموعه‌های ممکن ندارد.

دسترسی به اعضا – قسمت ششم- پیاده سازی الگوریتم Apriori با یک دیتاست واقعی

در مقاله قبلی درباره الگوریتم Apriori صحبت کردیم در این مقاله می خواهیم بر اساس یک دیتاست واقعی با ۱۹ هزار رکورد مشتری و ۸۰۰ هزاررکورد فروش رابطه بین خرید محصولات توسط مشتری را با پایتون پیاده سازی کنیم و در انتها داده ها را نیز بصری کنیم همچنین می توانید  دیتاست و اسکریپت پایتون را دانلود کنید و در انتها به آموزش قطعات کد پایتون و Apriori خواهیم پرداخت .

دسترسی به اعضا – قسمت پنجم – بصری سازی خروجی Apriori از طریق چارت های مختلف

بعد از معرفی الگوریتم Apriori و بررسی یک دیتاست تستی ، در این مقاله می خواهم نمایش بین رابطه های خرید مشتریان را بصری کنیم از نمودارهای مختلفی همچون Graph ،Scatter Chart    و Bar Chart   بهره خواهیم برد و در انتها رابطه بین خرید های کاربر و وزنی که شدت خرید را مشخص می کند را بررسی خواهیم کرد (lift-confidence-support) . در ابتدا قطعه کد آن را با پایتون می نویسیم ، سپس کد را تشریح می کنیم و در انتها خروجی داده ها را بصری می کنیم.

قسمت چهارم – معرفی الگوریتم Apriori

Association Rule Mining (ARM) یکی از تکنیک‌های داده‌کاوی است که برای شناسایی روابط یا الگوهای معنادار بین متغیرها در داده‌ها مورد استفاده قرار می‌گیرد. این روش معمولاً در تجزیه و تحلیل داده‌های بزرگ، به‌ویژه در بازار یابی، خرید و فروش، و تحلیل سبد خرید مشتریان استفاده می‌شود.

دسترسی به اعضا – قسمت سوم – شناسایی داده های پرت outlier از طریق Clustering

یک روش دیگر برای شناسایی داده‌های پرت، استفاده از روش کلاسترده‌ای (Clustering) مانند K-Means یا DBSCAN است. در این روش، ابتدا داده‌ها را به خوشه‌های مختلف تقسیم می‌کنیم و سپس نقاطی که به هیچ خوشه‌ای تعلق ندارند یا از بقیه نقاط در خوشه فاصله زیادی دارند را به عنوان داده‌های پرت شناسایی می‌کنیم.

دسترسی به اعضا – قسمت دوم – شناسایی داده های پرت outlier از طریق Isolation Forest

یک روش دیگر برای شناسایی داده‌های پرت، استفاده از رگرسیون یا مدل‌های یادگیری ماشین است. در این روش می‌توانیم با استفاده از مدل‌های آماری یا الگوریتم‌هایی مانند جنگل تصادفی (Random Forest)، جنگل ایزوله (Isolation Forest) یا ماشین بردار پشتیبان برای تشخیص موارد پرت (One-Class SVM) داده‌های پرت را شناسایی کنیم. این روش‌ها به خصوص برای مجموعه داده‌های چند بعدی کاربرد زیادی دارند.

قسمت اول – کتابخانه scikit-learn

کتابخانه (scikit-learn )به اختصار  (sklearn)یکی از محبوب‌ترین و قدرتمندترین کتابخانه‌ها برای یادگیری ماشین در زبان پایتون است. این کتابخانه ابزارهای جامعی برای ساخت، آموزش، ارزیابی و استفاده از مدل‌های یادگیری ماشین فراهم می‌کند و از قابلیت‌های متعددی برای پردازش داده، تحلیل، و انجام پیش‌بینی برخوردار است.