توضیحات
آنچه در این فیلم آموزشی خواهیم آموخت :
- بررسی الگوریتم آپریوری
- پیاده سازی قطعه کد آپریوری بر رویه دیتاست فروشگاهی
- بررسی قطعه کد
- نمایش بصری خروجی آپریوری
الگوریتم Apriori یکی از معروفترین الگوریتمها در دادهکاوی است که برای استخراج قوانین انجمنی (Association Rules) استفاده میشود. این الگوریتم توسط Agrawal و Srikant در سال ۱۹۹۴ معرفی شد و به طور گسترده در تحلیل دادههای تراکنشی (مانند دادههای فروش) به کار میرود.
از الگوریتم Apriori برای شناسایی الگوها و ارتباطات پنهان در مجموعه دادههای تراکنشی یا مجموعهای از آیتمها استفاده میشود. به عنوان مثال:
- یافتن کالاهایی که اغلب با هم خریداری میشوند.
- شناسایی رفتار مشتریان در خرید.
- بهینهسازی چینش محصولات در فروشگاهها.
در این فیلم آموزشی ما از طریق یک دیتاست واقعی و با حجم قابل توجه داده به پیاده سازی مدل الگوریتم آپریوری خواهیم پرداخت
مراحل کار الگوریتم Apriori:
- ایجاد مجموعه کاندیداها (Candidate Generation):
- الگوریتم ابتدا مجموعهای از آیتمهای تکی (Single Itemsets) که فراوانی آنها از یک آستانه حداقل (Minimum Support) بیشتر است، شناسایی میکند.
- سپس، به صورت تکراری مجموعه آیتمهای کاندیدا با اندازه بزرگتر (دو آیتم، سه آیتم، و غیره) تولید میشوند.
- فیلتر کردن آیتمهای پر تکرار (Frequent Itemsets):
- برای هر کاندیدا، فراوانی (Support) محاسبه میشود.
- آیتمهایی که فراوانی آنها کمتر از آستانه تعریفشده باشند، حذف میشوند.
- استخراج قوانین انجمنی:
- قوانین به شکل A→B (به معنی اینکه خرید A اغلب به خرید B منجر میشود) استخراج میشوند.
- معیارهایی مانند اعتماد (Confidence) و بالا-برد (Lift) برای ارزیابی کیفیت قوانین استفاده میشود.
شایان ذکر است که مقاله اشتراک دار آن نیز در کتابخانه های مربوط به Machine Learning برای مشترکین با سطح دسترسی طلایی قابل دسترس می باشد ، همچنین مقاله نیز به صورت کامل به همراه کد پایتون قابل دسترس می باشد و این فیلم برای دسترسی به دوستانی هست که تمایلی به تهیه اشتراک برای مشاهده پست ها ندارند و موردی می خواهند یک فیلم از کتابخانه های مربوط به Machine learningرا مشاهده کنند.
لینک پکیج ها
الگوریتم Apriori
الگوریتم Apriori، الگوریتمی پرکاربرد در استخراج قوانین انجمنی است که به طور خاص برای دادههای «بازیابی مجموعههای دادهای» طراحی شده است. اساس کار این الگوریتم بر این فرض استوار است که اگر یک مجموعه از آیتمها (مثلاً محصولات) در یک تراکنش خاص یافت شود، احتمال اینکه مجموعههای فرعی آن مجموعه نیز در همان تراکنش حضور داشته باشند، زیاد است.
تحلیل خروجی گراف
در گراف قوانین انجمنی، وزن لبهها نشاندهنده مقدار Lift بین دو آیتم است. مقدار Lift نشان میدهد که ارتباط بین دو آیتم چقدر قویتر از حالت تصادفی است. اجازه دهید معنای مقادیر گفتهشده را توضیح دهم:
۱. Lift = 1 (نان رژیمی و نوشابه)
وقتی مقدار Lift برابر ۱ است، این به این معناست که:
- احتمال خرید همزمان «نان رژیمی» و «نوشابه» برابر است با احتمال مستقل خرید هر یک از این دو محصول.
- به بیان دیگر، خرید این دو محصول به یکدیگر وابسته نیست و این رابطه تصادفی است.
۲. Lift = 1.43 (نان رژیمی و شیر)
وقتی مقدار Lift برابر ۱.۴۳ است:
- احتمال خرید همزمان «نان رژیمی» و «شیر» ۴۳٪ بیشتر از احتمال تصادفی خرید این دو محصول است.
- این مقدار نشان میدهد که رابطه مثبتی بین این دو محصول وجود دارد؛ یعنی کسانی که «نان رژیمی» میخرند، احتمال بیشتری دارد که «شیر» نیز بخرند.
خروجی قابل نمایش
جدول قوانین انجمنی: شامل پیششرطها (antecedents)، پسشرطها (consequents)، حمایت (support)، اطمینان (confidence) و معیار Lift.
نمودار میلهای: نمایش حمایت مجموعههای پرتکرار.
نمودار پراکندگی: نمایش رابطه بین Lift و Confidence.
گراف قوانین انجمنی: نمایش روابط بین آیتمها در قالب گراف.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.