دسترسی به اعضا – قسمت پنجم- سناریو دوم- خواندن اطلاعات سایت هایی که با اسکرول داده هایشان واکشی می شوند (مثال کامل سایت دیوار) با سلنیوم

در صورتی که بتوان از داخل یک سایتی صفحات دیگر را فراخوانی کرد (داده هایی که به صورت Page بندی شده هستند) طبیعتا مشکل خاصی برای واکشی آن وجود ندارد و به طور مثال در این مقاله به آن پرداختیم و یک مثال کامل نیز پیاده سازی کردیم . اما در صورتی که داده های یک سایت از طریق اسکرول کردن واکشی شود باید از این مقاله بهره برد . در این مقاله یک مثال کامل از واکشی سایت دیوار می باشد که داده ها به صورت اسکرول کردن واکشی می شوند.

دسترسی به اعضا – قسمت چهارم – سناریو اول – خواندن اطلاعات سایت دیوار به همراه جزییات هر لینک با سلنیوم

در این سناریو می خواهیم داده های سایت دیوار را بخوانیم و قطعه کدی که پیاده سازی کردیم بر روی هر لینک کلیک می کند و جزییات آن محصول مثل عنوان ، توضیحات و تصویر آن را واکشی می کند، که طبیعتا این فرایند به صورت اتوماتیک انجام می شود و در انتها داده ها در یک فایل اکسل ذخیره می گردند.

دسترسی به اعضا – قسمت سوم – سناریو اول –واکشی اطلاعات سایت بورس کالا با سلنیوم

در این مقاله می خواهیم داده های سایت بورس کالا قسمت آمار معاملات فیزیکی را بررسی کنیم و در ادامه داده های این سایت را واکشی کنیم  ، فیلترها را ارسال کنیم و در انتها داده ها را در یک فایل اکسل به صورت تجمیع شده داشته باشیم. همچنین سورس کامل واکشی اطلاعات و جزییات آن نیز در انتهای مقاله آمده است .

قسمت دوم – بررسی کتابخانه Seleniumو BeautifulSoup

کتابخانه‌های Selenium و BeautifulSoup هر دو در جمع‌آوری داده از وب‌سایت‌ها و وب اسکرپینگ استفاده می‌شوند، اما برای موارد و شرایط متفاوتی طراحی شده‌اند. در اینجا به بررسی مزایا و معایب هر یک و مقایسه آن‌ها می‌پردازیم.

قسمت اول – مقدمه ای بر کتابخانه Selenium

کتابخانه Selenium یکی از محبوب‌ترین ابزارهای اتوماسیون مرورگر برای تست وب و جمع‌آوری داده است که به زبان‌های مختلفی از جمله پایتون ارائه شده است. این کتابخانه به توسعه‌دهندگان و تست‌کنندگان این امکان را می‌دهد تا با مرورگرهای وب (مانند Chrome، Firefox، Safari و Edge) به‌صورت خودکار تعامل داشته باشند، اقدام به کلیک، پیمایش، وارد کردن متن، خواندن داده‌ها و بسیاری کارهای دیگر کنند. Selenium به‌ویژه برای تست اپلیکیشن‌های وب و اتوماسیون وب‌سایت‌ها کاربرد دارد.