نوشته‌ها

قسمت بیست و یکم – استفاده از تابع Cut در پانداس

تابع cut در پانداس برای دسته‌بندی (باین کردن) مقادیر عددی به گروه‌های مجزا استفاده می‌شود. این تابع به شما اجازه می‌دهد که یک متغیر پیوسته را به دسته‌های گسسته تقسیم کنید.

قسمت هفتم – سناریو پنجم – خواندن تمام اطلاعات مرکز لرزه نگاری کشور و ذخیره در یک فایل اکسل

برای واکشی داده‌های زمین‌لرزه‌های اخیر از سایت مرکز لرزه‌نگاری کشوری دانشگاه تهران، می‌توانید از کتابخانه‌های requests و BeautifulSoup در پایتون استفاده کنید. این روش به شما امکان می‌دهد تا اطلاعات مربوط به زمین‌لرزه‌ها را استخراج کرده و در قالبی مناسب ذخیره کنید.

دسترسی به اعضا – قسمت ششم– سناریو چهارم– خواندن API سایت بورس و تجمیع اطلاعات در هر بار اجرای کد در یک فایل اکسل به همراه زمان واکشی

کتابخانه requests در پایتون ابزاری برای ارسال درخواست‌های HTTP است که اغلب برای دسترسی به API‌ها و واکشی داده‌ها استفاده می‌شود. این کتابخانه به شما امکان می‌دهد تا به راحتی به یک API متصل شوید، داده‌ها را دریافت یا ارسال کنید و با پاسخ‌های سرور تعامل داشته باشید . در این مقاله می خواهیم داده های بورس را واکشی کنیم و با هر بار صدا کردن داده ها به اطلاعات قبلی اضافه گردد تا بتوانیم گزارش تاریخی Historical از دادهایمان داشته باشیم.

دسترسی به اعضا – قسمت پنجم– سناریو سوم– خواندن API سایت بورس و ذخیره در یک فایل اکسل

نوشتن APIها در سایت‌ها کاربردهای متعددی دارد و به تعامل سایت با دیگر برنامه‌ها و خدمات کمک می‌کند. APIها (رابط برنامه‌نویسی کاربردی) امکاناتی را فراهم می‌کنند که از طریق آن‌ها سایت‌ها می‌توانند داده‌ها و قابلیت‌های خود را در اختیار توسعه‌دهندگان دیگر قرار دهند. این امکان منجر به افزایش کارایی و انعطاف‌پذیری سایت‌ها می‌شود.در این مقاله ما می خواهیم API سایت بورس را صدا کنیم و داده های آن را واکشی و در انتها در یک فایل ذخیره کنیم.

دسترسی به اعضا – قسمت پنجم – سناریو سوم- خواندن تمام لینک ها و عناوین اخبار سایت varzesh3 از طریق beautifulsoup

BeautifulSoup در پایتون ابزاری قدرتمند برای پردازش و استخراج داده‌ها از ساختار HTML و XML است. با استفاده از BeautifulSoup، می‌توان به تگ‌های مختلف HTML دسترسی پیدا کرد در این مثال ما می خواهیم تمام لینک ها و عناوین اخبار سایت varzesh3 را بدست آوریم و در انتها داخل یک فایل اکسل ذخیره کنیم .

دسترسی به اعضا – قسمت چهارم- سناریو دوم – خواندن API های سایت دیجیکالا و واکشی اطلاعات تمام صفحات و ذخیره در یک فایل اکسل

برای واکشی داده‌ها از API که فرمت JSON برمی‌گرداند و ذخیره آن‌ها در یک فایل اکسل با استفاده از پایتون، می‌توانیم از کتابخانه‌های requests، pandas و openpyxl استفاده کنیم. همچنین، برای مدیریت داینامیک کردن پارامتر page و واکشی داده‌ها از صفحات مختلف، می‌توانیم از یک حلقه for استفاده کنیم.

قسمت سوم- سناریو اول – خواندن اطلاعات یک APIدر داخل یک حلقه و ذخیره در یک فایل اکسل – ترکیب کتابخانه Requests و Pandas

کتابخانه requests یکی از پرکاربردترین کتابخانه‌های پایتون برای ارسال درخواست‌های HTTP است. این کتابخانه کار با پروتکل HTTP را ساده و خواندن داده‌های وب را به صورت کاربرپسند انجام می‌دهد. این کتابخانه برای انجام کارهای مختلفی از جمله دریافت داده‌ها از APIها، ارسال داده‌ها به سرورها، مدیریت کوکی‌ها، و کار با پروتکل HTTPS بسیار مفید است.

دسترسی به اعضا – قسمت پنجم- سناریو دوم- خواندن اطلاعات سایت هایی که با اسکرول داده هایشان واکشی می شوند (مثال کامل سایت دیوار) با سلنیوم

در صورتی که بتوان از داخل یک سایتی صفحات دیگر را فراخوانی کرد (داده هایی که به صورت Page بندی شده هستند) طبیعتا مشکل خاصی برای واکشی آن وجود ندارد و به طور مثال در این مقاله به آن پرداختیم و یک مثال کامل نیز پیاده سازی کردیم . اما در صورتی که داده های یک سایت از طریق اسکرول کردن واکشی شود باید از این مقاله بهره برد . در این مقاله یک مثال کامل از واکشی سایت دیوار می باشد که داده ها به صورت اسکرول کردن واکشی می شوند.

قسمت نوزدهم – استفاده از Pivot و Unpivotدر پانداس

در پانداس، pivot و unpivot دو روش برای تبدیل ساختار داده‌ها هستند که به ترتیب با استفاده از توابع pivot و melt اجرا می‌شوند. در ادامه توضیحات و مثال‌هایی برای این دو ارائه می‌دهم.

دسترسی به اعضا- قسمت شانزدهم – سناریو ششم – خواندن فایل های اکسل با ساختاریکسان

برای خواندن فایل‌های اکسل با ساختار یکسان که داخل یک پوشه قرار دارند و سپس ادغام (append) آن‌ها در یک DataFrame نهایی، می‌توانیم از کتابخانه‌های glob و os به همراه pandas استفاده کنیم. glob برای یافتن فایل‌ها در مسیر مورد نظر و os برای مدیریت مسیرها و فایل‌ها به کار می‌رود.