قسمت بیست و یکم – استفاده از تابع Cut در پانداس
تابع cut در پانداس برای دستهبندی (باین کردن) مقادیر عددی به گروههای مجزا استفاده میشود. این تابع به شما اجازه میدهد که یک متغیر پیوسته را به دستههای گسسته تقسیم کنید.
تابع cut در پانداس برای دستهبندی (باین کردن) مقادیر عددی به گروههای مجزا استفاده میشود. این تابع به شما اجازه میدهد که یک متغیر پیوسته را به دستههای گسسته تقسیم کنید.
برای واکشی دادههای زمینلرزههای اخیر از سایت مرکز لرزهنگاری کشوری دانشگاه تهران، میتوانید از کتابخانههای requests و BeautifulSoup در پایتون استفاده کنید. این روش به شما امکان میدهد تا اطلاعات مربوط به زمینلرزهها را استخراج کرده و در قالبی مناسب ذخیره کنید.
کتابخانه requests در پایتون ابزاری برای ارسال درخواستهای HTTP است که اغلب برای دسترسی به APIها و واکشی دادهها استفاده میشود. این کتابخانه به شما امکان میدهد تا به راحتی به یک API متصل شوید، دادهها را دریافت یا ارسال کنید و با پاسخهای سرور تعامل داشته باشید . در این مقاله می خواهیم داده های بورس را واکشی کنیم و با هر بار صدا کردن داده ها به اطلاعات قبلی اضافه گردد تا بتوانیم گزارش تاریخی Historical از دادهایمان داشته باشیم.
نوشتن APIها در سایتها کاربردهای متعددی دارد و به تعامل سایت با دیگر برنامهها و خدمات کمک میکند. APIها (رابط برنامهنویسی کاربردی) امکاناتی را فراهم میکنند که از طریق آنها سایتها میتوانند دادهها و قابلیتهای خود را در اختیار توسعهدهندگان دیگر قرار دهند. این امکان منجر به افزایش کارایی و انعطافپذیری سایتها میشود.در این مقاله ما می خواهیم API سایت بورس را صدا کنیم و داده های آن را واکشی و در انتها در یک فایل ذخیره کنیم.
BeautifulSoup در پایتون ابزاری قدرتمند برای پردازش و استخراج دادهها از ساختار HTML و XML است. با استفاده از BeautifulSoup، میتوان به تگهای مختلف HTML دسترسی پیدا کرد در این مثال ما می خواهیم تمام لینک ها و عناوین اخبار سایت varzesh3 را بدست آوریم و در انتها داخل یک فایل اکسل ذخیره کنیم .
برای واکشی دادهها از API که فرمت JSON برمیگرداند و ذخیره آنها در یک فایل اکسل با استفاده از پایتون، میتوانیم از کتابخانههای requests، pandas و openpyxl استفاده کنیم. همچنین، برای مدیریت داینامیک کردن پارامتر page و واکشی دادهها از صفحات مختلف، میتوانیم از یک حلقه for استفاده کنیم.
کتابخانه requests یکی از پرکاربردترین کتابخانههای پایتون برای ارسال درخواستهای HTTP است. این کتابخانه کار با پروتکل HTTP را ساده و خواندن دادههای وب را به صورت کاربرپسند انجام میدهد. این کتابخانه برای انجام کارهای مختلفی از جمله دریافت دادهها از APIها، ارسال دادهها به سرورها، مدیریت کوکیها، و کار با پروتکل HTTPS بسیار مفید است.
در صورتی که بتوان از داخل یک سایتی صفحات دیگر را فراخوانی کرد (داده هایی که به صورت Page بندی شده هستند) طبیعتا مشکل خاصی برای واکشی آن وجود ندارد و به طور مثال در این مقاله به آن پرداختیم و یک مثال کامل نیز پیاده سازی کردیم . اما در صورتی که داده های یک سایت از طریق اسکرول کردن واکشی شود باید از این مقاله بهره برد . در این مقاله یک مثال کامل از واکشی سایت دیوار می باشد که داده ها به صورت اسکرول کردن واکشی می شوند.
در پانداس، pivot و unpivot دو روش برای تبدیل ساختار دادهها هستند که به ترتیب با استفاده از توابع pivot و melt اجرا میشوند. در ادامه توضیحات و مثالهایی برای این دو ارائه میدهم.
برای خواندن فایلهای اکسل با ساختار یکسان که داخل یک پوشه قرار دارند و سپس ادغام (append) آنها در یک DataFrame نهایی، میتوانیم از کتابخانههای glob و os به همراه pandas استفاده کنیم. glob برای یافتن فایلها در مسیر مورد نظر و os برای مدیریت مسیرها و فایلها به کار میرود.
شرکت فن آوران پیروز رایمند (رایپیتک) با ترکیبی از متخصص و مجربین در رشته های مهندسی سیستم، آمار ، مهندسی نرم افزار، مالی و… به ارائه خدمات در حوزه هوش تجاری در زمینه های گوناگون از جمله مشاوره و ارائه راه حل های نرم افزاری ، سامانه های سفارشی هوش تجاری ، طراحی داشبورد های مدیریتی ، طراحی انباره داده ، تحلیل بیزینس و تهیه سندهای استاندارد شناسنامه شاخص ، ارزیابی عملکرد، داده کاوی ، پیاده سازی پروژه های علم داده و… به شرکتها و سازمانها می کند.