تحليل البيانات باستخدام بايثون مع Google Colab

alrashidi8711 فبراير، 2025

0 1٬482 4 دقائق

مقدمة

في العصر الرقمي، أصبحت البيانات المحرك الرئيسي لاتخاذ القرارات في مختلف المجالات مثل الأعمال، والطب، والتكنولوجيا. تُستخدم لغة بايثون (Python) على نطاق واسع في تحليل البيانات بفضل سهولة استخدامها وتوافر العديد من المكتبات القوية.

إحدى الأدوات الرائعة التي تسهّل تحليل البيانات هي Google Colab، وهي بيئة تطوير سحابية تتيح تشغيل أكواد بايثون دون الحاجة إلى إعداد محلي. في هذا المقال، سنتعلم كيفية تحليل البيانات باستخدام بايثون مع Google Colab، وسنستعرض مكتبات مهمة مثل Pandas وNumPy وMatplotlib وSeaborn وScikit-learn، مع أمثلة واقعية.

لماذا Google Colab؟

يُعتبر Google Colab خيارًا مثاليًا لتحليل البيانات للأسباب التالية:

مجاني وسحابي: لا حاجة لتثبيت أي برامج، حيث يعمل على المتصفح مباشرة.
يدعم الحوسبة السحابية: يوفر إمكانية استخدام معالجات قوية (مثل GPU وTPU) لتنفيذ عمليات الحساب بسرعة.
سهولة مشاركة الأكواد: يمكن مشاركة المفكرات (Notebooks) مع الآخرين بسهولة.
متكامل مع مكتبات بايثون: مثل NumPy، Pandas، Matplotlib، Seaborn، Scikit-learn وغيرها.

مكتبة NumPy ودورها في تحليل البيانات

تُستخدم مكتبة NumPy (Numerical Python) لتنفيذ العمليات الرياضية والمصفوفات بكفاءة عالية، خاصة عند التعامل مع كميات كبيرة من البيانات العددية. تتميز بأنها أسرع من القوائم العادية في بايثون نظرًا لاستخدامها مصفوفات متعددة الأبعاد (Arrays).

متى نستخدم NumPy؟

عند الحاجة إلى إنشاء بيانات عددية وإجراء عمليات حسابية معقدة عليها.
عند التعامل مع مصفوفات ضخمة وتحليلها بسرعة.
عند تنفيذ عمليات جبر خطي أو إحصائيات متقدمة.

مثال عملي على استخدام NumPy

import numpy as np

# إنشاء مصفوفة من الأعداد
data = np.array([10, 20, 30, 40, 50])

# حساب المتوسط والانحراف المعياري
mean_value = np.mean(data)
std_dev = np.std(data)

print(f"المتوسط الحسابي: {mean_value}")
print(f"الانحراف المعياري: {std_dev}")

مكتبة Pandas ودورها في تحليل البيانات

تُستخدم مكتبة Pandas لمعالجة البيانات الجدولية بكفاءة، حيث توفر هياكل بيانات قوية مثل DataFrame وSeries لتسهيل عمليات التحليل والاستكشاف. تتميز بقدرتها على تحميل البيانات من مصادر متعددة، وتنظيفها، وتحويلها بسهولة.

متى نستخدم Pandas؟

عند الحاجة إلى تحميل البيانات من ملفات CSV، Excel، قواعد البيانات وغيرها.
عند التعامل مع بيانات جدولية وتنظيمها في شكل صفوف وأعمدة.
عند تنفيذ تحليلات إحصائية أو تنظيف البيانات وإزالة القيم المفقودة.
عند الحاجة إلى دمج البيانات وتصفيتها وفرزها بسرعة.

البدء مع Google Colab

للبدء، يمكن الدخول إلى Google Colab ثم فتح دفتر ملاحظات جديد (New Notebook). يتم تنفيذ الأوامر عبر خلايا الكود، وهي بيئة مشابهة لـ Jupyter Notebook.

تحميل البيانات وتحليلها في Google Colab

تحميل البيانات من Google Drive

إذا كنت تمتلك ملف بيانات على Google Drive، يمكنك تحميله إلى Colab باستخدام الكود التالي:

from google.colab import drive
drive.mount('/content/drive')

ثم يمكنك قراءة البيانات باستخدام مكتبة Pandas:

import pandas as pd

# تحميل الملف من Google Drive
file_path = "/content/drive/MyDrive/sales_data.csv"
df = pd.read_csv(file_path)

# عرض أول خمس صفوف من البيانات
df.head()

استكشاف البيانات

يعد استكشاف البيانات خطوة مهمة لفهم القيم الناقصة، والتوزيع الإحصائي للبيانات.

# عرض معلومات عن البيانات
df.info()

# عرض الإحصائيات الأساسية
df.describe()

تنظيف البيانات ومعالجتها

قد تحتوي البيانات على قيم مفقودة أو غير صحيحة. يمكن التعامل معها باستخدام Pandas:

# التحقق من القيم المفقودة
print(df.isnull().sum())

# حذف القيم المفقودة
df = df.dropna()

# استبدال القيم المفقودة بمتوسط العمود
df.fillna(df.mean(), inplace=True)

مثال واقعي: تحليل مبيعات متجر إلكتروني

لنفترض أن لدينا بيانات مبيعات لمتجر إلكتروني، ونريد تحليل الأداء المالي للمنتجات.

# عرض الإحصائيات الأساسية
df.describe()

# التحقق من القيم المفقودة
print(df.isnull().sum())

إذا وجدنا قيمًا مفقودة، يمكننا معالجتها كما يلي:

# استبدال القيم المفقودة بمتوسط العمود
df.fillna(df.mean(), inplace=True)

تحليل البيانات باستخدام الرسوم البيانية

تُستخدم مكتبات مثل Matplotlib وSeaborn لإنشاء تصورات بيانية تساعد في فهم البيانات.

مثال: تحليل أكثر المنتجات مبيعًا

import matplotlib.pyplot as plt
import seaborn as sns

# رسم مخطط لأكثر المنتجات مبيعًا
top_products = df['product_name'].value_counts().head(10)
plt.figure(figsize=(10,5))
sns.barplot(x=top_products.index, y=top_products.values)
plt.xticks(rotation=45)
plt.title("أكثر 10 منتجات مبيعًا")
plt.show()

مثال: توزيع المبيعات حسب الفترات الزمنية

# تحويل عمود التاريخ إلى نوع بيانات تاريخي
df['date'] = pd.to_datetime(df['date'])

# استخراج المبيعات حسب الأشهر
df['month'] = df['date'].dt.month
monthly_sales = df.groupby('month')['sales'].sum()

# رسم خط الاتجاه
plt.figure(figsize=(8,5))
sns.lineplot(x=monthly_sales.index, y=monthly_sales.values, marker='o')
plt.title("توزيع المبيعات حسب الأشهر")
plt.xlabel("الشهر")
plt.ylabel("إجمالي المبيعات")
plt.show()

تحليل البيانات المتقدم باستخدام Scikit-learn

بعد تنظيف البيانات واستكشافها، يمكننا تطبيق التعلم الآلي (Machine Learning) لاستخلاص رؤى أكثر تقدمًا.

مثال: توقع المبيعات باستخدام الانحدار الخطي

لنفترض أننا نريد التنبؤ بمبيعات منتج معين بناءً على بعض العوامل مثل عدد الزوار أو العروض الترويجية.

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error

# تحديد الميزات والهدف
X = df[['visitors', 'discount']]
y = df['sales']

# تقسيم البيانات إلى تدريب واختبار
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# إنشاء النموذج وتدريبه
model = LinearRegression()
model.fit(X_train, y_train)

# التنبؤ بالمبيعات
y_pred = model.predict(X_test)

# تقييم النموذج
mae = mean_absolute_error(y_test, y_pred)
print(f"متوسط الخطأ المطلق: {mae}")

خاتمة

يُعد Google Colab أداة قوية لتحليل البيانات باستخدام بايثون، حيث يوفر بيئة سحابية مرنة تدعم مكتبات تحليل البيانات مثل NumPy، Pandas، Matplotlib، Seaborn، Scikit-learn.

استعرضنا في هذا المقال كيفية تحميل البيانات، تنظيفها، استكشافها، تحليلها بصريًا، واستخدام التعلم الآلي لاستخلاص التوقعات.

أمثلة واقعية تناولناها في المقال:

تحليل مبيعات متجر إلكتروني: معرفة أكثر المنتجات مبيعًا.
توقع المبيعات المستقبلية: باستخدام الانحدار الخطي.
رسم تحليلات بيانية: لاكتشاف أنماط المبيعات خلال الأشهر.

المراجع

فيما يلي بعض المراجع الموثوقة التي يمكن الرجوع إليها لمزيد من التفاصيل حول تحليل البيانات باستخدام بايثون وGoogle Colab:

الموقع الرسمي لبايثون (Python)

https://www.python.org
يحتوي على توثيق شامل للغة بايثون ومكتباتها.

دليل Google Colaboratory الرسمي

https://colab.research.google.com
يتضمن دروسًا وأمثلة حول كيفية استخدام Google Colab.

مستندات مكتبة NumPy

https://numpy.org/doc/stable
دليل شامل لكيفية استخدام NumPy في العمليات الحسابية وتحليل البيانات.

مستندات مكتبة Pandas

https://pandas.pydata.org/docs
توثيق رسمي لكيفية التعامل مع البيانات باستخدام Pandas.

مستندات مكتبة Matplotlib

https://matplotlib.org/stable/contents.html
مرجع رسمي حول كيفية إنشاء الرسوم البيانية والتصورات باستخدام Matplotlib.

مستندات مكتبة Seaborn

https://seaborn.pydata.org
دليل استخدام مكتبة Seaborn لإنشاء تصورات إحصائية متقدمة.

مستندات مكتبة Scikit-learn

https://scikit-learn.org/stable/documentation.html
دليل شامل حول خوارزميات التعلم الآلي وتطبيقها باستخدام Scikit-learn.

كتاب “Python Data Science Handbook”

Jake VanderPlas (2016)
متاح عبر O’Reilly
كتاب ممتاز لتعلم تحليل البيانات باستخدام بايثون.

دورات مجانية عبر الإنترنت

Coursera: https://www.coursera.org/courses?query=python%20data%20analysis
Udemy: https://www.udemy.com/courses/search/?q=python%20data%20analysis
توفر هذه الدورات تدريبًا عمليًا على تحليل البيانات باستخدام بايثون.