مشاريع حقيقية في استخراج البيانات من مواقع الويب: استخراج البيانات من أمازون لتحليل السوق

2026-03-05 16:28 PM

مقدمة

كتير من أصحاب البيزنس الأونلاين بيسألوا سؤال بسيط جدًا، لكنه مؤثر بشكل مباشر على أرباحهم:
"أنا أسعاري مناسبة؟ ولا المنافسين أرخص؟"

السؤال شكله سهل، لكن الإجابة عليه مش دايمًا واضحة. في سوق بيتغير كل يوم، وأسعار بتتحرك باستمرار، صعب تعتمد على إحساسك أو ملاحظات سريعة.

بدل ما أجاوب تخمين، قررت أجاوب بالأرقام.

المشروع بدأ كفكرة بسيطة جدًا:
أجمع بيانات حقيقية من Amazon.eg، وأحلل السوق بناءً عليها. كنت عايز أشوف الصورة كاملة مش مجرد لقطة سريعة. لكن مع الوقت، اكتشفت إن الموضوع أعمق بكتير من مجرد مقارنة أسعار. البيانات كانت بتحكي قصة عن سلوك السوق، واستراتيجيات التسعير، وطريقة عرض المنتجات.

ليه Web Scraping؟

السبب كان مباشر:

البيانات الجاهزة غالبًا مش بتكون كافية

APIs الرسمية مش دايمًا متاحة أو بتكون محدودة

السوق بيتغير يوميًا، وأي تقرير قديم بيفقد قيمته بسرعة

لو عايز تحليل حقيقي، لازم تعتمد على بيانات محدثة.
فالحل كان واضح بالنسبة لي: أجيب البيانات بنفسي.

Web Scraping هنا ماكانش مجرد تجربة تقنية، لكنه كان أداة للوصول لمعلومة دقيقة تساعد في اتخاذ قرار.

البيانات اللي جمعتها

اشتغلت على استخراج مجموعة بيانات كاملة لكل منتج، مش مجرد عنوان وسعر.

البيانات شملت:

اسم المنتج

السعر الحالي

نسبة الخصم

التقييم

عدد المراجعات

العلامة التجارية

اسم البائع

تفاصيل المنتج

رابط الصورة الأصلية

ومش مجرد صفحة واحدة.
اشتغلت على Scraping متعدد الصفحات، وبعد كده دخلت على كل منتج على حدة لاستخراج التفاصيل الكاملة. الفكرة كانت إني أبني Dataset متكاملة تقدر تتحلل بجد، مش مجرد قائمة أسعار.

التحديات اللي واجهتني

طبيعي جدًا إن المشروع ماكانش سهل.

من أول Pagination والتنقل بين الصفحات، لحد اختلاف تصميم بعض المنتجات. بعض العناصر كانت بتتحمل بطريقة Lazy Loading، وده كان محتاج تعامل مختلف.

غير كده، في دايمًا تحدي الحماية ضد البوتات، وده خلاني أشتغل بحذر.

الحل كان في:

استخدام Requests + BeautifulSoup

تنظيم الـ Headers بشكل احترافي

مقالات مشابة

كيفية استخدام NotebookLM في التعليم 2026 | شرح كامل بالخطوات للمذاكرة الذكية صراع سامسونج وشاومي: أيهما يتفوق One UI 8.5 أم HyperOS 3.0؟ الفرق بين DaVinci Resolve و Fusion: أيهما الأفضل لصناعة المؤثرات البصرية؟ مجال الأمن السبراني هل يغني الذكاء الاصطناعي عن المدقق اللغوي البشري في 2026؟ أندرويد 16 ضد iOS 26: من يتفوق في معركة الذكاء والخصوصية عام 2026؟

التعامل مع الحالات الناقصة في البيانات

إضافة تأخير بين الطلبات لتجنب الحظر

الهدف ماكانش مجرد إن الكود يشتغل، لكن إنه يشتغل باستقرار.

بعد ما جمعت البيانات… حصل إيه؟

هنا الجزء اللي فعلاً مهم.

جمعت البيانات في DataFrame وبدأت مرحلة التحليل.
نظفت البيانات، شلت القيم المفقودة، حولت الأسعار لصيغة رقمية قابلة للتحليل، واستخرجت نسبة الخصم الفعلية بدل الاعتماد على الرقم المعروض.

وبعدها بدأت أجاوب على أسئلة حقيقية زي:

متوسط السعر في الفئة دي كام؟

أكتر براند مسيطر على السوق؟

هل المنتجات الأعلى تقييمًا دايمًا أغلى؟

هل عدد المراجعات له علاقة بالسعر فعلًا؟

التحليل كشف حاجات ماكنتش واضحة بمجرد النظر.