قبل أن نتطرق لتعريف البيانات الضخمة، علينا اولاً أن نعرف ما هي البيانات، وما اختلافها عن المعلومات.
البيانات هي الشكل الخام لأي محتوى ننتجه، مثلاً لو كان لديك عشرة أشخاص وقمت بقياس أطوالهم وسجلتها على ورقة، هذه الورقة تحوي بيانات.
المعلومات هي مخرجات أية عملية معالجة للبيانات الخام, بمعنى لو اخذت أطول هؤلاء الأشخاص العشرة وقمت بالحصول على متوسط حسابي لها، هذا المتوسط هو معلومة، لأنه يعطي مقياس مفيد. بينما البيانات مجرد أرقام مسجلة على ورقة.
عرف معهد ماكنزي العالمي سنة 2011 البيانات الضخمة أنها أي مجموعة من البيانات التي هي بحجم يفوق قدرة أدوات قواعد البيانات التقليدية من إلتقاط، تخزين، إدارة و تحليل تلك البيانات.
وتتألف البيانات الضخمة من كل من المعلومات المنظمة والتي تشكل جزء ضئيل يصل إلى 10% مقارنة بالمعلومات غير المنظمةوالتي تشكل الباقي.
والمعلومات غير المنظمة هي ما ينتجه البشر، كرسائل البريد الإلكتروني، مقاطع الفيديو، التغريدات، منشورات فيس بوك، رسائل الدردشة على الواتساب، النقرات على المواقع وغيرها.
البيانات الضخمة Big data أصبحت واقع نعيشه، حتى أن قاموس أوكسفورد اعتمد المصطلح و أضافه للقاموس مع مصطلحات مستحدثة أخرى مثل التغريدة tweet.