التطبيعيستخدم للتخلص من البيانات الزائدة عن الحاجةويضمن إنشاء مجموعات ذات نوعية جيدة والتي يمكن أن تحسن كفاءة خوارزميات التجميع ، لذلك تصبح خطوة أساسية قبل التجميع كمسافة إقليدية حساس جدا للتغيرات في الفروق [3].
هل نحتاج إلى تطبيع البيانات من أجل K-mean clustering؟
كما في طريقة k-NN ، يجب قياس الخصائص المستخدمة في التجميع بوحدات قابلة للمقارنة. في هذه الحالة ، لا تمثل الوحدات مشكلة حيث يتم التعبير عن جميع الخصائص الست على مقياس مكون من 5 نقاط.التطبيع أو التوحيد ليس ضروريًا.
كيف تعد البيانات قبل التجميع؟
إعداد البيانات
لإجراء تحليل عنقود في R بشكل عام ، يجب إعداد البيانات على النحو التالي: الصفوف عبارة عن ملاحظات (أفراد) والأعمدة متغيرات. يجب إزالة أي قيمة مفقودة في البيانات أو تقديرها.يجب أن تكون البيانات موحدة (أي ، تحجيمها) لجعل المتغيرات قابلة للمقارنة.
هل يجب تحجيم البيانات للتجميع؟
في التجميع ، يمكنك حساب التشابه بين مثالين من خلالدمج جميع بيانات الميزةلتلك الأمثلة في قيمة رقمية. يتطلب دمج بيانات المعالم أن يكون للبيانات نفس المقياس.
لماذا من المهم تطبيع الميزات قبل التجميع؟
التوحيد القياسي هو خطوة مهمة للبياناتالمعالجة المسبقة
كما هو موضح في هذه الورقة ، تقلل الوسيلة k وظيفة الخطأ باستخدام خوارزمية نيوتن ، أي خوارزمية التحسين القائمة على التدرج.تطبيع البيانات يحسن تقارب هذه الخوارزميات.