التسوية مفيدةعندما تحتوي بياناتك على مقاييس مختلفة والخوارزمية التي تستخدمها لا تضع افتراضات حول توزيع بياناتك، مثل k- الأقرب للجيران والعصبية الاصطناعية الشبكات. يفترض التوحيد القياسي أن بياناتك لها توزيع غاوسي (منحنى الجرس).
متى يجب تطبيع البيانات؟
يجب تطبيع البيانات أو توحيدهالجعل جميع المتغيرات متناسبة مع بعضها البعض. على سبيل المثال ، إذا كان أحد المتغيرات أكبر 100 مرة من متغير آخر (في المتوسط) ، فقد يكون سلوك النموذج الخاص بك أفضل إذا قمت بتسوية / توحيد المتغيرين ليكونا متكافئين تقريبًا.
ما الفرق بين التطبيع والتوحيد؟
التطبيع يعني عادة إعادة قياس القيم في نطاق [0 ، 1]. يعني التوحيد القياسي عادةً إعادة قياس البيانات بحيث يكون لها متوسط يساوي 0 وانحراف معياري قدره 1(تباين الوحدة).
متى ولماذا نحتاج إلى تطبيع البيانات؟
بعبارات أبسط ، يتأكدالتسوية من أن جميع بياناتك تبدو وتقرأ بنفس الطريقة عبر جميع السجلات. ستعمل التسوية على توحيد الحقول بما في ذلك أسماء الشركات وأسماء جهات الاتصال وعناوين URL ومعلومات العنوان (الشوارع والولايات والمدن) وأرقام الهواتف والمسميات الوظيفية.
كيف تختار التطبيع والتوحيد؟
في عالم الأعمال ، يعني "التطبيع" عادةً أن نطاق القيم هو كذلك"تم التسوية ليكون من 0.0 إلى 1.0 ". يعني "التوحيد القياسي" عادةً أن نطاق القيم "معياري" لقياس عدد الانحرافات المعيارية للقيمة عن وسطها.