คงจะดีไม่น้อยถ้าเข้าใจหลักการพื้นฐานที่ใช้ในการสร้างโครงสร้างการตัดสินใจ? ในโพสต์นี้ ฉันจะสาธิตวิธีสร้างโครงสร้างการตัดสินใจ โดยเฉพาะอย่างยิ่งโครงสร้างการจำแนกประเภท โดยใช้เกณฑ์สองเกณฑ์ที่แตกต่างกัน: _gini สิ่งเจือปน _และ _entropy _เสริมด้วยคำอธิบายทีละขั้นตอน ฉันหวังว่าคุณจะมีความซาบซึ้งมากขึ้นเกี่ยวกับวิธีการสร้างต้นไม้ตัดสินใจในตอนท้ายของโพสต์นี้!
โครงสร้างการตัดสินใจสร้างขึ้นจากประสบการณ์ที่ผ่านมาเพื่อประเมินว่าจะดูหนังเรื่องใดเรื่องหนึ่งหรือไม่
1. ดาต้า
เพื่อให้สิ่งต่าง ๆ สามารถจัดการได้และหวังว่าจะสนุกเล็กน้อย เราจะสร้างข้อมูลเล็ก ๆ น้อย ๆ ที่ได้รับแรงบันดาลใจจากตัวละครหลัก 6 ตัวจากซิทคอม เพื่อน :
ผู้เชี่ยวชาญด้านการกู้คืนบัญชี Google
หมายเหตุ: ค่าในข้อมูลถูกปรับให้เหมาะสมกับตัวอย่าง
มาสนุกกันเถอะกับแนวคิดที่ว่าข้อมูลนี้ถูกต้องสำหรับจุดประสงค์ของโพสต์นี้ เราจะสร้างโครงสร้างการตัดสินใจเพื่อจำแนกว่าตัวละครนั้นเป็นพาเรนต์หรือไม่ โดยใช้คอลัมน์ที่เหลือ กล่าวอีกนัยหนึ่ง เราจะสร้างแผนผังการจัดหมวดหมู่ด้วยอินพุตและเอาต์พุตต่อไปนี้:
◼ ️ อินพุต | คุณสมบัติ: was_on_a_break, is_married, has_pet
◼️ เอาท์พุต | เป้า: is_parent
หากคุณชอบคณิตศาสตร์ เราขอแนะนำให้คุณคำนวณด้วยตนเองควบคู่ไปกับคู่มือนี้เพื่อใช้ประโยชน์จากบล็อกนี้ให้เกิดประโยชน์สูงสุด ในส่วนนี้ อักขระที่เป็นผู้ปกครองจะถูกย่อเป็น **pa **และอักขระที่ไม่ใช่ผู้ปกครองจะถูกย่อว่า **np **สำหรับตัวย่อ
2.1. การใช้จินนี่เจือปน (ดัชนีจีนีหรือค่าสัมประสิทธิ์จินี) ☝️
แผนผังการตัดสินใจสร้างขึ้นโดยแยกโหนดไบนารีแบบเรียกซ้ำจากบนลงล่าง เราสามารถค้นหาการแบ่งที่เหมาะสมสำหรับโหนดด้วยขั้นตอนต่อไปนี้:
**ขั้นตอนที่ 1: **คำนวณสิ่งเจือปนของ gini (ต่อไปนี้เป็น gini) เพื่อให้โหนดแยกออกจาก
str_repeat ใน php
**ขั้นตอนที่ 2: **ค้นหาการแบ่งที่เป็นไปได้ทั้งหมด
**ขั้นตอนที่ 3: **คำนวณจินีสำหรับทั้งสองโหนดสำหรับการแยกแต่ละครั้ง
ขั้นตอนที่ 4: คำนวณจินีถัวเฉลี่ยถ่วงน้ำหนักสำหรับการแยกแต่ละครั้ง
**ขั้นตอนที่ 5: **กำหนดการแบ่งที่ดีที่สุด: อันที่มีจินีถัวเฉลี่ยถ่วงน้ำหนักต่ำสุด
รหัสผ่านสำหรับแอปเงินสด
ขั้นตอนที่ 6: คำนวณการรับข้อมูล: แบ่งถ้าข้อมูลที่ได้รับเป็นบวก
โหนดบนสุดที่รวมทุกคนจากข้อมูลการฝึกอบรมเรียกว่า โหนดรูท . มากำหนดการแยกที่ดีที่สุดสำหรับโหนดรูทด้วยขั้นตอน
#supervised-learning #machine-learning #data-science #classification #decision-tree
ต่อdatascience.com
ต้นไม้ตัดสินใจถูกสร้างขึ้นอย่างไร?
คู่มือเบื้องต้นเพื่อสร้างแผนผังการตัดสินใจตั้งแต่เริ่มต้น คงจะดีไม่น้อยถ้าเข้าใจหลักการพื้นฐานที่ใช้ในการสร้างโครงสร้างการตัดสินใจ? ในโพสต์นี้ ฉันจะสาธิตวิธีสร้างโครงสร้างการตัดสินใจ โดยเฉพาะแผนผังการจัดหมวดหมู่ โดยใช้เกณฑ์สองเกณฑ์ที่แตกต่างกัน: gini impurity และ entropy เสริมด้วยคำอธิบายทีละขั้นตอน ฉันหวังว่าคุณจะมีความซาบซึ้งมากขึ้นเกี่ยวกับวิธีการสร้างต้นไม้ตัดสินใจในตอนท้ายของโพสต์นี้