การลดมิติ เป็นเทคนิคการเรียนรู้แบบไม่มีผู้ดูแล
อย่างไรก็ตาม มันสามารถใช้เป็นขั้นตอนการแปลงข้อมูลก่อนการประมวลผลสำหรับอัลกอริธึมการเรียนรู้ของเครื่องในการจัดหมวดหมู่และชุดข้อมูลการสร้างแบบจำลองการคาดการณ์การถดถอยด้วยอัลกอริธึมการเรียนรู้ภายใต้การดูแล
มีอัลกอริธึมการลดมิติมากมายให้เลือก และไม่มีอัลกอริธึมเดียวที่ดีที่สุดสำหรับทุกกรณี แทนที่จะเป็นความคิดที่ดีที่จะสำรวจช่วงของอัลกอริธึมการลดขนาดและการกำหนดค่าที่แตกต่างกันสำหรับแต่ละอัลกอริธึม
ตอบสนองการแชทพื้นเมือง ui
ในบทช่วยสอนนี้ คุณจะค้นพบวิธีปรับให้เหมาะสมและประเมินอัลกอริธึมการลดขนาดบนสุดใน Python
หลังจากเสร็จสิ้นการกวดวิชานี้ คุณจะรู้ว่า:
- การลดมิติจะค้นหาการแสดงข้อมูลอินพุตที่เป็นตัวเลขในมิติที่ต่ำกว่าซึ่งจะรักษาความสัมพันธ์ที่สำคัญในข้อมูลไว้
- มีอัลกอริธึมการลดมิติที่แตกต่างกันมากมาย และไม่มีวิธีเดียวที่ดีที่สุดสำหรับชุดข้อมูลทั้งหมด
- วิธีใช้งาน ปรับให้พอดี และประเมินการลดขนาดสูงสุดใน Python ด้วยไลบรารีการเรียนรู้ของเครื่อง scikit-learn
ค้นพบการล้างข้อมูล การเลือกคุณสมบัติ การแปลงข้อมูล การลดขนาด และอีกมากมาย ในหนังสือเล่มใหม่ของฉัน พร้อมบทแนะนำทีละขั้นตอน 30 บทและซอร์สโค้ด Python แบบเต็ม
มาเริ่มกันเลย.
อัลกอริธึมการลดมิติด้วย Python
รูปภาพโดย เบอร์นาร์ด สแพรกก์. NZ , สงวนลิขสิทธิ์บางส่วน
ภาพรวมการสอน
บทช่วยสอนนี้แบ่งออกเป็นสามส่วน พวกเขาคือ:
- การลดมิติ
- อัลกอริทึมการลดมิติ
- ตัวอย่างการลดมิติ
- การติดตั้งห้องสมุด Scikit-Learn
- ชุดข้อมูลการจำแนกประเภท
- การวิเคราะห์องค์ประกอบหลัก
- การสลายตัวของค่าเอกพจน์
- การวิเคราะห์การเลือกปฏิบัติเชิงเส้น
- การฝัง Isomap
- การฝังเชิงเส้นในพื้นที่
- แก้ไขการฝังเชิงเส้นในเครื่อง
การลดมิติ
การลดมิติหมายถึงเทคนิคในการลดจำนวนตัวแปรอินพุตในข้อมูลการฝึกอบรม
เมื่อต้องจัดการกับข้อมูลที่มีมิติสูง มักจะมีประโยชน์ในการลดมิติโดยฉายข้อมูลไปยังสเปซย่อยของมิติที่ต่ำกว่าซึ่งรวบรวมสาระสำคัญของข้อมูล นี่เรียกว่าการลดมิติ
— หน้า 11, การเรียนรู้ของเครื่อง: มุมมองความน่าจะเป็น , 2555.
มิติข้อมูลสูงอาจหมายถึงตัวแปรอินพุตนับร้อย หลายพัน หรือแม้แต่นับล้าน
ขนาดอินพุตที่น้อยลงมักจะหมายถึงพารามิเตอร์ที่น้อยลงหรือโครงสร้างที่ง่ายกว่าในโมเดลการเรียนรู้ของเครื่องซึ่งเรียกว่า ระดับความอิสระ . แบบจำลองที่มีระดับความเป็นอิสระมากเกินไปมีแนวโน้มที่จะเกินชุดข้อมูลการฝึกและอาจทำงานได้ไม่ดีกับข้อมูลใหม่
เป็นที่พึงปรารถนาที่จะมีโมเดลอย่างง่ายที่สรุปได้ดี และในทางกลับกัน ป้อนข้อมูลด้วยตัวแปรอินพุตไม่กี่ตัว โดยเฉพาะอย่างยิ่งสำหรับโมเดลเชิงเส้นตรงที่จำนวนอินพุตและระดับความอิสระของโมเดลมักสัมพันธ์กันอย่างใกล้ชิด
การลดขนาดเป็นเทคนิคการจัดเตรียมข้อมูลที่ดำเนินการกับข้อมูลก่อนการสร้างแบบจำลอง มันอาจจะดำเนินการหลังจากการล้างข้อมูลและการปรับขนาดข้อมูล และก่อนการฝึกแบบจำลองการคาดการณ์
… การลดขนาดทำให้การแสดงแนวคิดเป้าหมายกระชับและตีความได้ง่ายขึ้น โดยมุ่งเน้นความสนใจของผู้ใช้ไปที่ตัวแปรที่เกี่ยวข้องมากที่สุด
— หน้า 289, การทำเหมืองข้อมูล: เครื่องมือและเทคนิคการเรียนรู้ของเครื่องที่ใช้งานได้จริง , ครั้งที่ 4, 2559.
ดังนั้น การลดมิติใดๆ ที่ทำกับข้อมูลการฝึกจะต้องดำเนินการกับข้อมูลใหม่ด้วย เช่น ชุดข้อมูลทดสอบ ชุดข้อมูลการตรวจสอบความถูกต้อง และข้อมูลเมื่อทำการทำนายด้วย รุ่นสุดท้าย .
ต้องการเริ่มต้นการเตรียมข้อมูลหรือไม่
เข้าร่วมหลักสูตรความผิดพลาดทางอีเมลฟรี 7 วันของฉันตอนนี้ (พร้อมโค้ดตัวอย่าง)
คลิกเพื่อลงทะเบียนและรับหลักสูตร PDF Ebook ฟรี
อัลกอริทึมการลดมิติ
มีอัลกอริธึมมากมายที่สามารถใช้สำหรับการลดขนาด
วิธีการหลักสองประเภทคือวิธีที่ดึงมาจากพีชคณิตเชิงเส้นและวิธีที่มาจากการเรียนรู้ที่หลากหลาย
วิธีการพีชคณิตเชิงเส้น
วิธีการแยกตัวประกอบเมทริกซ์ที่ดึงมาจากสนามพีชคณิตเชิงเส้นสามารถนำมาใช้สำหรับมิติ
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการแยกตัวประกอบของเมทริกซ์ ดูบทช่วยสอน:
วิธีการที่นิยมมากขึ้น ได้แก่ :
- การวิเคราะห์องค์ประกอบหลัก
- การสลายตัวของค่าเอกพจน์
- การแยกตัวประกอบเมทริกซ์ที่ไม่เป็นลบ
วิธีการเรียนรู้ที่หลากหลาย
วิธีการเรียนรู้ที่หลากหลายค้นหาการฉายภาพมิติล่างของอินพุตมิติสูงที่รวบรวมคุณสมบัติเด่นของข้อมูลที่ป้อนเข้า
วิธีการที่นิยมมากขึ้น ได้แก่ :
- การฝัง Isomap
- การฝังเชิงเส้นในพื้นที่
- การปรับขนาดหลายมิติ
- การฝังสเปกตรัม
- t-distributed Stochastic Neighbor Embedding
อัลกอริธึมแต่ละอันเสนอแนวทางที่แตกต่างกันสำหรับความท้าทายในการค้นหาความสัมพันธ์ตามธรรมชาติในข้อมูลในมิติที่ต่ำกว่า
ไม่มีอัลกอริธึมการลดขนาดที่ดีที่สุด และไม่มีวิธีง่ายๆ ในการค้นหาอัลกอริธึมที่ดีที่สุดสำหรับข้อมูลของคุณโดยไม่ต้องใช้การทดลองที่มีการควบคุม
ในบทช่วยสอนนี้ เราจะทบทวนวิธีใช้แต่ละชุดย่อยของอัลกอริธึมการลดมิติยอดนิยมเหล่านี้จากไลบรารี scikit-learn
ตัวอย่างจะเป็นพื้นฐานสำหรับคุณในการคัดลอกและวางตัวอย่างและทดสอบวิธีการด้วยข้อมูลของคุณเอง
เราจะไม่ดำดิ่งลงไปในทฤษฎีเบื้องหลังวิธีการทำงานของอัลกอริทึมหรือเปรียบเทียบโดยตรง สำหรับจุดเริ่มต้นที่ดีในหัวข้อนี้ โปรดดูที่:
มาดำดิ่งกัน
#การเตรียมข้อมูล #อัลกอริทึม
วิธีการซื้อ cardstarter
machinelearningmastery.com
6 อัลกอริธึมการลดมิติด้วย Python
การลดมิติเป็นเทคนิคการเรียนรู้ที่ไม่มีผู้ดูแล อย่างไรก็ตาม มันสามารถใช้เป็นขั้นตอนการแปลงข้อมูลก่อนการประมวลผลสำหรับอัลกอริธึมการเรียนรู้ของเครื่องในการจัดประเภท