6 อัลกอริธึมการลดมิติด้วย Python

ลองใช้เครื่องมือของเราเพื่อกำจัดปัญหา

การลดมิติ เป็นเทคนิคการเรียนรู้แบบไม่มีผู้ดูแล

อย่างไรก็ตาม มันสามารถใช้เป็นขั้นตอนการแปลงข้อมูลก่อนการประมวลผลสำหรับอัลกอริธึมการเรียนรู้ของเครื่องในการจัดหมวดหมู่และชุดข้อมูลการสร้างแบบจำลองการคาดการณ์การถดถอยด้วยอัลกอริธึมการเรียนรู้ภายใต้การดูแล

มีอัลกอริธึมการลดมิติมากมายให้เลือก และไม่มีอัลกอริธึมเดียวที่ดีที่สุดสำหรับทุกกรณี แทนที่จะเป็นความคิดที่ดีที่จะสำรวจช่วงของอัลกอริธึมการลดขนาดและการกำหนดค่าที่แตกต่างกันสำหรับแต่ละอัลกอริธึม



ตอบสนองการแชทพื้นเมือง ui

ในบทช่วยสอนนี้ คุณจะค้นพบวิธีปรับให้เหมาะสมและประเมินอัลกอริธึมการลดขนาดบนสุดใน Python

หลังจากเสร็จสิ้นการกวดวิชานี้ คุณจะรู้ว่า:

  • การลดมิติจะค้นหาการแสดงข้อมูลอินพุตที่เป็นตัวเลขในมิติที่ต่ำกว่าซึ่งจะรักษาความสัมพันธ์ที่สำคัญในข้อมูลไว้
  • มีอัลกอริธึมการลดมิติที่แตกต่างกันมากมาย และไม่มีวิธีเดียวที่ดีที่สุดสำหรับชุดข้อมูลทั้งหมด
  • วิธีใช้งาน ปรับให้พอดี และประเมินการลดขนาดสูงสุดใน Python ด้วยไลบรารีการเรียนรู้ของเครื่อง scikit-learn

ค้นพบการล้างข้อมูล การเลือกคุณสมบัติ การแปลงข้อมูล การลดขนาด และอีกมากมาย ในหนังสือเล่มใหม่ของฉัน พร้อมบทแนะนำทีละขั้นตอน 30 บทและซอร์สโค้ด Python แบบเต็ม

มาเริ่มกันเลย.

อัลกอริธึมการลดมิติด้วย Pythonอัลกอริธึมการลดมิติด้วย Python

รูปภาพโดย เบอร์นาร์ด สแพรกก์. NZ , สงวนลิขสิทธิ์บางส่วน

ภาพรวมการสอน

บทช่วยสอนนี้แบ่งออกเป็นสามส่วน พวกเขาคือ:

  1. การลดมิติ
  2. อัลกอริทึมการลดมิติ
  3. ตัวอย่างการลดมิติ
  4. การติดตั้งห้องสมุด Scikit-Learn
  5. ชุดข้อมูลการจำแนกประเภท
  6. การวิเคราะห์องค์ประกอบหลัก
  7. การสลายตัวของค่าเอกพจน์
  8. การวิเคราะห์การเลือกปฏิบัติเชิงเส้น
  9. การฝัง Isomap
  10. การฝังเชิงเส้นในพื้นที่
  11. แก้ไขการฝังเชิงเส้นในเครื่อง

การลดมิติ

การลดมิติหมายถึงเทคนิคในการลดจำนวนตัวแปรอินพุตในข้อมูลการฝึกอบรม

เมื่อต้องจัดการกับข้อมูลที่มีมิติสูง มักจะมีประโยชน์ในการลดมิติโดยฉายข้อมูลไปยังสเปซย่อยของมิติที่ต่ำกว่าซึ่งรวบรวมสาระสำคัญของข้อมูล นี่เรียกว่าการลดมิติ

— หน้า 11, การเรียนรู้ของเครื่อง: มุมมองความน่าจะเป็น , 2555.

มิติข้อมูลสูงอาจหมายถึงตัวแปรอินพุตนับร้อย หลายพัน หรือแม้แต่นับล้าน

ขนาดอินพุตที่น้อยลงมักจะหมายถึงพารามิเตอร์ที่น้อยลงหรือโครงสร้างที่ง่ายกว่าในโมเดลการเรียนรู้ของเครื่องซึ่งเรียกว่า ระดับความอิสระ . แบบจำลองที่มีระดับความเป็นอิสระมากเกินไปมีแนวโน้มที่จะเกินชุดข้อมูลการฝึกและอาจทำงานได้ไม่ดีกับข้อมูลใหม่

เป็นที่พึงปรารถนาที่จะมีโมเดลอย่างง่ายที่สรุปได้ดี และในทางกลับกัน ป้อนข้อมูลด้วยตัวแปรอินพุตไม่กี่ตัว โดยเฉพาะอย่างยิ่งสำหรับโมเดลเชิงเส้นตรงที่จำนวนอินพุตและระดับความอิสระของโมเดลมักสัมพันธ์กันอย่างใกล้ชิด

การลดขนาดเป็นเทคนิคการจัดเตรียมข้อมูลที่ดำเนินการกับข้อมูลก่อนการสร้างแบบจำลอง มันอาจจะดำเนินการหลังจากการล้างข้อมูลและการปรับขนาดข้อมูล และก่อนการฝึกแบบจำลองการคาดการณ์

… การลดขนาดทำให้การแสดงแนวคิดเป้าหมายกระชับและตีความได้ง่ายขึ้น โดยมุ่งเน้นความสนใจของผู้ใช้ไปที่ตัวแปรที่เกี่ยวข้องมากที่สุด

— หน้า 289, การทำเหมืองข้อมูล: เครื่องมือและเทคนิคการเรียนรู้ของเครื่องที่ใช้งานได้จริง , ครั้งที่ 4, 2559.

ดังนั้น การลดมิติใดๆ ที่ทำกับข้อมูลการฝึกจะต้องดำเนินการกับข้อมูลใหม่ด้วย เช่น ชุดข้อมูลทดสอบ ชุดข้อมูลการตรวจสอบความถูกต้อง และข้อมูลเมื่อทำการทำนายด้วย รุ่นสุดท้าย .

ต้องการเริ่มต้นการเตรียมข้อมูลหรือไม่

เข้าร่วมหลักสูตรความผิดพลาดทางอีเมลฟรี 7 วันของฉันตอนนี้ (พร้อมโค้ดตัวอย่าง)

คลิกเพื่อลงทะเบียนและรับหลักสูตร PDF Ebook ฟรี

ดาวน์โหลดมินิคอร์สฟรีของคุณ

อัลกอริทึมการลดมิติ

มีอัลกอริธึมมากมายที่สามารถใช้สำหรับการลดขนาด

วิธีการหลักสองประเภทคือวิธีที่ดึงมาจากพีชคณิตเชิงเส้นและวิธีที่มาจากการเรียนรู้ที่หลากหลาย

วิธีการพีชคณิตเชิงเส้น

วิธีการแยกตัวประกอบเมทริกซ์ที่ดึงมาจากสนามพีชคณิตเชิงเส้นสามารถนำมาใช้สำหรับมิติ

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการแยกตัวประกอบของเมทริกซ์ ดูบทช่วยสอน:

วิธีการที่นิยมมากขึ้น ได้แก่ :

  • การวิเคราะห์องค์ประกอบหลัก
  • การสลายตัวของค่าเอกพจน์
  • การแยกตัวประกอบเมทริกซ์ที่ไม่เป็นลบ

วิธีการเรียนรู้ที่หลากหลาย

วิธีการเรียนรู้ที่หลากหลายค้นหาการฉายภาพมิติล่างของอินพุตมิติสูงที่รวบรวมคุณสมบัติเด่นของข้อมูลที่ป้อนเข้า

วิธีการที่นิยมมากขึ้น ได้แก่ :

  • การฝัง Isomap
  • การฝังเชิงเส้นในพื้นที่
  • การปรับขนาดหลายมิติ
  • การฝังสเปกตรัม
  • t-distributed Stochastic Neighbor Embedding

อัลกอริธึมแต่ละอันเสนอแนวทางที่แตกต่างกันสำหรับความท้าทายในการค้นหาความสัมพันธ์ตามธรรมชาติในข้อมูลในมิติที่ต่ำกว่า

ไม่มีอัลกอริธึมการลดขนาดที่ดีที่สุด และไม่มีวิธีง่ายๆ ในการค้นหาอัลกอริธึมที่ดีที่สุดสำหรับข้อมูลของคุณโดยไม่ต้องใช้การทดลองที่มีการควบคุม

ในบทช่วยสอนนี้ เราจะทบทวนวิธีใช้แต่ละชุดย่อยของอัลกอริธึมการลดมิติยอดนิยมเหล่านี้จากไลบรารี scikit-learn

ตัวอย่างจะเป็นพื้นฐานสำหรับคุณในการคัดลอกและวางตัวอย่างและทดสอบวิธีการด้วยข้อมูลของคุณเอง

เราจะไม่ดำดิ่งลงไปในทฤษฎีเบื้องหลังวิธีการทำงานของอัลกอริทึมหรือเปรียบเทียบโดยตรง สำหรับจุดเริ่มต้นที่ดีในหัวข้อนี้ โปรดดูที่:

มาดำดิ่งกัน

#การเตรียมข้อมูล #อัลกอริทึม

วิธีการซื้อ cardstarter

machinelearningmastery.com

6 อัลกอริธึมการลดมิติด้วย Python

การลดมิติเป็นเทคนิคการเรียนรู้ที่ไม่มีผู้ดูแล อย่างไรก็ตาม มันสามารถใช้เป็นขั้นตอนการแปลงข้อมูลก่อนการประมวลผลสำหรับอัลกอริธึมการเรียนรู้ของเครื่องในการจัดประเภท

ดูสิ่งนี้ด้วย: