รู้เบื้องต้นเกี่ยวกับ Gradient Descent: Weight Initiation และ Optimizers

ลองใช้เครื่องมือของเราเพื่อกำจัดปัญหา

Gradient Descent เป็นหนึ่งในอัลกอริธึมการขับเคลื่อนหลักที่อยู่เบื้องหลังการเรียนรู้ของเครื่องและวิธีการเรียนรู้เชิงลึกทั้งหมด กลไกนี้ผ่านการปรับเปลี่ยนหลายครั้งในหลายวิธีเพื่อให้มีความแข็งแกร่งมากขึ้น ในบทความนี้เราจะพูดถึงสองคนนี้ สำหรับสิ่งนี้ คุณจำเป็นต้องมีสัญชาตญาณที่ชัดเจนมากว่าการไล่ระดับสีแบบไล่ระดับสีคืออะไรและทำงานอย่างไร หากคุณมีข้อสงสัยหรือสับสนเกี่ยวกับหัวข้อนี้ โปรดเยี่ยมชม บทความของฉันเกี่ยวกับเรื่องนี้ .


ความท้าทาย

    ความแตกต่างทางโครงสร้างของ Loss Function

มาเรียนรู้เกี่ยวกับเส้นโค้งสองประเภทกัน

เส้นโค้งนูน



วิธีคำนวณกำไรสกุลเงินดิจิตอล

รูปภาพสำหรับโพสต์

รูปภาพสำหรับโพสต์

นี่คือเส้นโค้งนูน มีขั้นต่ำเดียวทั่วโลก ดังนั้น เมื่อเราเริ่มต้นจุดใดก็ตาม เราสามารถใช้การไล่ระดับสีเพื่อให้ได้ค่าต่ำสุดทั่วโลก หากเราถือว่าจุดเป็นน้ำหนักและเส้นโค้งเป็นฟังก์ชันการสูญเสีย เราสามารถหาค่าต่ำสุดของฟังก์ชันการสูญเสียได้โดยง่ายโดยใช้อนุพันธ์ของฟังก์ชันการสูญเสียที่เกี่ยวกับน้ำหนัก

เส้นโค้งที่ไม่นูน

รูปภาพสำหรับโพสต์

นี่คือเส้นโค้งที่ไม่นูน ทีนี้ ถ้าเราใช้การไล่ระดับสีลงมาจากจุดใดๆ (x,y) บนเส้นโค้ง เราไม่แน่ใจว่าจะถึงจุดต่ำสุดทั้งหมดหรือไม่ เราอาจจะไปติดอยู่ที่โลคัลมินิมา ตัวอย่างเช่น (x1,y1) อาจติดขัดที่ค่าต่ำสุดในเครื่องที่ตามมา แต่ (x2,y2) จะเข้าถึงส่วนกลางได้อย่างง่ายดาย ดังนั้น ตำแหน่งของประเด็นจึงมีความสำคัญ

นักวิเคราะห์ข้อมูลด้านความเร่งรีบ

รูปภาพสำหรับโพสต์

คุณสมบัติไม่นูน

เส้นโค้งที่ไม่นูนมีสามจุดที่น่าสนใจ จุดอานซึ่งเป็นบริเวณที่ราบสูงในท้องถิ่นและทั่วโลก จุดเหล่านี้ทั้งหมดจะมี

ได/dx=0

ตอนนี้ ถ้าเราพิจารณา x เป็นน้ำหนัก และ y=f(x) เป็นฟังก์ชันการสูญเสีย dL/dW=0

สมการการไล่ระดับสีของเราจนถึงตอนนี้ เราได้ใช้

รูปภาพสำหรับโพสต์

ดังนั้น หาก dL/dW เป็น 0 น้ำหนักจะยังคงเท่าเดิมและเราจะติดอยู่ในสถานะที่ไม่เหมาะสม เส้นโค้งที่ไม่นูนเหล่านี้พบได้ทั่วไปในโครงข่ายประสาทเทียมเนื่องจากการทำงานที่ซับซ้อน

ไม่มีโมดูลดังกล่าว 'firebase'

ตอนนี้เรามาพูดถึงปัญหาอื่นๆ ด้วยอัลกอริทึมการไล่ระดับสี

สอง. การระเบิดและการไล่ระดับสีที่หายไป

ใน Neural Networks หากเราใช้เครือข่ายที่ลึกมาก เราจะมีปัญหาที่เรียกว่าการไล่ระดับสีที่หายไปและการระเบิด เราได้เห็นในโครงข่ายประสาทเทียม เราได้สมการดังนี้

รูปภาพสำหรับโพสต์

และส่งผ่านฟังก์ชันการเปิดใช้งานหลายอย่าง f(x) และ g(x) ในการดำเนินการดังกล่าวหลายครั้ง เราได้สมการที่ซับซ้อน ตัวอย่างเช่น,

รูปภาพสำหรับโพสต์

เราได้เห็นสิ่งนี้ในบทความก่อนหน้าของฉันแล้ว เราจะเห็นว่าน้ำหนักเราทวีคูณขึ้นหลายเท่า จำนวนชั้นมากขึ้น จำนวนทวีคูณมากขึ้น

วิธีดูภาพทวิตเตอร์ที่ถูกลบ

ตอนนี้ หากค่าน้ำหนักเริ่มต้นด้วยค่าที่สูงมาก ค่าการไล่ระดับสีจะระเบิด ซึ่งเรียกว่าปัญหาการไล่ระดับสีที่ระเบิด ในทำนองเดียวกัน หากค่าของน้ำหนักมีค่าต่ำ ค่าการไล่ระดับสีจะหายไปเกือบหมดเนื่องจากการคูณด้วยค่าที่น้อยมากซ้ำแล้วซ้ำเล่า สิ่งนี้เรียกว่าปัญหาการไล่ระดับสีที่หายไป

ต่อ datascience.com

ข้อมูลเบื้องต้นเกี่ยวกับ Gradient Descent: Weight Initiation และ Optimizers

อัลกอริทึม Gradient Descent ได้รับการแก้ไขอย่างไรเพื่อประสิทธิภาพที่ดีขึ้น Gradient Descent เป็นหนึ่งในอัลกอริธึมการขับเคลื่อนหลักที่อยู่เบื้องหลังการเรียนรู้ของเครื่องและวิธีการเรียนรู้เชิงลึกทั้งหมด >

ดูสิ่งนี้ด้วย: