การสร้างตัวแทน AI ที่น่ารังเกียจสำหรับ Doom โดยใช้ Dueling Deep Q-learning

ลองใช้เครื่องมือของเราเพื่อกำจัดปัญหา

การใช้งานใน Pytorch

บทนำ

ในช่วงไม่กี่บทความที่ผ่านมา เราได้ กล่าวถึง และ ดำเนินการ การเรียนรู้ Q ลึก (DQN)และ การเรียนรู้ Q ลึกสองเท่า (DDQN) ใน สภาพแวดล้อมของเกม VizDoom และประเมินผลการปฏิบัติงาน Deep Q-learning เป็นวิธีการเรียนรู้ออนไลน์ที่มีความยืดหยุ่นสูงและตอบสนองได้ดี ซึ่งใช้การอัปเดตภายในตอนอย่างรวดเร็วเพื่อประเมินค่าสถานะการดำเนินการ (Q) ในสภาพแวดล้อมเพื่อเพิ่มผลตอบแทนสูงสุด Double Deep Q-Learning สร้างจากสิ่งนี้โดยแยกเครือข่ายที่รับผิดชอบในการเลือกการกระทำและการคำนวณเป้าหมาย TD เพื่อลดการประเมินค่า Q-value สูงเกินไป ซึ่งเป็นปัญหาที่เห็นได้ชัดโดยเฉพาะอย่างยิ่งเมื่อก่อนหน้านี้ในกระบวนการฝึกอบรม เมื่อตัวแทนยังไม่ได้สำรวจอย่างเต็มที่ รัฐที่เป็นไปได้ส่วนใหญ่

#การลงโทษ #การเรียนรู้อย่างลึกซึ้ง #ai #openai #การเสริมกำลัง-การเรียนรู้



ต่อdatascience.com

การสร้างตัวแทน AI ที่น่ารังเกียจสำหรับ Doom โดยใช้ Dueling Deep Q-learning

เราได้พูดคุยและใช้งาน Deep Q-learning (DQN) และ Double Deep Q Learning (DDQN) ในสภาพแวดล้อมเกม VizDoom และประเมินประสิทธิภาพของพวกเขา

ดูสิ่งนี้ด้วย: