การใช้งานใน Pytorch
บทนำ
ในช่วงไม่กี่บทความที่ผ่านมา เราได้ กล่าวถึง และ ดำเนินการ การเรียนรู้ Q ลึก (DQN)และ การเรียนรู้ Q ลึกสองเท่า (DDQN) ใน สภาพแวดล้อมของเกม VizDoom และประเมินผลการปฏิบัติงาน Deep Q-learning เป็นวิธีการเรียนรู้ออนไลน์ที่มีความยืดหยุ่นสูงและตอบสนองได้ดี ซึ่งใช้การอัปเดตภายในตอนอย่างรวดเร็วเพื่อประเมินค่าสถานะการดำเนินการ (Q) ในสภาพแวดล้อมเพื่อเพิ่มผลตอบแทนสูงสุด Double Deep Q-Learning สร้างจากสิ่งนี้โดยแยกเครือข่ายที่รับผิดชอบในการเลือกการกระทำและการคำนวณเป้าหมาย TD เพื่อลดการประเมินค่า Q-value สูงเกินไป ซึ่งเป็นปัญหาที่เห็นได้ชัดโดยเฉพาะอย่างยิ่งเมื่อก่อนหน้านี้ในกระบวนการฝึกอบรม เมื่อตัวแทนยังไม่ได้สำรวจอย่างเต็มที่ รัฐที่เป็นไปได้ส่วนใหญ่
#การลงโทษ #การเรียนรู้อย่างลึกซึ้ง #ai #openai #การเสริมกำลัง-การเรียนรู้

ต่อdatascience.com
การสร้างตัวแทน AI ที่น่ารังเกียจสำหรับ Doom โดยใช้ Dueling Deep Q-learning
เราได้พูดคุยและใช้งาน Deep Q-learning (DQN) และ Double Deep Q Learning (DDQN) ในสภาพแวดล้อมเกม VizDoom และประเมินประสิทธิภาพของพวกเขา
ดูสิ่งนี้ด้วย:
- จะซื้อประกันการเงินได้อย่างไรและที่ไหน (INFI) – คำแนะนำทีละขั้นตอนง่าย ๆ
- พิมพ์ความเร็วโปรแกรม Java - คำนวณ WPM (คำต่อนาที)
- เรียนรู้ปฏิกิริยาโดยการสร้างแอปพลิเคชันอีคอมเมิร์ซด้วยส่วนประกอบคลาส
- สถิติแบบเบย์: เมโทรโพลิส-เฮสติงส์ตั้งแต่เริ่มต้นใน Python
- มาสร้างแอป MongoDB, React, Node และ Express (MERN) แบบเต็มสแต็กกันเถอะ