เจาะลึกการขูดเว็บโดยใช้ MechanicalSoup

ลองใช้เครื่องมือของเราเพื่อกำจัดปัญหา

ไลบรารี Apython สำหรับการโต้ตอบและการกำหนดขอบเขตเว็บไซต์โดยอัตโนมัติ! แต่มีอะไรใหม่ใน MechanicalSoup ซึ่งเราไม่ได้กล่าวถึง ซุปที่สวยงาม .

MechanicalSoup เป็นแพ็คเกจหลามที่เก็บและส่งคุกกี้โดยอัตโนมัติ ติดตามการเปลี่ยนเส้นทาง และยังสามารถติดตามไฮเปอร์ลิงก์และแบบฟอร์มในหน้าเว็บได้อีกด้วย สร้างโดย M Hickford . เขาประหลาดใจเสมอโดย เครื่องจักร ห้องสมุด. Mechanize เป็นโปรเจ็กต์ของ John J. Lee ที่เปิดใช้งานการท่องเว็บแบบเป็นโปรแกรมใน Python และ Kovid Goyal เข้าครอบครองในภายหลังในปี 2017

คุณสมบัติบางอย่างของ Mechanize คือ:



  • mechanize.เบราว์เซอร์: ที่ใช้ urllib2.OpenerDirector เพื่อเปิด Url ใด ๆ บนอินเทอร์เน็ต
  • กรอกแบบฟอร์ม HTML อย่างง่ายดาย
  • สังเกต robots.text โดยอัตโนมัติ
  • จัดการ HTTP-Equiv . โดยอัตโนมัติ
  • เบราว์เซอร์ .กลับ() และ .**reload() **วิธี

น่าเสียดายที่ Mechanize เข้ากันไม่ได้กับภาษาการเขียนโปรแกรม Python3 และการพัฒนาก็หยุดชะงักไปหลายปี

#data scraping #mechanicalsoup #python framework #python

analyticsindiamag.com

เจาะลึกการขูดเว็บโดยใช้ MechanicalSoup

เราจะสร้างชุดข้อมูลที่กำหนดเองของภาพแมวโดยใช้ MechanicalSoup นอกจากนี้ คุณยังสามารถใช้ชุดข้อมูลเหล่านี้ในโครงการวิทยาศาสตร์ข้อมูลของคุณ

ดูสิ่งนี้ด้วย: