- Fara-7B คือ โมเดลภาษาแบบเอเจนต์ขนาดเล็กมาก (SLM) ที่มีพารามิเตอร์ 7 พันล้านตัว ใช้สถาปัตยกรรม Computer Use Agent สำหรับปฏิบัติงานด้วยการควบคุมเว็บเบราว์เซอร์จริง
- คาดการณ์อินพุตจากเมาส์และคีย์บอร์ดโดยตรง เพื่อ รับรู้และควบคุมเว็บเพจด้วยภาพ และโต้ตอบในแบบเดียวกับมนุษย์โดยไม่ต้องพึ่ง accessibility tree หรือโมเดล parsing แยกต่างหาก
- รันบนอุปกรณ์ได้ ช่วยลดเวลาแฝงและเสริมการปกป้องความเป็นส่วนตัว โดยทำงานเสร็จภายในเฉลี่ย 16 ขั้นตอน จึงมีประสิทธิภาพดีกว่าโมเดลระดับเดียวกัน
- ทำผลงานได้เหนือกว่าโมเดลระดับเดียวกันและโมเดลขนาดใหญ่ในหลายเบนช์มาร์ก เช่น WebTailBench โดยเฉพาะในงานเว็บอัตโนมัติและงานหลายขั้นตอนที่มีอัตราความสำเร็จสูง
- พร้อมกับ ชุดข้อมูล WebTailBench ที่ Microsoft เปิดเผย ซึ่งมอบทั้งการประเมินเอเจนต์บนเว็บและสภาพแวดล้อมการทดลองที่ทำซ้ำได้ ช่วยสนับสนุน การทำมาตรฐานงานวิจัยด้านปฏิสัมพันธ์บนเว็บจริง
ภาพรวมของ Fara-7B
- เป็น โมเดลภาษาแบบเอเจนต์ขนาดเล็ก (SLM) สำหรับการใช้งานคอมพิวเตอร์โดยเฉพาะ รุ่นแรกของ Microsoft ที่ทำผลงานได้ในระดับ ล้ำสมัย ที่ขนาด 7 พันล้านพารามิเตอร์
- สร้างบนพื้นฐานของ Qwen2.5-VL-7B และฝึกด้วยข้อมูลสังเคราะห์ (145,000 เส้นทาง) ที่ใช้ เฟรมเวิร์กมัลติเอเจนต์ Magentic-One
- มีขนาด 7B พารามิเตอร์ ทำให้ รันแบบโลคัลได้ ช่วยลดเวลาแฝงและเพิ่มการปกป้องข้อมูลส่วนตัว
จุดเด่นหลัก
- ใช้ การควบคุมด้วยภาพ ในการรับรู้เว็บเพจ และเลียนแบบการกระทำของผู้ใช้จริง เช่น เลื่อน คลิก และพิมพ์
- ใช้ input modality แบบเดียวกับมนุษย์ โดยไม่จำเป็นต้องมีโมเดล parsing เพิ่มเติม
- ทำงานเสร็จภายใน เฉลี่ย 16 ขั้นตอน เพิ่มประสิทธิภาพจากโมเดลใกล้เคียงกัน (เฉลี่ย 41 ขั้นตอน)
- ติดตั้งใช้งานบนอุปกรณ์ได้ ลดการพึ่งพาคลาวด์และเสริมการปกป้องข้อมูลส่วนบุคคล
ความสามารถที่รองรับ
- ค้นหาเว็บและสรุปผลลัพธ์
- กรอกฟอร์มและจัดการบัญชี
- จองตั๋วเครื่องบิน ภาพยนตร์ และร้านอาหาร
- ช้อปปิ้งออนไลน์และเปรียบเทียบราคา
- ค้นหางานและข้อมูลอสังหาริมทรัพย์
การเปรียบเทียบประสิทธิภาพ
- ประเมินบน 4 เบนช์มาร์ก ได้แก่ WebVoyager, Online-M2W, DeepShop, WebTailBench
- Fara-7B มีอัตราความสำเร็จ WebVoyager 73.5%, Online-M2W 34.1%, DeepShop 26.2%, WebTailBench 38.4%
- ทำผลงานได้ดีกว่าโมเดลระดับเดียวกัน (UI-TARS-1.5-7B) และโมเดลขนาดใหญ่ (GLM-4.1V-9B)
เบนช์มาร์ก WebTailBench
- ประกอบด้วย 609 งาน ครอบคลุม งานเว็บจริง 11 ประเภท
- รวมทั้งงานในเว็บไซต์เดียว (ช้อปปิ้ง เที่ยวบิน โรงแรม ฯลฯ) และงานหลายขั้นตอน (เปรียบเทียบสินค้า งานแบบผสม ฯลฯ)
- Fara-7B ทำผลงาน สูงสุดในบรรดาโมเดลการใช้งานคอมพิวเตอร์ ในทุกหมวดหมู่
- ตัวอย่าง: โรงแรม 53.8%, เที่ยวบิน 37.9%, ช้อปปิ้ง 52.4%, เปรียบเทียบสินค้า 32.7%
โครงสร้างพื้นฐานการประเมิน
- ใช้ Playwright เพื่อจำลองสภาพแวดล้อมเบราว์เซอร์จริง
- ใช้ Abstract Web Agent Interface เพื่อรวมการทำงานกับโมเดลหลากหลายแบบ
- รองรับการรันและทดสอบโมเดลผ่าน Fara-Agent Class
- เป็นเวอร์ชันทดลองที่เปิดเผยสู่สาธารณะ และแนะนำให้ รันในสภาพแวดล้อม sandbox พร้อมจำกัดการใช้ข้อมูลอ่อนไหว
การติดตั้งและการรัน
การทำซ้ำได้และสภาพแวดล้อมการประเมิน
- มีเฟรมเวิร์ก
webeval/ สำหรับทำซ้ำการประเมินของ WebVoyager และ OnlineMind2Web
- ผสานรวมกับ BrowserBase เพื่อจัดการเซสชันเบราว์เซอร์ได้อย่างเสถียร
- รักษาความสม่ำเสมอของการประเมินด้วย การอัปเดตงานที่ไวต่อเวลา, การจัดการข้อผิดพลาดของสภาพแวดล้อม, และ ข้อจำกัด 100 ขั้นตอน
- ลบงานที่เป็นไปไม่ได้ 48 งานจาก ชุดข้อมูล WebVoyager และอัปเดตวันที่ในอนาคต 50 รายการ
การรันการประเมินและการวิเคราะห์
- รันสคริปต์ประเมินจากไดเรกทอรี
webeval/scripts
- เลือกได้ระหว่าง VLLM แบบโฮสต์เอง หรือ Azure Foundry endpoint
- ผลลัพธ์จะถูกบันทึกเป็น
gpt_eval/, traj/, screenshot_X.png เป็นต้น
- สามารถใช้ Jupyter Notebook เพื่อวิเคราะห์คะแนนเฉลี่ย สาเหตุความล้มเหลว และเส้นทางที่ถูกยกเลิก
แผนในอนาคต
- มีแผนเปิดเผย validation pipeline สำหรับการประเมินแบบ LLM-as-a-judge และ ข้อมูล annotation อย่างเป็นทางการโดยมนุษย์ของ WebTailBench
- ปรับปรุงคุณภาพการประเมินผ่านความร่วมมือกับ BrowserBase
ข้อมูลการอ้างอิง
- หากนำไปใช้ในงานวิจัย แนะนำให้อ้างอิงบทความของ Microsoft Research เรื่อง Fara: Fast and Accurate Web Agent (2025)
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
คิดว่านี่คือจุดตั้งต้นที่แท้จริงของการถกเถียงครั้งนี้ เลยสงสัยว่าบริษัทใหญ่รายอื่นเคยทำ fine-tuning โมเดลภายนอกในลักษณะนี้หรือไม่
ตอนนี้ดูเหมือนว่า บริษัทจีนกำลังเป็นผู้นำ
เลยอดคิดไม่ได้ว่าเป็นเพราะสัญญากับ OpenAI ทำให้สร้าง LLM ของตัวเองไม่ได้หรือเปล่า Meta ดูจะเป็นรายเดียวในสหรัฐที่ปล่อย โมเดลโอเพนซอร์ส ขนาดใหญ่ ขณะที่บริษัทจีนก็ยังปล่อยโมเดลแบบเปิดอย่างเต็มรูปแบบออกมาอย่างต่อเนื่อง
โมเดลนี้ทำมาเพื่อควบคุมคอมพิวเตอร์ ดังนั้นข้อมูลสังเคราะห์จึงเหมาะ เพราะแทบไม่มีชุดข้อมูลจริงอยู่เลย
เหตุผลที่บริษัทจีนเลือกโอเพนซอร์สน่าจะเป็นเรื่อง การสร้างความน่าเชื่อถือ และ ความแตกต่างทางการตลาด เป็นหลัก
งานวิจัยที่เกี่ยวข้อง: https://arxiv.org/pdf/2504.14772v1
ฉันเคยลองใช้ Qwen3-VL-30B กับ Playwright แล้ว มันค่อนข้างโอเคสำหรับงานอัตโนมัติบนเบราว์เซอร์ แต่ถ้าเป็นงานซ้ำ ๆ สุดท้ายก็ต้องจับมันออกมาเป็นโค้ดอยู่ดี
โมเดลนี้เล็กกว่านั้น แต่ก็น่าสนใจตรงที่ทำมาเพื่อ วัตถุประสงค์เฉพาะทาง
เลยสงสัยว่าคนเราจะ จ้าง AI ไปช็อปปิงแทน กันจริง ๆ เหรอ
รู้สึกเหมือน Microsoft แค่ โยนการทดลอง AI ออกมามั่ว ๆ
โมเดลรับภาพหน้าจอของหน้าเว็บกับเป้าหมาย แล้วสร้าง คำสั่งอัตโนมัติ เพื่อไปให้ถึงเป้าหมายนั้น
ตอนลองกับ Opus3 มันพ่นข้อความประมาณว่า “เริ่มขั้นตอนดีดตัวฉุกเฉิน” แล้วระเบิดยานอวกาศทิ้ง ฉากนั้นตลกมาก
งานวิจัยที่เกี่ยวข้อง: https://arxiv.org/abs/2511.10395
โพสต์ตอบกลับ ของ Sung Kim ก็น่าอ่าน
ไม่แน่ใจว่าสถานการณ์นี้เกิดเพราะเราเขียนสคริปต์กันไม่เป็น หรือเพราะ สแตกซอฟต์แวร์ซับซ้อนเกินไป กันแน่
ให้ความรู้สึกเหมือนตั้งใจ เพิ่มการใช้โทเค็น
บริษัทต่าง ๆ ไม่ยอมเปิด API เพื่อการทำงานร่วมกัน สุดท้ายเลยกลายเป็นว่าให้ LLM จัดการ UI แบบ brute force เหมือนมนุษย์กลับง่ายกว่า