Fara-7B: โมเดลแบบเอเจนต์ที่มีประสิทธิภาพสำหรับการใช้งานคอมพิวเตอร์

(github.com/microsoft)

3 คะแนน โดย GN⁺ 2025-11-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Fara-7B คือ โมเดลภาษาแบบเอเจนต์ขนาดเล็กมาก (SLM) ที่มีพารามิเตอร์ 7 พันล้านตัว ใช้สถาปัตยกรรม Computer Use Agent สำหรับปฏิบัติงานด้วยการควบคุมเว็บเบราว์เซอร์จริง
คาดการณ์อินพุตจากเมาส์และคีย์บอร์ดโดยตรง เพื่อ รับรู้และควบคุมเว็บเพจด้วยภาพ และโต้ตอบในแบบเดียวกับมนุษย์โดยไม่ต้องพึ่ง accessibility tree หรือโมเดล parsing แยกต่างหาก
รันบนอุปกรณ์ได้ ช่วยลดเวลาแฝงและเสริมการปกป้องความเป็นส่วนตัว โดยทำงานเสร็จภายในเฉลี่ย 16 ขั้นตอน จึงมีประสิทธิภาพดีกว่าโมเดลระดับเดียวกัน
ทำผลงานได้เหนือกว่าโมเดลระดับเดียวกันและโมเดลขนาดใหญ่ในหลายเบนช์มาร์ก เช่น WebTailBench โดยเฉพาะในงานเว็บอัตโนมัติและงานหลายขั้นตอนที่มีอัตราความสำเร็จสูง
พร้อมกับ ชุดข้อมูล WebTailBench ที่ Microsoft เปิดเผย ซึ่งมอบทั้งการประเมินเอเจนต์บนเว็บและสภาพแวดล้อมการทดลองที่ทำซ้ำได้ ช่วยสนับสนุน การทำมาตรฐานงานวิจัยด้านปฏิสัมพันธ์บนเว็บจริง

ภาพรวมของ Fara-7B

เป็น โมเดลภาษาแบบเอเจนต์ขนาดเล็ก (SLM) สำหรับการใช้งานคอมพิวเตอร์โดยเฉพาะ รุ่นแรกของ Microsoft ที่ทำผลงานได้ในระดับ ล้ำสมัย ที่ขนาด 7 พันล้านพารามิเตอร์
สร้างบนพื้นฐานของ Qwen2.5-VL-7B และฝึกด้วยข้อมูลสังเคราะห์ (145,000 เส้นทาง) ที่ใช้ เฟรมเวิร์กมัลติเอเจนต์ Magentic-One
มีขนาด 7B พารามิเตอร์ ทำให้ รันแบบโลคัลได้ ช่วยลดเวลาแฝงและเพิ่มการปกป้องข้อมูลส่วนตัว

จุดเด่นหลัก

ใช้ การควบคุมด้วยภาพ ในการรับรู้เว็บเพจ และเลียนแบบการกระทำของผู้ใช้จริง เช่น เลื่อน คลิก และพิมพ์
ใช้ input modality แบบเดียวกับมนุษย์ โดยไม่จำเป็นต้องมีโมเดล parsing เพิ่มเติม
ทำงานเสร็จภายใน เฉลี่ย 16 ขั้นตอน เพิ่มประสิทธิภาพจากโมเดลใกล้เคียงกัน (เฉลี่ย 41 ขั้นตอน)
ติดตั้งใช้งานบนอุปกรณ์ได้ ลดการพึ่งพาคลาวด์และเสริมการปกป้องข้อมูลส่วนบุคคล

ความสามารถที่รองรับ

ค้นหาเว็บและสรุปผลลัพธ์
กรอกฟอร์มและจัดการบัญชี
จองตั๋วเครื่องบิน ภาพยนตร์ และร้านอาหาร
ช้อปปิ้งออนไลน์และเปรียบเทียบราคา
ค้นหางานและข้อมูลอสังหาริมทรัพย์

การเปรียบเทียบประสิทธิภาพ

ประเมินบน 4 เบนช์มาร์ก ได้แก่ WebVoyager, Online-M2W, DeepShop, WebTailBench
Fara-7B มีอัตราความสำเร็จ WebVoyager 73.5%, Online-M2W 34.1%, DeepShop 26.2%, WebTailBench 38.4%
ทำผลงานได้ดีกว่าโมเดลระดับเดียวกัน (UI-TARS-1.5-7B) และโมเดลขนาดใหญ่ (GLM-4.1V-9B)

เบนช์มาร์ก WebTailBench

ประกอบด้วย 609 งาน ครอบคลุม งานเว็บจริง 11 ประเภท
รวมทั้งงานในเว็บไซต์เดียว (ช้อปปิ้ง เที่ยวบิน โรงแรม ฯลฯ) และงานหลายขั้นตอน (เปรียบเทียบสินค้า งานแบบผสม ฯลฯ)
Fara-7B ทำผลงาน สูงสุดในบรรดาโมเดลการใช้งานคอมพิวเตอร์ ในทุกหมวดหมู่
- ตัวอย่าง: โรงแรม 53.8%, เที่ยวบิน 37.9%, ช้อปปิ้ง 52.4%, เปรียบเทียบสินค้า 32.7%

โครงสร้างพื้นฐานการประเมิน

ใช้ Playwright เพื่อจำลองสภาพแวดล้อมเบราว์เซอร์จริง
ใช้ Abstract Web Agent Interface เพื่อรวมการทำงานกับโมเดลหลากหลายแบบ
รองรับการรันและทดสอบโมเดลผ่าน Fara-Agent Class
เป็นเวอร์ชันทดลองที่เปิดเผยสู่สาธารณะ และแนะนำให้ รันในสภาพแวดล้อม sandbox พร้อมจำกัดการใช้ข้อมูลอ่อนไหว

การติดตั้งและการรัน

ติดตั้งด้วย pip install -e . หรือ uv sync --all-extras
จำเป็นต้องติดตั้ง Playwright browser
รองรับการโฮสต์บนคลาวด์ผ่าน Azure Foundry หรือโฮสต์เองบน GPU ด้วย VLLM

ตัวอย่างคำสั่ง:

fara-cli --task "how many pages does wikipedia have" --start_page "https://www.bing.com";

การทำซ้ำได้และสภาพแวดล้อมการประเมิน

มีเฟรมเวิร์ก webeval/ สำหรับทำซ้ำการประเมินของ WebVoyager และ OnlineMind2Web
ผสานรวมกับ BrowserBase เพื่อจัดการเซสชันเบราว์เซอร์ได้อย่างเสถียร
รักษาความสม่ำเสมอของการประเมินด้วย การอัปเดตงานที่ไวต่อเวลา, การจัดการข้อผิดพลาดของสภาพแวดล้อม, และ ข้อจำกัด 100 ขั้นตอน
ลบงานที่เป็นไปไม่ได้ 48 งานจาก ชุดข้อมูล WebVoyager และอัปเดตวันที่ในอนาคต 50 รายการ

การรันการประเมินและการวิเคราะห์

รันสคริปต์ประเมินจากไดเรกทอรี webeval/scripts
เลือกได้ระหว่าง VLLM แบบโฮสต์เอง หรือ Azure Foundry endpoint
ผลลัพธ์จะถูกบันทึกเป็น gpt_eval/, traj/, screenshot_X.png เป็นต้น
สามารถใช้ Jupyter Notebook เพื่อวิเคราะห์คะแนนเฉลี่ย สาเหตุความล้มเหลว และเส้นทางที่ถูกยกเลิก

แผนในอนาคต

มีแผนเปิดเผย validation pipeline สำหรับการประเมินแบบ LLM-as-a-judge และ ข้อมูล annotation อย่างเป็นทางการโดยมนุษย์ของ WebTailBench
ปรับปรุงคุณภาพการประเมินผ่านความร่วมมือกับ BrowserBase

ข้อมูลการอ้างอิง

หากนำไปใช้ในงานวิจัย แนะนำให้อ้างอิงบทความของ Microsoft Research เรื่อง Fara: Fast and Accurate Web Agent (2025)

1 ความคิดเห็น

GN⁺ 2025-11-28

ความคิดเห็นจาก Hacker News

ประเด็นสำคัญคือ Microsoft นำ Qwen2.5-VL-7B ไปทำ fine-tuning
คิดว่านี่คือจุดตั้งต้นที่แท้จริงของการถกเถียงครั้งนี้ เลยสงสัยว่าบริษัทใหญ่รายอื่นเคยทำ fine-tuning โมเดลภายนอกในลักษณะนี้หรือไม่
ให้ความรู้สึกเหมือนแค่เอาสติกเกอร์ Microsoft ไปแปะบน Qwen2.5-VL
ตอนนี้ดูเหมือนว่า บริษัทจีนกำลังเป็นผู้นำ
- เห็นด้วย ตัวอย่างเช่น Fara-7B ตอบเรื่องยุทธการที่แม่น้ำซอมม์ในสงครามโลกครั้งที่หนึ่งได้ดี แต่พอถามเรื่อง เหตุการณ์เทียนอันเหมิน กลับเลี่ยงด้วยคำตอบว่า “ไม่สามารถตอบได้เพราะเป็นประเด็นการเมืองที่อ่อนไหว”
ประเด็นสำคัญจริง ๆ คือการเปิดตัวเว็บเบนช์มาร์กใหม่ WebTailBench
สงสัยว่าทำไม Microsoft ถึงปล่อยแต่โมเดลที่ฝึกด้วย ข้อมูลสังเคราะห์ (synthetic data) อยู่เรื่อย ๆ
เลยอดคิดไม่ได้ว่าเป็นเพราะสัญญากับ OpenAI ทำให้สร้าง LLM ของตัวเองไม่ได้หรือเปล่า Meta ดูจะเป็นรายเดียวในสหรัฐที่ปล่อย โมเดลโอเพนซอร์ส ขนาดใหญ่ ขณะที่บริษัทจีนก็ยังปล่อยโมเดลแบบเปิดอย่างเต็มรูปแบบออกมาอย่างต่อเนื่อง
- คิดว่าไม่น่าจะมีข้อจำกัดตามสัญญา แค่ดูเหมือนไม่อยากเสียทรัพยากรไปกับการสร้าง foundation model อีกตัวมากกว่า
  โมเดลนี้ทำมาเพื่อควบคุมคอมพิวเตอร์ ดังนั้นข้อมูลสังเคราะห์จึงเหมาะ เพราะแทบไม่มีชุดข้อมูลจริงอยู่เลย
  เหตุผลที่บริษัทจีนเลือกโอเพนซอร์สน่าจะเป็นเรื่อง การสร้างความน่าเชื่อถือ และ ความแตกต่างทางการตลาด เป็นหลัก
- เป็นไปได้มากว่าฝ่ายกฎหมายสั่งให้ทำแบบนั้น บริษัทยักษ์ใหญ่มีโครงสร้างที่โดยแก่นแล้ว ไม่เอื้อต่อนวัตกรรม
- โมเดลอย่าง Gemma, Phi, OLMO, Mistral, GPT-OSS ก็แข่งขันได้ดีพอ และรันบน ฮาร์ดแวร์ทั่วไป ได้สบาย
- การฝึกด้วยข้อมูลสังเคราะห์มีประสิทธิภาพกว่ามาก ข้อมูลจริงรู้แค่โทเค็นถัดไป แต่ข้อมูลสังเคราะห์รู้ การกระจายความน่าจะเป็นทั้งหมด ทำให้ผลการฝึกดีขึ้นเป็นทวีคูณ
  งานวิจัยที่เกี่ยวข้อง: https://arxiv.org/pdf/2504.14772v1
- ใช้แต่ข้อมูลสังเคราะห์ปลอดภัยกว่า เพราะหลีกเลี่ยงปัญหาอย่าง เนื้อหาผู้ใหญ่หรือบทบาทสมมติ ได้
ดูเหมือนโมเดลนี้จะจำกัดอยู่แค่การใช้งานเบราว์เซอร์ เช่น โปรแกรมทั่วไปอย่าง KiCAD ก็ควบคุมไม่ได้
ฉันเคยลองใช้ Qwen3-VL-30B กับ Playwright แล้ว มันค่อนข้างโอเคสำหรับงานอัตโนมัติบนเบราว์เซอร์ แต่ถ้าเป็นงานซ้ำ ๆ สุดท้ายก็ต้องจับมันออกมาเป็นโค้ดอยู่ดี
โมเดลนี้เล็กกว่านั้น แต่ก็น่าสนใจตรงที่ทำมาเพื่อ วัตถุประสงค์เฉพาะทาง
- ถ้าอยากแปลง CUA action แบบนี้ให้เป็น สคริปต์แบบกำหนดผลลัพธ์แน่นอน ก็อาจลองดู คู่มือการแคชของ Stagehand
- ทำได้ถ้าจำลองผ่าน WASM ในเบราว์เซอร์ นี่เป็นข้อจำกัดของ แซนด์บ็อกซ์ด้านความปลอดภัย มากกว่าข้อจำกัดของโมเดล
- มีคนขอให้แชร์เครื่องมือหรือโค้ดที่เกี่ยวข้องถ้ามี
- พอลองทดสอบจริง พบว่ามันทำงานได้เฉพาะในสภาพแวดล้อม Playwright
ดูจากตารางแล้วไม่ค่อยเข้าใจกรณีใช้งานส่วนใหญ่ เข้าใจแค่เรื่องเปรียบเทียบการช็อปปิง
เลยสงสัยว่าคนเราจะ จ้าง AI ไปช็อปปิงแทน กันจริง ๆ เหรอ
- ไม่จำเป็นต้องเป็นงานสำหรับผู้บริโภคเท่านั้น เช่น มีประโยชน์เวลาจะทำงานอัตโนมัติกับ เว็บไซต์บริษัทประกันที่ไม่มี API
- การรวบรวมสินค้าเป็นหมวดแล้วสรุปให้ก็นับว่ามีประโยชน์พอสมควร
- ยังรู้สึกไม่สบายใจกับการให้ AI จ่ายเงินหรือจองแทน แต่อยากให้ช่วยแค่ ค้นคว้าและสำรวจ มากกว่า
- ฉันให้ AI ช่วย ช็อปไวน์ อยู่จริง
งานอัตโนมัติแบบนี้ทำได้มาตั้งแต่หลายปีก่อนแล้ว ไม่ต้องใช้ GPU ด้วยซ้ำ และถ้าอินเทอร์เฟซเปลี่ยนก็แค่แก้สคริปต์
รู้สึกเหมือน Microsoft แค่ โยนการทดลอง AI ออกมามั่ว ๆ
- ประเด็นหลักคือคุณไม่ต้องเขียนสคริปต์เองก็ทำงานอัตโนมัติกับ เว็บไซต์กว่าพันล้านแห่ง ได้
  โมเดลรับภาพหน้าจอของหน้าเว็บกับเป้าหมาย แล้วสร้าง คำสั่งอัตโนมัติ เพื่อไปให้ถึงเป้าหมายนั้น
สงสัยว่าโมเดลแบบนี้จะใช้กับ การควบคุมอินพุตในวิดีโอเกม ได้ไหม ถ้าให้ AI เล่น Kerbal Space Program น่าจะสนุกดี
- มีการทดลองแบบนี้มานานแล้ว ถ้าใช้ kRPC โมเดลก็เชื่อมต่อกับเกมได้ค่อนข้างง่าย
  ตอนลองกับ Opus3 มันพ่นข้อความประมาณว่า “เริ่มขั้นตอนดีดตัวฉุกเฉิน” แล้วระเบิดยานอวกาศทิ้ง ฉากนั้นตลกมาก
- SIMA-2 ของ DeepMind ก็น่าดูเช่นกัน (ไม่ใช่โมเดลรันในเครื่อง)
- AgentEvolver ของ Alibaba ไม่ได้ทำมาเพื่อเกมโดยเฉพาะ แต่ก็น่าสนใจในฐานะ ระบบเอเจนต์ที่อิง OODA loop
  งานวิจัยที่เกี่ยวข้อง: https://arxiv.org/abs/2511.10395
  โพสต์ตอบกลับ ของ Sung Kim ก็น่าอ่าน
- สงสัยว่าถ้าให้มันเล่นโป๊กเกอร์ออนไลน์จะเกิดอะไรขึ้น
ดูเหมือน Microsoft จะทำ Qwen-7B ไป fine-tuning
- ที่ถูกคือ Qwen2.5-VL-7B และความต่างนี้สำคัญพอสมควร
- ตอนนี้เริ่มรู้สึกว่า อำนาจกำลังเปลี่ยนขั้ว
ตลกดีที่การทำระบบคลิกหน้าเว็บอัตโนมัติต้องใช้ โมเดล 7 พันล้านพารามิเตอร์
ไม่แน่ใจว่าสถานการณ์นี้เกิดเพราะเราเขียนสคริปต์กันไม่เป็น หรือเพราะ สแตกซอฟต์แวร์ซับซ้อนเกินไป กันแน่
- เพิ่งดูวิดีโอชื่อ ‘My New Agent Coding Workflow’ มา แค่ดาวน์โหลดไฟล์ธรรมดา ๆ ก็ยังสั่งผ่านพรอมป์ต์ใน IDE
  ให้ความรู้สึกเหมือนตั้งใจ เพิ่มการใช้โทเค็น
- นี่ไม่ใช่ปัญหาทางเทคนิค แต่เป็น ปัญหาความร่วมมือทางสังคม
  บริษัทต่าง ๆ ไม่ยอมเปิด API เพื่อการทำงานร่วมกัน สุดท้ายเลยกลายเป็นว่าให้ LLM จัดการ UI แบบ brute force เหมือนมนุษย์กลับง่ายกว่า
- ครึ่งหนึ่งของอุตสาหกรรมซอฟต์แวร์และการเงินในปัจจุบันตั้งอยู่บนกำแพงกั้นทางเข้าที่ถูกสร้างขึ้นจาก ความซับซ้อนเกินจำเป็น

Fara-7B: โมเดลแบบเอเจนต์ที่มีประสิทธิภาพสำหรับการใช้งานคอมพิวเตอร์

ภาพรวมของ Fara-7B

จุดเด่นหลัก

ความสามารถที่รองรับ

การเปรียบเทียบประสิทธิภาพ

เบนช์มาร์ก WebTailBench

โครงสร้างพื้นฐานการประเมิน

การติดตั้งและการรัน

การทำซ้ำได้และสภาพแวดล้อมการประเมิน

การรันการประเมินและการวิเคราะห์

แผนในอนาคต

ข้อมูลการอ้างอิง

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News