3 คะแนน โดย GN⁺ 2025-11-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Fara-7B คือ โมเดลภาษาแบบเอเจนต์ขนาดเล็กมาก (SLM) ที่มีพารามิเตอร์ 7 พันล้านตัว ใช้สถาปัตยกรรม Computer Use Agent สำหรับปฏิบัติงานด้วยการควบคุมเว็บเบราว์เซอร์จริง
  • คาดการณ์อินพุตจากเมาส์และคีย์บอร์ดโดยตรง เพื่อ รับรู้และควบคุมเว็บเพจด้วยภาพ และโต้ตอบในแบบเดียวกับมนุษย์โดยไม่ต้องพึ่ง accessibility tree หรือโมเดล parsing แยกต่างหาก
  • รันบนอุปกรณ์ได้ ช่วยลดเวลาแฝงและเสริมการปกป้องความเป็นส่วนตัว โดยทำงานเสร็จภายในเฉลี่ย 16 ขั้นตอน จึงมีประสิทธิภาพดีกว่าโมเดลระดับเดียวกัน
  • ทำผลงานได้เหนือกว่าโมเดลระดับเดียวกันและโมเดลขนาดใหญ่ในหลายเบนช์มาร์ก เช่น WebTailBench โดยเฉพาะในงานเว็บอัตโนมัติและงานหลายขั้นตอนที่มีอัตราความสำเร็จสูง
  • พร้อมกับ ชุดข้อมูล WebTailBench ที่ Microsoft เปิดเผย ซึ่งมอบทั้งการประเมินเอเจนต์บนเว็บและสภาพแวดล้อมการทดลองที่ทำซ้ำได้ ช่วยสนับสนุน การทำมาตรฐานงานวิจัยด้านปฏิสัมพันธ์บนเว็บจริง

ภาพรวมของ Fara-7B

  • เป็น โมเดลภาษาแบบเอเจนต์ขนาดเล็ก (SLM) สำหรับการใช้งานคอมพิวเตอร์โดยเฉพาะ รุ่นแรกของ Microsoft ที่ทำผลงานได้ในระดับ ล้ำสมัย ที่ขนาด 7 พันล้านพารามิเตอร์
  • สร้างบนพื้นฐานของ Qwen2.5-VL-7B และฝึกด้วยข้อมูลสังเคราะห์ (145,000 เส้นทาง) ที่ใช้ เฟรมเวิร์กมัลติเอเจนต์ Magentic-One
  • มีขนาด 7B พารามิเตอร์ ทำให้ รันแบบโลคัลได้ ช่วยลดเวลาแฝงและเพิ่มการปกป้องข้อมูลส่วนตัว

จุดเด่นหลัก

  • ใช้ การควบคุมด้วยภาพ ในการรับรู้เว็บเพจ และเลียนแบบการกระทำของผู้ใช้จริง เช่น เลื่อน คลิก และพิมพ์
  • ใช้ input modality แบบเดียวกับมนุษย์ โดยไม่จำเป็นต้องมีโมเดล parsing เพิ่มเติม
  • ทำงานเสร็จภายใน เฉลี่ย 16 ขั้นตอน เพิ่มประสิทธิภาพจากโมเดลใกล้เคียงกัน (เฉลี่ย 41 ขั้นตอน)
  • ติดตั้งใช้งานบนอุปกรณ์ได้ ลดการพึ่งพาคลาวด์และเสริมการปกป้องข้อมูลส่วนบุคคล

ความสามารถที่รองรับ

  • ค้นหาเว็บและสรุปผลลัพธ์
  • กรอกฟอร์มและจัดการบัญชี
  • จองตั๋วเครื่องบิน ภาพยนตร์ และร้านอาหาร
  • ช้อปปิ้งออนไลน์และเปรียบเทียบราคา
  • ค้นหางานและข้อมูลอสังหาริมทรัพย์

การเปรียบเทียบประสิทธิภาพ

  • ประเมินบน 4 เบนช์มาร์ก ได้แก่ WebVoyager, Online-M2W, DeepShop, WebTailBench
  • Fara-7B มีอัตราความสำเร็จ WebVoyager 73.5%, Online-M2W 34.1%, DeepShop 26.2%, WebTailBench 38.4%
  • ทำผลงานได้ดีกว่าโมเดลระดับเดียวกัน (UI-TARS-1.5-7B) และโมเดลขนาดใหญ่ (GLM-4.1V-9B)

เบนช์มาร์ก WebTailBench

  • ประกอบด้วย 609 งาน ครอบคลุม งานเว็บจริง 11 ประเภท
  • รวมทั้งงานในเว็บไซต์เดียว (ช้อปปิ้ง เที่ยวบิน โรงแรม ฯลฯ) และงานหลายขั้นตอน (เปรียบเทียบสินค้า งานแบบผสม ฯลฯ)
  • Fara-7B ทำผลงาน สูงสุดในบรรดาโมเดลการใช้งานคอมพิวเตอร์ ในทุกหมวดหมู่
    • ตัวอย่าง: โรงแรม 53.8%, เที่ยวบิน 37.9%, ช้อปปิ้ง 52.4%, เปรียบเทียบสินค้า 32.7%

โครงสร้างพื้นฐานการประเมิน

  • ใช้ Playwright เพื่อจำลองสภาพแวดล้อมเบราว์เซอร์จริง
  • ใช้ Abstract Web Agent Interface เพื่อรวมการทำงานกับโมเดลหลากหลายแบบ
  • รองรับการรันและทดสอบโมเดลผ่าน Fara-Agent Class
  • เป็นเวอร์ชันทดลองที่เปิดเผยสู่สาธารณะ และแนะนำให้ รันในสภาพแวดล้อม sandbox พร้อมจำกัดการใช้ข้อมูลอ่อนไหว

การติดตั้งและการรัน

  • ติดตั้งด้วย pip install -e . หรือ uv sync --all-extras
  • จำเป็นต้องติดตั้ง Playwright browser
  • รองรับการโฮสต์บนคลาวด์ผ่าน Azure Foundry หรือโฮสต์เองบน GPU ด้วย VLLM
  • ตัวอย่างคำสั่ง:
    fara-cli --task "how many pages does wikipedia have" --start_page "https://www.bing.com";
    

การทำซ้ำได้และสภาพแวดล้อมการประเมิน

  • มีเฟรมเวิร์ก webeval/ สำหรับทำซ้ำการประเมินของ WebVoyager และ OnlineMind2Web
  • ผสานรวมกับ BrowserBase เพื่อจัดการเซสชันเบราว์เซอร์ได้อย่างเสถียร
  • รักษาความสม่ำเสมอของการประเมินด้วย การอัปเดตงานที่ไวต่อเวลา, การจัดการข้อผิดพลาดของสภาพแวดล้อม, และ ข้อจำกัด 100 ขั้นตอน
  • ลบงานที่เป็นไปไม่ได้ 48 งานจาก ชุดข้อมูล WebVoyager และอัปเดตวันที่ในอนาคต 50 รายการ

การรันการประเมินและการวิเคราะห์

  • รันสคริปต์ประเมินจากไดเรกทอรี webeval/scripts
  • เลือกได้ระหว่าง VLLM แบบโฮสต์เอง หรือ Azure Foundry endpoint
  • ผลลัพธ์จะถูกบันทึกเป็น gpt_eval/, traj/, screenshot_X.png เป็นต้น
  • สามารถใช้ Jupyter Notebook เพื่อวิเคราะห์คะแนนเฉลี่ย สาเหตุความล้มเหลว และเส้นทางที่ถูกยกเลิก

แผนในอนาคต

  • มีแผนเปิดเผย validation pipeline สำหรับการประเมินแบบ LLM-as-a-judge และ ข้อมูล annotation อย่างเป็นทางการโดยมนุษย์ของ WebTailBench
  • ปรับปรุงคุณภาพการประเมินผ่านความร่วมมือกับ BrowserBase

ข้อมูลการอ้างอิง

  • หากนำไปใช้ในงานวิจัย แนะนำให้อ้างอิงบทความของ Microsoft Research เรื่อง Fara: Fast and Accurate Web Agent (2025)

1 ความคิดเห็น

 
GN⁺ 2025-11-28
ความคิดเห็นจาก Hacker News
  • ประเด็นสำคัญคือ Microsoft นำ Qwen2.5-VL-7B ไปทำ fine-tuning
    คิดว่านี่คือจุดตั้งต้นที่แท้จริงของการถกเถียงครั้งนี้ เลยสงสัยว่าบริษัทใหญ่รายอื่นเคยทำ fine-tuning โมเดลภายนอกในลักษณะนี้หรือไม่
  • ให้ความรู้สึกเหมือนแค่เอาสติกเกอร์ Microsoft ไปแปะบน Qwen2.5-VL
    ตอนนี้ดูเหมือนว่า บริษัทจีนกำลังเป็นผู้นำ
    • เห็นด้วย ตัวอย่างเช่น Fara-7B ตอบเรื่องยุทธการที่แม่น้ำซอมม์ในสงครามโลกครั้งที่หนึ่งได้ดี แต่พอถามเรื่อง เหตุการณ์เทียนอันเหมิน กลับเลี่ยงด้วยคำตอบว่า “ไม่สามารถตอบได้เพราะเป็นประเด็นการเมืองที่อ่อนไหว”
  • ประเด็นสำคัญจริง ๆ คือการเปิดตัวเว็บเบนช์มาร์กใหม่ WebTailBench
  • สงสัยว่าทำไม Microsoft ถึงปล่อยแต่โมเดลที่ฝึกด้วย ข้อมูลสังเคราะห์ (synthetic data) อยู่เรื่อย ๆ
    เลยอดคิดไม่ได้ว่าเป็นเพราะสัญญากับ OpenAI ทำให้สร้าง LLM ของตัวเองไม่ได้หรือเปล่า Meta ดูจะเป็นรายเดียวในสหรัฐที่ปล่อย โมเดลโอเพนซอร์ส ขนาดใหญ่ ขณะที่บริษัทจีนก็ยังปล่อยโมเดลแบบเปิดอย่างเต็มรูปแบบออกมาอย่างต่อเนื่อง
    • คิดว่าไม่น่าจะมีข้อจำกัดตามสัญญา แค่ดูเหมือนไม่อยากเสียทรัพยากรไปกับการสร้าง foundation model อีกตัวมากกว่า
      โมเดลนี้ทำมาเพื่อควบคุมคอมพิวเตอร์ ดังนั้นข้อมูลสังเคราะห์จึงเหมาะ เพราะแทบไม่มีชุดข้อมูลจริงอยู่เลย
      เหตุผลที่บริษัทจีนเลือกโอเพนซอร์สน่าจะเป็นเรื่อง การสร้างความน่าเชื่อถือ และ ความแตกต่างทางการตลาด เป็นหลัก
    • เป็นไปได้มากว่าฝ่ายกฎหมายสั่งให้ทำแบบนั้น บริษัทยักษ์ใหญ่มีโครงสร้างที่โดยแก่นแล้ว ไม่เอื้อต่อนวัตกรรม
    • โมเดลอย่าง Gemma, Phi, OLMO, Mistral, GPT-OSS ก็แข่งขันได้ดีพอ และรันบน ฮาร์ดแวร์ทั่วไป ได้สบาย
    • การฝึกด้วยข้อมูลสังเคราะห์มีประสิทธิภาพกว่ามาก ข้อมูลจริงรู้แค่โทเค็นถัดไป แต่ข้อมูลสังเคราะห์รู้ การกระจายความน่าจะเป็นทั้งหมด ทำให้ผลการฝึกดีขึ้นเป็นทวีคูณ
      งานวิจัยที่เกี่ยวข้อง: https://arxiv.org/pdf/2504.14772v1
    • ใช้แต่ข้อมูลสังเคราะห์ปลอดภัยกว่า เพราะหลีกเลี่ยงปัญหาอย่าง เนื้อหาผู้ใหญ่หรือบทบาทสมมติ ได้
  • ดูเหมือนโมเดลนี้จะจำกัดอยู่แค่การใช้งานเบราว์เซอร์ เช่น โปรแกรมทั่วไปอย่าง KiCAD ก็ควบคุมไม่ได้
    ฉันเคยลองใช้ Qwen3-VL-30B กับ Playwright แล้ว มันค่อนข้างโอเคสำหรับงานอัตโนมัติบนเบราว์เซอร์ แต่ถ้าเป็นงานซ้ำ ๆ สุดท้ายก็ต้องจับมันออกมาเป็นโค้ดอยู่ดี
    โมเดลนี้เล็กกว่านั้น แต่ก็น่าสนใจตรงที่ทำมาเพื่อ วัตถุประสงค์เฉพาะทาง
    • ถ้าอยากแปลง CUA action แบบนี้ให้เป็น สคริปต์แบบกำหนดผลลัพธ์แน่นอน ก็อาจลองดู คู่มือการแคชของ Stagehand
    • ทำได้ถ้าจำลองผ่าน WASM ในเบราว์เซอร์ นี่เป็นข้อจำกัดของ แซนด์บ็อกซ์ด้านความปลอดภัย มากกว่าข้อจำกัดของโมเดล
    • มีคนขอให้แชร์เครื่องมือหรือโค้ดที่เกี่ยวข้องถ้ามี
    • พอลองทดสอบจริง พบว่ามันทำงานได้เฉพาะในสภาพแวดล้อม Playwright
  • ดูจากตารางแล้วไม่ค่อยเข้าใจกรณีใช้งานส่วนใหญ่ เข้าใจแค่เรื่องเปรียบเทียบการช็อปปิง
    เลยสงสัยว่าคนเราจะ จ้าง AI ไปช็อปปิงแทน กันจริง ๆ เหรอ
    • ไม่จำเป็นต้องเป็นงานสำหรับผู้บริโภคเท่านั้น เช่น มีประโยชน์เวลาจะทำงานอัตโนมัติกับ เว็บไซต์บริษัทประกันที่ไม่มี API
    • การรวบรวมสินค้าเป็นหมวดแล้วสรุปให้ก็นับว่ามีประโยชน์พอสมควร
    • ยังรู้สึกไม่สบายใจกับการให้ AI จ่ายเงินหรือจองแทน แต่อยากให้ช่วยแค่ ค้นคว้าและสำรวจ มากกว่า
    • ฉันให้ AI ช่วย ช็อปไวน์ อยู่จริง
  • งานอัตโนมัติแบบนี้ทำได้มาตั้งแต่หลายปีก่อนแล้ว ไม่ต้องใช้ GPU ด้วยซ้ำ และถ้าอินเทอร์เฟซเปลี่ยนก็แค่แก้สคริปต์
    รู้สึกเหมือน Microsoft แค่ โยนการทดลอง AI ออกมามั่ว ๆ
    • ประเด็นหลักคือคุณไม่ต้องเขียนสคริปต์เองก็ทำงานอัตโนมัติกับ เว็บไซต์กว่าพันล้านแห่ง ได้
      โมเดลรับภาพหน้าจอของหน้าเว็บกับเป้าหมาย แล้วสร้าง คำสั่งอัตโนมัติ เพื่อไปให้ถึงเป้าหมายนั้น
  • สงสัยว่าโมเดลแบบนี้จะใช้กับ การควบคุมอินพุตในวิดีโอเกม ได้ไหม ถ้าให้ AI เล่น Kerbal Space Program น่าจะสนุกดี
    • มีการทดลองแบบนี้มานานแล้ว ถ้าใช้ kRPC โมเดลก็เชื่อมต่อกับเกมได้ค่อนข้างง่าย
      ตอนลองกับ Opus3 มันพ่นข้อความประมาณว่า “เริ่มขั้นตอนดีดตัวฉุกเฉิน” แล้วระเบิดยานอวกาศทิ้ง ฉากนั้นตลกมาก
    • SIMA-2 ของ DeepMind ก็น่าดูเช่นกัน (ไม่ใช่โมเดลรันในเครื่อง)
    • AgentEvolver ของ Alibaba ไม่ได้ทำมาเพื่อเกมโดยเฉพาะ แต่ก็น่าสนใจในฐานะ ระบบเอเจนต์ที่อิง OODA loop
      งานวิจัยที่เกี่ยวข้อง: https://arxiv.org/abs/2511.10395
      โพสต์ตอบกลับ ของ Sung Kim ก็น่าอ่าน
    • สงสัยว่าถ้าให้มันเล่นโป๊กเกอร์ออนไลน์จะเกิดอะไรขึ้น
  • ดูเหมือน Microsoft จะทำ Qwen-7B ไป fine-tuning
    • ที่ถูกคือ Qwen2.5-VL-7B และความต่างนี้สำคัญพอสมควร
    • ตอนนี้เริ่มรู้สึกว่า อำนาจกำลังเปลี่ยนขั้ว
  • ตลกดีที่การทำระบบคลิกหน้าเว็บอัตโนมัติต้องใช้ โมเดล 7 พันล้านพารามิเตอร์
    ไม่แน่ใจว่าสถานการณ์นี้เกิดเพราะเราเขียนสคริปต์กันไม่เป็น หรือเพราะ สแตกซอฟต์แวร์ซับซ้อนเกินไป กันแน่
    • เพิ่งดูวิดีโอชื่อ ‘My New Agent Coding Workflow’ มา แค่ดาวน์โหลดไฟล์ธรรมดา ๆ ก็ยังสั่งผ่านพรอมป์ต์ใน IDE
      ให้ความรู้สึกเหมือนตั้งใจ เพิ่มการใช้โทเค็น
    • นี่ไม่ใช่ปัญหาทางเทคนิค แต่เป็น ปัญหาความร่วมมือทางสังคม
      บริษัทต่าง ๆ ไม่ยอมเปิด API เพื่อการทำงานร่วมกัน สุดท้ายเลยกลายเป็นว่าให้ LLM จัดการ UI แบบ brute force เหมือนมนุษย์กลับง่ายกว่า
    • ครึ่งหนึ่งของอุตสาหกรรมซอฟต์แวร์และการเงินในปัจจุบันตั้งอยู่บนกำแพงกั้นทางเข้าที่ถูกสร้างขึ้นจาก ความซับซ้อนเกินจำเป็น