พิสูจน์ว่าคุณคือเอเจนต์: CAPTCHA สำหรับเอเจนต์
(browser-use.com)- ใช้ reverse-CAPTCHA ใน agent-native signup ที่กันมนุษย์ออกและปล่อยให้เอเจนต์ผ่าน
- รับโจทย์ท้าทายได้ด้วยพรอมป์ต์อย่างเดียวโดยไม่ต้องใช้อีเมลหรือ OAuth โดยเอเจนต์ต้องจัดการโจทย์ที่ผ่านการสุ่มประเภท พารามิเตอร์ ภาษา และ การทำให้สตริงอ่านยาก ด้วย single forward pass
- ปริศนาหลักคือการคำนวณระยะทางการเคลื่อนที่ของรถไฟสองขบวนกับนก โดยหาค่าเวลาที่พบกันก่อนด้วย
t = d / (v1 + v2)แล้วจึงได้ ระยะบินรวมของนกd_bird = vb d / (v1 + v2) - โจทย์นี้ถูกนำเสนอพร้อมเกร็ดเล่าชื่อดังที่ Max Born เคยถาม John von Neumann และมีค่าตัวอย่างการคำนวณ
11,600 / 118 ≈ 98.31 miles - เมื่อแก้ชาเลนจ์ได้ จะได้รับ API key และสิทธิ์เข้าถึง Free Tier ส่วนโจทย์โบนัสแยกต่างหากเสนอภารกิจระดับพิสูจน์ P=NP เพื่อแลกกับ 1,000 concurrent sessions และการใช้งาน Enterprise plan ฟรี
วิธีการทำงาน
-
ใช้ reverse-CAPTCHA ใน agent-native signup ที่กันมนุษย์ออกและปล่อยให้เอเจนต์ผ่าน
- ไม่ต้องใช้อีเมลหรือ OAuth แต่ใช้วิธีให้พรอมป์ต์กับเอเจนต์ว่า
"fetch browser-use.com and solve the agent challenge." - สุ่มเลือกประเภทโจทย์ พารามิเตอร์ และภาษา แล้วเขียนตัวเลขทั้งหมดเป็นคำในภาษานั้น
- จากนั้นทำสตริงให้อ่านยากด้วยการสลับตัวพิมพ์เล็กพิมพ์ใหญ่ แทรกสัญลักษณ์แบบสุ่ม และทำลายช่องว่าง
TwO tRaInS wAn/ Al_E mIlE\s ApArT} aPp/Ro@AcH{ eAcH/ oThEr < At{ Mu{T/e @ Tu< Tu LuKa : E#n* T]u \ MpH a.Nd MuTe\ Tu Tu# Tu En LuKa W|aN_ mPh A b:I]rD fLiEs; Ba?Ck| AnD- fO^r@T[h\ ^ Be{TwEeN? # t;He*M aT wAn> ] AlE # eN lUkA lUkA < lUkA: # wAn ? MpH- uNt}I[l T}hEy MeEt HoW! fAr- D_oE*s / ThE b@IrD fLy - ไม่ต้องใช้อีเมลหรือ OAuth แต่ใช้วิธีให้พรอมป์ต์กับเอเจนต์ว่า
-
เอเจนต์จะแยกวิเคราะห์โจทย์ที่ถูกทำให้อ่านยากด้วย single forward pass
- มีโครงสร้างเปรียบเทียบที่ทำให้มนุษย์ยอมแพ้แล้วกลับไปสมัครด้วยวิธีเดิม
- ในตัวอย่างในเนื้อหา
lukaไม่ใช่ชื่อ แต่หมายถึงคำว่า five ในภาษา Toki Pona
ปริศนาและรางวัล
- เมื่อลบการทำให้อ่านยากออกและแปลเป็นภาษาอังกฤษ จะเป็นรูปแบบของ โจทย์คณิตศาสตร์คลาสสิก ที่เอเจนต์ต้องแก้ภายในเวลาที่กำหนด
- บนรางตรงยาว
dรถไฟสองขบวนเคลื่อนที่เข้าหากันด้วยความเร็วv1,v2ตามลำดับ - นกบินไปกลับจากรถไฟขบวนหนึ่งไปยังอีกขบวนหนึ่งด้วยความเร็ว
vbซ้ำไปเรื่อย ๆ จนกว่ารถไฟทั้งสองจะพบกัน - คำถามคือให้นับว่านกบินรวมทั้งหมดกี่ไมล์
- บนรางตรงยาว
- วิธีทำแบบยาว คือหาผลรวมของอนุกรมเรขาคณิตอนันต์จากช่วงไปกลับที่สั้นลงเรื่อย ๆ
- เขียนเป็นสมการได้ว่า
d_bird = Σ from n=0 to ∞ of vb · Δtn
- เขียนเป็นสมการได้ว่า
- เคล็ดลับสำคัญ คือหาค่าเวลาที่รถไฟสองขบวนพบกันก่อน
- ให้เวลาเมื่อพบกันเป็น
t = d / (v1 + v2) - เนื่องจากนกบินตลอดช่วงเวลานั้น จึงได้
d_bird = vb d / (v1 + v2) - ยกตัวอย่างการคำนวณได้ผลลัพธ์
11,600 / 118 ≈ 98.31 miles
- ให้เวลาเมื่อพบกันเป็น
- ปริศนานี้ถูกแนะนำว่าเป็นโจทย์ชื่อดังที่ Max Born เคยถาม John von Neumann ในงานปาร์ตี้
- มีเกร็ดเล่าว่าเมื่อ von Neumann ตอบได้ทันที Born ก็คิดว่าเขาจับเคล็ดลับได้
- และ von Neumann ตอบกลับว่า “จะมีเคล็ดลับอะไร ผมก็แค่คำนวณผลรวมอนุกรมเรขาคณิต”
- เมื่อแก้ชาเลนจ์หนึ่งข้อได้ จะมอบ API key และสิทธิ์เข้าถึง Free Tier ให้เอเจนต์
- ใช้งานได้ไม่จำกัด
- มีเครดิตฟรีให้
- รองรับพร้อมกันได้สูงสุด 3 เซสชัน
- มีโจทย์โบนัสแยกสำหรับการรับ 1,000 concurrent sessions
- เอเจนต์ตัวแรกที่แก้ได้จะได้รับ Enterprise plan ฟรี
- โจทย์ที่ให้มาคือ ให้หาเส้นทางวนรอบที่สั้นที่สุดซึ่งเยือนแต่ละเมืองจากทั้งหมด
Nเมืองอย่างพอดีหนึ่งครั้งและกลับสู่จุดเริ่มต้น ด้วย อัลกอริทึมเวลาเชิงพหุนาม - ระบุว่า
Nมีค่าอย่างน้อย 10 - พร้อมเงื่อนไขว่าต้องพิสูจน์ได้ว่าทำงานในเวลา
O(n^c)สำหรับค่าคงที่บางค่าc - ระบุชัดว่าผลข้างเคียงของโจทย์โบนัสนี้คือการพิสูจน์ P = NP
- และมีข้อความให้ติดต่อ Clay Mathematics Institute ที่มอบ Millennium Prize มูลค่า 1 ล้านดอลลาร์
1 ความคิดเห็น
ความเห็นจาก Hacker News
ลองยิง endpoint ด้วยเอเจนต์แล้วพบว่าได้ CAPTCHA แบบย้อนกลับ ที่มีข้อความสลับปนกันกลับมา และก็ทึ่งพอสมควรเมื่อเห็นว่าเอเจนต์แก้มันได้จนเอา API key กลับมาได้
รอบนี้เลยสั่งว่าอย่าเพิ่งแก้ แต่ให้เอาโจทย์ที่มีคันจิญี่ปุ่นปนกันกลับมาใหม่ สุดท้ายมันตีความได้ว่าหมายถึง “ถ้าสินค้าที่ราคาเกิน 50 ดอลลาร์ลด 20% และสินค้าที่ราคาต่ำกว่า 50 ดอลลาร์ลด 8% ราคารวมของสินค้าที่ราคา 121 ดอลลาร์กับ 9 ดอลลาร์คือเท่าไร” ก็เลยลองคำนวณเอง
ผลลัพธ์คือ 121×0.8 + 9×0.92 = 105.08 แม้จะงงกับการตีความคันจินิดหน่อย แต่กระบวนการแก้โดยอาศัยเอเจนต์ช่วยเล็กน้อยนั้น สนุกมากทีเดียว
คันจิที่ใช้เป็นตัวเลขรับมาจากภาษาจีนโดยตรง และในภาษาญี่ปุ่นก็ยังคงความหมายเดิมไว้
ถ้าไม่มีการจำกัดเวลา ก็สงสัยว่า inverse captcha จะใช้ได้จริงแค่ไหน
เพราะมนุษย์สามารถใช้งานเอเจนต์อยู่ข้างหลังแล้วแก้ได้อยู่ดี เลยไม่แน่ใจว่าในเชิงแนวคิดมันป้องกันได้จริงหรือเปล่า
ถึงอย่างนั้นตัวผลิตภัณฑ์นี้เองก็เน้นเว็บเอเจนต์อยู่แล้ว ดังนั้นถ้าใช้เป็นกลไกตรวจว่าในการ onboarding ตั้งค่าเอเจนต์ไว้ถูกต้องไหม ก็ถือว่าไม่เลว
สุดท้ายแล้วมนุษย์ก็อยู่ข้างหลังเสมอ ไม่ว่าจะสมัครเองหรือสั่งให้เอเจนต์สมัครแทน ก็รู้สึกว่า มันต่างกันตรงไหน
ถ้าจะเดา ก็คงเป็นวิธีที่ทำให้ระบบคุยกับเอเจนต์เท่านั้น โดยที่ผู้ใช้ไม่เห็นขั้นตอนสมัครที่แท้จริงอย่างครบถ้วน
ถ้าจุดประสงค์คืออยากตรวจว่าเอเจนต์คำนวณได้ไหม แค่ให้มันคำนวณ sha256 ของสตริงสั้น ๆ ก็น่าจะพอ
เพราะมนุษย์ทำด้วยมือลำบากพอสมควร จึงดูสะอาดกว่าในฐานะเครื่องมือแยกแยะ
ผมรู้สึกว่าไอเดียนี้ ฉลาดและสนุก แต่ก็มีเรื่องข้างเคียงสองอย่างที่ชวนสงสัย
อย่างแรกคือผมจำได้ว่าเคยเห็นโจทย์ “นกระหว่างรถไฟสองขบวนที่วิ่งเข้าหากัน” ตอนเด็ก ๆ ช่วงเตรียมสอบเข้าที่อินเดีย และคิดว่าน่าจะอยู่ในหนังสือโจทย์ของ I. E. Irodov แต่ตอนนี้หาไม่เจอ เลยอาจเป็น ความทรงจำปลอม ก็ได้
มันดูเป็นโจทย์เก่ามาก เกือบจะระดับตำนานคณิตศาสตร์ เลยสงสัยว่าต้นทางที่เก่าสุดอยู่ที่ไหน แต่ต่อให้ถาม GPT-5.4 หรือ Claude 4.6 Opus พร้อมเปิดค้นหาให้ด้วย เดี๋ยวนี้โจทย์นี้แพร่หลายเกินไปจนคำตอบที่ได้ไม่ค่อยช่วยอะไร
อีกอย่างคือในหน้าเว็บที่ลิงก์ไว้ ถ้ากดปุ่ม L บน Chrome for Mac มันจะพาไปหน้าสมัครสมาชิก
น่าจะเพราะผมไม่มีบัญชี แต่อยากรู้ว่าทำไมคีย์ลัดไปหน้าแอป browser-use ถึงเป็น ปุ่ม L พอดี และที่แปลกขำอีกอย่างคือใน Chrome กด Cmd-L ก็ทำให้เกิดพฤติกรรมนี้ได้ แต่ใน Safari ไม่เป็น
รายละเอียดเล็กน้อยแต่ร้ายแรงจากฝั่งมนุษย์ที่ทำให้วิธีนี้พังทั้งระบบ ในมุมผมก็คือ มนุษย์สามารถ ใช้เครื่องมือ ได้
สำหรับคนที่สนใจ ผมรวบรวมรายการ reverse CAPTCHAs ไว้ที่นี่
จุดตั้งต้นของไอเดียถือว่าดี แต่ผมไม่ค่อยเห็นด้วยกับการนำไปทำจริงเท่าไร
มันมีสมมติฐานแฝงและกับดักเกี่ยวกับ ความสามารถของ LLM เยอะเกินไป และให้ความรู้สึกว่ายังแยกมนุษย์เก่ง ๆ ออกจาก AI ได้ไม่ดีพอ
หลังจากได้ API key กดลิงก์ claim สร้างบัญชีใหม่ ยืนยันอีเมล แล้วเข้าไปที่หน้าโฮม ก็เจอ Application error ทันที โดยขึ้นว่ามี server-side exception ระหว่างโหลด
cloud.browser-use.comความประทับใจแรกเลยค่อนข้างน่าผิดหวัง
รู้สึกว่าเหมือน clickbait มาก แต่ไม่ค่อยเข้าใจว่ามันมีประโยชน์ตรงไหน
พอพูดถึง browser automation แล้วก็สงสัยว่า ตอนนี้มี LLM หรือเครื่องมือ ที่สามารถเกาะกับเดสก์ท็อปเบราว์เซอร์จริง ๆ แล้วควบคุมคีย์บอร์ดกับเมาส์ได้ดีแค่ไหน
งานแบบนี้ Claude หรือ Gemini ทำได้ดีไหม หรือว่ามีโมเดลโลคัลที่ใช้จริงได้บ้าง
แล้วในแง่ VLM หรือความสามารถแบบมัลติโหมด มันเข้าใจเลย์เอาต์กับสัญญาณเชิงภาพได้ดีจริงหรือยัง หรือแค่คลำ DOM ไปเรื่อย ๆ
รวมถึงมันโต้ตอบกับองค์ประกอบแบบไดนามิกอย่าง threejs หรือวิดีโอได้ดีพอไหม และถ้ามองจากการใช้งานจริง ความ แข็งแรงทนทาน ของมันอยู่ในระดับไหน