พิสูจน์ว่าคุณคือเอเจนต์: CAPTCHA สำหรับเอเจนต์

(browser-use.com)

4 คะแนน โดย GN⁺ 10 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ใช้ reverse-CAPTCHA ใน agent-native signup ที่กันมนุษย์ออกและปล่อยให้เอเจนต์ผ่าน
รับโจทย์ท้าทายได้ด้วยพรอมป์ต์อย่างเดียวโดยไม่ต้องใช้อีเมลหรือ OAuth โดยเอเจนต์ต้องจัดการโจทย์ที่ผ่านการสุ่มประเภท พารามิเตอร์ ภาษา และ การทำให้สตริงอ่านยาก ด้วย single forward pass
ปริศนาหลักคือการคำนวณระยะทางการเคลื่อนที่ของรถไฟสองขบวนกับนก โดยหาค่าเวลาที่พบกันก่อนด้วย t = d / (v1 + v2) แล้วจึงได้ ระยะบินรวมของนก d_bird = vb d / (v1 + v2)
โจทย์นี้ถูกนำเสนอพร้อมเกร็ดเล่าชื่อดังที่ Max Born เคยถาม John von Neumann และมีค่าตัวอย่างการคำนวณ 11,600 / 118 ≈ 98.31 miles
เมื่อแก้ชาเลนจ์ได้ จะได้รับ API key และสิทธิ์เข้าถึง Free Tier ส่วนโจทย์โบนัสแยกต่างหากเสนอภารกิจระดับพิสูจน์ P=NP เพื่อแลกกับ 1,000 concurrent sessions และการใช้งาน Enterprise plan ฟรี

วิธีการทำงาน

ใช้ reverse-CAPTCHA ใน agent-native signup ที่กันมนุษย์ออกและปล่อยให้เอเจนต์ผ่าน
- ไม่ต้องใช้อีเมลหรือ OAuth แต่ใช้วิธีให้พรอมป์ต์กับเอเจนต์ว่า "fetch browser-use.com and solve the agent challenge."
- สุ่มเลือกประเภทโจทย์ พารามิเตอร์ และภาษา แล้วเขียนตัวเลขทั้งหมดเป็นคำในภาษานั้น
- จากนั้นทำสตริงให้อ่านยากด้วยการสลับตัวพิมพ์เล็กพิมพ์ใหญ่ แทรกสัญลักษณ์แบบสุ่ม และทำลายช่องว่าง
```
TwO tRaInS wAn/ Al_E mIlE\s ApArT} aPp/Ro@AcH{  
eAcH/ oThEr  <  At{ Mu{T/e @ Tu< Tu LuKa  :  
E#n* T]u \ MpH a.Nd MuTe\ Tu Tu# Tu En LuKa  
W|aN_ mPh A b:I]rD fLiEs; Ba?Ck| AnD- fO^r@T[h\  
^ Be{TwEeN? # t;He*M aT wAn> ] AlE  # eN lUkA  
lUkA <  lUkA: # wAn ? MpH- uNt}I[l T}hEy MeEt  
HoW! fAr- D_oE*s /  ThE b@IrD fLy  
```
เอเจนต์จะแยกวิเคราะห์โจทย์ที่ถูกทำให้อ่านยากด้วย single forward pass
- มีโครงสร้างเปรียบเทียบที่ทำให้มนุษย์ยอมแพ้แล้วกลับไปสมัครด้วยวิธีเดิม
- ในตัวอย่างในเนื้อหา luka ไม่ใช่ชื่อ แต่หมายถึงคำว่า five ในภาษา Toki Pona

ปริศนาและรางวัล

เมื่อลบการทำให้อ่านยากออกและแปลเป็นภาษาอังกฤษ จะเป็นรูปแบบของ โจทย์คณิตศาสตร์คลาสสิก ที่เอเจนต์ต้องแก้ภายในเวลาที่กำหนด
- บนรางตรงยาว d รถไฟสองขบวนเคลื่อนที่เข้าหากันด้วยความเร็ว v1, v2 ตามลำดับ
- นกบินไปกลับจากรถไฟขบวนหนึ่งไปยังอีกขบวนหนึ่งด้วยความเร็ว vb ซ้ำไปเรื่อย ๆ จนกว่ารถไฟทั้งสองจะพบกัน
- คำถามคือให้นับว่านกบินรวมทั้งหมดกี่ไมล์
วิธีทำแบบยาว คือหาผลรวมของอนุกรมเรขาคณิตอนันต์จากช่วงไปกลับที่สั้นลงเรื่อย ๆ
- เขียนเป็นสมการได้ว่า d_bird = Σ from n=0 to ∞ of vb · Δtn
เคล็ดลับสำคัญ คือหาค่าเวลาที่รถไฟสองขบวนพบกันก่อน
- ให้เวลาเมื่อพบกันเป็น t = d / (v1 + v2)
- เนื่องจากนกบินตลอดช่วงเวลานั้น จึงได้ d_bird = vb d / (v1 + v2)
- ยกตัวอย่างการคำนวณได้ผลลัพธ์ 11,600 / 118 ≈ 98.31 miles
ปริศนานี้ถูกแนะนำว่าเป็นโจทย์ชื่อดังที่ Max Born เคยถาม John von Neumann ในงานปาร์ตี้
- มีเกร็ดเล่าว่าเมื่อ von Neumann ตอบได้ทันที Born ก็คิดว่าเขาจับเคล็ดลับได้
- และ von Neumann ตอบกลับว่า “จะมีเคล็ดลับอะไร ผมก็แค่คำนวณผลรวมอนุกรมเรขาคณิต”
เมื่อแก้ชาเลนจ์หนึ่งข้อได้ จะมอบ API key และสิทธิ์เข้าถึง Free Tier ให้เอเจนต์
- ใช้งานได้ไม่จำกัด
- มีเครดิตฟรีให้
- รองรับพร้อมกันได้สูงสุด 3 เซสชัน
มีโจทย์โบนัสแยกสำหรับการรับ 1,000 concurrent sessions
- เอเจนต์ตัวแรกที่แก้ได้จะได้รับ Enterprise plan ฟรี
- โจทย์ที่ให้มาคือ ให้หาเส้นทางวนรอบที่สั้นที่สุดซึ่งเยือนแต่ละเมืองจากทั้งหมด N เมืองอย่างพอดีหนึ่งครั้งและกลับสู่จุดเริ่มต้น ด้วย อัลกอริทึมเวลาเชิงพหุนาม
- ระบุว่า N มีค่าอย่างน้อย 10
- พร้อมเงื่อนไขว่าต้องพิสูจน์ได้ว่าทำงานในเวลา O(n^c) สำหรับค่าคงที่บางค่า c
- ระบุชัดว่าผลข้างเคียงของโจทย์โบนัสนี้คือการพิสูจน์ P = NP
- และมีข้อความให้ติดต่อ Clay Mathematics Institute ที่มอบ Millennium Prize มูลค่า 1 ล้านดอลลาร์

1 ความคิดเห็น

GN⁺ 10 일 전

ความเห็นจาก Hacker News

ลองยิง endpoint ด้วยเอเจนต์แล้วพบว่าได้ CAPTCHA แบบย้อนกลับ ที่มีข้อความสลับปนกันกลับมา และก็ทึ่งพอสมควรเมื่อเห็นว่าเอเจนต์แก้มันได้จนเอา API key กลับมาได้
รอบนี้เลยสั่งว่าอย่าเพิ่งแก้ แต่ให้เอาโจทย์ที่มีคันจิญี่ปุ่นปนกันกลับมาใหม่ สุดท้ายมันตีความได้ว่าหมายถึง “ถ้าสินค้าที่ราคาเกิน 50 ดอลลาร์ลด 20% และสินค้าที่ราคาต่ำกว่า 50 ดอลลาร์ลด 8% ราคารวมของสินค้าที่ราคา 121 ดอลลาร์กับ 9 ดอลลาร์คือเท่าไร” ก็เลยลองคำนวณเอง
ผลลัพธ์คือ 121×0.8 + 9×0.92 = 105.08 แม้จะงงกับการตีความคันจินิดหน่อย แต่กระบวนการแก้โดยอาศัยเอเจนต์ช่วยเล็กน้อยนั้น สนุกมากทีเดียว
- ถ้าตามบริบทมีแค่ตัวเลขคันจิโผล่มาโดยไม่มีอักษรเฉพาะของภาษาญี่ปุ่น แบบนั้นเรียกว่า Chinese characters น่าจะตรงกว่าบอกว่าเป็นภาษาญี่ปุ่น
  คันจิที่ใช้เป็นตัวเลขรับมาจากภาษาจีนโดยตรง และในภาษาญี่ปุ่นก็ยังคงความหมายเดิมไว้
- จริง ๆ แล้วโจทย์แบบนี้สำหรับคนทั่วโลก มากกว่า 100 ล้านคน คงอ่านได้เหมือนเป็นโจทย์คณิตที่แค่ถูกรบกวนให้อ่านยากขึ้นเล็กน้อย
ถ้าไม่มีการจำกัดเวลา ก็สงสัยว่า inverse captcha จะใช้ได้จริงแค่ไหน
เพราะมนุษย์สามารถใช้งานเอเจนต์อยู่ข้างหลังแล้วแก้ได้อยู่ดี เลยไม่แน่ใจว่าในเชิงแนวคิดมันป้องกันได้จริงหรือเปล่า
- สำหรับผมมันดูเหมือน มุกการตลาด ที่เล็งกลุ่มผู้อ่าน HN และก็ดูจะเรียกความสนใจได้สำเร็จจริง
  ถึงอย่างนั้นตัวผลิตภัณฑ์นี้เองก็เน้นเว็บเอเจนต์อยู่แล้ว ดังนั้นถ้าใช้เป็นกลไกตรวจว่าในการ onboarding ตั้งค่าเอเจนต์ไว้ถูกต้องไหม ก็ถือว่าไม่เลว
- ตอนแรกผมก็คิดคล้ายกัน และก็สับสนว่าเป็นเพราะตัวเองพลาดอะไรไปหรือยังเข้าใจแนวคิดนี้ไม่หมดกันแน่
  สุดท้ายแล้วมนุษย์ก็อยู่ข้างหลังเสมอ ไม่ว่าจะสมัครเองหรือสั่งให้เอเจนต์สมัครแทน ก็รู้สึกว่า มันต่างกันตรงไหน
  ถ้าจะเดา ก็คงเป็นวิธีที่ทำให้ระบบคุยกับเอเจนต์เท่านั้น โดยที่ผู้ใช้ไม่เห็นขั้นตอนสมัครที่แท้จริงอย่างครบถ้วน
- ความรู้สึกผมคือมันออกแนว flame-bait มากกว่า
ถ้าจุดประสงค์คืออยากตรวจว่าเอเจนต์คำนวณได้ไหม แค่ให้มันคำนวณ sha256 ของสตริงสั้น ๆ ก็น่าจะพอ
เพราะมนุษย์ทำด้วยมือลำบากพอสมควร จึงดูสะอาดกว่าในฐานะเครื่องมือแยกแยะ
ผมรู้สึกว่าไอเดียนี้ ฉลาดและสนุก แต่ก็มีเรื่องข้างเคียงสองอย่างที่ชวนสงสัย
อย่างแรกคือผมจำได้ว่าเคยเห็นโจทย์ “นกระหว่างรถไฟสองขบวนที่วิ่งเข้าหากัน” ตอนเด็ก ๆ ช่วงเตรียมสอบเข้าที่อินเดีย และคิดว่าน่าจะอยู่ในหนังสือโจทย์ของ I. E. Irodov แต่ตอนนี้หาไม่เจอ เลยอาจเป็น ความทรงจำปลอม ก็ได้
มันดูเป็นโจทย์เก่ามาก เกือบจะระดับตำนานคณิตศาสตร์ เลยสงสัยว่าต้นทางที่เก่าสุดอยู่ที่ไหน แต่ต่อให้ถาม GPT-5.4 หรือ Claude 4.6 Opus พร้อมเปิดค้นหาให้ด้วย เดี๋ยวนี้โจทย์นี้แพร่หลายเกินไปจนคำตอบที่ได้ไม่ค่อยช่วยอะไร
อีกอย่างคือในหน้าเว็บที่ลิงก์ไว้ ถ้ากดปุ่ม L บน Chrome for Mac มันจะพาไปหน้าสมัครสมาชิก
น่าจะเพราะผมไม่มีบัญชี แต่อยากรู้ว่าทำไมคีย์ลัดไปหน้าแอป browser-use ถึงเป็น ปุ่ม L พอดี และที่แปลกขำอีกอย่างคือใน Chrome กด Cmd-L ก็ทำให้เกิดพฤติกรรมนี้ได้ แต่ใน Safari ไม่เป็น
รายละเอียดเล็กน้อยแต่ร้ายแรงจากฝั่งมนุษย์ที่ทำให้วิธีนี้พังทั้งระบบ ในมุมผมก็คือ มนุษย์สามารถ ใช้เครื่องมือ ได้
สำหรับคนที่สนใจ ผมรวบรวมรายการ reverse CAPTCHAs ไว้ที่นี่
จุดตั้งต้นของไอเดียถือว่าดี แต่ผมไม่ค่อยเห็นด้วยกับการนำไปทำจริงเท่าไร
มันมีสมมติฐานแฝงและกับดักเกี่ยวกับ ความสามารถของ LLM เยอะเกินไป และให้ความรู้สึกว่ายังแยกมนุษย์เก่ง ๆ ออกจาก AI ได้ไม่ดีพอ
หลังจากได้ API key กดลิงก์ claim สร้างบัญชีใหม่ ยืนยันอีเมล แล้วเข้าไปที่หน้าโฮม ก็เจอ Application error ทันที โดยขึ้นว่ามี server-side exception ระหว่างโหลด cloud.browser-use.com
ความประทับใจแรกเลยค่อนข้างน่าผิดหวัง
- บางทีฝั่งนั้นอาจจับได้ว่าคุณ ไม่ใช่เอเจนต์ ก็ได้
รู้สึกว่าเหมือน clickbait มาก แต่ไม่ค่อยเข้าใจว่ามันมีประโยชน์ตรงไหน
- ผมก็คิดว่าแทนที่จะมีประโยชน์ มันดูใกล้เคียงกับ marketing blog post มากกว่า
พอพูดถึง browser automation แล้วก็สงสัยว่า ตอนนี้มี LLM หรือเครื่องมือ ที่สามารถเกาะกับเดสก์ท็อปเบราว์เซอร์จริง ๆ แล้วควบคุมคีย์บอร์ดกับเมาส์ได้ดีแค่ไหน
งานแบบนี้ Claude หรือ Gemini ทำได้ดีไหม หรือว่ามีโมเดลโลคัลที่ใช้จริงได้บ้าง
แล้วในแง่ VLM หรือความสามารถแบบมัลติโหมด มันเข้าใจเลย์เอาต์กับสัญญาณเชิงภาพได้ดีจริงหรือยัง หรือแค่คลำ DOM ไปเรื่อย ๆ
รวมถึงมันโต้ตอบกับองค์ประกอบแบบไดนามิกอย่าง threejs หรือวิดีโอได้ดีพอไหม และถ้ามองจากการใช้งานจริง ความ แข็งแรงทนทาน ของมันอยู่ในระดับไหน

พิสูจน์ว่าคุณคือเอเจนต์: CAPTCHA สำหรับเอเจนต์

วิธีการทำงาน

ปริศนาและรางวัล

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News