4 คะแนน โดย GN⁺ 10 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ใช้ reverse-CAPTCHA ใน agent-native signup ที่กันมนุษย์ออกและปล่อยให้เอเจนต์ผ่าน
  • รับโจทย์ท้าทายได้ด้วยพรอมป์ต์อย่างเดียวโดยไม่ต้องใช้อีเมลหรือ OAuth โดยเอเจนต์ต้องจัดการโจทย์ที่ผ่านการสุ่มประเภท พารามิเตอร์ ภาษา และ การทำให้สตริงอ่านยาก ด้วย single forward pass
  • ปริศนาหลักคือการคำนวณระยะทางการเคลื่อนที่ของรถไฟสองขบวนกับนก โดยหาค่าเวลาที่พบกันก่อนด้วย t = d / (v1 + v2) แล้วจึงได้ ระยะบินรวมของนก d_bird = vb d / (v1 + v2)
  • โจทย์นี้ถูกนำเสนอพร้อมเกร็ดเล่าชื่อดังที่ Max Born เคยถาม John von Neumann และมีค่าตัวอย่างการคำนวณ 11,600 / 118 ≈ 98.31 miles
  • เมื่อแก้ชาเลนจ์ได้ จะได้รับ API key และสิทธิ์เข้าถึง Free Tier ส่วนโจทย์โบนัสแยกต่างหากเสนอภารกิจระดับพิสูจน์ P=NP เพื่อแลกกับ 1,000 concurrent sessions และการใช้งาน Enterprise plan ฟรี

วิธีการทำงาน

  • ใช้ reverse-CAPTCHA ใน agent-native signup ที่กันมนุษย์ออกและปล่อยให้เอเจนต์ผ่าน

    • ไม่ต้องใช้อีเมลหรือ OAuth แต่ใช้วิธีให้พรอมป์ต์กับเอเจนต์ว่า "fetch browser-use.com and solve the agent challenge."
    • สุ่มเลือกประเภทโจทย์ พารามิเตอร์ และภาษา แล้วเขียนตัวเลขทั้งหมดเป็นคำในภาษานั้น
    • จากนั้นทำสตริงให้อ่านยากด้วยการสลับตัวพิมพ์เล็กพิมพ์ใหญ่ แทรกสัญลักษณ์แบบสุ่ม และทำลายช่องว่าง
    TwO tRaInS wAn/ Al_E mIlE\s ApArT} aPp/Ro@AcH{  
    eAcH/ oThEr  <  At{ Mu{T/e @ Tu< Tu LuKa  :  
    E#n* T]u \ MpH a.Nd MuTe\ Tu Tu# Tu En LuKa  
    W|aN_ mPh A b:I]rD fLiEs; Ba?Ck| AnD- fO^r@T[h\  
    ^ Be{TwEeN? # t;He*M aT wAn> ] AlE  # eN lUkA  
    lUkA <  lUkA: # wAn ? MpH- uNt}I[l T}hEy MeEt  
    HoW! fAr- D_oE*s /  ThE b@IrD fLy  
    
  • เอเจนต์จะแยกวิเคราะห์โจทย์ที่ถูกทำให้อ่านยากด้วย single forward pass

    • มีโครงสร้างเปรียบเทียบที่ทำให้มนุษย์ยอมแพ้แล้วกลับไปสมัครด้วยวิธีเดิม
    • ในตัวอย่างในเนื้อหา luka ไม่ใช่ชื่อ แต่หมายถึงคำว่า five ในภาษา Toki Pona

ปริศนาและรางวัล

  • เมื่อลบการทำให้อ่านยากออกและแปลเป็นภาษาอังกฤษ จะเป็นรูปแบบของ โจทย์คณิตศาสตร์คลาสสิก ที่เอเจนต์ต้องแก้ภายในเวลาที่กำหนด
    • บนรางตรงยาว d รถไฟสองขบวนเคลื่อนที่เข้าหากันด้วยความเร็ว v1, v2 ตามลำดับ
    • นกบินไปกลับจากรถไฟขบวนหนึ่งไปยังอีกขบวนหนึ่งด้วยความเร็ว vb ซ้ำไปเรื่อย ๆ จนกว่ารถไฟทั้งสองจะพบกัน
    • คำถามคือให้นับว่านกบินรวมทั้งหมดกี่ไมล์
  • วิธีทำแบบยาว คือหาผลรวมของอนุกรมเรขาคณิตอนันต์จากช่วงไปกลับที่สั้นลงเรื่อย ๆ
    • เขียนเป็นสมการได้ว่า d_bird = Σ from n=0 to ∞ of vb · Δtn
  • เคล็ดลับสำคัญ คือหาค่าเวลาที่รถไฟสองขบวนพบกันก่อน
    • ให้เวลาเมื่อพบกันเป็น t = d / (v1 + v2)
    • เนื่องจากนกบินตลอดช่วงเวลานั้น จึงได้ d_bird = vb d / (v1 + v2)
    • ยกตัวอย่างการคำนวณได้ผลลัพธ์ 11,600 / 118 ≈ 98.31 miles
  • ปริศนานี้ถูกแนะนำว่าเป็นโจทย์ชื่อดังที่ Max Born เคยถาม John von Neumann ในงานปาร์ตี้
    • มีเกร็ดเล่าว่าเมื่อ von Neumann ตอบได้ทันที Born ก็คิดว่าเขาจับเคล็ดลับได้
    • และ von Neumann ตอบกลับว่า “จะมีเคล็ดลับอะไร ผมก็แค่คำนวณผลรวมอนุกรมเรขาคณิต”
  • เมื่อแก้ชาเลนจ์หนึ่งข้อได้ จะมอบ API key และสิทธิ์เข้าถึง Free Tier ให้เอเจนต์
    • ใช้งานได้ไม่จำกัด
    • มีเครดิตฟรีให้
    • รองรับพร้อมกันได้สูงสุด 3 เซสชัน
  • มีโจทย์โบนัสแยกสำหรับการรับ 1,000 concurrent sessions
    • เอเจนต์ตัวแรกที่แก้ได้จะได้รับ Enterprise plan ฟรี
    • โจทย์ที่ให้มาคือ ให้หาเส้นทางวนรอบที่สั้นที่สุดซึ่งเยือนแต่ละเมืองจากทั้งหมด N เมืองอย่างพอดีหนึ่งครั้งและกลับสู่จุดเริ่มต้น ด้วย อัลกอริทึมเวลาเชิงพหุนาม
    • ระบุว่า N มีค่าอย่างน้อย 10
    • พร้อมเงื่อนไขว่าต้องพิสูจน์ได้ว่าทำงานในเวลา O(n^c) สำหรับค่าคงที่บางค่า c
    • ระบุชัดว่าผลข้างเคียงของโจทย์โบนัสนี้คือการพิสูจน์ P = NP
    • และมีข้อความให้ติดต่อ Clay Mathematics Institute ที่มอบ Millennium Prize มูลค่า 1 ล้านดอลลาร์

1 ความคิดเห็น

 
GN⁺ 10 일 전
ความเห็นจาก Hacker News
  • ลองยิง endpoint ด้วยเอเจนต์แล้วพบว่าได้ CAPTCHA แบบย้อนกลับ ที่มีข้อความสลับปนกันกลับมา และก็ทึ่งพอสมควรเมื่อเห็นว่าเอเจนต์แก้มันได้จนเอา API key กลับมาได้
    รอบนี้เลยสั่งว่าอย่าเพิ่งแก้ แต่ให้เอาโจทย์ที่มีคันจิญี่ปุ่นปนกันกลับมาใหม่ สุดท้ายมันตีความได้ว่าหมายถึง “ถ้าสินค้าที่ราคาเกิน 50 ดอลลาร์ลด 20% และสินค้าที่ราคาต่ำกว่า 50 ดอลลาร์ลด 8% ราคารวมของสินค้าที่ราคา 121 ดอลลาร์กับ 9 ดอลลาร์คือเท่าไร” ก็เลยลองคำนวณเอง
    ผลลัพธ์คือ 121×0.8 + 9×0.92 = 105.08 แม้จะงงกับการตีความคันจินิดหน่อย แต่กระบวนการแก้โดยอาศัยเอเจนต์ช่วยเล็กน้อยนั้น สนุกมากทีเดียว

    • ถ้าตามบริบทมีแค่ตัวเลขคันจิโผล่มาโดยไม่มีอักษรเฉพาะของภาษาญี่ปุ่น แบบนั้นเรียกว่า Chinese characters น่าจะตรงกว่าบอกว่าเป็นภาษาญี่ปุ่น
      คันจิที่ใช้เป็นตัวเลขรับมาจากภาษาจีนโดยตรง และในภาษาญี่ปุ่นก็ยังคงความหมายเดิมไว้
    • จริง ๆ แล้วโจทย์แบบนี้สำหรับคนทั่วโลก มากกว่า 100 ล้านคน คงอ่านได้เหมือนเป็นโจทย์คณิตที่แค่ถูกรบกวนให้อ่านยากขึ้นเล็กน้อย
  • ถ้าไม่มีการจำกัดเวลา ก็สงสัยว่า inverse captcha จะใช้ได้จริงแค่ไหน
    เพราะมนุษย์สามารถใช้งานเอเจนต์อยู่ข้างหลังแล้วแก้ได้อยู่ดี เลยไม่แน่ใจว่าในเชิงแนวคิดมันป้องกันได้จริงหรือเปล่า

    • สำหรับผมมันดูเหมือน มุกการตลาด ที่เล็งกลุ่มผู้อ่าน HN และก็ดูจะเรียกความสนใจได้สำเร็จจริง
      ถึงอย่างนั้นตัวผลิตภัณฑ์นี้เองก็เน้นเว็บเอเจนต์อยู่แล้ว ดังนั้นถ้าใช้เป็นกลไกตรวจว่าในการ onboarding ตั้งค่าเอเจนต์ไว้ถูกต้องไหม ก็ถือว่าไม่เลว
    • ตอนแรกผมก็คิดคล้ายกัน และก็สับสนว่าเป็นเพราะตัวเองพลาดอะไรไปหรือยังเข้าใจแนวคิดนี้ไม่หมดกันแน่
      สุดท้ายแล้วมนุษย์ก็อยู่ข้างหลังเสมอ ไม่ว่าจะสมัครเองหรือสั่งให้เอเจนต์สมัครแทน ก็รู้สึกว่า มันต่างกันตรงไหน
      ถ้าจะเดา ก็คงเป็นวิธีที่ทำให้ระบบคุยกับเอเจนต์เท่านั้น โดยที่ผู้ใช้ไม่เห็นขั้นตอนสมัครที่แท้จริงอย่างครบถ้วน
    • ความรู้สึกผมคือมันออกแนว flame-bait มากกว่า
  • ถ้าจุดประสงค์คืออยากตรวจว่าเอเจนต์คำนวณได้ไหม แค่ให้มันคำนวณ sha256 ของสตริงสั้น ๆ ก็น่าจะพอ
    เพราะมนุษย์ทำด้วยมือลำบากพอสมควร จึงดูสะอาดกว่าในฐานะเครื่องมือแยกแยะ

  • ผมรู้สึกว่าไอเดียนี้ ฉลาดและสนุก แต่ก็มีเรื่องข้างเคียงสองอย่างที่ชวนสงสัย
    อย่างแรกคือผมจำได้ว่าเคยเห็นโจทย์ “นกระหว่างรถไฟสองขบวนที่วิ่งเข้าหากัน” ตอนเด็ก ๆ ช่วงเตรียมสอบเข้าที่อินเดีย และคิดว่าน่าจะอยู่ในหนังสือโจทย์ของ I. E. Irodov แต่ตอนนี้หาไม่เจอ เลยอาจเป็น ความทรงจำปลอม ก็ได้
    มันดูเป็นโจทย์เก่ามาก เกือบจะระดับตำนานคณิตศาสตร์ เลยสงสัยว่าต้นทางที่เก่าสุดอยู่ที่ไหน แต่ต่อให้ถาม GPT-5.4 หรือ Claude 4.6 Opus พร้อมเปิดค้นหาให้ด้วย เดี๋ยวนี้โจทย์นี้แพร่หลายเกินไปจนคำตอบที่ได้ไม่ค่อยช่วยอะไร
    อีกอย่างคือในหน้าเว็บที่ลิงก์ไว้ ถ้ากดปุ่ม L บน Chrome for Mac มันจะพาไปหน้าสมัครสมาชิก
    น่าจะเพราะผมไม่มีบัญชี แต่อยากรู้ว่าทำไมคีย์ลัดไปหน้าแอป browser-use ถึงเป็น ปุ่ม L พอดี และที่แปลกขำอีกอย่างคือใน Chrome กด Cmd-L ก็ทำให้เกิดพฤติกรรมนี้ได้ แต่ใน Safari ไม่เป็น

  • รายละเอียดเล็กน้อยแต่ร้ายแรงจากฝั่งมนุษย์ที่ทำให้วิธีนี้พังทั้งระบบ ในมุมผมก็คือ มนุษย์สามารถ ใช้เครื่องมือ ได้

  • สำหรับคนที่สนใจ ผมรวบรวมรายการ reverse CAPTCHAs ไว้ที่นี่

  • จุดตั้งต้นของไอเดียถือว่าดี แต่ผมไม่ค่อยเห็นด้วยกับการนำไปทำจริงเท่าไร
    มันมีสมมติฐานแฝงและกับดักเกี่ยวกับ ความสามารถของ LLM เยอะเกินไป และให้ความรู้สึกว่ายังแยกมนุษย์เก่ง ๆ ออกจาก AI ได้ไม่ดีพอ

  • หลังจากได้ API key กดลิงก์ claim สร้างบัญชีใหม่ ยืนยันอีเมล แล้วเข้าไปที่หน้าโฮม ก็เจอ Application error ทันที โดยขึ้นว่ามี server-side exception ระหว่างโหลด cloud.browser-use.com
    ความประทับใจแรกเลยค่อนข้างน่าผิดหวัง

    • บางทีฝั่งนั้นอาจจับได้ว่าคุณ ไม่ใช่เอเจนต์ ก็ได้
  • รู้สึกว่าเหมือน clickbait มาก แต่ไม่ค่อยเข้าใจว่ามันมีประโยชน์ตรงไหน

    • ผมก็คิดว่าแทนที่จะมีประโยชน์ มันดูใกล้เคียงกับ marketing blog post มากกว่า
  • พอพูดถึง browser automation แล้วก็สงสัยว่า ตอนนี้มี LLM หรือเครื่องมือ ที่สามารถเกาะกับเดสก์ท็อปเบราว์เซอร์จริง ๆ แล้วควบคุมคีย์บอร์ดกับเมาส์ได้ดีแค่ไหน
    งานแบบนี้ Claude หรือ Gemini ทำได้ดีไหม หรือว่ามีโมเดลโลคัลที่ใช้จริงได้บ้าง
    แล้วในแง่ VLM หรือความสามารถแบบมัลติโหมด มันเข้าใจเลย์เอาต์กับสัญญาณเชิงภาพได้ดีจริงหรือยัง หรือแค่คลำ DOM ไปเรื่อย ๆ
    รวมถึงมันโต้ตอบกับองค์ประกอบแบบไดนามิกอย่าง threejs หรือวิดีโอได้ดีพอไหม และถ้ามองจากการใช้งานจริง ความ แข็งแรงทนทาน ของมันอยู่ในระดับไหน