1 ความคิดเห็น

 
GN⁺ 2024-09-06
ความคิดเห็นจาก Hacker News
  • Phind ยังเป็นเสิร์ชเอนจินที่เสริมด้วย AI ที่ผมชอบที่สุดอยู่
    เวลาตอบคำถามเชิงเทคนิค มันแนบลิงก์อ้างอิงที่ช่วยตรวจสอบคำตอบหรือดูรายละเอียดเพิ่มเติมได้ดี
    ตัวอย่างประวัติล่าสุดมีรูปแบบวิดีโอที่ Mastodon รองรับ https://www.phind.com/search?cache=jpa8gv7lv54orvpu2c7j1b5j, การเปรียบเทียบ XFS กับ ext4fs https://www.phind.com/search?cache=h9rmhe6ddav1bnb2odtchdb1, แนวทาง no slot clock ของ Apple ][ https://www.phind.com/search?cache=w4cc1saw6nsqxyige7g3wple เป็นต้น
    คำตอบไม่ได้สมบูรณ์แบบ แต่ให้ภาพรวมที่ดี และลิงก์แหล่งข้อมูลบนเว็บก็ยอดเยี่ยม ChatGPT กับ Claude อ่อนในส่วนนี้ ส่วน Bing CoPilot ทำได้ระดับหนึ่งแต่ผมชอบน้อยกว่า

    • จากการทดสอบของผม Phind 70B ก็ให้คำตอบหลอนเหมือนกัน
      เช่น ผมถามถึงที่อุดหูบลูทูธที่เปลี่ยนแบตเตอรี่ได้ง่าย แต่มันยังคงแนะนำผลิตภัณฑ์ที่รู้กันว่าแบตเตอรี่ถูกบัดกรีติดอยู่กับเคส พูดอย่างเป็นธรรม Perplexity ก็ล้มเหลวกับคำถามนี้เช่นกัน
    • ผมยังมองว่ายังมีพื้นที่ให้ปรับปรุงอีกค่อนข้างมาก และกำลังทำให้ โครงสร้างคำตอบ กับ ความสามารถในการตรวจสอบได้ ดีขึ้น
    • Phind เคยเป็นเครื่องมือที่ผมใช้เป็นหลักเพื่อหาข้อมูลที่เกี่ยวข้องและใหม่กว่าบนอินเทอร์เน็ต แต่ตั้งแต่ประมาณ 3 เดือนก่อนก็ไม่เป็นแบบนั้นแล้ว
      เมื่อเวลาผ่านไป ในหลายคำถาม คำตอบยิ่งไม่สมบูรณ์หรือผิดมากขึ้น และที่แย่กว่านั้นคือบางครั้งมันบอกว่าหาคำตอบไม่เจอ ทั้งที่คำตอบอยู่ในเว็บไซต์อ้างอิง
      สุดท้ายผมเลยกลับไปใช้ Bing กับ gpt 4o เป็นหลัก และพูดตรง ๆ ว่าลังเลที่จะเสียเวลาลองเวอร์ชันใหม่อีกครั้ง
    • ที่นี่เห็นรายการอ้างอิง แต่เวลาผมถาม แม้ล็อกอินอยู่ก็มีแค่คำตอบ ไม่มี การอ้างอิง
      ผมเข้าใจว่าเคยเป็นปัญหามาก่อนแล้วได้รับการแก้ไขแล้ว แต่ผมยังเจออยู่ ถ้าล็อกเอาต์แล้วถามจะมีแหล่งอ้างอิงขึ้นมา แต่ตอนนั้นเป็นคำตอบที่ใช้โมเดล instant
    • ด้วยเหตุผลคล้ายกัน ผมชอบใช้ Brave Search
      สามารถสลับไปมาระหว่างการค้นหาทั่วไปกับการค้นหาที่ใช้ LLM ได้ง่าย โดยเลือกฝั่งที่เหมาะกว่า
  • เพิ่งลองใช้เมื่อกี้ ถามหัวข้องานวิจัยที่กำลังศึกษาอยู่ มันให้คำตอบมา แต่ ไม่มีเอกสารอ้างอิง
    ดังนั้นผมจึงคัดลอกคำตอบแล้วขอให้ใส่เอกสารอ้างอิงแบบเจาะจง มันก็ขอโทษในทำนองว่า การที่อ้างถึงงานวิจัยบางชิ้นในคำตอบก่อนหน้าเป็นความผิดพลาด และผลการค้นหาไม่มีข้อมูลที่เกี่ยวข้องมาสนับสนุนข้ออ้างนั้น
    อันนี้ผมก็ไม่ค่อยแน่ใจเท่าไร

    • ผมทดสอบต่อ เมื่อขอให้อธิบายวิธีใช้ Laravel 11 Blade fragments แบบสั้น ๆ มันตอบได้ค่อนข้างดี
      จากนั้นผมให้โค้ด route 3 บรรทัดที่ใช้ใน Laravel แล้วถามว่าจะทำให้เลือก fragment ที่จะส่งกลับตามพารามิเตอร์ URL ได้อย่างไร
      Route::get('/vge-frags/{fragment}', function ($fragment) {  
      return view('vge-fragments');  
      });  
      
      การที่มันบอกว่าต้องมี view ที่ถูกต้องสร้างไว้ก่อนถือเป็นจุดเริ่มต้นที่ดี แต่ต่อมากลับแนะนำแบบนี้
      Route::get('/vge-frags/{fragment}', function ($fragment) {  
      return fragment($fragment);  
      });  
      
      ผมรู้ได้ทันทีว่าผิด แต่คนที่กำลังเรียนอยู่อาจไม่รู้ ดังนั้นจึงต้องถามกลับไปว่า “เดี๋ยวก่อน โค้ดนี้รู้ได้อย่างไรว่าต้องใช้ view ไหน?” แล้วมันถึงให้คำตอบที่ถูกต้อง
      Route::get('/vge-frags/{fragment}', function ($fragment) {  
      return view('vge-fragments')->fragment($fragment);  
      });  
      
      โมเดลแบบนี้หา edge case ได้ง่ายเกินไป และแทบจะต้องสงสัยทุกคำตอบที่ได้รับทั้งหมดอยู่ดี ถึงอย่างนั้น บางครั้งมันก็ทรงพลังและมีประโยชน์มาก
    • ก่อนอื่นน่าจะลองตรวจสอบว่าเปิด Always search อยู่หรือไม่ แล้วลองถามคำถามแรกใหม่
      แบบนั้นควรจะได้คำตอบที่ถูกต้องพร้อมแหล่งอ้างอิง
    • ผมเกลียดจริง ๆ กับประโยคอย่าง “ในฐานะผู้ช่วย AI ผมควรระมัดระวังมากกว่านี้”
    • คำขอโทษยาว ๆ นั่น พูดตรง ๆ ก็คือการพูดแบบยืดยาวและซ้ำ ๆ ว่า “ผมพูดอะไรมั่ว ๆ ออกไป” เท่านั้นเอง
      แน่นอนว่าคนบางคนก็พูดแบบนั้นเหมือนกัน ถ้ากระแส LLM มีด้านบวกอยู่บ้าง ก็อาจทำให้เรามีภูมิคุ้มกันต่อวิธีพูดแบบไซโคพาธได้
  • “ปัญหาหลักของการค้นหาที่ขับเคลื่อนด้วย AI คือมันช้าเกินไปเมื่อเทียบกับ Google แบบเดิม แม้จะสร้างคำตอบที่ดีกว่าได้ แต่ความหน่วงที่เพิ่มขึ้นก็ทำให้ไม่อยากใช้” คำพูดนี้จริงไหม?
    ข้อร้องเรียนส่วนใหญ่ที่ผมรู้สึกและได้ยินมักเป็นเรื่อง ผลลัพธ์ AI ที่ไม่ถูกต้อง เช่น เวลาให้ช่วยเขียนโค้ดแล้วมันผิดอย่างมั่นใจ

    • ตั้งแต่กด Enter จนเห็นอะไรบางอย่าง ย่อมช้ากว่าอยู่แล้ว
      แต่หลังจากกด Enter แล้ว เวลาจนกว่าชุดคำตอบที่เกี่ยวข้องและถูกต้องจะเข้ามาในหัว ไม่ใช่เป้าหมายที่ควรวัดหรือ? ถ้าวัดด้วยเกณฑ์นั้น วิธีการแบบอายุ 20 ปีดูเหมือนจะถึงจุดสูงสุดไปตั้งแต่กว่า 10 ปีก่อนแล้ว และถ้าไม่ใช่อย่างนั้น Phind ก็คงไม่ได้รับความสนใจ
      เวลาตั้งแต่ค้นหาจนคำตอบเข้ามาในหัวในการค้นหาแบบ PageRank อายุ 20 ปี ตอนนี้ใกล้จะเป็น “DNF” หรือพูดคือทำไม่สำเร็จแล้ว
      ไม่ว่าจะเป็น hallucination หรือผลลัพธ์ที่ไม่เกี่ยวข้อง ทั้งคู่ต้องใช้สมองคัดกรองเหมือนกัน ถ้าดูตามสัดส่วน ผลลัพธ์ที่ไม่เกี่ยวข้องมีมากกว่า hallucination ด้วยซ้ำ เพียงแต่เราเลิกเชื่อถือหน้าผลการค้นหากันไปนานแล้วเท่านั้น
    • นี่เป็นปัญหาสามเหลี่ยมของ ความเร็ว / ความแม่นยำ / ต้นทุน
      โมเดลเล็กมีต้นทุนการให้บริการคุ้มค่าและเร็ว แต่ก็อาจผิดได้ราวครึ่งหนึ่ง
      โมเดลใหญ่รันช้าบนฮาร์ดแวร์ราคาถูก แต่ให้คำตอบที่แม่นยำกว่าได้ และโดยทั่วไปก็เร็วพอสำหรับการใช้งานส่วนบุคคล
      ทางเลือกที่สามคือโมเดลที่ใหญ่ เร็ว และแม่นยำ แต่ต้องจ่ายเงินก้อนใหญ่ให้ Nvidia/Groq ฯลฯ ถึงจะได้ความเร็ว และอาจต้องสร้างโรงไฟฟ้าพลังงานแสงอาทิตย์เองเพื่อให้คุ้มค่าไฟ
    • จากประสบการณ์ของผม จริง
      ก่อนจะค้นหาอะไร ผมมักประเมินก่อนว่าการกวาดตาดูผลลัพธ์ Google อย่างรวดเร็วจะเร็วกว่าไหม หรือการรอให้ Perplexity Pro ค่อย ๆ พ่นคำตอบออกมาทีละบรรทัดจะเร็วกว่า
    • ผมมองว่าทั้งสองอย่างเป็นปัญหาหลัก
      เวลาผลลัพธ์ถูกต้อง มันก็ช้าเกินไป และผลลัพธ์ที่มาถึงก็มักไม่ถูกต้องบ่อยจนเชื่อถือได้ยาก
  • มันไม่ได้มีไว้สำหรับทุกคนตามชื่อ แต่เป็นสำหรับ ผู้ใช้ Pro
    ชื่อทำให้สับสน ถ้าเปลี่ยนได้ก็คงดี

  • อยากรู้ว่านี่เทียบกับ Kagi Assistant แล้วเป็นอย่างไร
    ในหน้าแพ็กเกจระบุว่าเดือนละ $20 ได้ค้นหาด้วย Phind-405B และ Phind-70B ไม่จำกัด, GPT-4o มากกว่า 500 ครั้งต่อวัน, Claude 3.5 Sonnet มากกว่า 500 ครั้งต่อวัน และ Claude Opus 10 ครั้ง
    เขาบอกว่า “Phind-405B ทำได้ 92% บน HumanEval 0-shot เทียบชั้น Claude 3.5 Sonnet” แล้วมี benchmark อื่นไหม?

    • ผมจ่ายเงินใช้ Phind อยู่ 6 เดือน และตอนนี้พอใจกับ Kagi Assistant มากกว่า
      มันไม่ได้ให้ลิงก์เยอะขนาดนั้น แต่ผลลัพธ์โดยรวมคล้ายกันหรือดีกว่า และยังใช้ lenses ได้ด้วย มีเสิร์ชเอนจินทั่วไปให้มาด้วย
      Phind มีจุดน่ารำคาญอย่างหนึ่งเกี่ยวกับ UI คือใน Firefox แถบเลื่อนบางครั้งกระโดดแบบสุ่ม และเหมือนจะเป็นทุกครั้งที่พิมพ์หรือแม้แต่ระหว่างสร้าง token ถ้าต้องคอยหาตำแหน่งที่กำลังอ่านอยู่ใหม่ทุกครั้งก็เสียเวลาพอสมควร และแค่การต้องกลับไปล่างสุดก็ยังน่ารำคาญ
      ปัญหาหลักยังคงเป็นว่า ทั้งสองเจอ hallucination เยอะเกินไปเมื่อเป็นคำถามยาก ๆ และนี่เป็นปัญหาร่วมกันทุกที่
    • มี VSCode extension ถ้าใช้อันนั้นก็น่าจะมีความหมายอยู่บ้าง
      ถ้าใช้เพื่อค้นหาล้วน ๆ ผมไม่แน่ใจ จากประสบการณ์ของผม Phind ไม่ได้ยอดเยี่ยมนักเมื่อมีการเข้าถึงอินเทอร์เน็ต และบางคนถึงกับปิดฟังก์ชันค้นหาเพื่อให้ได้คำตอบที่ดีกว่า
    • ตัวเลข 92% ทำให้ตัดสินยาก เพราะมันหมายความว่าต้องมี benchmark ที่ยากกว่านี้
      โดยเฉพาะโมเดลที่ได้คะแนนสูงก็มักให้คำตอบที่ดูน่าเชื่อแต่ hallucinate เยอะ เช่น Llama 3 สำหรับผมนั้นพูดมาก มั่นใจ แต่ผิดค่อนข้างบ่อย
      ถ้าประสิทธิภาพระดับนั้น ก็น่าจะเข้าสู่พื้นที่ edge case ยาก ๆ ที่คำตอบที่ถูกต้องเองก็คลุมเครือแล้ว
    • ดูราคาแล้ว เหมือนจะไม่มีระดับ subscription ที่ต่ำกว่านี้ นอกจาก “Phind ไม่จำกัด + ChatGPT วันละ 500 ครั้ง” ราคาเดือนละ $20
      สิ่งที่ต้องการไม่ใช่แบบนั้น แต่เป็นแพ็กเกจที่ใช้ได้ราว 100 ครั้งต่อเดือนในราคา $5 ถ้าเป็นเสิร์ชเอนจินที่เน้นงานโค้ด ก็ควรคิดว่าทำไมผู้คนต้องจ่ายราคาเดียวกับคู่แข่งที่มีฟีเจอร์มากกว่า
  • คิดว่าผม subscribe Phind Pro มาได้ประมาณ 5–6 เดือนแล้ว
    รู้สึกว่าการปนเปื้อนของผลการค้นหาดีขึ้นบ้าง แต่เวลาถามคำถามต่อเนื่องก็ยังมีกรณีที่ทำให้คำตอบพังอยู่
    เช่น ถ้าถามโดยอ้างอิงโค้ดจากคำตอบก่อนหน้า คำตอบถัดไปอาจอิงโค้ดบางส่วนในผลการค้นหาแทนที่จะอิงบริบทของบทสนทนา ผมไม่ค่อยรู้เรื่อง RAG เลยไม่แน่ใจว่าจะแก้ด้วยลำดับความสำคัญอะไรแบบนั้นได้ไหม
    นอกเหนือจากนั้น ผมตั้งตารอมากว่าจะจัดการ artifacts ของตัวเองในเว็บอินเทอร์เฟซอย่างไร UI artifacts ของ Claude เข้ากับ workflow ของผมมากเวลาทำงานบนเว็บ และชอบที่มีเวอร์ชันของหลายไฟล์ด้วย

    • กำลังทำ artifacts อยู่
      อยากรู้ว่าเห็นการปนเปื้อนในโมเดลไหน
  • เดี๋ยวนะ อันนี้ทำได้ค่อนข้างดีจริง ๆ
    ถ้าจะให้ได้ผลลัพธ์ที่สมเหตุสมผลก็ยังต้องถามต่ออยู่ แต่ตอนทดสอบช่วงต้นปีนี้ มันล้มเหลวโดยสิ้นเชิงกับ query ทดสอบส่วนใหญ่

  • อยากให้มี query ฟรี อย่างน้อยหนึ่งครั้ง เพื่อให้ผู้ใช้ประเมินบริการได้

    • โมเดลเร็วอย่าง Phind Instant ฟรีทั้งหมด
  • Phind เป็นเครื่องมือเพิ่ม productivity ที่ดีที่สุดที่ผมเจอในช่วงหลายปีที่ผ่านมา
    ยินดีด้วย และขอให้พัฒนาต่อไปดี ๆ

  • เมื่อเร็ว ๆ นี้ผมถาม AI ด้วยคำถามด้านล่าง

    const MyClass& getMyClass(){....}  
    auto obj = getMyClass();  
    

    ผมถามว่าแบบนี้ก็น่าจะเกิดการคัดลอกใช่ไหม แต่มันตอบอย่างมั่นใจมากว่าไม่มีการคัดลอกเกิดขึ้น มันคิดว่า auto จะอนุมานชนิดเป็นการอ้างอิงแบบ const เลยไม่คัดลอก ซึ่งผิด และถ้าต้องการแบบนั้นต้องใช้ auto& หรือ const auto& พอถามซ้ำว่าแน่ใจหรือ มันก็ตอบอย่างมั่นใจยิ่งกว่าเดิม
    ผลลัพธ์จาก Godbolt อยู่ที่นี่ https://godbolt.org/z/Mz8x74vxe
    จะเห็นว่า "copy" ถูกพิมพ์ออกมา และยังเห็นด้วยว่าสามารถเรียกเมธอด non-const บนอ็อบเจกต์ที่ถูกคัดลอกได้ ซึ่งหมายความว่ามันเป็นชนิด non-const
    ผมถาม Phind ด้วยคำถามเดียวกัน และก็ได้คำตอบแบบเดียวกัน https://www.phind.com/search?cache=k3l4g010kuichh9rp4dl9ikb
    AI สองตัวที่ต่างกัน โดยหนึ่งในนั้นยังอ้างว่าเชี่ยวชาญด้านโค้ดด้วย ทำไมถึงล้มเหลวได้อย่างมั่นใจขนาดนี้?

    • สิ่งนี้แสดงให้เห็นว่าเครื่องมือพวกนี้ท้ายที่สุดแล้วเป็น เครื่องสร้างโทเค็น และผลลัพธ์ก็แค่ดูเหมือนมีสติปัญญาเท่านั้น
      ตอนนี้ยังไม่น่าจะถึงขั้นเชื่อแบบไม่ลืมหูลืมตาได้
    • หนึ่งในเทคนิคเก่า ๆ ที่ทำให้ LLM ตอบได้ดีขึ้นคือการถามว่า “ลองคิดทีละขั้นตอนกัน
      ผมลองถาม Claude แบบนั้นด้วยคำถามด้านล่าง
      const MyClass& getMyClass(){....}  
      auto obj = getMyClass();  
      
      “นี่จะทำให้เกิดการคัดลอกไหม? ลองคิดทีละขั้นตอนกัน”
      ถ้าคุณตั้งใจจะใช้เครื่องมือแบบนี้ช่วยงานบ่อยขึ้น วิธีนี้อาจช่วยได้