“ปัญหาหลักของการค้นหาที่ขับเคลื่อนด้วย AI คือมันช้าเกินไปเมื่อเทียบกับ Google แบบเดิม แม้จะสร้างคำตอบที่ดีกว่าได้ แต่ความหน่วงที่เพิ่มขึ้นก็ทำให้ไม่อยากใช้” คำพูดนี้จริงไหม?
ข้อร้องเรียนส่วนใหญ่ที่ผมรู้สึกและได้ยินมักเป็นเรื่อง ผลลัพธ์ AI ที่ไม่ถูกต้อง เช่น เวลาให้ช่วยเขียนโค้ดแล้วมันผิดอย่างมั่นใจ
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
Phind ยังเป็นเสิร์ชเอนจินที่เสริมด้วย AI ที่ผมชอบที่สุดอยู่
เวลาตอบคำถามเชิงเทคนิค มันแนบลิงก์อ้างอิงที่ช่วยตรวจสอบคำตอบหรือดูรายละเอียดเพิ่มเติมได้ดี
ตัวอย่างประวัติล่าสุดมีรูปแบบวิดีโอที่ Mastodon รองรับ https://www.phind.com/search?cache=jpa8gv7lv54orvpu2c7j1b5j, การเปรียบเทียบ XFS กับ ext4fs https://www.phind.com/search?cache=h9rmhe6ddav1bnb2odtchdb1, แนวทาง no slot clock ของ Apple ][ https://www.phind.com/search?cache=w4cc1saw6nsqxyige7g3wple เป็นต้น
คำตอบไม่ได้สมบูรณ์แบบ แต่ให้ภาพรวมที่ดี และลิงก์แหล่งข้อมูลบนเว็บก็ยอดเยี่ยม ChatGPT กับ Claude อ่อนในส่วนนี้ ส่วน Bing CoPilot ทำได้ระดับหนึ่งแต่ผมชอบน้อยกว่า
เช่น ผมถามถึงที่อุดหูบลูทูธที่เปลี่ยนแบตเตอรี่ได้ง่าย แต่มันยังคงแนะนำผลิตภัณฑ์ที่รู้กันว่าแบตเตอรี่ถูกบัดกรีติดอยู่กับเคส พูดอย่างเป็นธรรม Perplexity ก็ล้มเหลวกับคำถามนี้เช่นกัน
เมื่อเวลาผ่านไป ในหลายคำถาม คำตอบยิ่งไม่สมบูรณ์หรือผิดมากขึ้น และที่แย่กว่านั้นคือบางครั้งมันบอกว่าหาคำตอบไม่เจอ ทั้งที่คำตอบอยู่ในเว็บไซต์อ้างอิง
สุดท้ายผมเลยกลับไปใช้ Bing กับ gpt 4o เป็นหลัก และพูดตรง ๆ ว่าลังเลที่จะเสียเวลาลองเวอร์ชันใหม่อีกครั้ง
ผมเข้าใจว่าเคยเป็นปัญหามาก่อนแล้วได้รับการแก้ไขแล้ว แต่ผมยังเจออยู่ ถ้าล็อกเอาต์แล้วถามจะมีแหล่งอ้างอิงขึ้นมา แต่ตอนนั้นเป็นคำตอบที่ใช้โมเดล instant
สามารถสลับไปมาระหว่างการค้นหาทั่วไปกับการค้นหาที่ใช้ LLM ได้ง่าย โดยเลือกฝั่งที่เหมาะกว่า
เพิ่งลองใช้เมื่อกี้ ถามหัวข้องานวิจัยที่กำลังศึกษาอยู่ มันให้คำตอบมา แต่ ไม่มีเอกสารอ้างอิง
ดังนั้นผมจึงคัดลอกคำตอบแล้วขอให้ใส่เอกสารอ้างอิงแบบเจาะจง มันก็ขอโทษในทำนองว่า การที่อ้างถึงงานวิจัยบางชิ้นในคำตอบก่อนหน้าเป็นความผิดพลาด และผลการค้นหาไม่มีข้อมูลที่เกี่ยวข้องมาสนับสนุนข้ออ้างนั้น
อันนี้ผมก็ไม่ค่อยแน่ใจเท่าไร
จากนั้นผมให้โค้ด route 3 บรรทัดที่ใช้ใน Laravel แล้วถามว่าจะทำให้เลือก fragment ที่จะส่งกลับตามพารามิเตอร์ URL ได้อย่างไร การที่มันบอกว่าต้องมี view ที่ถูกต้องสร้างไว้ก่อนถือเป็นจุดเริ่มต้นที่ดี แต่ต่อมากลับแนะนำแบบนี้ ผมรู้ได้ทันทีว่าผิด แต่คนที่กำลังเรียนอยู่อาจไม่รู้ ดังนั้นจึงต้องถามกลับไปว่า “เดี๋ยวก่อน โค้ดนี้รู้ได้อย่างไรว่าต้องใช้ view ไหน?” แล้วมันถึงให้คำตอบที่ถูกต้อง โมเดลแบบนี้หา edge case ได้ง่ายเกินไป และแทบจะต้องสงสัยทุกคำตอบที่ได้รับทั้งหมดอยู่ดี ถึงอย่างนั้น บางครั้งมันก็ทรงพลังและมีประโยชน์มาก
แบบนั้นควรจะได้คำตอบที่ถูกต้องพร้อมแหล่งอ้างอิง
แน่นอนว่าคนบางคนก็พูดแบบนั้นเหมือนกัน ถ้ากระแส LLM มีด้านบวกอยู่บ้าง ก็อาจทำให้เรามีภูมิคุ้มกันต่อวิธีพูดแบบไซโคพาธได้
“ปัญหาหลักของการค้นหาที่ขับเคลื่อนด้วย AI คือมันช้าเกินไปเมื่อเทียบกับ Google แบบเดิม แม้จะสร้างคำตอบที่ดีกว่าได้ แต่ความหน่วงที่เพิ่มขึ้นก็ทำให้ไม่อยากใช้” คำพูดนี้จริงไหม?
ข้อร้องเรียนส่วนใหญ่ที่ผมรู้สึกและได้ยินมักเป็นเรื่อง ผลลัพธ์ AI ที่ไม่ถูกต้อง เช่น เวลาให้ช่วยเขียนโค้ดแล้วมันผิดอย่างมั่นใจ
แต่หลังจากกด Enter แล้ว เวลาจนกว่าชุดคำตอบที่เกี่ยวข้องและถูกต้องจะเข้ามาในหัว ไม่ใช่เป้าหมายที่ควรวัดหรือ? ถ้าวัดด้วยเกณฑ์นั้น วิธีการแบบอายุ 20 ปีดูเหมือนจะถึงจุดสูงสุดไปตั้งแต่กว่า 10 ปีก่อนแล้ว และถ้าไม่ใช่อย่างนั้น Phind ก็คงไม่ได้รับความสนใจ
เวลาตั้งแต่ค้นหาจนคำตอบเข้ามาในหัวในการค้นหาแบบ PageRank อายุ 20 ปี ตอนนี้ใกล้จะเป็น “DNF” หรือพูดคือทำไม่สำเร็จแล้ว
ไม่ว่าจะเป็น hallucination หรือผลลัพธ์ที่ไม่เกี่ยวข้อง ทั้งคู่ต้องใช้สมองคัดกรองเหมือนกัน ถ้าดูตามสัดส่วน ผลลัพธ์ที่ไม่เกี่ยวข้องมีมากกว่า hallucination ด้วยซ้ำ เพียงแต่เราเลิกเชื่อถือหน้าผลการค้นหากันไปนานแล้วเท่านั้น
โมเดลเล็กมีต้นทุนการให้บริการคุ้มค่าและเร็ว แต่ก็อาจผิดได้ราวครึ่งหนึ่ง
โมเดลใหญ่รันช้าบนฮาร์ดแวร์ราคาถูก แต่ให้คำตอบที่แม่นยำกว่าได้ และโดยทั่วไปก็เร็วพอสำหรับการใช้งานส่วนบุคคล
ทางเลือกที่สามคือโมเดลที่ใหญ่ เร็ว และแม่นยำ แต่ต้องจ่ายเงินก้อนใหญ่ให้ Nvidia/Groq ฯลฯ ถึงจะได้ความเร็ว และอาจต้องสร้างโรงไฟฟ้าพลังงานแสงอาทิตย์เองเพื่อให้คุ้มค่าไฟ
ก่อนจะค้นหาอะไร ผมมักประเมินก่อนว่าการกวาดตาดูผลลัพธ์ Google อย่างรวดเร็วจะเร็วกว่าไหม หรือการรอให้ Perplexity Pro ค่อย ๆ พ่นคำตอบออกมาทีละบรรทัดจะเร็วกว่า
เวลาผลลัพธ์ถูกต้อง มันก็ช้าเกินไป และผลลัพธ์ที่มาถึงก็มักไม่ถูกต้องบ่อยจนเชื่อถือได้ยาก
มันไม่ได้มีไว้สำหรับทุกคนตามชื่อ แต่เป็นสำหรับ ผู้ใช้ Pro
ชื่อทำให้สับสน ถ้าเปลี่ยนได้ก็คงดี
อยากรู้ว่านี่เทียบกับ Kagi Assistant แล้วเป็นอย่างไร
ในหน้าแพ็กเกจระบุว่าเดือนละ $20 ได้ค้นหาด้วย Phind-405B และ Phind-70B ไม่จำกัด, GPT-4o มากกว่า 500 ครั้งต่อวัน, Claude 3.5 Sonnet มากกว่า 500 ครั้งต่อวัน และ Claude Opus 10 ครั้ง
เขาบอกว่า “Phind-405B ทำได้ 92% บน HumanEval 0-shot เทียบชั้น Claude 3.5 Sonnet” แล้วมี benchmark อื่นไหม?
มันไม่ได้ให้ลิงก์เยอะขนาดนั้น แต่ผลลัพธ์โดยรวมคล้ายกันหรือดีกว่า และยังใช้ lenses ได้ด้วย มีเสิร์ชเอนจินทั่วไปให้มาด้วย
Phind มีจุดน่ารำคาญอย่างหนึ่งเกี่ยวกับ UI คือใน Firefox แถบเลื่อนบางครั้งกระโดดแบบสุ่ม และเหมือนจะเป็นทุกครั้งที่พิมพ์หรือแม้แต่ระหว่างสร้าง token ถ้าต้องคอยหาตำแหน่งที่กำลังอ่านอยู่ใหม่ทุกครั้งก็เสียเวลาพอสมควร และแค่การต้องกลับไปล่างสุดก็ยังน่ารำคาญ
ปัญหาหลักยังคงเป็นว่า ทั้งสองเจอ hallucination เยอะเกินไปเมื่อเป็นคำถามยาก ๆ และนี่เป็นปัญหาร่วมกันทุกที่
ถ้าใช้เพื่อค้นหาล้วน ๆ ผมไม่แน่ใจ จากประสบการณ์ของผม Phind ไม่ได้ยอดเยี่ยมนักเมื่อมีการเข้าถึงอินเทอร์เน็ต และบางคนถึงกับปิดฟังก์ชันค้นหาเพื่อให้ได้คำตอบที่ดีกว่า
โดยเฉพาะโมเดลที่ได้คะแนนสูงก็มักให้คำตอบที่ดูน่าเชื่อแต่ hallucinate เยอะ เช่น Llama 3 สำหรับผมนั้นพูดมาก มั่นใจ แต่ผิดค่อนข้างบ่อย
ถ้าประสิทธิภาพระดับนั้น ก็น่าจะเข้าสู่พื้นที่ edge case ยาก ๆ ที่คำตอบที่ถูกต้องเองก็คลุมเครือแล้ว
สิ่งที่ต้องการไม่ใช่แบบนั้น แต่เป็นแพ็กเกจที่ใช้ได้ราว 100 ครั้งต่อเดือนในราคา $5 ถ้าเป็นเสิร์ชเอนจินที่เน้นงานโค้ด ก็ควรคิดว่าทำไมผู้คนต้องจ่ายราคาเดียวกับคู่แข่งที่มีฟีเจอร์มากกว่า
คิดว่าผม subscribe Phind Pro มาได้ประมาณ 5–6 เดือนแล้ว
รู้สึกว่าการปนเปื้อนของผลการค้นหาดีขึ้นบ้าง แต่เวลาถามคำถามต่อเนื่องก็ยังมีกรณีที่ทำให้คำตอบพังอยู่
เช่น ถ้าถามโดยอ้างอิงโค้ดจากคำตอบก่อนหน้า คำตอบถัดไปอาจอิงโค้ดบางส่วนในผลการค้นหาแทนที่จะอิงบริบทของบทสนทนา ผมไม่ค่อยรู้เรื่อง RAG เลยไม่แน่ใจว่าจะแก้ด้วยลำดับความสำคัญอะไรแบบนั้นได้ไหม
นอกเหนือจากนั้น ผมตั้งตารอมากว่าจะจัดการ artifacts ของตัวเองในเว็บอินเทอร์เฟซอย่างไร UI artifacts ของ Claude เข้ากับ workflow ของผมมากเวลาทำงานบนเว็บ และชอบที่มีเวอร์ชันของหลายไฟล์ด้วย
อยากรู้ว่าเห็นการปนเปื้อนในโมเดลไหน
เดี๋ยวนะ อันนี้ทำได้ค่อนข้างดีจริง ๆ
ถ้าจะให้ได้ผลลัพธ์ที่สมเหตุสมผลก็ยังต้องถามต่ออยู่ แต่ตอนทดสอบช่วงต้นปีนี้ มันล้มเหลวโดยสิ้นเชิงกับ query ทดสอบส่วนใหญ่
อยากให้มี query ฟรี อย่างน้อยหนึ่งครั้ง เพื่อให้ผู้ใช้ประเมินบริการได้
Phind เป็นเครื่องมือเพิ่ม productivity ที่ดีที่สุดที่ผมเจอในช่วงหลายปีที่ผ่านมา
ยินดีด้วย และขอให้พัฒนาต่อไปดี ๆ
เมื่อเร็ว ๆ นี้ผมถาม AI ด้วยคำถามด้านล่าง
ผมถามว่าแบบนี้ก็น่าจะเกิดการคัดลอกใช่ไหม แต่มันตอบอย่างมั่นใจมากว่าไม่มีการคัดลอกเกิดขึ้น มันคิดว่า
autoจะอนุมานชนิดเป็นการอ้างอิงแบบconstเลยไม่คัดลอก ซึ่งผิด และถ้าต้องการแบบนั้นต้องใช้auto&หรือconst auto&พอถามซ้ำว่าแน่ใจหรือ มันก็ตอบอย่างมั่นใจยิ่งกว่าเดิมผลลัพธ์จาก Godbolt อยู่ที่นี่ https://godbolt.org/z/Mz8x74vxe
จะเห็นว่า
"copy"ถูกพิมพ์ออกมา และยังเห็นด้วยว่าสามารถเรียกเมธอด non-const บนอ็อบเจกต์ที่ถูกคัดลอกได้ ซึ่งหมายความว่ามันเป็นชนิด non-constผมถาม Phind ด้วยคำถามเดียวกัน และก็ได้คำตอบแบบเดียวกัน https://www.phind.com/search?cache=k3l4g010kuichh9rp4dl9ikb
AI สองตัวที่ต่างกัน โดยหนึ่งในนั้นยังอ้างว่าเชี่ยวชาญด้านโค้ดด้วย ทำไมถึงล้มเหลวได้อย่างมั่นใจขนาดนี้?
ตอนนี้ยังไม่น่าจะถึงขั้นเชื่อแบบไม่ลืมหูลืมตาได้
ผมลองถาม Claude แบบนั้นด้วยคำถามด้านล่าง “นี่จะทำให้เกิดการคัดลอกไหม? ลองคิดทีละขั้นตอนกัน”
ถ้าคุณตั้งใจจะใช้เครื่องมือแบบนี้ช่วยงานบ่อยขึ้น วิธีนี้อาจช่วยได้