คำตอบ AI ที่เร็วขึ้นและมีคุณภาพสูงสำหรับทุกคน, Phind-405B

(phind.com)

1 คะแนน โดย GN⁺ 2024-09-06 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

There is no content to summarize from the provided article link.

1 ความคิดเห็น

GN⁺ 2024-09-06

ความคิดเห็นจาก Hacker News

Phind ยังเป็นเสิร์ชเอนจินที่เสริมด้วย AI ที่ผมชอบที่สุดอยู่
เวลาตอบคำถามเชิงเทคนิค มันแนบลิงก์อ้างอิงที่ช่วยตรวจสอบคำตอบหรือดูรายละเอียดเพิ่มเติมได้ดี
ตัวอย่างประวัติล่าสุดมีรูปแบบวิดีโอที่ Mastodon รองรับ https://www.phind.com/search?cache=jpa8gv7lv54orvpu2c7j1b5j, การเปรียบเทียบ XFS กับ ext4fs https://www.phind.com/search?cache=h9rmhe6ddav1bnb2odtchdb1, แนวทาง no slot clock ของ Apple ][ https://www.phind.com/search?cache=w4cc1saw6nsqxyige7g3wple เป็นต้น
คำตอบไม่ได้สมบูรณ์แบบ แต่ให้ภาพรวมที่ดี และลิงก์แหล่งข้อมูลบนเว็บก็ยอดเยี่ยม ChatGPT กับ Claude อ่อนในส่วนนี้ ส่วน Bing CoPilot ทำได้ระดับหนึ่งแต่ผมชอบน้อยกว่า
- จากการทดสอบของผม Phind 70B ก็ให้คำตอบหลอนเหมือนกัน
  เช่น ผมถามถึงที่อุดหูบลูทูธที่เปลี่ยนแบตเตอรี่ได้ง่าย แต่มันยังคงแนะนำผลิตภัณฑ์ที่รู้กันว่าแบตเตอรี่ถูกบัดกรีติดอยู่กับเคส พูดอย่างเป็นธรรม Perplexity ก็ล้มเหลวกับคำถามนี้เช่นกัน
- ผมยังมองว่ายังมีพื้นที่ให้ปรับปรุงอีกค่อนข้างมาก และกำลังทำให้ โครงสร้างคำตอบ กับ ความสามารถในการตรวจสอบได้ ดีขึ้น
- Phind เคยเป็นเครื่องมือที่ผมใช้เป็นหลักเพื่อหาข้อมูลที่เกี่ยวข้องและใหม่กว่าบนอินเทอร์เน็ต แต่ตั้งแต่ประมาณ 3 เดือนก่อนก็ไม่เป็นแบบนั้นแล้ว
  เมื่อเวลาผ่านไป ในหลายคำถาม คำตอบยิ่งไม่สมบูรณ์หรือผิดมากขึ้น และที่แย่กว่านั้นคือบางครั้งมันบอกว่าหาคำตอบไม่เจอ ทั้งที่คำตอบอยู่ในเว็บไซต์อ้างอิง
  สุดท้ายผมเลยกลับไปใช้ Bing กับ gpt 4o เป็นหลัก และพูดตรง ๆ ว่าลังเลที่จะเสียเวลาลองเวอร์ชันใหม่อีกครั้ง
- ที่นี่เห็นรายการอ้างอิง แต่เวลาผมถาม แม้ล็อกอินอยู่ก็มีแค่คำตอบ ไม่มี การอ้างอิง
  ผมเข้าใจว่าเคยเป็นปัญหามาก่อนแล้วได้รับการแก้ไขแล้ว แต่ผมยังเจออยู่ ถ้าล็อกเอาต์แล้วถามจะมีแหล่งอ้างอิงขึ้นมา แต่ตอนนั้นเป็นคำตอบที่ใช้โมเดล instant
- ด้วยเหตุผลคล้ายกัน ผมชอบใช้ Brave Search
  สามารถสลับไปมาระหว่างการค้นหาทั่วไปกับการค้นหาที่ใช้ LLM ได้ง่าย โดยเลือกฝั่งที่เหมาะกว่า
เพิ่งลองใช้เมื่อกี้ ถามหัวข้องานวิจัยที่กำลังศึกษาอยู่ มันให้คำตอบมา แต่ ไม่มีเอกสารอ้างอิง
ดังนั้นผมจึงคัดลอกคำตอบแล้วขอให้ใส่เอกสารอ้างอิงแบบเจาะจง มันก็ขอโทษในทำนองว่า การที่อ้างถึงงานวิจัยบางชิ้นในคำตอบก่อนหน้าเป็นความผิดพลาด และผลการค้นหาไม่มีข้อมูลที่เกี่ยวข้องมาสนับสนุนข้ออ้างนั้น
อันนี้ผมก็ไม่ค่อยแน่ใจเท่าไร
- ผมทดสอบต่อ เมื่อขอให้อธิบายวิธีใช้ Laravel 11 Blade fragments แบบสั้น ๆ มันตอบได้ค่อนข้างดี
  จากนั้นผมให้โค้ด route 3 บรรทัดที่ใช้ใน Laravel แล้วถามว่าจะทำให้เลือก fragment ที่จะส่งกลับตามพารามิเตอร์ URL ได้อย่างไร
```
Route::get('/vge-frags/{fragment}', function ($fragment) {  
return view('vge-fragments');  
});  
```
  การที่มันบอกว่าต้องมี view ที่ถูกต้องสร้างไว้ก่อนถือเป็นจุดเริ่มต้นที่ดี แต่ต่อมากลับแนะนำแบบนี้
```
Route::get('/vge-frags/{fragment}', function ($fragment) {  
return fragment($fragment);  
});  
```
  ผมรู้ได้ทันทีว่าผิด แต่คนที่กำลังเรียนอยู่อาจไม่รู้ ดังนั้นจึงต้องถามกลับไปว่า “เดี๋ยวก่อน โค้ดนี้รู้ได้อย่างไรว่าต้องใช้ view ไหน?” แล้วมันถึงให้คำตอบที่ถูกต้อง
```
Route::get('/vge-frags/{fragment}', function ($fragment) {  
return view('vge-fragments')->fragment($fragment);  
});  
```
  โมเดลแบบนี้หา edge case ได้ง่ายเกินไป และแทบจะต้องสงสัยทุกคำตอบที่ได้รับทั้งหมดอยู่ดี ถึงอย่างนั้น บางครั้งมันก็ทรงพลังและมีประโยชน์มาก
- ก่อนอื่นน่าจะลองตรวจสอบว่าเปิด Always search อยู่หรือไม่ แล้วลองถามคำถามแรกใหม่
  แบบนั้นควรจะได้คำตอบที่ถูกต้องพร้อมแหล่งอ้างอิง
- ผมเกลียดจริง ๆ กับประโยคอย่าง “ในฐานะผู้ช่วย AI ผมควรระมัดระวังมากกว่านี้”
- คำขอโทษยาว ๆ นั่น พูดตรง ๆ ก็คือการพูดแบบยืดยาวและซ้ำ ๆ ว่า “ผมพูดอะไรมั่ว ๆ ออกไป” เท่านั้นเอง
  แน่นอนว่าคนบางคนก็พูดแบบนั้นเหมือนกัน ถ้ากระแส LLM มีด้านบวกอยู่บ้าง ก็อาจทำให้เรามีภูมิคุ้มกันต่อวิธีพูดแบบไซโคพาธได้
“ปัญหาหลักของการค้นหาที่ขับเคลื่อนด้วย AI คือมันช้าเกินไปเมื่อเทียบกับ Google แบบเดิม แม้จะสร้างคำตอบที่ดีกว่าได้ แต่ความหน่วงที่เพิ่มขึ้นก็ทำให้ไม่อยากใช้” คำพูดนี้จริงไหม?
ข้อร้องเรียนส่วนใหญ่ที่ผมรู้สึกและได้ยินมักเป็นเรื่อง ผลลัพธ์ AI ที่ไม่ถูกต้อง เช่น เวลาให้ช่วยเขียนโค้ดแล้วมันผิดอย่างมั่นใจ
- ตั้งแต่กด Enter จนเห็นอะไรบางอย่าง ย่อมช้ากว่าอยู่แล้ว
  แต่หลังจากกด Enter แล้ว เวลาจนกว่าชุดคำตอบที่เกี่ยวข้องและถูกต้องจะเข้ามาในหัว ไม่ใช่เป้าหมายที่ควรวัดหรือ? ถ้าวัดด้วยเกณฑ์นั้น วิธีการแบบอายุ 20 ปีดูเหมือนจะถึงจุดสูงสุดไปตั้งแต่กว่า 10 ปีก่อนแล้ว และถ้าไม่ใช่อย่างนั้น Phind ก็คงไม่ได้รับความสนใจ
  เวลาตั้งแต่ค้นหาจนคำตอบเข้ามาในหัวในการค้นหาแบบ PageRank อายุ 20 ปี ตอนนี้ใกล้จะเป็น “DNF” หรือพูดคือทำไม่สำเร็จแล้ว
  ไม่ว่าจะเป็น hallucination หรือผลลัพธ์ที่ไม่เกี่ยวข้อง ทั้งคู่ต้องใช้สมองคัดกรองเหมือนกัน ถ้าดูตามสัดส่วน ผลลัพธ์ที่ไม่เกี่ยวข้องมีมากกว่า hallucination ด้วยซ้ำ เพียงแต่เราเลิกเชื่อถือหน้าผลการค้นหากันไปนานแล้วเท่านั้น
- นี่เป็นปัญหาสามเหลี่ยมของ ความเร็ว / ความแม่นยำ / ต้นทุน
  โมเดลเล็กมีต้นทุนการให้บริการคุ้มค่าและเร็ว แต่ก็อาจผิดได้ราวครึ่งหนึ่ง
  โมเดลใหญ่รันช้าบนฮาร์ดแวร์ราคาถูก แต่ให้คำตอบที่แม่นยำกว่าได้ และโดยทั่วไปก็เร็วพอสำหรับการใช้งานส่วนบุคคล
  ทางเลือกที่สามคือโมเดลที่ใหญ่ เร็ว และแม่นยำ แต่ต้องจ่ายเงินก้อนใหญ่ให้ Nvidia/Groq ฯลฯ ถึงจะได้ความเร็ว และอาจต้องสร้างโรงไฟฟ้าพลังงานแสงอาทิตย์เองเพื่อให้คุ้มค่าไฟ
- จากประสบการณ์ของผม จริง
  ก่อนจะค้นหาอะไร ผมมักประเมินก่อนว่าการกวาดตาดูผลลัพธ์ Google อย่างรวดเร็วจะเร็วกว่าไหม หรือการรอให้ Perplexity Pro ค่อย ๆ พ่นคำตอบออกมาทีละบรรทัดจะเร็วกว่า
- ผมมองว่าทั้งสองอย่างเป็นปัญหาหลัก
  เวลาผลลัพธ์ถูกต้อง มันก็ช้าเกินไป และผลลัพธ์ที่มาถึงก็มักไม่ถูกต้องบ่อยจนเชื่อถือได้ยาก
มันไม่ได้มีไว้สำหรับทุกคนตามชื่อ แต่เป็นสำหรับ ผู้ใช้ Pro
ชื่อทำให้สับสน ถ้าเปลี่ยนได้ก็คงดี
อยากรู้ว่านี่เทียบกับ Kagi Assistant แล้วเป็นอย่างไร
ในหน้าแพ็กเกจระบุว่าเดือนละ $20 ได้ค้นหาด้วย Phind-405B และ Phind-70B ไม่จำกัด, GPT-4o มากกว่า 500 ครั้งต่อวัน, Claude 3.5 Sonnet มากกว่า 500 ครั้งต่อวัน และ Claude Opus 10 ครั้ง
เขาบอกว่า “Phind-405B ทำได้ 92% บน HumanEval 0-shot เทียบชั้น Claude 3.5 Sonnet” แล้วมี benchmark อื่นไหม?
- ผมจ่ายเงินใช้ Phind อยู่ 6 เดือน และตอนนี้พอใจกับ Kagi Assistant มากกว่า
  มันไม่ได้ให้ลิงก์เยอะขนาดนั้น แต่ผลลัพธ์โดยรวมคล้ายกันหรือดีกว่า และยังใช้ lenses ได้ด้วย มีเสิร์ชเอนจินทั่วไปให้มาด้วย
  Phind มีจุดน่ารำคาญอย่างหนึ่งเกี่ยวกับ UI คือใน Firefox แถบเลื่อนบางครั้งกระโดดแบบสุ่ม และเหมือนจะเป็นทุกครั้งที่พิมพ์หรือแม้แต่ระหว่างสร้าง token ถ้าต้องคอยหาตำแหน่งที่กำลังอ่านอยู่ใหม่ทุกครั้งก็เสียเวลาพอสมควร และแค่การต้องกลับไปล่างสุดก็ยังน่ารำคาญ
  ปัญหาหลักยังคงเป็นว่า ทั้งสองเจอ hallucination เยอะเกินไปเมื่อเป็นคำถามยาก ๆ และนี่เป็นปัญหาร่วมกันทุกที่
- มี VSCode extension ถ้าใช้อันนั้นก็น่าจะมีความหมายอยู่บ้าง
  ถ้าใช้เพื่อค้นหาล้วน ๆ ผมไม่แน่ใจ จากประสบการณ์ของผม Phind ไม่ได้ยอดเยี่ยมนักเมื่อมีการเข้าถึงอินเทอร์เน็ต และบางคนถึงกับปิดฟังก์ชันค้นหาเพื่อให้ได้คำตอบที่ดีกว่า
- ตัวเลข 92% ทำให้ตัดสินยาก เพราะมันหมายความว่าต้องมี benchmark ที่ยากกว่านี้
  โดยเฉพาะโมเดลที่ได้คะแนนสูงก็มักให้คำตอบที่ดูน่าเชื่อแต่ hallucinate เยอะ เช่น Llama 3 สำหรับผมนั้นพูดมาก มั่นใจ แต่ผิดค่อนข้างบ่อย
  ถ้าประสิทธิภาพระดับนั้น ก็น่าจะเข้าสู่พื้นที่ edge case ยาก ๆ ที่คำตอบที่ถูกต้องเองก็คลุมเครือแล้ว
- ดูราคาแล้ว เหมือนจะไม่มีระดับ subscription ที่ต่ำกว่านี้ นอกจาก “Phind ไม่จำกัด + ChatGPT วันละ 500 ครั้ง” ราคาเดือนละ $20
  สิ่งที่ต้องการไม่ใช่แบบนั้น แต่เป็นแพ็กเกจที่ใช้ได้ราว 100 ครั้งต่อเดือนในราคา $5 ถ้าเป็นเสิร์ชเอนจินที่เน้นงานโค้ด ก็ควรคิดว่าทำไมผู้คนต้องจ่ายราคาเดียวกับคู่แข่งที่มีฟีเจอร์มากกว่า
คิดว่าผม subscribe Phind Pro มาได้ประมาณ 5–6 เดือนแล้ว
รู้สึกว่าการปนเปื้อนของผลการค้นหาดีขึ้นบ้าง แต่เวลาถามคำถามต่อเนื่องก็ยังมีกรณีที่ทำให้คำตอบพังอยู่
เช่น ถ้าถามโดยอ้างอิงโค้ดจากคำตอบก่อนหน้า คำตอบถัดไปอาจอิงโค้ดบางส่วนในผลการค้นหาแทนที่จะอิงบริบทของบทสนทนา ผมไม่ค่อยรู้เรื่อง RAG เลยไม่แน่ใจว่าจะแก้ด้วยลำดับความสำคัญอะไรแบบนั้นได้ไหม
นอกเหนือจากนั้น ผมตั้งตารอมากว่าจะจัดการ artifacts ของตัวเองในเว็บอินเทอร์เฟซอย่างไร UI artifacts ของ Claude เข้ากับ workflow ของผมมากเวลาทำงานบนเว็บ และชอบที่มีเวอร์ชันของหลายไฟล์ด้วย
- กำลังทำ artifacts อยู่
  อยากรู้ว่าเห็นการปนเปื้อนในโมเดลไหน
เดี๋ยวนะ อันนี้ทำได้ค่อนข้างดีจริง ๆ
ถ้าจะให้ได้ผลลัพธ์ที่สมเหตุสมผลก็ยังต้องถามต่ออยู่ แต่ตอนทดสอบช่วงต้นปีนี้ มันล้มเหลวโดยสิ้นเชิงกับ query ทดสอบส่วนใหญ่
อยากให้มี query ฟรี อย่างน้อยหนึ่งครั้ง เพื่อให้ผู้ใช้ประเมินบริการได้
- โมเดลเร็วอย่าง Phind Instant ฟรีทั้งหมด
Phind เป็นเครื่องมือเพิ่ม productivity ที่ดีที่สุดที่ผมเจอในช่วงหลายปีที่ผ่านมา
ยินดีด้วย และขอให้พัฒนาต่อไปดี ๆ
เมื่อเร็ว ๆ นี้ผมถาม AI ด้วยคำถามด้านล่าง
```
const MyClass& getMyClass(){....}  
auto obj = getMyClass();  
```
ผมถามว่าแบบนี้ก็น่าจะเกิดการคัดลอกใช่ไหม แต่มันตอบอย่างมั่นใจมากว่าไม่มีการคัดลอกเกิดขึ้น มันคิดว่า auto จะอนุมานชนิดเป็นการอ้างอิงแบบ const เลยไม่คัดลอก ซึ่งผิด และถ้าต้องการแบบนั้นต้องใช้ auto& หรือ const auto& พอถามซ้ำว่าแน่ใจหรือ มันก็ตอบอย่างมั่นใจยิ่งกว่าเดิม
ผลลัพธ์จาก Godbolt อยู่ที่นี่ https://godbolt.org/z/Mz8x74vxe
จะเห็นว่า "copy" ถูกพิมพ์ออกมา และยังเห็นด้วยว่าสามารถเรียกเมธอด non-const บนอ็อบเจกต์ที่ถูกคัดลอกได้ ซึ่งหมายความว่ามันเป็นชนิด non-const
ผมถาม Phind ด้วยคำถามเดียวกัน และก็ได้คำตอบแบบเดียวกัน https://www.phind.com/search?cache=k3l4g010kuichh9rp4dl9ikb
AI สองตัวที่ต่างกัน โดยหนึ่งในนั้นยังอ้างว่าเชี่ยวชาญด้านโค้ดด้วย ทำไมถึงล้มเหลวได้อย่างมั่นใจขนาดนี้?
- สิ่งนี้แสดงให้เห็นว่าเครื่องมือพวกนี้ท้ายที่สุดแล้วเป็น เครื่องสร้างโทเค็น และผลลัพธ์ก็แค่ดูเหมือนมีสติปัญญาเท่านั้น
  ตอนนี้ยังไม่น่าจะถึงขั้นเชื่อแบบไม่ลืมหูลืมตาได้
- หนึ่งในเทคนิคเก่า ๆ ที่ทำให้ LLM ตอบได้ดีขึ้นคือการถามว่า “ลองคิดทีละขั้นตอนกัน”
  ผมลองถาม Claude แบบนั้นด้วยคำถามด้านล่าง
```
const MyClass& getMyClass(){....}  
auto obj = getMyClass();  
```
  “นี่จะทำให้เกิดการคัดลอกไหม? ลองคิดทีละขั้นตอนกัน”
  ถ้าคุณตั้งใจจะใช้เครื่องมือแบบนี้ช่วยงานบ่อยขึ้น วิธีนี้อาจช่วยได้

คำตอบ AI ที่เร็วขึ้นและมีคุณภาพสูงสำหรับทุกคน, Phind-405B

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News