โมเดล Phind ที่เหนือกว่า GPT-4 สำหรับงานเขียนโค้ด ด้วยความเร็วระดับ GPT-3.5 และคอนเท็กซ์ 16k
(phind.com)- บทความหัวข้อ 'โมเดล Phind เหนือกว่า GPT-4 ในงานเขียนโค้ด ด้วยความเร็วระดับ GPT-3.5 และคอนเท็กซ์ 16k'
- โมเดล Phind เหนือกว่า GPT-4 ในงานเขียนโค้ด โดยยังคงความเร็วระดับ GPT-3.5 และคอนเท็กซ์ 16k
- เว็บไซต์ www.phind.com ควรตรวจสอบด้านความปลอดภัยก่อนเข้าใช้งาน
- เว็บไซต์แจ้งว่าบราว์เซอร์ของผู้ใช้เป็นเวอร์ชันเก่าและควรอัปเดต
- สามารถดูข้อมูลเพิ่มเติมเกี่ยวกับการรองรับบราว์เซอร์ได้ที่หน้าเว็บนักพัฒนาของ Cloudflare
- ประสิทธิภาพและความปลอดภัยของเว็บไซต์ให้บริการโดย Cloudflare
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ลองเปรียบเทียบ Phind กับ GPT-4 อยู่ไม่กี่นาทีด้วยคำถามเชิงออกแบบระดับสูงที่ค่อนข้างกำกวมเกี่ยวกับ distributed work queue แล้วพบว่า Phind แนะนำไลบรารีเฉพาะที่เกี่ยวกับการนำไปใช้งานอย่างเชิงรุก ซึ่งก็สอดคล้องกับสิ่งที่ฉันค้นมา และยังให้โค้ดตัวอย่างโดยใช้ไลบรารีที่แนะนำด้วย
Phind ยังแนบแหล่งอ้างอิงที่เกี่ยวข้องอย่าง GitHub, Stack Overflow ฯลฯ มาอย่างมากมาย จึงเหมาะจะใช้เป็นจุดเริ่มต้นสำหรับการค้นต่อ และคำแนะนำคำถามติดตามก็ทำได้ค่อนข้างดี
อย่างไรก็ตาม GPT-4 ให้คุณภาพคำตอบที่ดีกว่า และถ้าเป็นการสัมภาษณ์ออกแบบระบบก็ดูจะเป็นตัวเลือกที่ดีกว่า มันชี้ไปถึงบริบทนอกเหนือจากคำถาม เช่น logging และ metrics เข้าใจ “คำถามที่ซ่อนอยู่หลังคำถาม” ได้ดีกว่า และในคำถามต่อเนื่องก็ให้ความรู้สึกว่าค่อย ๆ บีบกรอบทิศทางของบทสนทนาให้แคบลงได้ดีกว่า
นี่ไม่ใช่การเปรียบเทียบในฐานะแบบทดสอบความสามารถเขียนโค้ดอย่างการ implement อัลกอริทึม แต่เป็นการเปรียบเทียบในฐานะ เครื่องมือช่วยคิด สำหรับการออกแบบระดับสูงและการตัดสินใจด้านสถาปัตยกรรม
มีคำถามหลอกที่ชอบถาม LLM บ่อย ๆ คือ “ขอ paper และโค้ดแมชชีนเลิร์นนิงล่าสุด 5 ชิ้นที่ใช้ข้อมูลภูมิสารสนเทศอย่าง GeoJSON ทั้งเป็นอินพุตและเอาต์พุต”
ฉันเข้าใจว่า ไม่มีสาขาวิจัยล่าสุดแบบนั้นอยู่จริง และมองว่าข้อมูลภูมิสารสนเทศนั้นไม่ต่อเนื่องจึงไม่เหมาะกับทรานส์ฟอร์เมอร์ และยังพึ่งพาบริบทสูงจนยากกับวิธีอื่นด้วย ถ้ามีคำอธิบายที่ดีกว่าจากผู้เชี่ยวชาญแมชชีนเลิร์นนิงจริง ๆ ฉันก็พร้อมเชื่อตามนั้น
ปกติ LLM มักแต่ง paper/โค้ดที่ไม่มีอยู่จริงขึ้นมา 5 ชิ้น แต่ Phind ให้ลิงก์ที่มีอยู่จริง 5 อัน พร้อมอธิบายว่าทำไมสิ่งเหล่านั้นจึงไม่ใช่ paper+code ที่ใช้ข้อมูล GIS ด้วย และนั่นเป็นคำตอบที่ดีที่สุดเท่าที่เคยได้รับมา
ใช้ ChatGPT 4 โดยไม่เปิดเว็บบราวซิง: https://chat.openai.com/share/7e11b4a6-52f2-441a-8614-7266c3...
ส่วนข้อมูลรีโมตเซนซิงหรือภาพถ่ายดาวเทียมอาจถูกเก็บในรูปแบบแรสเตอร์อย่าง GeoTIFF ซึ่งโดยพื้นฐานแล้วคือภาพ TIFF ที่มีข้อมูลอ้างอิงเชิงภูมิศาสตร์แนบมา
งานแมชชีนเลิร์นนิงกับภาพถ่ายดาวเทียมที่ทั้งอินพุตและเอาต์พุตเป็นข้อมูลภูมิสารสนเทศนั้นทำได้แน่นอน เช่น ในการจำแนกการใช้ประโยชน์ที่ดิน อินพุตอาจเป็นภาพหลายช่วงคลื่น และเอาต์พุตอาจเป็นภาพที่ค่าของแต่ละพิกเซลแสดงประเภทการใช้ที่ดินที่ระบุได้
การใช้แมชชีนเลิร์นนิงกับ การตรวจจับ footprint ของอาคารและการดึงเส้นขอบ จากภาพถ่ายดาวเทียมก็ทำได้ และผลลัพธ์ที่เป็นรูปหลายเหลี่ยมก็สามารถบันทึกเป็น GeoJSON ได้ สิ่งเหล่านี้จึงน่าจะเข้าข่ายตัวอย่างของ “แมชชีนเลิร์นนิงที่ใช้ข้อมูลภูมิสารสนเทศเป็นทั้งอินพุตและเอาต์พุต”
[1]: https://azure.microsoft.com/en-us/blog/how-to-extract-buildi...
ยินดีที่มีการแข่งขันเพิ่มขึ้น แต่ตอนนี้ยังมองว่า GPT-4 ดีกว่า ตอนขอคิวรีสำหรับเติม
teaserจากประมาณ 200 คำแรกในfull_textของตาราง PostgreSQL นั้น Phind ให้คำตอบเป็นการสร้างฟังก์ชัน PL/pgSQL แยกต่างหากเพื่อวนลูปนับคำ ขณะที่ GPT-4 เสนอคิวรีUPDATEตรง ๆ โดยใช้generate_seriesและSTRING_AGGUPDATE your_table SET teaser = substring(full_text from '(\\S+\\s*){1,200}')สงสัยว่าที่บอกว่า “ทำได้ถึง 100 โทเค็นต่อวินาทีในสตรีมเดี่ยว และ GPT-4 อย่างมากก็ราว 20 โทเค็นต่อวินาที” เป็นผลจากการใช้ batch processing หรือเปล่า ถ้าใช่ก็น่าประทับใจมาก
ส่วนที่บอกว่า Phind Model อาจต้องลองสร้างคำตอบมากกว่า GPT-4 เพื่อไปให้ถึงคำตอบที่ถูกในคำถามยาก ๆ ดูเหมือนบางส่วนจะเป็นปัญหาเรื่องการจูน sampler
ถ้ายังไม่ได้ใช้ ก็ควรดู grammar-based sampling(https://github.com/ggerganov/llama.cpp/pull/1773) กับ dynamic sampling อย่าง
mirostat,dynatemp(https://github.com/LostRuins/koboldcpp/pull/464)แม้แต่ใน implementation ของ Nvidia ก็น่าจะใช้ได้ถ้าเปลี่ยนเฉพาะ sampling ไปเป็นเวอร์ชันของ Hugging Face และการที่สามารถลงมือทำฟีเจอร์ทดลองแบบนี้ได้เองคือ ข้อดีใหญ่ของการไม่ต้องพึ่ง OpenAI
ใช้ GPT-4 เยอะมาก และ Phind ก็น่าประหลาดใจที่ทำได้สูสีกับ GPT-4 ในหลายงานเขียนโปรแกรมที่โยนให้ตั้งแต่แรก พอคิดถึง หน้าต่างบริบทที่ยาว ของ Phind แล้ว ก็ดูมีโอกาสที่ในบางงานจะเหนือกว่า GPT-4 ได้ด้วย ถือเป็นผลงานที่น่าประทับใจมาก
ชอบที่ Phind อ้างอิงแหล่งที่มา ของสิ่งที่ดึงมาใช้ คิดว่าควรบังคับให้ LLM ทุกตัวทำแบบนี้ และนี่ก็เป็นเหตุผลที่มักแนะนำให้ใช้ Phind มากกว่า ChatGPT
ความรู้ถูกกระจายอยู่ในตัวอย่างหลายล้านชุดของภาษาและภาษามนุษย์ที่มันเรียนมา และก็ไม่ได้คงอยู่ในรูปแบบที่มนุษย์เข้าใจได้ด้วย
เคยลองให้มันใช้งานโปรแกรมที่เขียนเองแล้วเทียบกับ GPT-4 ปรากฏว่า Phind ไม่เข้าใจสิ่งที่ฉันต้องการอย่างถูกต้อง แต่ GPT-4 เข้าใจครบถ้วนและพร้อมจะทำต่อผ่านพรอมป์ต์ถัด ๆ ไปจนเสร็จ
https://www.phind.com/agent?cache=cloeowfla000dl1084ermly3c
vs
https://chat.openai.com/share/4147da33-3669-4657-88fa-3a9dfc...
มันอาจไม่ใช่ตัวแทนของภาพรวมทั้งหมด แต่คำตอบกลับไหลไปสู่เรื่องแปลก ๆ ที่ไม่ได้ขอ และข้อมูลพื้นฐานที่รู้อยู่แล้ว
ถ้าใช้ Phind Model ในการค้นหาแบบปกติ ดูเหมือนจะทำงานได้ดี: https://www.phind.com/search?cache=ln6dpdtv5auwn4cq1ofg3gs9
เห็นอาการแบบเดียวกันนี้ได้ใน Bing search ของ ChatGPT และฉันก็เคยเจอกับโปรเจกต์ของตัวเองด้วย
น่าทึ่งที่ CodeLlama รองรับได้ถึง 16k โทเค็น หน้าต่างโทเค็นเป็นหนึ่งในข้อจำกัดของการสร้าง AI ที่จดจำผู้ใช้และสานต่อบทสนทนาในอดีตได้
สำหรับแอป AI ในอนาคตที่มีบทสนทนายาวต่อเนื่องกันเป็นสัปดาห์ เป็นเดือน หรือเป็นปี หน้าต่างบริบทขนาดใหญ่จะเป็นหัวใจสำคัญ และถึงตอนนี้เทคโนโลยีก็น่าประทับใจอยู่แล้ว แต่จะยิ่งน่าสนใจขึ้นมากถ้ามันจำได้เหมือน pair programmer จริง ๆ ว่าเคยเรียนรู้อะไรร่วมกันและเคยทำอะไรด้วยกันมาก่อน
[0] https://huggingface.co/docs/transformers/main/model_doc/llam...
แม้จะรู้ว่าไม่ค่อยเป็นที่นิยม แต่ก็อยากให้มีวิธีใช้สิ่งนี้ใน Emacs หรือ Vim ได้บ้าง ไม่อยากใช้ VS Code อีกแล้ว
ตอนพัฒนา Java ก็เคยเป็นแบบนั้นกับ IntelliJ และผมมองว่าไม่ดีต่อ ecosystem อย่างมาก โชคดีจริง ๆ ที่ Copilot รองรับ Vim แต่ก็อดกังวลไม่ได้ว่าสักวันอาจจะไม่เป็นแบบนั้น
ยกตัวอย่างเช่น มีเหตุผลที่บอกว่าดนตรีและศิลปะถูกทำให้มาตรฐานต่ำลง เพราะการทำอัลบั้มที่มีมูลค่า 10 ดอลลาร์สำหรับคนหลายสิบล้านคนนั้นทำเงินได้มากกว่าการทำอัลบั้มที่มีมูลค่า 1 ล้านดอลลาร์สำหรับคนไม่กี่สิบคน
เพราะสุดท้ายราคาอัลบั้มก็ถูกตั้งไว้ที่ 10 ดอลลาร์อยู่ดี และเพิ่งมานึกได้ว่าปรากฏการณ์เดียวกันนี้ก็ใช้ได้กับ เครื่องมือพัฒนา เช่นกัน
:'<,'>y|call system('firefox ?q='.shellescape(@*).' &')แล้วปัญหาที่เหลือคือข้อความยังไม่ได้ถูก URL encoding และน่าจะมีวิธีที่เรียบร้อยกว่านี้ แต่ยังหาไม่เจอ
บน M1 Mac ใช้เวลาประมาณ 7 วินาทีต่อการ inference ซึ่งช้ากว่าที่อยากได้ และการส่ง context ก็ยังเรียบง่ายมาก แต่ก็ยังพอใช้งานได้แบบเฉียด ๆ
เดิมทีไม่คิดจะปล่อย เพราะต้องพึ่ง Python façade เพื่อรับส่งคำขอ/คำตอบแบบสไตล์ Copilot กับ ollama แต่ถ้ามีคนสนใจก็พอจะขัดเกลาแล้วปล่อยได้
ลองเทียบแบบเร็ว ๆ แล้ว ผลลัพธ์ยอดเยี่ยมมาก และเมื่อคำนึงถึงข้อดีที่มี การค้นเว็บและการอ้างอิง แนบมาด้วย ก็ให้ความรู้สึกใกล้เคียง GPT-4 แต่เร็วกว่า อย่างไรก็ตามมีจุดติดใจเล็กน้อยสองอย่าง
โหมดมืดใช้ฟอนต์ในเนื้อหาคำตอบที่หนาและสว่างเกินไป ทำให้อ่านย่อหน้ายาว ๆ ที่ไม่ใช่โค้ดได้ยาก ส่วนโหมดสว่างก็สว่างเกินไปโดยรวม สำหรับข้อความยาว ๆ พื้นหลังมืดโทนเทาแบบ OpenAI หรือพื้นหลังสว่างโทนเซเปียแบบ HN น่าจะดีกว่า
และในหน้าราคา ข้อความ “ต่อวัน 500+ best model uses (GPT-4)” ก็ทำให้สับสนว่า GPT-4 หมายถึงอะไร การที่ Phind ประกาศว่าตัวเองเป็นคู่แข่งของ GPT-4 แต่ขณะเดียวกันก็ใส่ปริมาณการใช้ GPT-4 ไว้ในราคาดูแปลก ๆ