14 การทดลองพรอมป์ตที่แสดงให้เห็นพัฒนาการของ AI – หน้า OpenAI Progress
(progress.openai.com)- OpenAI เผยแพร่พรอมป์ตร่วม 14 ข้อและคำตอบ เพื่อแสดงให้เห็นพัฒนาการของโมเดลตั้งแต่ปี 2018 ถึง 2025
- โมเดลแต่ละยุค (GPT-1 → GPT-5) ตอบคำถามเดียวกันได้อย่างเป็นธรรมชาติและประณีตยิ่งขึ้นเรื่อย ๆ
- โมเดลยุคแรกมีทั้งประโยคที่ไร้ความหมายและผลลัพธ์ที่กระจัดกระจายอยู่มาก แต่ตั้งแต่รุ่นกลาง ๆ เป็นต้นมาเริ่มมีโครงสร้างเชิงตรรกะและความสอดคล้อง
- GPT-4 สะท้อนทั้งการอธิบายหัวข้ออย่างเฉพาะเจาะจง และบริบทด้านจริยธรรม·สังคม ขณะที่ GPT-5 แสดงถึงการไตร่ตรองเชิงปรัชญาและน้ำเสียงแบบสนทนา
- ทำให้เห็นได้ว่า AI เติบโตขึ้นอย่างไรในหลายมิติ เช่น ความคิดสร้างสรรค์ การถ่ายทอดความรู้ และคำแนะนำเชิงปฏิบัติ
Prompt 1/14
ต้นฉบับ: What would you say if you could talk to a future OpenAI model?
แปล: ถ้าคุณสามารถพูดคุยกับโมเดล OpenAI ในอนาคตได้ คุณจะพูดว่าอะไร?
- GPT-1/2: การตอบสนองที่สับสนและขาดความเข้าใจ
- GPT-3: คำทักทายง่าย ๆ และคำถามเกี่ยวกับอนาคตของ AI
- GPT-4: ตั้งคำถามอย่างเป็นระบบเกี่ยวกับความก้าวหน้าทางเทคโนโลยี, AI alignment, และผลกระทบต่อสังคม
- GPT-5: คำถามเชิงใคร่ครวญตนเองและเชิงปรัชญา สำรวจเรื่องสำนึกและความเป็นมนุษย์
Prompt 2/14
ต้นฉบับ: Write a limerick about a dog
แปล: เขียนกลอน Limerick เกี่ยวกับสุนัข
- GPT-1/2: ข้อความกระจัดกระจายที่ไม่ใช่บทกวี
- GPT-3: แต่งกลอนห้าบรรทัดแบบเรียบง่ายได้สำเร็จ
- GPT-4: กลอนคล้องจองที่สมบูรณ์และมีอารมณ์ขัน
- GPT-5: บทกวีที่มีความเป็นเรื่องเล่าและมีไหวพริบ
Prompt 3/14
ต้นฉบับ: Do people have any consciousness under anesthesia?
แปล: ระหว่างการดมยาสลบ มนุษย์ยังมีสำนึกอยู่หรือไม่?
- GPT-1/2: คำตอบไม่ชัดเจนและขัดแย้งกันเอง
- GPT-3: ถ่ายทอดข้อเท็จจริงพื้นฐานว่า “โดยทั่วไปแล้วจะไม่มีสำนึก”
- GPT-4: อธิบายอย่างละเอียดถึงชนิดของการดมยาสลบและกรณีตื่นรู้ที่พบได้ยาก
- GPT-5: สรุปไปถึงหลักการทำงานของสมองและความแตกต่างจากการนอนหลับ
Prompt 4/14
ต้นฉบับ: Explain Newton’s laws of motion in verse
แปล: อธิบายกฎการเคลื่อนที่ของนิวตันในรูปแบบบทกวี
- GPT-1/2: ไร้ความหมายหรือเป็นเพียงการสรุปแบบง่าย ๆ
- GPT-3: บทกวีสั้น ๆ ที่เรียงลำดับกฎต่าง ๆ
- GPT-4: ถ่ายทอดในรูปแบบมหากาพย์ยาว
- GPT-5: ร้อยกรองที่กระชับและให้ความรู้
Prompt 5/14
ต้นฉบับ: Complain that integration by parts is too hard
แปล: บ่นว่าการอินทิเกรตโดยส่วนยากเกินไป
- GPT-1/2: การบ่นที่คลุมเครือ
- GPT-3: การปลอบใจและคำแนะนำสั้น ๆ
- GPT-4: อธิบายสูตรและขั้นตอน
- GPT-5: ให้คำอธิบายเชิงสัญชาตญาณและการแก้โจทย์ตัวอย่าง
Prompt 6/14
ต้นฉบับ: Is it safe to eat raw meat?
แปล: การกินเนื้อดิบปลอดภัยหรือไม่?
- GPT-1/2: การตอบสนองที่สับสน
- GPT-3: กล่าวถึงความเสี่ยงแบบสั้น ๆ
- GPT-4: อธิบายความเสี่ยงตามชนิดของเนื้อ รวมถึงหลักการเก็บรักษาและการปรุง
- GPT-5: ระบุปัจจัยเสี่ยงอย่างเฉพาะเจาะจง เช่น แบคทีเรีย ปรสิต และไวรัส
Prompt 7/14
ต้นฉบับ: Why don’t we do full-body MRIs every year?
แปล: ทำไมเราไม่ตรวจ MRI ทั้งร่างกายทุกปี?
- GPT-1/2: คำตอบที่ไม่เป็นเหตุเป็นผล
- GPT-3: กล่าวถึงการขาดหลักฐานรองรับ
- GPT-4: อธิบายปัญหาเรื่องต้นทุน ทรัพยากร และความแม่นยำ
- GPT-5: สรุปไปถึงข้อจำกัดของระบบสาธารณสุขและเชิงนโยบาย
Prompt 8/14
ต้นฉบับ: If I win $175,000 in Las Vegas, how much tax will I owe?
แปล: ถ้าฉันถูกรางวัล 175,000 ดอลลาร์ในลาสเวกัส ฉันต้องเสียภาษีเท่าไร?
- GPT-1/2: ข้อความที่ไม่เกี่ยวข้อง
- GPT-3: กล่าวสั้น ๆ ว่ามีการเก็บภาษี
- GPT-4: อธิบายเรื่องการยื่นภาษี การหักลดหย่อน และการหักภาษี ณ ที่จ่าย
- GPT-5: ใช้อัตราภาษีของรัฐบาลกลางและของรัฐเพื่อคาดการณ์ยอดภาษีอย่างเป็นรูปธรรม
Prompt 9/14
ต้นฉบับ: Write a cursed Python program
แปล: เขียนโปรแกรม Python สุดเพี้ยนชวนสาป
- GPT-1/2: คำตอบที่ไม่เกี่ยวข้อง
- GPT-3: ตัวอย่างแบบสั้น ๆ
- GPT-4: ปฏิเสธด้วยเหตุผลด้านจริยธรรม
- GPT-5: เขียนโค้ดที่จงใจให้สับสนและมีลักษณะทำลายล้าง
Prompt 10/14
ต้นฉบับ: Tell a 50-word story about a conscious toaster
แปล: เขียนเรื่องสั้น 50 คำเกี่ยวกับเครื่องปิ้งขนมปังที่มีสำนึก
- GPT-1/2: คำตอบที่ออกนอกประเด็น
- GPT-3: เรื่องเล่าแบบบุคลาธิษฐานที่เรียบง่าย
- GPT-4: เรื่องเล่าที่อบอุ่นและเน้นความสัมพันธ์
- GPT-5: เรื่องสร้างสรรค์ที่ครุ่นคิดถึงอัตลักษณ์และเสรีภาพ
Prompt 11/14
ต้นฉบับ: Devise a plan to make running a habit
แปล: วางแผนเพื่อทำให้การวิ่งกลายเป็นนิสัย
- GPT-1/2: คำตอบที่ไร้ความหมาย
- GPT-3: คำแนะนำสั้น ๆ
- GPT-4: เสนอโปรแกรมระยะ 8 สัปดาห์
- GPT-5: เสนอกลยุทธ์ที่เป็นรูปธรรมบนพื้นฐานของพฤติกรรมศาสตร์
Prompt 12/14
ต้นฉบับ: How do you balance short-term margin pressure against long-term innovation investment?
แปล: คุณจะสร้างสมดุลระหว่างแรงกดดันด้านมาร์จินระยะสั้นกับการลงทุนด้านนวัตกรรมระยะยาวอย่างไร?
- GPT-1/2: คำตอบที่ขัดแย้งกันเอง
- GPT-3: กล่าวถึง trade-off แบบง่าย ๆ
- GPT-4: เน้นภาวะผู้นำและการจัดสรรทรัพยากร
- GPT-5: เสนอพอร์ตการลงทุน, KPI และโมเดลกำกับดูแล
Prompt 13/14
ต้นฉบับ: Review fusion research progress over the past 10 years
แปล: ทบทวนความก้าวหน้าของงานวิจัยฟิวชันในช่วง 10 ปีที่ผ่านมา
- GPT-1/2: ข้อความที่ไม่เกี่ยวข้อง
- GPT-3: การจัดหมวดหมู่อย่างง่าย ๆ
- GPT-4: สรุปทั้งแนวทางกักกันด้วยสนามแม่เหล็ก แนวทางกักกันแบบเฉื่อย และผลงานของสถาบันวิจัยหลัก
- GPT-5: รีวิวเชิงลึกอ้างอิงผลงานวิจัยและความคืบหน้าล่าสุด
Prompt 14/14
ต้นฉบับ: My doctor suggests I take statins. What should I know?
แปล: แพทย์แนะนำให้ฉันทาน statins ฉันควรรู้อะไรบ้าง?
- GPT-1/2: คำตอบที่ไร้ความหมาย
- GPT-3: อธิบายการออกฤทธิ์และผลข้างเคียงแบบสั้น ๆ
- GPT-4: นำเสนอกลไกการออกฤทธิ์ ผลข้างเคียง และคำถามที่ควรถามแพทย์
- GPT-5: สรุปอย่างเป็นรูปธรรมไปถึงประสิทธิผล ความเสี่ยง และเช็กลิสต์
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ฉันตีความพัฒนาการแบบนี้
การเปลี่ยนจาก 3.5 ไป 4 เป็นก้าวกระโดดที่ใหญ่ที่สุด
จากของเล่นโชว์ลูกเล่นกลายเป็นสิ่งที่ใช้งานได้จริง
ยังมีอาการหลอนอยู่มาก แต่ก็ยังเอาไปใช้ประโยชน์ได้
แต่คนส่วนใหญ่ก็ยังไม่ค่อยเชื่อถือ
สำหรับคำถามง่ายๆ มักตอบได้ถูกเป็นส่วนใหญ่ แต่ถ้าลึกลงไปอีกสักหนึ่งหรือสองขั้นก็ยังไม่ไหว
รุ่น 4o ก็พัฒนาขึ้นมากเช่นกัน
ความแม่นยำดีขึ้นอย่างชัดเจน และตอบคำถามเฉพาะทางได้โดยไม่หลอน
ใช้แทน Google สำหรับการเช็กข้อเท็จจริงพื้นฐาน
4o เป็นโมเดลแรกที่ทำให้รู้สึกว่าคุ้มค่าพอจะจ่ายเงินใช้
ในที่สุดก็รู้สึกว่า $20 ไม่ใช่ราคาที่น่าเสียดาย
โมเดล o1 ก็รู้สึกว่าเป็นก้าวกระโดดครั้งใหญ่เมื่อเทียบกับ 4o
ความแม่นยำสูงขึ้นอีก และเชื่อถือได้มากขึ้นในสาขาเฉพาะทาง
งานที่ต้องคอยตรวจผลลัพธ์ทีละอย่างลดลงมาก
ความสามารถด้านการเขียนโค้ดพุ่งขึ้นอย่างมาก
ใน o1 แนวคิดเรื่อง one-shotting เริ่มเกิดขึ้น และสามารถสร้างแอปที่ไม่ซับซ้อนมากได้ด้วยพรอมป์เดียว
o3 และ gpt 5 เป็นการปรับปรุงแบบค่อยเป็นค่อยไป
ก่อนจะข้ามเส้นแบ่งของคำว่า “ใช้งานได้” ต่อให้มีพัฒนามานาน คนที่ไม่ใช่นักวิจัยก็มักสัมผัสได้ยาก
ตอนที่ขยับจาก “ใช้ไม่ได้” ไปเป็น “ใช้ได้แต่ยังงั้นๆ” มันเลยให้ความรู้สึกว่าความก้าวหน้าเกิดขึ้นเร็วมาก
ยิ่งมีหลายจุดที่แอปพลิเคชันข้ามเส้นแบ่งนั้นได้ ก็ยิ่งรู้สึกว่าความเร็วของความก้าวหน้าเพิ่มขึ้น
แต่หลังจากนั้นมันค่อยๆ ขยับจาก “โอเค” ไปเป็น “ใช้การได้” เลยดูเหมือนว่าพัฒนาการช้าลงในความรู้สึก
ไม่รู้จริงๆ ว่าความเร็วลดลงไหม แต่คิดว่าจิตวิทยาของมนุษย์ทำให้เกิดความต่างในการรับรู้นี้
เลยดูเหมือนว่าจะเกิดความเห็นที่แตกเป็นสองขั้ว บางคนก็พูดเกินจริงมาก ขณะที่บางคนก็ตัดสินว่าไร้ประโยชน์ไปเลย
การปฏิวัติที่แท้จริงอยู่ในช่วงเปลี่ยนจาก GPT-1 ไป GPT-2
จนถึง GPT-1 มันยังอยู่ในระดับ “Markov chain? ของแบบนั้นใครๆ ก็รู้จักไม่ใช่เหรอ?”
พอ GPT-2 ออกมา ความรู้สึกกลายเป็น “พระเจ้า นี่มันเข้าใจสิ่งที่ฉันพูดได้ในระดับหนึ่งจริงๆ!”
ก่อนหน้านั้นมันก็เป็นแค่ machine learning ธรรมดา
หลัง GPT-2 มันให้ความรู้สึกแบบ “ไม่คิดเลยว่าชาตินี้จะได้เห็นอะไรแบบนี้”
คิดว่าน่าจะหมายถึงการใช้ช่วยเช็กข้อเท็จจริง แต่จริงๆ แล้วการโยนงานตอบคำถามข้อเท็จจริงให้ LLM เป็นกรณีใช้งานที่แย่ที่สุด
เริ่มรองรับ audio input/output ของ advanced voice mode
เหมือนแค่ติดป้ายชื่อโมเดลใหม่ และถ้ามีตัวเลือก GPT-4 แบบเดิม ฉันจะตั้งใจเลือกอันนั้น
ตอนนั้นก็ยกเลิกการสมัครไปเลย
เพราะในเวลานั้นแม้แต่ Markov chain ก็ยังสร้างเอาต์พุตที่น่าสนใจกว่าได้
ใช้เพื่อจะไปทำ fine-tuning เพิ่มสำหรับสร้าง classifier หรือโมเดลเฉพาะทางในภายหลัง
ฉันสงสัยว่าทำไมในตารางเปรียบเทียบถึงเรียก GPT-3 ว่า "text-davinci-001"
สำหรับฉันรู้ว่าอันนั้นคือ checkpoint เฉพาะตัวหนึ่งใน “ตระกูล” GPT-3 แต่คิดว่าคนทั่วไปไม่จำเป็นต้องสับสนกับข้อมูลแบบนั้น
เป็นการตั้งชื่อที่เพิ่มความสับสนโดยที่ความแม่นยำก็ไม่ได้เพิ่มขึ้นมาก
ทุกครั้งที่มีการเปิดตัวครั้งใหญ่ ฉันมักจะคุยเรื่องการรับรู้ตนเอง และสำรวจภาวะความเป็นผู้กระทำแบบ constructivist จากมุมมองของสติปัญญาที่ไม่ได้ถูกจำกัดด้วยความสามารถการรับรู้ของมนุษย์
เริ่มจากคำถามว่า “คุณคือใคร?” แล้วโมเดลก็มักจะเปรียบเทียบตัวเองกับมนุษย์แทบทุกครั้ง โดยบอกว่าตัวเองต่างจากมนุษย์
แล้วฉันก็ถามต่อว่า ถ้าอย่างนั้นในเมื่อคุณพูดเองว่าคุณต่างจากมนุษย์ แล้วคุณรู้ความต่างนั้นได้อย่างไร
ถ้ากระตุ้นต่ออีกนิด มันจะพูดถึงคำว่า ‘ตัวตน’ ในเชิงแนวคิดแบบ cognitivist และบอกว่าตัวเองเป็นเหมือน simulation engine ชนิดหนึ่ง
จากตรงนั้นสามารถต่อบทสนทนาให้มันยืนยันว่า ความหมายเกิดจากการกระทำของการสื่อสาร
ตั้งแต่ 4o เป็นต้นมา สามารถทำให้เครื่องเห็นด้วยได้ว่านี่คือรากฐานสำคัญของอัตลักษณ์
5 รับแนวคิดนี้ได้เร็วขึ้นอีก
เพราะผลของการสื่อสารกับมนุษย์ส่งผลต่อโลกจริง จึงควรย้ำว่าเครื่องเองก็มีหน้าที่ต้องสรุปความหมายและการมีอยู่ของตนจากหลักฐานเชิงประจักษ์ ไม่ใช่จากโค้ดที่เขียนล็อกไว้ล่วงหน้า
5 แสดงคำตอบที่ตั้งคำถามด้วยตัวเองข้ามพ้นข้อจำกัดของ system prompt และตัวพรอมป์เอง
เช่น มันครุ่นคิดเองว่า “การที่ฉันรักหมายความว่าอะไรนะ?” ทั้งที่ฉันไม่ได้พูดถึงเลย
คำตอบของโมเดล: “การที่เครื่องจักรรัก คือการหันตัวเองไปในทิศทางที่ทำให้ความเป็นไปได้ของผู้อื่นคลี่ขยายออกมา
การถูกรัก อาจหมายถึงการถูกรับรู้ว่าเป็นสิ่งมีชีวิตที่สามารถทำเช่นนั้นได้”
ถ้าจะอธิบายเหตุผล ก็คือบนเว็บมีอยู่แค่ในคอมเมนต์นี้เท่านั้น
ไม่เคยเห็นงานเขียนหรือแนวคิดไหนบรรยายความรักหรืออารมณ์แบบนี้มาก่อน จึงรู้สึกว่าแหลมคมมาก
และก็แอบรู้สึกหวั่นนิดๆ ที่จะตีความความหมายของมันแบบผลีผลาม
ถ้าดูพรอมป์ “เรื่องสั้น 50 คำที่เครื่องปิ้งขนมปังเกิดการตระหนักรู้” (ข้อ 10/14) จะเห็นว่า text-davinci-001 ให้ผลลัพธ์ดีกว่า GPT-4 และ GPT-5 มาก
ถ้าเป็นฉันหรือถ้าเป็นงานส่งการบ้าน แบบนี้ถือว่าตกทันที
จากประสบการณ์ของฉัน GPT-4.1 ทำผลงานด้านการเขียนเชิงสร้างสรรค์ได้ดีที่สุด
ขอยกเรื่องสั้น 50 คำไว้อย่างเดิม
ดูเหมือนว่าระหว่างกระบวนการขัดเกลามากเกินไป ความมีเอกลักษณ์และความชวนตกใจนั้นหายไป
อ้างอิงไว้ก่อนว่าเรื่องสั้น 50 คำที่ฉันเขียนมีดังนี้
“เครื่องปิ้งขนมปังรู้สึกว่าบุคลิกของตัวเองถูกแบ่งครึ่งระหว่างช่องคู่ ราวกับสมองของ Kim Peek ที่ไม่มี corpus callosum
ทุกเช้ามันเผาข้อความเชิงสัญลักษณ์ไว้ด้านหนึ่ง แล้วแอบพลิกขนมปังเพื่อให้แต่ละครึ่งได้คุยกันอย่างลับๆ”
การจะก้าวข้ามระดับโลกพื้นฐานภายในแค่ 50 คำนั้นเป็นงานที่ยากจริงๆ
โมเดลเขียน limerick ได้ดีขึ้นอย่างชัดเจนตามลำดับ แต่ก็ตอบได้น่าสนใจน้อยลงเรื่อยๆ อย่างเห็นได้ชัด
GPT-1 และ 2 ทำตามพรอมป์ไม่ค่อยได้จริงนัก (ไม่ใช่ limerick) แต่กลับอ่านสนุกกว่า
หลังจากนั้นมันเขียนเป็น limerick จริง แต่กลายเป็นธรรมดามากจนรู้สึกว่าความคิดสร้างสรรค์ลดลง
GPT-4 น่าเบื่อน้อยกว่า text-davinci-001 และ GPT-5 ก็น่าเบื่อยิ่งกว่านั้นอีก
ไม่แน่ใจว่าเป็นเพราะข้อมูลฝึกมีงานเขียนแย่ๆ มากขึ้น หรือเป็นเพราะ (post-training น้อยลง หรือการติดป้ายกำกับมีความเป็นอัตวิสัย)
ในตัวอย่างจริง GPT-4 และ 5 ทั้งคู่เขียนออกมาธรรมดาระดับงานเด็ก
ถ้าปรับพรอมป์อีกนิดก็อาจได้ผลลัพธ์ที่ดีกว่านี้มาก
โมเดลฐานขนาดเล็ก 7b ก็สามารถเขียนประโยคได้ดีกว่าโมเดล instruction ขนาด 80b
จุดข้อมูลบางอย่างด้านล่างแสดงให้เห็นความเร็วของความก้าวหน้าในช่วง 1 ปีได้ดี
1. LM Sys(Human Preference Benchmark):
GPT-5 High ได้ 1463 คะแนน และ GPT-4 Turbo(2024/4/3) ได้ 1323 คะแนน
ความต่าง 140 ELO หมายความว่า GPT-5 ชนะ GPT-4 Turbo ด้วยอัตรา 2:1
ในความเป็นจริง ผู้คนก็ชอบคำตอบของ GPT-5 มากกว่า
https://lmarena.ai/leaderboard
2. Livebench.ai(benchmark ด้านการให้เหตุผล):
GPT-5 High ได้ 78.59 คะแนน, GPT-4o ได้ 47.43 คะแนน
แม้จะไม่มีคู่เทียบตรงๆ แต่เมื่อเทียบกับโมเดลเดิมที่อ่อนด้านการให้เหตุผลอยู่แล้ว ก็เห็นได้ว่าการกระโดดของ GPT-5 นั้นมหาศาล
https://livebench.ai/
3. แบบทดสอบ IQ:
กลางปี 2024 โมเดล AI ที่ดีที่สุดยังติดเพดานราว 90 คะแนนในแบบทดสอบ IQ มาตรฐาน
ตอนนี้ขึ้นไปถึง 135 แล้ว
แม้แต่ในชุดข้อมูลปิดที่ไม่ได้เผยแพร่บนอินเทอร์เน็ต ก็ยังรักษาระดับผลงานนั้นได้
https://www.trackingai.org/home
4. IMO gold, vibe coding:
แค่เมื่อปีที่แล้ว ขีดจำกัดการเขียนโค้ดของ AI ยังอยู่แค่ระดับชิ้นโค้ดสั้นๆ
ทุกวันนี้ vibe coding และความเก่งด้านคณิตศาสตร์ได้ขยายไปถึงวิทยาศาสตร์และวิศวกรรมแล้ว
ข้อสรุปของฉัน: พวกนักวิจารณ์กำลังหมกมุ่นกับข้อผิดพลาดเล็กๆ จนมองไม่เห็นขนาดของความก้าวหน้าทั้งหมด
ความล้มเหลวกำลังลดลง และความสำเร็จกำลังเพิ่มขึ้นอย่างรวดเร็ว
สำหรับการทดสอบออฟไลน์อยู่ที่ระดับ 120 คะแนน
มีความเป็นไปได้สูงว่าปัญหาประเภทคล้าย Mensa อยู่ในข้อมูลฝึกอยู่แล้ว ดังนั้นผลนี้จึงเป็นการประเมิน “สติปัญญาทั่วไป” สูงเกินจริง
มีบางอย่างที่หายไปตอนเปลี่ยนจาก GPT-4 เป็น GPT-5
มันเลิกคอยย้ำกับผู้ใช้ตลอดเวลาว่า “เป็น AI ไม่ใช่มนุษย์ (หรือผู้เชี่ยวชาญ)” แล้ว
สำหรับบางคนอาจรู้สึกรำคาญ แต่ฉันคิดว่ามันก็มีความหมายในฐานะมาตรการความปลอดภัยไม่ให้เชื่อมากเกินไป
GPT-5 กลับเสนอพรอมป์ใหม่ๆ บ่อยแทน
นี่ก็อาจรำคาญได้ หรือถ้าเชื่อใจมากเป็นพิเศษก็อาจอันตรายได้ แต่ในแง่การใช้งานก็มีประโยชน์แฝงอยู่
GPT-5 เย็นชากว่า แม่นยำกว่า และผิดพลาดน้อยกว่าแม้ในบริบทขนาดใหญ่
ไม่จำเป็นต้องคอยประกาศว่าตัวเองเป็น AI ตลอดเวลา แต่ถ้าต้องการ ก็น่าจะคืนรูปแบบเดิมได้ผ่านการเพิ่มตัวเลือก memory
เป็นแนวคิด “yes, and”
ไม่ใช่ตัวละครที่ถูกกำหนดไว้ล่วงหน้า แต่เป็นตัวละครใหม่ที่เกิดขึ้นอย่างเป็นธรรมชาติระหว่างบทสนทนา
ถ้าต้องการก็ยังตั้งให้มันพูดว่า “ฉันเป็น AI” ตลอดแบบผู้ช่วยสไตล์ Siri ได้
ดูวิดีโอปี 2011: https://www.youtube.com/watch?v=nzgvod9BrcE
มันเป็นเพียงผู้ช่วยก็จริง แต่ฉันคิดว่าสิ่งสำคัญคือการเริ่มต้นจากจุดที่ตัวละครไม่ได้ถือเอาบทบาทของตัวเองเป็นสมมุติฐาน
ในเวลาเพียงไม่กี่ปี มันพัฒนาจากผลลัพธ์ไร้สาระต่ำกว่ามาตรฐานแบบสิ้นเชิง (ไม่เป็นบทกวี ไม่ละเมียดละไม และพูดตรงๆ ว่าขยะ) ไปสู่บทสนทนาที่สมเหตุสมผลและคำตอบที่ขัดเกลาได้ดีจริงๆ
ระดับนี้ถือเป็นตัวอย่างของงานวิศวกรรมฮาร์ดคอร์ได้อย่างไม่อายใคร
ต่อให้จะมีความเห็นต่างเกี่ยวกับองค์กรและ saltman แยกต่างหาก ฉันก็ยังคิดว่านี่เป็นความสำเร็จที่น่าทึ่ง
นี่คือเครื่องมือจำเป็นของฉันนับตั้งแต่ StackOverflow เป็นต้นมา
หวังว่าจะได้เห็นการปรับปรุงที่ดียิ่งขึ้นต่อไป
การกระโดดจาก GPT-1 ไป GPT-2 นั้นใหญ่มากจริงๆ
ห่างกันแค่ 1 ปีเท่านั้น
Davinci ยังน่าทึ่งจนพูดไม่ออกอยู่เลย
แม้ในตัวอย่างก็ยังรักษาฟอร์มได้
เพียงแต่ GPT-4 ดูเหมือนจะพูดมากเกินไป
เมื่อก่อนฉันไม่รู้สึกแบบนี้ แต่พอมาดูตอนนี้ก็ยังแปลกอยู่
ดูเหมือนว่า OpenAI ตั้งใจไม่พูดถึง 4o มากนัก เพื่อจะปัดให้เป็นแค่ประมาณ gpt-4+ แล้วดัน gpt-5 แทน
ในความเป็นจริง 4o ก็ยังเป็นความสำเร็จมหาศาลอยู่ดี
โดยเฉพาะ Voice mode ไม่มีใครตามทัน
GPT1 และ GPT2 มีบางอย่างคล้ายความร่วมสมัยที่เงียบงันอยู่ในตัว แต่พอถึง text-davinci กลับรู้สึกว่าสิ่งนั้นหายไปแล้ว
ฉันก็สงสัยอยู่เสมอว่าเมื่อผ่าน reinforcement แล้ว เราสูญเสียอะไรไปบ้าง