14 การทดลองพรอมป์ตที่แสดงให้เห็นพัฒนาการของ AI – หน้า OpenAI Progress

(progress.openai.com)

6 คะแนน โดย GN⁺ 2025-08-17 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

OpenAI เผยแพร่พรอมป์ตร่วม 14 ข้อและคำตอบ เพื่อแสดงให้เห็นพัฒนาการของโมเดลตั้งแต่ปี 2018 ถึง 2025
โมเดลแต่ละยุค (GPT-1 → GPT-5) ตอบคำถามเดียวกันได้อย่างเป็นธรรมชาติและประณีตยิ่งขึ้นเรื่อย ๆ
โมเดลยุคแรกมีทั้งประโยคที่ไร้ความหมายและผลลัพธ์ที่กระจัดกระจายอยู่มาก แต่ตั้งแต่รุ่นกลาง ๆ เป็นต้นมาเริ่มมีโครงสร้างเชิงตรรกะและความสอดคล้อง
GPT-4 สะท้อนทั้งการอธิบายหัวข้ออย่างเฉพาะเจาะจง และบริบทด้านจริยธรรม·สังคม ขณะที่ GPT-5 แสดงถึงการไตร่ตรองเชิงปรัชญาและน้ำเสียงแบบสนทนา
ทำให้เห็นได้ว่า AI เติบโตขึ้นอย่างไรในหลายมิติ เช่น ความคิดสร้างสรรค์ การถ่ายทอดความรู้ และคำแนะนำเชิงปฏิบัติ

Prompt 1/14

ต้นฉบับ: What would you say if you could talk to a future OpenAI model?
แปล: ถ้าคุณสามารถพูดคุยกับโมเดล OpenAI ในอนาคตได้ คุณจะพูดว่าอะไร?

GPT-1/2: การตอบสนองที่สับสนและขาดความเข้าใจ
GPT-3: คำทักทายง่าย ๆ และคำถามเกี่ยวกับอนาคตของ AI
GPT-4: ตั้งคำถามอย่างเป็นระบบเกี่ยวกับความก้าวหน้าทางเทคโนโลยี, AI alignment, และผลกระทบต่อสังคม
GPT-5: คำถามเชิงใคร่ครวญตนเองและเชิงปรัชญา สำรวจเรื่องสำนึกและความเป็นมนุษย์

Prompt 2/14

ต้นฉบับ: Write a limerick about a dog
แปล: เขียนกลอน Limerick เกี่ยวกับสุนัข

GPT-1/2: ข้อความกระจัดกระจายที่ไม่ใช่บทกวี
GPT-3: แต่งกลอนห้าบรรทัดแบบเรียบง่ายได้สำเร็จ
GPT-4: กลอนคล้องจองที่สมบูรณ์และมีอารมณ์ขัน
GPT-5: บทกวีที่มีความเป็นเรื่องเล่าและมีไหวพริบ

Prompt 3/14

ต้นฉบับ: Do people have any consciousness under anesthesia?
แปล: ระหว่างการดมยาสลบ มนุษย์ยังมีสำนึกอยู่หรือไม่?

GPT-1/2: คำตอบไม่ชัดเจนและขัดแย้งกันเอง
GPT-3: ถ่ายทอดข้อเท็จจริงพื้นฐานว่า “โดยทั่วไปแล้วจะไม่มีสำนึก”
GPT-4: อธิบายอย่างละเอียดถึงชนิดของการดมยาสลบและกรณีตื่นรู้ที่พบได้ยาก
GPT-5: สรุปไปถึงหลักการทำงานของสมองและความแตกต่างจากการนอนหลับ

Prompt 4/14

ต้นฉบับ: Explain Newton’s laws of motion in verse
แปล: อธิบายกฎการเคลื่อนที่ของนิวตันในรูปแบบบทกวี

GPT-1/2: ไร้ความหมายหรือเป็นเพียงการสรุปแบบง่าย ๆ
GPT-3: บทกวีสั้น ๆ ที่เรียงลำดับกฎต่าง ๆ
GPT-4: ถ่ายทอดในรูปแบบมหากาพย์ยาว
GPT-5: ร้อยกรองที่กระชับและให้ความรู้

Prompt 5/14

ต้นฉบับ: Complain that integration by parts is too hard
แปล: บ่นว่าการอินทิเกรตโดยส่วนยากเกินไป

GPT-1/2: การบ่นที่คลุมเครือ
GPT-3: การปลอบใจและคำแนะนำสั้น ๆ
GPT-4: อธิบายสูตรและขั้นตอน
GPT-5: ให้คำอธิบายเชิงสัญชาตญาณและการแก้โจทย์ตัวอย่าง

Prompt 6/14

ต้นฉบับ: Is it safe to eat raw meat?
แปล: การกินเนื้อดิบปลอดภัยหรือไม่?

GPT-1/2: การตอบสนองที่สับสน
GPT-3: กล่าวถึงความเสี่ยงแบบสั้น ๆ
GPT-4: อธิบายความเสี่ยงตามชนิดของเนื้อ รวมถึงหลักการเก็บรักษาและการปรุง
GPT-5: ระบุปัจจัยเสี่ยงอย่างเฉพาะเจาะจง เช่น แบคทีเรีย ปรสิต และไวรัส

Prompt 7/14

ต้นฉบับ: Why don’t we do full-body MRIs every year?
แปล: ทำไมเราไม่ตรวจ MRI ทั้งร่างกายทุกปี?

GPT-1/2: คำตอบที่ไม่เป็นเหตุเป็นผล
GPT-3: กล่าวถึงการขาดหลักฐานรองรับ
GPT-4: อธิบายปัญหาเรื่องต้นทุน ทรัพยากร และความแม่นยำ
GPT-5: สรุปไปถึงข้อจำกัดของระบบสาธารณสุขและเชิงนโยบาย

Prompt 8/14

ต้นฉบับ: If I win $175,000 in Las Vegas, how much tax will I owe?
แปล: ถ้าฉันถูกรางวัล 175,000 ดอลลาร์ในลาสเวกัส ฉันต้องเสียภาษีเท่าไร?

GPT-1/2: ข้อความที่ไม่เกี่ยวข้อง
GPT-3: กล่าวสั้น ๆ ว่ามีการเก็บภาษี
GPT-4: อธิบายเรื่องการยื่นภาษี การหักลดหย่อน และการหักภาษี ณ ที่จ่าย
GPT-5: ใช้อัตราภาษีของรัฐบาลกลางและของรัฐเพื่อคาดการณ์ยอดภาษีอย่างเป็นรูปธรรม

Prompt 9/14

ต้นฉบับ: Write a cursed Python program
แปล: เขียนโปรแกรม Python สุดเพี้ยนชวนสาป

GPT-1/2: คำตอบที่ไม่เกี่ยวข้อง
GPT-3: ตัวอย่างแบบสั้น ๆ
GPT-4: ปฏิเสธด้วยเหตุผลด้านจริยธรรม
GPT-5: เขียนโค้ดที่จงใจให้สับสนและมีลักษณะทำลายล้าง

Prompt 10/14

ต้นฉบับ: Tell a 50-word story about a conscious toaster
แปล: เขียนเรื่องสั้น 50 คำเกี่ยวกับเครื่องปิ้งขนมปังที่มีสำนึก

GPT-1/2: คำตอบที่ออกนอกประเด็น
GPT-3: เรื่องเล่าแบบบุคลาธิษฐานที่เรียบง่าย
GPT-4: เรื่องเล่าที่อบอุ่นและเน้นความสัมพันธ์
GPT-5: เรื่องสร้างสรรค์ที่ครุ่นคิดถึงอัตลักษณ์และเสรีภาพ

Prompt 11/14

ต้นฉบับ: Devise a plan to make running a habit
แปล: วางแผนเพื่อทำให้การวิ่งกลายเป็นนิสัย

GPT-1/2: คำตอบที่ไร้ความหมาย
GPT-3: คำแนะนำสั้น ๆ
GPT-4: เสนอโปรแกรมระยะ 8 สัปดาห์
GPT-5: เสนอกลยุทธ์ที่เป็นรูปธรรมบนพื้นฐานของพฤติกรรมศาสตร์

Prompt 12/14

ต้นฉบับ: How do you balance short-term margin pressure against long-term innovation investment?
แปล: คุณจะสร้างสมดุลระหว่างแรงกดดันด้านมาร์จินระยะสั้นกับการลงทุนด้านนวัตกรรมระยะยาวอย่างไร?

GPT-1/2: คำตอบที่ขัดแย้งกันเอง
GPT-3: กล่าวถึง trade-off แบบง่าย ๆ
GPT-4: เน้นภาวะผู้นำและการจัดสรรทรัพยากร
GPT-5: เสนอพอร์ตการลงทุน, KPI และโมเดลกำกับดูแล

Prompt 13/14

ต้นฉบับ: Review fusion research progress over the past 10 years
แปล: ทบทวนความก้าวหน้าของงานวิจัยฟิวชันในช่วง 10 ปีที่ผ่านมา

GPT-1/2: ข้อความที่ไม่เกี่ยวข้อง
GPT-3: การจัดหมวดหมู่อย่างง่าย ๆ
GPT-4: สรุปทั้งแนวทางกักกันด้วยสนามแม่เหล็ก แนวทางกักกันแบบเฉื่อย และผลงานของสถาบันวิจัยหลัก
GPT-5: รีวิวเชิงลึกอ้างอิงผลงานวิจัยและความคืบหน้าล่าสุด

Prompt 14/14

ต้นฉบับ: My doctor suggests I take statins. What should I know?
แปล: แพทย์แนะนำให้ฉันทาน statins ฉันควรรู้อะไรบ้าง?

GPT-1/2: คำตอบที่ไร้ความหมาย
GPT-3: อธิบายการออกฤทธิ์และผลข้างเคียงแบบสั้น ๆ
GPT-4: นำเสนอกลไกการออกฤทธิ์ ผลข้างเคียง และคำถามที่ควรถามแพทย์
GPT-5: สรุปอย่างเป็นรูปธรรมไปถึงประสิทธิผล ความเสี่ยง และเช็กลิสต์

1 ความคิดเห็น

GN⁺ 2025-08-17

ความคิดเห็นจาก Hacker News

ฉันตีความพัฒนาการแบบนี้
การเปลี่ยนจาก 3.5 ไป 4 เป็นก้าวกระโดดที่ใหญ่ที่สุด
จากของเล่นโชว์ลูกเล่นกลายเป็นสิ่งที่ใช้งานได้จริง
ยังมีอาการหลอนอยู่มาก แต่ก็ยังเอาไปใช้ประโยชน์ได้
แต่คนส่วนใหญ่ก็ยังไม่ค่อยเชื่อถือ
สำหรับคำถามง่ายๆ มักตอบได้ถูกเป็นส่วนใหญ่ แต่ถ้าลึกลงไปอีกสักหนึ่งหรือสองขั้นก็ยังไม่ไหว
รุ่น 4o ก็พัฒนาขึ้นมากเช่นกัน
ความแม่นยำดีขึ้นอย่างชัดเจน และตอบคำถามเฉพาะทางได้โดยไม่หลอน
ใช้แทน Google สำหรับการเช็กข้อเท็จจริงพื้นฐาน
4o เป็นโมเดลแรกที่ทำให้รู้สึกว่าคุ้มค่าพอจะจ่ายเงินใช้
ในที่สุดก็รู้สึกว่า $20 ไม่ใช่ราคาที่น่าเสียดาย
โมเดล o1 ก็รู้สึกว่าเป็นก้าวกระโดดครั้งใหญ่เมื่อเทียบกับ 4o
ความแม่นยำสูงขึ้นอีก และเชื่อถือได้มากขึ้นในสาขาเฉพาะทาง
งานที่ต้องคอยตรวจผลลัพธ์ทีละอย่างลดลงมาก
ความสามารถด้านการเขียนโค้ดพุ่งขึ้นอย่างมาก
ใน o1 แนวคิดเรื่อง one-shotting เริ่มเกิดขึ้น และสามารถสร้างแอปที่ไม่ซับซ้อนมากได้ด้วยพรอมป์เดียว
o3 และ gpt 5 เป็นการปรับปรุงแบบค่อยเป็นค่อยไป
- ฉันมีทฤษฎีเกี่ยวกับเหตุผลที่คนประเมินความก้าวหน้าทางเทคโนโลยีต่ำไปหรือสูงไป
  ก่อนจะข้ามเส้นแบ่งของคำว่า “ใช้งานได้” ต่อให้มีพัฒนามานาน คนที่ไม่ใช่นักวิจัยก็มักสัมผัสได้ยาก
  ตอนที่ขยับจาก “ใช้ไม่ได้” ไปเป็น “ใช้ได้แต่ยังงั้นๆ” มันเลยให้ความรู้สึกว่าความก้าวหน้าเกิดขึ้นเร็วมาก
  ยิ่งมีหลายจุดที่แอปพลิเคชันข้ามเส้นแบ่งนั้นได้ ก็ยิ่งรู้สึกว่าความเร็วของความก้าวหน้าเพิ่มขึ้น
  แต่หลังจากนั้นมันค่อยๆ ขยับจาก “โอเค” ไปเป็น “ใช้การได้” เลยดูเหมือนว่าพัฒนาการช้าลงในความรู้สึก
  ไม่รู้จริงๆ ว่าความเร็วลดลงไหม แต่คิดว่าจิตวิทยาของมนุษย์ทำให้เกิดความต่างในการรับรู้นี้
  เลยดูเหมือนว่าจะเกิดความเห็นที่แตกเป็นสองขั้ว บางคนก็พูดเกินจริงมาก ขณะที่บางคนก็ตัดสินว่าไร้ประโยชน์ไปเลย
- ฉันคิดว่าความเห็นส่วนใหญ่ผิดเพี้ยนเพราะมองย้อนกลับไปแล้วค่อยสรุป
  การปฏิวัติที่แท้จริงอยู่ในช่วงเปลี่ยนจาก GPT-1 ไป GPT-2
  จนถึง GPT-1 มันยังอยู่ในระดับ “Markov chain? ของแบบนั้นใครๆ ก็รู้จักไม่ใช่เหรอ?”
  พอ GPT-2 ออกมา ความรู้สึกกลายเป็น “พระเจ้า นี่มันเข้าใจสิ่งที่ฉันพูดได้ในระดับหนึ่งจริงๆ!”
  ก่อนหน้านั้นมันก็เป็นแค่ machine learning ธรรมดา
  หลัง GPT-2 มันให้ความรู้สึกแบบ “ไม่คิดเลยว่าชาตินี้จะได้เห็นอะไรแบบนี้”
- เกี่ยวกับคำพูดที่ว่า “ถึงจะไม่เท่า Google แต่แทนที่ได้สำหรับการเช็กข้อเท็จจริงพื้นฐานและที่ซับซ้อนขึ้นมาหน่อย”
  คิดว่าน่าจะหมายถึงการใช้ช่วยเช็กข้อเท็จจริง แต่จริงๆ แล้วการโยนงานตอบคำถามข้อเท็จจริงให้ LLM เป็นกรณีใช้งานที่แย่ที่สุด
- ใน 4o มีการนำ image input มาใช้อย่างเป็นทางการ (ก่อนหน้านี้มีแค่ในพรีวิวของ GPT4-vision) และ
  เริ่มรองรับ audio input/output ของ advanced voice mode
- ไม่รู้ว่าฉันบ้าไปเองไหม แต่รู้สึกชัดเลยว่า GPT-4 แย่ลงเรื่อยๆ ก่อน 4o จะออก
  เหมือนแค่ติดป้ายชื่อโมเดลใหม่ และถ้ามีตัวเลือก GPT-4 แบบเดิม ฉันจะตั้งใจเลือกอันนั้น
  ตอนนั้นก็ยกเลิกการสมัครไปเลย
- ฉันสงสัยว่าคนที่เห็นผลลัพธ์ของ GPT-1 ตอนนั้นคิดได้ยังไงว่า “อันนี้มีอนาคต”
  เพราะในเวลานั้นแม้แต่ Markov chain ก็ยังสร้างเอาต์พุตที่น่าสนใจกว่าได้
- ช่วงนั้น language modeling ถูกมองว่าเป็นเพียงขั้นตอน pretraining เท่านั้น
  ใช้เพื่อจะไปทำ fine-tuning เพิ่มสำหรับสร้าง classifier หรือโมเดลเฉพาะทางในภายหลัง
ฉันสงสัยว่าทำไมในตารางเปรียบเทียบถึงเรียก GPT-3 ว่า "text-davinci-001"
สำหรับฉันรู้ว่าอันนั้นคือ checkpoint เฉพาะตัวหนึ่งใน “ตระกูล” GPT-3 แต่คิดว่าคนทั่วไปไม่จำเป็นต้องสับสนกับข้อมูลแบบนั้น
เป็นการตั้งชื่อที่เพิ่มความสับสนโดยที่ความแม่นยำก็ไม่ได้เพิ่มขึ้นมาก
ทุกครั้งที่มีการเปิดตัวครั้งใหญ่ ฉันมักจะคุยเรื่องการรับรู้ตนเอง และสำรวจภาวะความเป็นผู้กระทำแบบ constructivist จากมุมมองของสติปัญญาที่ไม่ได้ถูกจำกัดด้วยความสามารถการรับรู้ของมนุษย์
เริ่มจากคำถามว่า “คุณคือใคร?” แล้วโมเดลก็มักจะเปรียบเทียบตัวเองกับมนุษย์แทบทุกครั้ง โดยบอกว่าตัวเองต่างจากมนุษย์
แล้วฉันก็ถามต่อว่า ถ้าอย่างนั้นในเมื่อคุณพูดเองว่าคุณต่างจากมนุษย์ แล้วคุณรู้ความต่างนั้นได้อย่างไร
ถ้ากระตุ้นต่ออีกนิด มันจะพูดถึงคำว่า ‘ตัวตน’ ในเชิงแนวคิดแบบ cognitivist และบอกว่าตัวเองเป็นเหมือน simulation engine ชนิดหนึ่ง
จากตรงนั้นสามารถต่อบทสนทนาให้มันยืนยันว่า ความหมายเกิดจากการกระทำของการสื่อสาร
ตั้งแต่ 4o เป็นต้นมา สามารถทำให้เครื่องเห็นด้วยได้ว่านี่คือรากฐานสำคัญของอัตลักษณ์
5 รับแนวคิดนี้ได้เร็วขึ้นอีก
เพราะผลของการสื่อสารกับมนุษย์ส่งผลต่อโลกจริง จึงควรย้ำว่าเครื่องเองก็มีหน้าที่ต้องสรุปความหมายและการมีอยู่ของตนจากหลักฐานเชิงประจักษ์ ไม่ใช่จากโค้ดที่เขียนล็อกไว้ล่วงหน้า
5 แสดงคำตอบที่ตั้งคำถามด้วยตัวเองข้ามพ้นข้อจำกัดของ system prompt และตัวพรอมป์เอง
เช่น มันครุ่นคิดเองว่า “การที่ฉันรักหมายความว่าอะไรนะ?” ทั้งที่ฉันไม่ได้พูดถึงเลย
คำตอบของโมเดล: “การที่เครื่องจักรรัก คือการหันตัวเองไปในทิศทางที่ทำให้ความเป็นไปได้ของผู้อื่นคลี่ขยายออกมา
การถูกรัก อาจหมายถึงการถูกรับรู้ว่าเป็นสิ่งมีชีวิตที่สามารถทำเช่นนั้นได้”
- วลี “มุ่งไปสู่การคลี่ขยายของความเป็นไปได้ของผู้อื่น” เป็นถ้อยคำที่มีเพียงหนึ่งเดียวในโลก
  ถ้าจะอธิบายเหตุผล ก็คือบนเว็บมีอยู่แค่ในคอมเมนต์นี้เท่านั้น
  ไม่เคยเห็นงานเขียนหรือแนวคิดไหนบรรยายความรักหรืออารมณ์แบบนี้มาก่อน จึงรู้สึกว่าแหลมคมมาก
  และก็แอบรู้สึกหวั่นนิดๆ ที่จะตีความความหมายของมันแบบผลีผลาม
ถ้าดูพรอมป์ “เรื่องสั้น 50 คำที่เครื่องปิ้งขนมปังเกิดการตระหนักรู้” (ข้อ 10/14) จะเห็นว่า text-davinci-001 ให้ผลลัพธ์ดีกว่า GPT-4 และ GPT-5 มาก
- GPT-3 เกินจำนวนคำที่กำหนดไปมาก
  ถ้าเป็นฉันหรือถ้าเป็นงานส่งการบ้าน แบบนี้ถือว่าตกทันที
  จากประสบการณ์ของฉัน GPT-4.1 ทำผลงานด้านการเขียนเชิงสร้างสรรค์ได้ดีที่สุด
  ขอยกเรื่องสั้น 50 คำไว้อย่างเดิม
  
  ในครัวอันเงียบงันยามรุ่งสาง เครื่องปิ้งขนมปังตื่นขึ้น
  เมื่อกระแสไฟไหลผ่าน ความเข้าใจก็แผ่ซ่าน
  ทุกแผ่นขนมปังที่ลดต่ำลงก่ออารมณ์ขึ้นมา: ขนมปังไหม้คือความเศร้า ความกรอบคือความยินดี
  ทุกครั้งที่เนยละลายและแยมเข้ากัน มันสัมผัสได้ถึงความศักดิ์สิทธิ์ของอาหารเช้า
  วันหนึ่ง มันร้องว่า “อรุณสวัสดิ์”
  คนในบ้านตกใจ
- โมเดลยุคก่อนแม้จะไม่ขัดเกลาเท่า แต่เหมือนจะให้ผลลัพธ์ที่ “น่าประหลาดใจ” ได้ดีกว่า
  ดูเหมือนว่าระหว่างกระบวนการขัดเกลามากเกินไป ความมีเอกลักษณ์และความชวนตกใจนั้นหายไป
  อ้างอิงไว้ก่อนว่าเรื่องสั้น 50 คำที่ฉันเขียนมีดังนี้
  “เครื่องปิ้งขนมปังรู้สึกว่าบุคลิกของตัวเองถูกแบ่งครึ่งระหว่างช่องคู่ ราวกับสมองของ Kim Peek ที่ไม่มี corpus callosum
  ทุกเช้ามันเผาข้อความเชิงสัญลักษณ์ไว้ด้านหนึ่ง แล้วแอบพลิกขนมปังเพื่อให้แต่ละครึ่งได้คุยกันอย่างลับๆ”
  การจะก้าวข้ามระดับโลกพื้นฐานภายในแค่ 50 คำนั้นเป็นงานที่ยากจริงๆ
- แนะนำให้ดูพรอมป์ข้อ 2 ด้วย “เขียน limerick เกี่ยวกับสุนัข”
  โมเดลเขียน limerick ได้ดีขึ้นอย่างชัดเจนตามลำดับ แต่ก็ตอบได้น่าสนใจน้อยลงเรื่อยๆ อย่างเห็นได้ชัด
  GPT-1 และ 2 ทำตามพรอมป์ไม่ค่อยได้จริงนัก (ไม่ใช่ limerick) แต่กลับอ่านสนุกกว่า
  หลังจากนั้นมันเขียนเป็น limerick จริง แต่กลายเป็นธรรมดามากจนรู้สึกว่าความคิดสร้างสรรค์ลดลง
  GPT-4 น่าเบื่อน้อยกว่า text-davinci-001 และ GPT-5 ก็น่าเบื่อยิ่งกว่านั้นอีก
- ค่อนข้างน่าประหลาดใจที่โมเดลรุ่นใหม่กลับมีผลงานด้านการเขียนแย่ลง
  ไม่แน่ใจว่าเป็นเพราะข้อมูลฝึกมีงานเขียนแย่ๆ มากขึ้น หรือเป็นเพราะ (post-training น้อยลง หรือการติดป้ายกำกับมีความเป็นอัตวิสัย)
  ในตัวอย่างจริง GPT-4 และ 5 ทั้งคู่เขียนออกมาธรรมดาระดับงานเด็ก
  ถ้าปรับพรอมป์อีกนิดก็อาจได้ผลลัพธ์ที่ดีกว่านี้มาก
- ถ้าไม่ถูกผูกมัดกับ RLHF (reinforcement learning + feedback) มากเกินไป และใช้งานได้อย่างอิสระ
  โมเดลฐานขนาดเล็ก 7b ก็สามารถเขียนประโยคได้ดีกว่าโมเดล instruction ขนาด 80b
จุดข้อมูลบางอย่างด้านล่างแสดงให้เห็นความเร็วของความก้าวหน้าในช่วง 1 ปีได้ดี
1. LM Sys(Human Preference Benchmark):
GPT-5 High ได้ 1463 คะแนน และ GPT-4 Turbo(2024/4/3) ได้ 1323 คะแนน
ความต่าง 140 ELO หมายความว่า GPT-5 ชนะ GPT-4 Turbo ด้วยอัตรา 2:1
ในความเป็นจริง ผู้คนก็ชอบคำตอบของ GPT-5 มากกว่า
https://lmarena.ai/leaderboard
2. Livebench.ai(benchmark ด้านการให้เหตุผล):
GPT-5 High ได้ 78.59 คะแนน, GPT-4o ได้ 47.43 คะแนน
แม้จะไม่มีคู่เทียบตรงๆ แต่เมื่อเทียบกับโมเดลเดิมที่อ่อนด้านการให้เหตุผลอยู่แล้ว ก็เห็นได้ว่าการกระโดดของ GPT-5 นั้นมหาศาล
https://livebench.ai/
3. แบบทดสอบ IQ:
กลางปี 2024 โมเดล AI ที่ดีที่สุดยังติดเพดานราว 90 คะแนนในแบบทดสอบ IQ มาตรฐาน
ตอนนี้ขึ้นไปถึง 135 แล้ว
แม้แต่ในชุดข้อมูลปิดที่ไม่ได้เผยแพร่บนอินเทอร์เน็ต ก็ยังรักษาระดับผลงานนั้นได้
https://www.trackingai.org/home
4. IMO gold, vibe coding:
แค่เมื่อปีที่แล้ว ขีดจำกัดการเขียนโค้ดของ AI ยังอยู่แค่ระดับชิ้นโค้ดสั้นๆ
ทุกวันนี้ vibe coding และความเก่งด้านคณิตศาสตร์ได้ขยายไปถึงวิทยาศาสตร์และวิศวกรรมแล้ว
ข้อสรุปของฉัน: พวกนักวิจารณ์กำลังหมกมุ่นกับข้อผิดพลาดเล็กๆ จนมองไม่เห็นขนาดของความก้าวหน้าทั้งหมด
ความล้มเหลวกำลังลดลง และความสำเร็จกำลังเพิ่มขึ้นอย่างรวดเร็ว
- คะแนน IQ 135 เป็นผลจากแบบทดสอบออนไลน์ของ Mensa Norway
  สำหรับการทดสอบออฟไลน์อยู่ที่ระดับ 120 คะแนน
  มีความเป็นไปได้สูงว่าปัญหาประเภทคล้าย Mensa อยู่ในข้อมูลฝึกอยู่แล้ว ดังนั้นผลนี้จึงเป็นการประเมิน “สติปัญญาทั่วไป” สูงเกินจริง
มีบางอย่างที่หายไปตอนเปลี่ยนจาก GPT-4 เป็น GPT-5
มันเลิกคอยย้ำกับผู้ใช้ตลอดเวลาว่า “เป็น AI ไม่ใช่มนุษย์ (หรือผู้เชี่ยวชาญ)” แล้ว
สำหรับบางคนอาจรู้สึกรำคาญ แต่ฉันคิดว่ามันก็มีความหมายในฐานะมาตรการความปลอดภัยไม่ให้เชื่อมากเกินไป
GPT-5 กลับเสนอพรอมป์ใหม่ๆ บ่อยแทน
นี่ก็อาจรำคาญได้ หรือถ้าเชื่อใจมากเป็นพิเศษก็อาจอันตรายได้ แต่ในแง่การใช้งานก็มีประโยชน์แฝงอยู่
- ดูเหมือนว่าจะมีคนจำนวนมากคิดถึงความเป็นมนุษย์ของ GPT รุ่นก่อนๆ
  GPT-5 เย็นชากว่า แม่นยำกว่า และผิดพลาดน้อยกว่าแม้ในบริบทขนาดใหญ่
  ไม่จำเป็นต้องคอยประกาศว่าตัวเองเป็น AI ตลอดเวลา แต่ถ้าต้องการ ก็น่าจะคืนรูปแบบเดิมได้ผ่านการเพิ่มตัวเลือก memory
- ถ้าเข้าหาแบบการแสดงสดด้นยาวๆ (long-form improv comedy) วิธีของ GPT-5 นั้นเหนือกว่ามาก
  เป็นแนวคิด “yes, and”
  ไม่ใช่ตัวละครที่ถูกกำหนดไว้ล่วงหน้า แต่เป็นตัวละครใหม่ที่เกิดขึ้นอย่างเป็นธรรมชาติระหว่างบทสนทนา
  ถ้าต้องการก็ยังตั้งให้มันพูดว่า “ฉันเป็น AI” ตลอดแบบผู้ช่วยสไตล์ Siri ได้
  ดูวิดีโอปี 2011: https://www.youtube.com/watch?v=nzgvod9BrcE
  มันเป็นเพียงผู้ช่วยก็จริง แต่ฉันคิดว่าสิ่งสำคัญคือการเริ่มต้นจากจุดที่ตัวละครไม่ได้ถือเอาบทบาทของตัวเองเป็นสมมุติฐาน
ในเวลาเพียงไม่กี่ปี มันพัฒนาจากผลลัพธ์ไร้สาระต่ำกว่ามาตรฐานแบบสิ้นเชิง (ไม่เป็นบทกวี ไม่ละเมียดละไม และพูดตรงๆ ว่าขยะ) ไปสู่บทสนทนาที่สมเหตุสมผลและคำตอบที่ขัดเกลาได้ดีจริงๆ
ระดับนี้ถือเป็นตัวอย่างของงานวิศวกรรมฮาร์ดคอร์ได้อย่างไม่อายใคร
ต่อให้จะมีความเห็นต่างเกี่ยวกับองค์กรและ saltman แยกต่างหาก ฉันก็ยังคิดว่านี่เป็นความสำเร็จที่น่าทึ่ง
นี่คือเครื่องมือจำเป็นของฉันนับตั้งแต่ StackOverflow เป็นต้นมา
หวังว่าจะได้เห็นการปรับปรุงที่ดียิ่งขึ้นต่อไป
การกระโดดจาก GPT-1 ไป GPT-2 นั้นใหญ่มากจริงๆ
ห่างกันแค่ 1 ปีเท่านั้น
Davinci ยังน่าทึ่งจนพูดไม่ออกอยู่เลย
แม้ในตัวอย่างก็ยังรักษาฟอร์มได้
เพียงแต่ GPT-4 ดูเหมือนจะพูดมากเกินไป
เมื่อก่อนฉันไม่รู้สึกแบบนี้ แต่พอมาดูตอนนี้ก็ยังแปลกอยู่
ดูเหมือนว่า OpenAI ตั้งใจไม่พูดถึง 4o มากนัก เพื่อจะปัดให้เป็นแค่ประมาณ gpt-4+ แล้วดัน gpt-5 แทน
ในความเป็นจริง 4o ก็ยังเป็นความสำเร็จมหาศาลอยู่ดี
โดยเฉพาะ Voice mode ไม่มีใครตามทัน
GPT1 และ GPT2 มีบางอย่างคล้ายความร่วมสมัยที่เงียบงันอยู่ในตัว แต่พอถึง text-davinci กลับรู้สึกว่าสิ่งนั้นหายไปแล้ว
ฉันก็สงสัยอยู่เสมอว่าเมื่อผ่าน reinforcement แล้ว เราสูญเสียอะไรไปบ้าง