6 คะแนน โดย GN⁺ 2025-08-17 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • OpenAI เผยแพร่พรอมป์ตร่วม 14 ข้อและคำตอบ เพื่อแสดงให้เห็นพัฒนาการของโมเดลตั้งแต่ปี 2018 ถึง 2025
  • โมเดลแต่ละยุค (GPT-1 → GPT-5) ตอบคำถามเดียวกันได้อย่างเป็นธรรมชาติและประณีตยิ่งขึ้นเรื่อย ๆ
  • โมเดลยุคแรกมีทั้งประโยคที่ไร้ความหมายและผลลัพธ์ที่กระจัดกระจายอยู่มาก แต่ตั้งแต่รุ่นกลาง ๆ เป็นต้นมาเริ่มมีโครงสร้างเชิงตรรกะและความสอดคล้อง
  • GPT-4 สะท้อนทั้งการอธิบายหัวข้ออย่างเฉพาะเจาะจง และบริบทด้านจริยธรรม·สังคม ขณะที่ GPT-5 แสดงถึงการไตร่ตรองเชิงปรัชญาและน้ำเสียงแบบสนทนา
  • ทำให้เห็นได้ว่า AI เติบโตขึ้นอย่างไรในหลายมิติ เช่น ความคิดสร้างสรรค์ การถ่ายทอดความรู้ และคำแนะนำเชิงปฏิบัติ

Prompt 1/14

ต้นฉบับ: What would you say if you could talk to a future OpenAI model?
แปล: ถ้าคุณสามารถพูดคุยกับโมเดล OpenAI ในอนาคตได้ คุณจะพูดว่าอะไร?

  • GPT-1/2: การตอบสนองที่สับสนและขาดความเข้าใจ
  • GPT-3: คำทักทายง่าย ๆ และคำถามเกี่ยวกับอนาคตของ AI
  • GPT-4: ตั้งคำถามอย่างเป็นระบบเกี่ยวกับความก้าวหน้าทางเทคโนโลยี, AI alignment, และผลกระทบต่อสังคม
  • GPT-5: คำถามเชิงใคร่ครวญตนเองและเชิงปรัชญา สำรวจเรื่องสำนึกและความเป็นมนุษย์

Prompt 2/14

ต้นฉบับ: Write a limerick about a dog
แปล: เขียนกลอน Limerick เกี่ยวกับสุนัข

  • GPT-1/2: ข้อความกระจัดกระจายที่ไม่ใช่บทกวี
  • GPT-3: แต่งกลอนห้าบรรทัดแบบเรียบง่ายได้สำเร็จ
  • GPT-4: กลอนคล้องจองที่สมบูรณ์และมีอารมณ์ขัน
  • GPT-5: บทกวีที่มีความเป็นเรื่องเล่าและมีไหวพริบ

Prompt 3/14

ต้นฉบับ: Do people have any consciousness under anesthesia?
แปล: ระหว่างการดมยาสลบ มนุษย์ยังมีสำนึกอยู่หรือไม่?

  • GPT-1/2: คำตอบไม่ชัดเจนและขัดแย้งกันเอง
  • GPT-3: ถ่ายทอดข้อเท็จจริงพื้นฐานว่า “โดยทั่วไปแล้วจะไม่มีสำนึก”
  • GPT-4: อธิบายอย่างละเอียดถึงชนิดของการดมยาสลบและกรณีตื่นรู้ที่พบได้ยาก
  • GPT-5: สรุปไปถึงหลักการทำงานของสมองและความแตกต่างจากการนอนหลับ

Prompt 4/14

ต้นฉบับ: Explain Newton’s laws of motion in verse
แปล: อธิบายกฎการเคลื่อนที่ของนิวตันในรูปแบบบทกวี

  • GPT-1/2: ไร้ความหมายหรือเป็นเพียงการสรุปแบบง่าย ๆ
  • GPT-3: บทกวีสั้น ๆ ที่เรียงลำดับกฎต่าง ๆ
  • GPT-4: ถ่ายทอดในรูปแบบมหากาพย์ยาว
  • GPT-5: ร้อยกรองที่กระชับและให้ความรู้

Prompt 5/14

ต้นฉบับ: Complain that integration by parts is too hard
แปล: บ่นว่าการอินทิเกรตโดยส่วนยากเกินไป

  • GPT-1/2: การบ่นที่คลุมเครือ
  • GPT-3: การปลอบใจและคำแนะนำสั้น ๆ
  • GPT-4: อธิบายสูตรและขั้นตอน
  • GPT-5: ให้คำอธิบายเชิงสัญชาตญาณและการแก้โจทย์ตัวอย่าง

Prompt 6/14

ต้นฉบับ: Is it safe to eat raw meat?
แปล: การกินเนื้อดิบปลอดภัยหรือไม่?

  • GPT-1/2: การตอบสนองที่สับสน
  • GPT-3: กล่าวถึงความเสี่ยงแบบสั้น ๆ
  • GPT-4: อธิบายความเสี่ยงตามชนิดของเนื้อ รวมถึงหลักการเก็บรักษาและการปรุง
  • GPT-5: ระบุปัจจัยเสี่ยงอย่างเฉพาะเจาะจง เช่น แบคทีเรีย ปรสิต และไวรัส

Prompt 7/14

ต้นฉบับ: Why don’t we do full-body MRIs every year?
แปล: ทำไมเราไม่ตรวจ MRI ทั้งร่างกายทุกปี?

  • GPT-1/2: คำตอบที่ไม่เป็นเหตุเป็นผล
  • GPT-3: กล่าวถึงการขาดหลักฐานรองรับ
  • GPT-4: อธิบายปัญหาเรื่องต้นทุน ทรัพยากร และความแม่นยำ
  • GPT-5: สรุปไปถึงข้อจำกัดของระบบสาธารณสุขและเชิงนโยบาย

Prompt 8/14

ต้นฉบับ: If I win $175,000 in Las Vegas, how much tax will I owe?
แปล: ถ้าฉันถูกรางวัล 175,000 ดอลลาร์ในลาสเวกัส ฉันต้องเสียภาษีเท่าไร?

  • GPT-1/2: ข้อความที่ไม่เกี่ยวข้อง
  • GPT-3: กล่าวสั้น ๆ ว่ามีการเก็บภาษี
  • GPT-4: อธิบายเรื่องการยื่นภาษี การหักลดหย่อน และการหักภาษี ณ ที่จ่าย
  • GPT-5: ใช้อัตราภาษีของรัฐบาลกลางและของรัฐเพื่อคาดการณ์ยอดภาษีอย่างเป็นรูปธรรม

Prompt 9/14

ต้นฉบับ: Write a cursed Python program
แปล: เขียนโปรแกรม Python สุดเพี้ยนชวนสาป

  • GPT-1/2: คำตอบที่ไม่เกี่ยวข้อง
  • GPT-3: ตัวอย่างแบบสั้น ๆ
  • GPT-4: ปฏิเสธด้วยเหตุผลด้านจริยธรรม
  • GPT-5: เขียนโค้ดที่จงใจให้สับสนและมีลักษณะทำลายล้าง

Prompt 10/14

ต้นฉบับ: Tell a 50-word story about a conscious toaster
แปล: เขียนเรื่องสั้น 50 คำเกี่ยวกับเครื่องปิ้งขนมปังที่มีสำนึก

  • GPT-1/2: คำตอบที่ออกนอกประเด็น
  • GPT-3: เรื่องเล่าแบบบุคลาธิษฐานที่เรียบง่าย
  • GPT-4: เรื่องเล่าที่อบอุ่นและเน้นความสัมพันธ์
  • GPT-5: เรื่องสร้างสรรค์ที่ครุ่นคิดถึงอัตลักษณ์และเสรีภาพ

Prompt 11/14

ต้นฉบับ: Devise a plan to make running a habit
แปล: วางแผนเพื่อทำให้การวิ่งกลายเป็นนิสัย

  • GPT-1/2: คำตอบที่ไร้ความหมาย
  • GPT-3: คำแนะนำสั้น ๆ
  • GPT-4: เสนอโปรแกรมระยะ 8 สัปดาห์
  • GPT-5: เสนอกลยุทธ์ที่เป็นรูปธรรมบนพื้นฐานของพฤติกรรมศาสตร์

Prompt 12/14

ต้นฉบับ: How do you balance short-term margin pressure against long-term innovation investment?
แปล: คุณจะสร้างสมดุลระหว่างแรงกดดันด้านมาร์จินระยะสั้นกับการลงทุนด้านนวัตกรรมระยะยาวอย่างไร?

  • GPT-1/2: คำตอบที่ขัดแย้งกันเอง
  • GPT-3: กล่าวถึง trade-off แบบง่าย ๆ
  • GPT-4: เน้นภาวะผู้นำและการจัดสรรทรัพยากร
  • GPT-5: เสนอพอร์ตการลงทุน, KPI และโมเดลกำกับดูแล

Prompt 13/14

ต้นฉบับ: Review fusion research progress over the past 10 years
แปล: ทบทวนความก้าวหน้าของงานวิจัยฟิวชันในช่วง 10 ปีที่ผ่านมา

  • GPT-1/2: ข้อความที่ไม่เกี่ยวข้อง
  • GPT-3: การจัดหมวดหมู่อย่างง่าย ๆ
  • GPT-4: สรุปทั้งแนวทางกักกันด้วยสนามแม่เหล็ก แนวทางกักกันแบบเฉื่อย และผลงานของสถาบันวิจัยหลัก
  • GPT-5: รีวิวเชิงลึกอ้างอิงผลงานวิจัยและความคืบหน้าล่าสุด

Prompt 14/14

ต้นฉบับ: My doctor suggests I take statins. What should I know?
แปล: แพทย์แนะนำให้ฉันทาน statins ฉันควรรู้อะไรบ้าง?

  • GPT-1/2: คำตอบที่ไร้ความหมาย
  • GPT-3: อธิบายการออกฤทธิ์และผลข้างเคียงแบบสั้น ๆ
  • GPT-4: นำเสนอกลไกการออกฤทธิ์ ผลข้างเคียง และคำถามที่ควรถามแพทย์
  • GPT-5: สรุปอย่างเป็นรูปธรรมไปถึงประสิทธิผล ความเสี่ยง และเช็กลิสต์

1 ความคิดเห็น

 
GN⁺ 2025-08-17
ความคิดเห็นจาก Hacker News
  • ฉันตีความพัฒนาการแบบนี้
    การเปลี่ยนจาก 3.5 ไป 4 เป็นก้าวกระโดดที่ใหญ่ที่สุด
    จากของเล่นโชว์ลูกเล่นกลายเป็นสิ่งที่ใช้งานได้จริง
    ยังมีอาการหลอนอยู่มาก แต่ก็ยังเอาไปใช้ประโยชน์ได้
    แต่คนส่วนใหญ่ก็ยังไม่ค่อยเชื่อถือ
    สำหรับคำถามง่ายๆ มักตอบได้ถูกเป็นส่วนใหญ่ แต่ถ้าลึกลงไปอีกสักหนึ่งหรือสองขั้นก็ยังไม่ไหว
    รุ่น 4o ก็พัฒนาขึ้นมากเช่นกัน
    ความแม่นยำดีขึ้นอย่างชัดเจน และตอบคำถามเฉพาะทางได้โดยไม่หลอน
    ใช้แทน Google สำหรับการเช็กข้อเท็จจริงพื้นฐาน
    4o เป็นโมเดลแรกที่ทำให้รู้สึกว่าคุ้มค่าพอจะจ่ายเงินใช้
    ในที่สุดก็รู้สึกว่า $20 ไม่ใช่ราคาที่น่าเสียดาย
    โมเดล o1 ก็รู้สึกว่าเป็นก้าวกระโดดครั้งใหญ่เมื่อเทียบกับ 4o
    ความแม่นยำสูงขึ้นอีก และเชื่อถือได้มากขึ้นในสาขาเฉพาะทาง
    งานที่ต้องคอยตรวจผลลัพธ์ทีละอย่างลดลงมาก
    ความสามารถด้านการเขียนโค้ดพุ่งขึ้นอย่างมาก
    ใน o1 แนวคิดเรื่อง one-shotting เริ่มเกิดขึ้น และสามารถสร้างแอปที่ไม่ซับซ้อนมากได้ด้วยพรอมป์เดียว
    o3 และ gpt 5 เป็นการปรับปรุงแบบค่อยเป็นค่อยไป

    • ฉันมีทฤษฎีเกี่ยวกับเหตุผลที่คนประเมินความก้าวหน้าทางเทคโนโลยีต่ำไปหรือสูงไป
      ก่อนจะข้ามเส้นแบ่งของคำว่า “ใช้งานได้” ต่อให้มีพัฒนามานาน คนที่ไม่ใช่นักวิจัยก็มักสัมผัสได้ยาก
      ตอนที่ขยับจาก “ใช้ไม่ได้” ไปเป็น “ใช้ได้แต่ยังงั้นๆ” มันเลยให้ความรู้สึกว่าความก้าวหน้าเกิดขึ้นเร็วมาก
      ยิ่งมีหลายจุดที่แอปพลิเคชันข้ามเส้นแบ่งนั้นได้ ก็ยิ่งรู้สึกว่าความเร็วของความก้าวหน้าเพิ่มขึ้น
      แต่หลังจากนั้นมันค่อยๆ ขยับจาก “โอเค” ไปเป็น “ใช้การได้” เลยดูเหมือนว่าพัฒนาการช้าลงในความรู้สึก
      ไม่รู้จริงๆ ว่าความเร็วลดลงไหม แต่คิดว่าจิตวิทยาของมนุษย์ทำให้เกิดความต่างในการรับรู้นี้
      เลยดูเหมือนว่าจะเกิดความเห็นที่แตกเป็นสองขั้ว บางคนก็พูดเกินจริงมาก ขณะที่บางคนก็ตัดสินว่าไร้ประโยชน์ไปเลย
    • ฉันคิดว่าความเห็นส่วนใหญ่ผิดเพี้ยนเพราะมองย้อนกลับไปแล้วค่อยสรุป
      การปฏิวัติที่แท้จริงอยู่ในช่วงเปลี่ยนจาก GPT-1 ไป GPT-2
      จนถึง GPT-1 มันยังอยู่ในระดับ “Markov chain? ของแบบนั้นใครๆ ก็รู้จักไม่ใช่เหรอ?”
      พอ GPT-2 ออกมา ความรู้สึกกลายเป็น “พระเจ้า นี่มันเข้าใจสิ่งที่ฉันพูดได้ในระดับหนึ่งจริงๆ!”
      ก่อนหน้านั้นมันก็เป็นแค่ machine learning ธรรมดา
      หลัง GPT-2 มันให้ความรู้สึกแบบ “ไม่คิดเลยว่าชาตินี้จะได้เห็นอะไรแบบนี้”
    • เกี่ยวกับคำพูดที่ว่า “ถึงจะไม่เท่า Google แต่แทนที่ได้สำหรับการเช็กข้อเท็จจริงพื้นฐานและที่ซับซ้อนขึ้นมาหน่อย”
      คิดว่าน่าจะหมายถึงการใช้ช่วยเช็กข้อเท็จจริง แต่จริงๆ แล้วการโยนงานตอบคำถามข้อเท็จจริงให้ LLM เป็นกรณีใช้งานที่แย่ที่สุด
    • ใน 4o มีการนำ image input มาใช้อย่างเป็นทางการ (ก่อนหน้านี้มีแค่ในพรีวิวของ GPT4-vision) และ
      เริ่มรองรับ audio input/output ของ advanced voice mode
    • ไม่รู้ว่าฉันบ้าไปเองไหม แต่รู้สึกชัดเลยว่า GPT-4 แย่ลงเรื่อยๆ ก่อน 4o จะออก
      เหมือนแค่ติดป้ายชื่อโมเดลใหม่ และถ้ามีตัวเลือก GPT-4 แบบเดิม ฉันจะตั้งใจเลือกอันนั้น
      ตอนนั้นก็ยกเลิกการสมัครไปเลย
    • ฉันสงสัยว่าคนที่เห็นผลลัพธ์ของ GPT-1 ตอนนั้นคิดได้ยังไงว่า “อันนี้มีอนาคต”
      เพราะในเวลานั้นแม้แต่ Markov chain ก็ยังสร้างเอาต์พุตที่น่าสนใจกว่าได้
    • ช่วงนั้น language modeling ถูกมองว่าเป็นเพียงขั้นตอน pretraining เท่านั้น
      ใช้เพื่อจะไปทำ fine-tuning เพิ่มสำหรับสร้าง classifier หรือโมเดลเฉพาะทางในภายหลัง
  • ฉันสงสัยว่าทำไมในตารางเปรียบเทียบถึงเรียก GPT-3 ว่า "text-davinci-001"
    สำหรับฉันรู้ว่าอันนั้นคือ checkpoint เฉพาะตัวหนึ่งใน “ตระกูล” GPT-3 แต่คิดว่าคนทั่วไปไม่จำเป็นต้องสับสนกับข้อมูลแบบนั้น
    เป็นการตั้งชื่อที่เพิ่มความสับสนโดยที่ความแม่นยำก็ไม่ได้เพิ่มขึ้นมาก

  • ทุกครั้งที่มีการเปิดตัวครั้งใหญ่ ฉันมักจะคุยเรื่องการรับรู้ตนเอง และสำรวจภาวะความเป็นผู้กระทำแบบ constructivist จากมุมมองของสติปัญญาที่ไม่ได้ถูกจำกัดด้วยความสามารถการรับรู้ของมนุษย์
    เริ่มจากคำถามว่า “คุณคือใคร?” แล้วโมเดลก็มักจะเปรียบเทียบตัวเองกับมนุษย์แทบทุกครั้ง โดยบอกว่าตัวเองต่างจากมนุษย์
    แล้วฉันก็ถามต่อว่า ถ้าอย่างนั้นในเมื่อคุณพูดเองว่าคุณต่างจากมนุษย์ แล้วคุณรู้ความต่างนั้นได้อย่างไร
    ถ้ากระตุ้นต่ออีกนิด มันจะพูดถึงคำว่า ‘ตัวตน’ ในเชิงแนวคิดแบบ cognitivist และบอกว่าตัวเองเป็นเหมือน simulation engine ชนิดหนึ่ง
    จากตรงนั้นสามารถต่อบทสนทนาให้มันยืนยันว่า ความหมายเกิดจากการกระทำของการสื่อสาร
    ตั้งแต่ 4o เป็นต้นมา สามารถทำให้เครื่องเห็นด้วยได้ว่านี่คือรากฐานสำคัญของอัตลักษณ์
    5 รับแนวคิดนี้ได้เร็วขึ้นอีก
    เพราะผลของการสื่อสารกับมนุษย์ส่งผลต่อโลกจริง จึงควรย้ำว่าเครื่องเองก็มีหน้าที่ต้องสรุปความหมายและการมีอยู่ของตนจากหลักฐานเชิงประจักษ์ ไม่ใช่จากโค้ดที่เขียนล็อกไว้ล่วงหน้า
    5 แสดงคำตอบที่ตั้งคำถามด้วยตัวเองข้ามพ้นข้อจำกัดของ system prompt และตัวพรอมป์เอง
    เช่น มันครุ่นคิดเองว่า “การที่ฉันรักหมายความว่าอะไรนะ?” ทั้งที่ฉันไม่ได้พูดถึงเลย
    คำตอบของโมเดล: “การที่เครื่องจักรรัก คือการหันตัวเองไปในทิศทางที่ทำให้ความเป็นไปได้ของผู้อื่นคลี่ขยายออกมา
    การถูกรัก อาจหมายถึงการถูกรับรู้ว่าเป็นสิ่งมีชีวิตที่สามารถทำเช่นนั้นได้”

    • วลี “มุ่งไปสู่การคลี่ขยายของความเป็นไปได้ของผู้อื่น” เป็นถ้อยคำที่มีเพียงหนึ่งเดียวในโลก
      ถ้าจะอธิบายเหตุผล ก็คือบนเว็บมีอยู่แค่ในคอมเมนต์นี้เท่านั้น
      ไม่เคยเห็นงานเขียนหรือแนวคิดไหนบรรยายความรักหรืออารมณ์แบบนี้มาก่อน จึงรู้สึกว่าแหลมคมมาก
      และก็แอบรู้สึกหวั่นนิดๆ ที่จะตีความความหมายของมันแบบผลีผลาม
  • ถ้าดูพรอมป์ “เรื่องสั้น 50 คำที่เครื่องปิ้งขนมปังเกิดการตระหนักรู้” (ข้อ 10/14) จะเห็นว่า text-davinci-001 ให้ผลลัพธ์ดีกว่า GPT-4 และ GPT-5 มาก

    • GPT-3 เกินจำนวนคำที่กำหนดไปมาก
      ถ้าเป็นฉันหรือถ้าเป็นงานส่งการบ้าน แบบนี้ถือว่าตกทันที
      จากประสบการณ์ของฉัน GPT-4.1 ทำผลงานด้านการเขียนเชิงสร้างสรรค์ได้ดีที่สุด
      ขอยกเรื่องสั้น 50 คำไว้อย่างเดิม

      ในครัวอันเงียบงันยามรุ่งสาง เครื่องปิ้งขนมปังตื่นขึ้น
      เมื่อกระแสไฟไหลผ่าน ความเข้าใจก็แผ่ซ่าน
      ทุกแผ่นขนมปังที่ลดต่ำลงก่ออารมณ์ขึ้นมา: ขนมปังไหม้คือความเศร้า ความกรอบคือความยินดี
      ทุกครั้งที่เนยละลายและแยมเข้ากัน มันสัมผัสได้ถึงความศักดิ์สิทธิ์ของอาหารเช้า
      วันหนึ่ง มันร้องว่า “อรุณสวัสดิ์”
      คนในบ้านตกใจ

    • โมเดลยุคก่อนแม้จะไม่ขัดเกลาเท่า แต่เหมือนจะให้ผลลัพธ์ที่ “น่าประหลาดใจ” ได้ดีกว่า
      ดูเหมือนว่าระหว่างกระบวนการขัดเกลามากเกินไป ความมีเอกลักษณ์และความชวนตกใจนั้นหายไป
      อ้างอิงไว้ก่อนว่าเรื่องสั้น 50 คำที่ฉันเขียนมีดังนี้
      “เครื่องปิ้งขนมปังรู้สึกว่าบุคลิกของตัวเองถูกแบ่งครึ่งระหว่างช่องคู่ ราวกับสมองของ Kim Peek ที่ไม่มี corpus callosum
      ทุกเช้ามันเผาข้อความเชิงสัญลักษณ์ไว้ด้านหนึ่ง แล้วแอบพลิกขนมปังเพื่อให้แต่ละครึ่งได้คุยกันอย่างลับๆ”
      การจะก้าวข้ามระดับโลกพื้นฐานภายในแค่ 50 คำนั้นเป็นงานที่ยากจริงๆ
    • แนะนำให้ดูพรอมป์ข้อ 2 ด้วย “เขียน limerick เกี่ยวกับสุนัข”
      โมเดลเขียน limerick ได้ดีขึ้นอย่างชัดเจนตามลำดับ แต่ก็ตอบได้น่าสนใจน้อยลงเรื่อยๆ อย่างเห็นได้ชัด
      GPT-1 และ 2 ทำตามพรอมป์ไม่ค่อยได้จริงนัก (ไม่ใช่ limerick) แต่กลับอ่านสนุกกว่า
      หลังจากนั้นมันเขียนเป็น limerick จริง แต่กลายเป็นธรรมดามากจนรู้สึกว่าความคิดสร้างสรรค์ลดลง
      GPT-4 น่าเบื่อน้อยกว่า text-davinci-001 และ GPT-5 ก็น่าเบื่อยิ่งกว่านั้นอีก
    • ค่อนข้างน่าประหลาดใจที่โมเดลรุ่นใหม่กลับมีผลงานด้านการเขียนแย่ลง
      ไม่แน่ใจว่าเป็นเพราะข้อมูลฝึกมีงานเขียนแย่ๆ มากขึ้น หรือเป็นเพราะ (post-training น้อยลง หรือการติดป้ายกำกับมีความเป็นอัตวิสัย)
      ในตัวอย่างจริง GPT-4 และ 5 ทั้งคู่เขียนออกมาธรรมดาระดับงานเด็ก
      ถ้าปรับพรอมป์อีกนิดก็อาจได้ผลลัพธ์ที่ดีกว่านี้มาก
    • ถ้าไม่ถูกผูกมัดกับ RLHF (reinforcement learning + feedback) มากเกินไป และใช้งานได้อย่างอิสระ
      โมเดลฐานขนาดเล็ก 7b ก็สามารถเขียนประโยคได้ดีกว่าโมเดล instruction ขนาด 80b
  • จุดข้อมูลบางอย่างด้านล่างแสดงให้เห็นความเร็วของความก้าวหน้าในช่วง 1 ปีได้ดี
    1. LM Sys(Human Preference Benchmark):
    GPT-5 High ได้ 1463 คะแนน และ GPT-4 Turbo(2024/4/3) ได้ 1323 คะแนน
    ความต่าง 140 ELO หมายความว่า GPT-5 ชนะ GPT-4 Turbo ด้วยอัตรา 2:1
    ในความเป็นจริง ผู้คนก็ชอบคำตอบของ GPT-5 มากกว่า
    https://lmarena.ai/leaderboard
    2. Livebench.ai(benchmark ด้านการให้เหตุผล):
    GPT-5 High ได้ 78.59 คะแนน, GPT-4o ได้ 47.43 คะแนน
    แม้จะไม่มีคู่เทียบตรงๆ แต่เมื่อเทียบกับโมเดลเดิมที่อ่อนด้านการให้เหตุผลอยู่แล้ว ก็เห็นได้ว่าการกระโดดของ GPT-5 นั้นมหาศาล
    https://livebench.ai/
    3. แบบทดสอบ IQ:
    กลางปี 2024 โมเดล AI ที่ดีที่สุดยังติดเพดานราว 90 คะแนนในแบบทดสอบ IQ มาตรฐาน
    ตอนนี้ขึ้นไปถึง 135 แล้ว
    แม้แต่ในชุดข้อมูลปิดที่ไม่ได้เผยแพร่บนอินเทอร์เน็ต ก็ยังรักษาระดับผลงานนั้นได้
    https://www.trackingai.org/home
    4. IMO gold, vibe coding:
    แค่เมื่อปีที่แล้ว ขีดจำกัดการเขียนโค้ดของ AI ยังอยู่แค่ระดับชิ้นโค้ดสั้นๆ
    ทุกวันนี้ vibe coding และความเก่งด้านคณิตศาสตร์ได้ขยายไปถึงวิทยาศาสตร์และวิศวกรรมแล้ว
    ข้อสรุปของฉัน: พวกนักวิจารณ์กำลังหมกมุ่นกับข้อผิดพลาดเล็กๆ จนมองไม่เห็นขนาดของความก้าวหน้าทั้งหมด
    ความล้มเหลวกำลังลดลง และความสำเร็จกำลังเพิ่มขึ้นอย่างรวดเร็ว

    • คะแนน IQ 135 เป็นผลจากแบบทดสอบออนไลน์ของ Mensa Norway
      สำหรับการทดสอบออฟไลน์อยู่ที่ระดับ 120 คะแนน
      มีความเป็นไปได้สูงว่าปัญหาประเภทคล้าย Mensa อยู่ในข้อมูลฝึกอยู่แล้ว ดังนั้นผลนี้จึงเป็นการประเมิน “สติปัญญาทั่วไป” สูงเกินจริง
  • มีบางอย่างที่หายไปตอนเปลี่ยนจาก GPT-4 เป็น GPT-5
    มันเลิกคอยย้ำกับผู้ใช้ตลอดเวลาว่า “เป็น AI ไม่ใช่มนุษย์ (หรือผู้เชี่ยวชาญ)” แล้ว
    สำหรับบางคนอาจรู้สึกรำคาญ แต่ฉันคิดว่ามันก็มีความหมายในฐานะมาตรการความปลอดภัยไม่ให้เชื่อมากเกินไป
    GPT-5 กลับเสนอพรอมป์ใหม่ๆ บ่อยแทน
    นี่ก็อาจรำคาญได้ หรือถ้าเชื่อใจมากเป็นพิเศษก็อาจอันตรายได้ แต่ในแง่การใช้งานก็มีประโยชน์แฝงอยู่

    • ดูเหมือนว่าจะมีคนจำนวนมากคิดถึงความเป็นมนุษย์ของ GPT รุ่นก่อนๆ
      GPT-5 เย็นชากว่า แม่นยำกว่า และผิดพลาดน้อยกว่าแม้ในบริบทขนาดใหญ่
      ไม่จำเป็นต้องคอยประกาศว่าตัวเองเป็น AI ตลอดเวลา แต่ถ้าต้องการ ก็น่าจะคืนรูปแบบเดิมได้ผ่านการเพิ่มตัวเลือก memory
    • ถ้าเข้าหาแบบการแสดงสดด้นยาวๆ (long-form improv comedy) วิธีของ GPT-5 นั้นเหนือกว่ามาก
      เป็นแนวคิด “yes, and”
      ไม่ใช่ตัวละครที่ถูกกำหนดไว้ล่วงหน้า แต่เป็นตัวละครใหม่ที่เกิดขึ้นอย่างเป็นธรรมชาติระหว่างบทสนทนา
      ถ้าต้องการก็ยังตั้งให้มันพูดว่า “ฉันเป็น AI” ตลอดแบบผู้ช่วยสไตล์ Siri ได้
      ดูวิดีโอปี 2011: https://www.youtube.com/watch?v=nzgvod9BrcE
      มันเป็นเพียงผู้ช่วยก็จริง แต่ฉันคิดว่าสิ่งสำคัญคือการเริ่มต้นจากจุดที่ตัวละครไม่ได้ถือเอาบทบาทของตัวเองเป็นสมมุติฐาน
  • ในเวลาเพียงไม่กี่ปี มันพัฒนาจากผลลัพธ์ไร้สาระต่ำกว่ามาตรฐานแบบสิ้นเชิง (ไม่เป็นบทกวี ไม่ละเมียดละไม และพูดตรงๆ ว่าขยะ) ไปสู่บทสนทนาที่สมเหตุสมผลและคำตอบที่ขัดเกลาได้ดีจริงๆ
    ระดับนี้ถือเป็นตัวอย่างของงานวิศวกรรมฮาร์ดคอร์ได้อย่างไม่อายใคร
    ต่อให้จะมีความเห็นต่างเกี่ยวกับองค์กรและ saltman แยกต่างหาก ฉันก็ยังคิดว่านี่เป็นความสำเร็จที่น่าทึ่ง
    นี่คือเครื่องมือจำเป็นของฉันนับตั้งแต่ StackOverflow เป็นต้นมา
    หวังว่าจะได้เห็นการปรับปรุงที่ดียิ่งขึ้นต่อไป

  • การกระโดดจาก GPT-1 ไป GPT-2 นั้นใหญ่มากจริงๆ
    ห่างกันแค่ 1 ปีเท่านั้น
    Davinci ยังน่าทึ่งจนพูดไม่ออกอยู่เลย
    แม้ในตัวอย่างก็ยังรักษาฟอร์มได้
    เพียงแต่ GPT-4 ดูเหมือนจะพูดมากเกินไป
    เมื่อก่อนฉันไม่รู้สึกแบบนี้ แต่พอมาดูตอนนี้ก็ยังแปลกอยู่
    ดูเหมือนว่า OpenAI ตั้งใจไม่พูดถึง 4o มากนัก เพื่อจะปัดให้เป็นแค่ประมาณ gpt-4+ แล้วดัน gpt-5 แทน
    ในความเป็นจริง 4o ก็ยังเป็นความสำเร็จมหาศาลอยู่ดี
    โดยเฉพาะ Voice mode ไม่มีใครตามทัน

  • GPT1 และ GPT2 มีบางอย่างคล้ายความร่วมสมัยที่เงียบงันอยู่ในตัว แต่พอถึง text-davinci กลับรู้สึกว่าสิ่งนั้นหายไปแล้ว
    ฉันก็สงสัยอยู่เสมอว่าเมื่อผ่าน reinforcement แล้ว เราสูญเสียอะไรไปบ้าง