Vibechart

(vibechart.net)

1 คะแนน โดย GN⁺ 2025-08-08 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Vibechart คือเครื่องมือแสดงข้อมูลแบบแผนภูมิที่ช่วยให้ผู้ใช้สามารถสร้างกราฟในรูปแบบที่ต้องการได้เอง ไม่ได้อิงเกณฑ์แบบดั้งเดิมอย่างความถูกต้องเชิงข้อเท็จจริง มูลค่าทางด้านความงาม หรือความใช้งานได้จริง
การตีความแผนภูมิที่ใช้ในการประกาศตัว GPT-5

การเปรียบเทียบประสิทธิภาพของ GPT-5 (Academic / SWE-bench) ชาร์ต

รายการการทดสอบ: SWE-bench Verified (ความแม่นยำในการแก้ปัญหาวิศวกรรมซอฟต์แวร์)
Without thinking / With thinking: ความแตกต่างของประสิทธิภาพตามการมีหรือไม่มี "โหมดการคิด" (โหมดที่ใช้เวลาอนุมานนานขึ้น)
- GPT-5: ไม่คิด 52.8%, ในโหมดการคิด 74.9%
- OpenAI o3: 69.1%
- GPT-4o: 30.8%
ที่นี่ GPT-5 จะมีประสิทธิภาพสูงกว่า o3 เมื่อใช้ โหมดการคิด มากกว่าเดิม

การประเมินการหลอกลวงของโมเดล (Deception evals across models)

การทดสอบว่าระดับความพยายามในการ "หลอกลวง" ของโมเดลเป็นอย่างไร
Coding deception: GPT-5 (โหมดการคิด) 50.0%, o3 47.4%
CharXiv missing image: GPT-5 9.0%, o3 86.7%
Production traffic: GPT-5 2.1%, o3 4.8%
หากดูแยกตามหมวดหมู่ GPT-5 มีอัตราส่วนการหลอกลวงสูงกว่าในบางด้าน แต่ก็ต่ำกว่ามากในอีกหลายด้าน

พูดง่ายๆ คือ GPT-5 ทำได้ดีกว่า o3 ใน ‘โหมดการคิด’ แต่ในด้านอื่นๆ (เช่น ความเสี่ยงของการหลอกลวง) อาจแย่ลงหรือใกล้เคียงกัน

1 ความคิดเห็น

GN⁺ 2025-08-08

ความคิดเห็นจาก Hacker News

ในส่วน "evaluation" ของโพสต์ประกาศ GPT-5 ของ OpenAI ก็มีเวอร์ชันที่ทำตัวเลขและขนาดแท่งให้ดูสมเหตุสมผลมากกว่าอีกเวอร์ชันหนึ่ง (ลิงก์) จึงอาจเป็นเพียงความผิดพลาดธรรมดา แต่การที่บริษัทที่ใช้เงินหลายพันล้านดอลลาร์ไปกับการอ้างว่าจะปฏิวัติทุกกิจกรรมของมนุษย์ กลับทำ PowerPoint ชิ้นหนึ่งได้ไม่ดีแบบนี้ ก็ทำให้ความรู้สึกไม่สบายใจมาก
- เหมือนพวกเขาชิมอาหารที่ตัวเองจะกินเอง ถ้าพวกเขาขายอาหารที่ตัวเองทำเองก็ได้ผลลัพธ์แบบนี้
- หรือบางทีอาจเป็น AI ตัวใหม่ที่สร้างกราฟิกนี้ขึ้นมา
- คนที่ OpenAI ทำงานอยู่คือผู้เชี่ยวชาญแนวหน้าในสายนี้ จึงดูเหมือนจะยากที่พวกเขาจะทำผิดพลาดระดับนี้ได้
ตอนแรกฉันคิดว่าเป็นเมตริกเกี่ยวกับ vibe coding แต่ไม่ใช่ มันคือ WakaTime
ฉันคิดว่าควรมีกราฟ "Coding deception" ด้วย มันทำให้เข้าใจผิดได้มาก (จริงๆ แล้ว 50.0 ไม่ได้มากกว่า 47.4)
- ฉันเอาภาพกราฟนั้นไปแปะใน ChatGPT-5 แล้วถามว่า "มีความผิดพลาดในกราฟนี้ใช่ไหม ช่วยหาให้หน่อยได้ไหม" ChatGPT ตอบว่า "ใน 'Coding deception' ตัวแรก แท่งสีชมพูของ GPT-5 (โหมดคิด) ระบุว่า 50.0% และแท่งสีขาวของ OpenAI o3 ระบุว่า 47.4% แต่เชิงภาพแท่งสีขาวกลับถูกวาดให้สั้นกว่าแท่งสีชมพู ตัวเลขเปอร์เซ็นต์ต่างกันไม่มาก แต่ภาพยังไม่ตรงกัน" ฉันเลยรู้สึกว่าควรใช้ ChatGPT ช่วยรีวิวสไลด์ด้วย
- ใช้เวลานานมากที่ต้องหาข้อผิดพลาดในโพสต์ที่ส่งและลิงก์ด้านบน ความคิดว่ามันเกิดจากอะไรไม่เข้าใจเลย ตอนนี้ก็เลยสงสัยว่า AI วาดกราฟและไม่มีใครรีวิวแท้จริง
- สิ่งนี้ผิดชัดเจนมาก จนคิดว่าใครบางคนคงติดป้ายกราฟผิดเองไป บางทีก็คิดไปเองเกินไป
- ฉันเพิ่มให้แล้วในกราฟ
- ส่วนนี้ฉันเข้าใจได้ประมาณครึ่งเดียว 'deception' เป็นคุณสมบัติที่ไม่พึงประสงค์ใน llm ยิ่งน้อยยิ่งดีในมุมผู้ชม แต่เมื่อต้องเทียบกับตัวชี้วัดอื่นที่ไม่มีคุณสมบัติ 'less is more' ฉันไม่รู้จะสื่อให้ชัดในกราฟอย่างไรได้อย่างไร (ยังเพิ่มปัญหาอีกเรื่องที่กราฟไม่เริ่มที่ 0) สุดท้ายเลยคิดว่ามันเป็นผลลัพธ์ที่ไร้เหตุผลไปหมด
ก็สงสัยว่ามันเกิดขึ้นได้ยังไง คิดว่าคงมีผู้บริหารระดับสูงเข้ามาช่วงท้ายแล้วให้ฟีดแบ็กว่า "ถ้าดูแล้วเห็นว่ารุ่นใหม่เก่ากว่าเดิมไม่ดีขึ้นเลย คงไม่โอเค ถ้าปรับแกน y ให้ดูเหมือนดีขึ้นมากขึ้น"
- รู้สึกหวาดกลัวจริงๆ ที่เห็นคนที่ไร้ความสามารถขนาดนี้มีทั้งเงินและอำนาจมากขนาดนี้
- อาจเป็นไปได้ว่าเขาเคยขอให้ GPT-5 ช่วยแก้สไลด์
- รอบตัว OpenAI รู้สึกได้ถึงความกดดัน จึงไม่แปลกที่การฮYPE แบบเกินพอดีแบบนี้จะมาจากผู้บริหารชั้นสูงสุด
- นี่เป็นมาตรฐานของอุตสาหกรรม ตัวอย่างเช่น ทุกครั้งที่ Nvidia ออกรุ่น GPU ใหม่ พวกเขาก็ใช้กราฟแบบนี้ Apple ก็ทำเช่นกันกับ CPU ซีรีส์ M และบางครั้งยังเปรียบเทียบกับรุ่นที่ล้าสมัยกว่าหลายชั่วอายุเพื่อยิ่งโอ้อวด
ฉันจะเลือกลงทุนเสมอในกราฟที่แท่งสีชมพูมากกว่าแท่งสีเทา
OpenAI รู้มาตั้งแต่ต้นว่าข้อมูลก็เป็นส่วนหนึ่งของการตลาด และก็มักจัดการในลักษณะนี้มาตลอด ฉันคิดว่าอาจไม่ตั้งใจ แต่มันเห็นได้ชัดว่าตั้งแต่สมัย dota 2 เขารู้วิธีนำเสนอข้อมูลให้ดูฟุ้งเฟ้อและปกปิดความล้มเหลวได้ดี
คล้ายกับการสาธิตหน้าต่างของ Cybertruck
คอลัมน์ 69.1 มีความสูงเท่ากับคอลัมน์ 30.8 เหมือนคัดลอกคอลัมน์ 30.8 แล้วเปลี่ยนแค่ตัวเลขและลืมปรับความสูง ดูเหมือนเขาเช็กแค่ว่ามันต่ำกว่ารุ่นใหม่เพียงพอแล้วจึงผ่านไป แต่ความสูงของคอลัมน์ 50.0 ก็อธิบายด้วยวิธีนี้ไม่ได้
- มองผ่านๆ แล้วแท่งนั้นดูสูงแค่ประมาณ 15% เท่านั้น อาจเป็นไปได้ว่าแทนที่จะเขียน 50 ก็อาจเป็น 15 แต่ความผิดแบบนี้ควรเห็นได้ในงานนำเสนอของนักเรียนมัธยมมากกว่างานเปิดตัวหลักของสตาร์ตอัปที่ดังที่สุดในประวัติศาสตร์ โดยเฉพาะเมื่อพิจารณาว่าทุกคนที่เกี่ยวข้องในงานนำเสนอนี้ต่างได้โบนัส 1.5 ล้านดอลลาร์อย่างแน่นอน น่าชังใจนะ
- ไม่เข้าใจเลยว่าทำไมในงานพรีเซนต์มืออาชีพจึงต้องสร้างแท่งและป้ายแยกกันแบบ manual โดยไม่ได้พยายามทำสไตล์พิเศษ และการที่กราฟแท่งพื้นฐานยังพลาดขนาดนี้ หากไม่ตั้งใจจริง ๆ ก็อธิบายได้ยากมาก
เห็นแล้วขำที่เห็นทุกคนพยายามหลอกทั้งตัวเองและผู้อื่นไปพร้อมกัน