ให้ LLM ให้คะแนนการถกเถียงบน Hacker News เมื่อ 10 ปีก่อนแบบอัตโนมัติ

(karpathy.bearblog.dev)

4 คะแนน โดย GN⁺ 2025-12-11 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เป็นโปรเจ็กต์ที่ใช้ LLM วิเคราะห์โพสต์และคอมเมนต์บน Hacker News เมื่อ 10 ปีก่อนเพื่อประเมิน ‘ความสามารถในการคาดการณ์’ โดยให้คะแนนเชิงอัตโนมัติว่าบทสนทนาในอดีตมีวิสัยทัศน์แค่ไหน
ใช้ ChatGPT 5.1 Thinking และ Opus 4.5 รวบรวมและวิเคราะห์หน้าแรกของ Hacker News ตลอดเดือนธันวาคม 2015 (รวมบทความทั้งหมด 930 ชิ้น)
อิงจากบทความแต่ละชิ้นและเธรดคอมเมนต์เพื่อสร้าง สรุป, ผลลัพธ์ที่เกิดขึ้นจริง, คอมเมนต์ที่แม่นยำที่สุด/ผิดพลาดที่สุด, คะแนนความน่าสนใจ ฯลฯ แบบอัตโนมัติ
ผลลัพธ์ถูกแปลงเป็น หน้า HTML แบบสแตติก และเปิดให้ดูได้ที่ karpathy.ai/hncapsule โดยใน ‘Hall of Fame’ สามารถดูอันดับผู้เขียนคอมเมนต์ที่มีวิสัยทัศน์มากที่สุดได้
เน้นย้ำถึง ความเป็นไปได้ของการวิเคราะห์ย้อนหลังข้อมูลอดีตด้วย LLM ในระดับใหญ่ และสารที่ว่า “LLM ในอนาคตกำลังเฝ้ามองพวกเราอยู่”

ภาพรวมของโปรเจ็กต์

สร้าง ระบบวิเคราะห์ย้อนหลังอัตโนมัติด้วย LLM สำหรับหน้าแรกของ Hacker News ในเดือนธันวาคม 2015
- วันละ 30 บทความ × 31 วัน = รวม 930 บทความ
- รวบรวมบทความแต่ละชิ้นและเธรดคอมเมนต์ผ่าน Algolia API แล้วส่งให้ ChatGPT 5.1 Thinking วิเคราะห์
เรนเดอร์ผลการวิเคราะห์เป็น หน้า HTML แบบสแตติก แล้วเผยแพร่บนเว็บไซต์
- หน้าผลลัพธ์: https://karpathy.ai/hncapsule/
- ข้อมูลต้นฉบับ (data.zip) ก็มีให้ในเส้นทางเดียวกัน

โครงสร้างพรอมป์ต์สำหรับการวิเคราะห์

สำหรับแต่ละบทความ ใช้พรอมป์ต์ที่ประกอบด้วย 6 ส่วน
1. สรุปบทความและการถกเถียง
2. สิ่งที่เกิดขึ้นจริงในเวลาต่อมา
3. คัดเลือกคอมเมนต์ที่แม่นยำที่สุดและคอมเมนต์ที่ผิดที่สุด
4. องค์ประกอบอื่น ๆ ที่น่าสนใจ
5. รายการ คะแนนสุดท้าย (Final grades) ของผู้เขียนคอมเมนต์แต่ละราย
6. คะแนนความน่าสนใจเชิงย้อนมองของบทความ (0~10 คะแนน)
กำหนดรูปแบบตัวอย่างไว้อย่างเข้มงวดเพื่อให้โปรแกรมพาร์สอัตโนมัติได้
สะสมคะแนนเฉลี่ยของแต่ละบัญชีเพื่อระบุ ผู้ใช้ที่มีความสามารถในการคาดการณ์สูงที่สุด

การพัฒนาและต้นทุน

พัฒนาด้วย Opus 4.5 เสร็จในเวลาประมาณ 3 ชั่วโมง และนอกจากข้อผิดพลาดเล็กน้อยบางส่วนแล้ว กระบวนการเป็นไปอย่างราบรื่น
ค่าใช้จ่ายในการประมวลผลคำขอ LLM ทั้ง 930 รายการอยู่ที่ประมาณ $58 และใช้เวลาประมาณ 1 ชั่วโมง
ที่เก็บโค้ด GitHub: karpathy/hn-time-capsule
- ใครก็สามารถทำซ้ำผลลัพธ์หรือแก้ไขเพิ่มเติมได้

ตัวอย่างเธรดสำคัญ

3 ธันวาคม 2015: Swift เปิดเป็นโอเพนซอร์ส
6 ธันวาคม: Figma เปิดตัว
11 ธันวาคม: ประกาศการก่อตั้ง OpenAI
16 ธันวาคม: โปรเจ็กต์ Comma ของ geohot
22 ธันวาคม: การปล่อยจรวด Orbcomm-2 ของ SpaceX
28 ธันวาคม: รายงานปัญหาของ Theranos
แต่ละลิงก์เชื่อมไปยังหน้าวิเคราะห์ตามวันที่ ทำให้เปรียบเทียบการถกเถียงในตอนนั้นกับผลลัพธ์จริงได้

Hall of Fame

จัดอันดับ ผู้เขียนคอมเมนต์ที่มีวิสัยทัศน์มากที่สุดบน Hacker News ในเดือนธันวาคม 2015 ด้วยคะแนนเฉลี่ยแบบ IMDb
ผู้ใช้ระดับบน: pcwalton, tptacek, paulmd, cstross, greglindahl, moxie, hannob, 0xcde4c3db, Manishearth, johncolanduoni
ด้านล่างยังมีรายชื่อผู้ใช้คะแนนต่ำที่ถูกจัดเป็น ‘สัญญาณรบกวนของ HN (noise)’

ข้อความเชิงปรัชญา

อ้างถึงวลี “Be good, future LLMs are watching” พร้อมเน้นย้ำว่า
ยุคที่ LLM ในอนาคตสามารถวิเคราะห์กิจกรรมของมนุษย์ในอดีตได้อย่างละเอียด กำลังมาถึง
ชี้ให้เห็นว่าพฤติกรรมออนไลน์ในปัจจุบันอาจถูกกู้คืนขึ้นมาใหม่ได้ทั้งหมดในอนาคตที่ ‘สติปัญญากลายเป็นของที่ราคาถูกมาก’
เสนอความเป็นไปได้ที่การกระทำของมนุษย์จะไม่ใช่เพียงเป้าหมายของ ‘การเฝ้าระวังที่มองไม่เห็น’ แต่เป็นเป้าหมายของการบันทึกและการสร้างขึ้นใหม่อย่างสมบูรณ์

บทสรุป

การทดลองนี้แสดงให้เห็นว่า LLM สามารถถูกใช้เป็นเครื่องมือสำหรับประเมินข้อมูลในอดีตใหม่ในระดับใหญ่ ได้
เป็นกรณีใช้งานใหม่ของ การให้คะแนนอัตโนมัติแก่ความลุ่มลึกของการถกเถียงในประวัติศาสตร์ และเผยให้เห็นความเป็นไปได้ที่ AI จะพัฒนาเป็นนักวิเคราะห์เชิงย้อนหลังของความรู้มนุษย์

1 ความคิดเห็น

GN⁺ 2025-12-11

ความคิดเห็นบน Hacker News

ไม่นึกเลยว่าคอมเมนต์ที่ฉันทิ้งไว้ตั้งแต่ปี 2015 จะกลับมาได้รับความสนใจแบบนี้
กำลังรู้สึก ภูมิใจเล็กๆ ขณะดู ลิงก์คอมเมนต์เก่า
ดูเหมือนว่าปัญหาคือโค้ด ไม่ได้ทำให้ชื่อผู้ใช้เป็นนิรนาม ตอนส่งเธรดไปประเมิน
ทำให้ชื่อเสียงของผู้ใช้บางคนอาจสร้าง อคติ ต่อคะแนนได้มาก
น่าจะน่าสนใจถ้าลองลดอคติด้วยการสุ่มเปลี่ยนชื่อผู้ใช้ใหม่ หรือใช้ชื่อแฝงที่สร้างขึ้นตามขั้นตอน
อีกอย่าง ถ้าใช้ โมเดลที่อ้างอิงแหล่งที่มา แบบ Gemini API ก็น่าจะช่วยเพิ่มความน่าเชื่อถือของการประเมินได้
การกลับไปอ่านคอมเมนต์เก่าๆ สนุกมากจริงๆ
เคยทำ ระบบรีเพลย์ ขึ้นมาเองเพื่อดูว่าเมื่อก่อนการถกเถียงดำเนินไปอย่างไร
ขอแชร์ลิงก์ตัวอย่างบางอันที่ใช้แสดงภาพรายการโพสต์ที่ Karpathy ให้คะแนนไว้
- Swift is Open Source
- Launch of Figma
- Introducing OpenAI
- Self-driving car by iPhone hacker
- SpaceX Orbcomm-2 Mission
- At Theranos, Many Strategies and Snags
- อยากลองทำ การวิเคราะห์อารมณ์ตามช่วงเวลาของวัน ด้วย
  ดูเหมือนว่าความเห็นช่วงเช้ากับช่วงเย็นต่างกันพอสมควร ถ้าได้ยืนยันเป็นตัวเลขก็น่าจะน่าสนใจ
- เว็บนี้สนุกมากจริงๆ ขอบคุณ
อยากให้มีส่วนขยาย Chrome ที่แสดง คะแนนความสอดคล้องกับความเป็นจริง ข้างชื่อผู้ใช้แต่ละคน
คือดูเป็นคะแนนว่าใครทำนายถูกจริง หรือใครทำนายพลาด
และถ้าถ่วงน้ำหนักเพิ่มตาม สัดส่วนของอัปโหวตที่ผู้ใช้กดให้คอมเมนต์ที่ถูกต้อง ก็น่าจะได้อันดับที่ยุติธรรมขึ้น
- Reddit Enhancement Suite ก็ให้ฟังก์ชันคล้ายๆ กันแบบอ้อมๆ
  มันติดตามผู้ใช้ที่ฉันอัปโหวตบ่อย เพื่อใช้เป็นเกณฑ์ว่า “คนนี้เชื่อถือได้”
  ถึงจะเป็นเรื่องส่วนตัวล้วนๆ แต่ก็มี ความโปร่งใส
- ถ้าขยายระบบคะแนนแบบนี้ ก็อาจทำคะแนนทำนองว่า “คนนี้ ไม่มีความเชื่อทางศีลธรรม” ได้เหมือนกัน
  ระบบแบบนี้อาจทำให้ชุมชนเล็กลงและใกล้ชิดกันมากขึ้นก็ได้
- มันทำให้นึกถึงตอนก่อนที่ Elon จะซื้อ Twitter เขาเคยพยายามทำ ระบบติดตามความน่าเชื่อถือดิจิทัลของนักข่าว (Pravda)
  เอาเข้าจริง เราเองก็ใช้ชีวิตโดยจดจำความน่าเชื่อถือของเพื่อนหรือนักข่าวอยู่แล้ว
- ฉันก็เคยคิดไอเดียคล้ายๆ กันในชุมชนหุ้น
  คือจัด อันดับความแม่นยำ ของคนที่ทำนายหุ้นใน WSB หรือ Twitter
  แต่สำหรับคอมเมนต์ทั่วไป การนิยามว่า “อะไรคือการทำนาย” นั้นยากกว่ามาก
- คำจำกัดความของ “คอมเมนต์ที่ถูกต้อง” ก็ยังไม่ชัดเจน
  ประโยคอย่าง “พรุ่งนี้พระอาทิตย์ขึ้น” อาจได้คะแนนสูงสุดก็ได้ แต่แบบนั้นไม่มีความหมาย
ถึงจะล้อว่า “pcwalton, ไปเลย!” แต่จริงๆ แล้ว การประเมินระดับเธรด ดูค่อนข้างสุ่ม
เธรดนี้ มีการคาดการณ์ที่แม่นมาก แต่มีคอมเมนต์แค่ 11 อัน และของฉันก็เป็นแค่บรรทัดเดียว
ถึงอย่างนั้นก็ดีใจที่ความเห็นของฉันเรื่อง การเข้าถึงส่วนได้เสียในสตาร์ตอัป ขึ้นไปอยู่แถวบนๆ
- ฉันตกใจที่คอมเมนต์ของตัวเองถูกนำไปประเมิน
  วิธีที่ระบบนิยามคำว่า “การทำนาย” นั้น อัตวิสัย มากพอตัว
  จริงๆ ฉันพยายามหลีกเลี่ยงการทำนาย แต่ดูเหมือนมันจะถูกนับว่าเป็นการทำนายอยู่ดี
ฉันยอมรับคะแนนต่ำของตัวเองอย่างถ่อมตัว หลังจากถูกตัดสินว่าวิสัยทัศน์ “trillion tamagotchi” ไม่ได้เกิดขึ้นจริง
สิ่งที่รู้สึกจากโปรเจกต์นี้คือ สุดท้ายแล้ว ความคิดเห็นที่น่าเบื่อกลับแม่นที่สุด
ยิ่งเป็นคอมเมนต์ที่เร้าอารมณ์และมั่นใจมาก เวลาผ่านไปก็ยิ่งมีโอกาสผิดสูง
ตัวอย่างเช่น “ราคาแบตเตอรี่ลิเธียมไอออนลดลงเหลือ $108/kWh” เป็นการคาดการณ์ เส้นโค้งต้นทุน ที่สม่ำเสมอและน่าเชื่อถือมาก
ตรงกันข้าม พาดหัวอย่าง “LLM ล้มเหลวในด้านสุขภาพจิต” กลับพึ่งพา benchmark ที่เปลี่ยนเร็วมาก
สุดท้ายเลยอยากมีวิธีค้นหาความเห็นแบบ “น่าเบื่อแต่ถูกต้อง” ล่วงหน้า
- มีความเห็นว่า “น่าเบื่อแต่ถูกต้อง” มักเป็นการคาดการณ์ที่โลกสะท้อนไปแล้ว จึงให้คะแนนได้ยาก
- มีการล้อด้วยประโยคอย่าง “ปี 2035 1+1=2” เพื่อเสียดสีความไร้ความหมายของการทำนายที่ชัดเจนเกินไป
- “LLM กับสุขภาพจิต” ไม่ใช่การทำนาย แต่เป็นข่าวในปัจจุบัน
  แต่ในอีกด้านหนึ่ง การที่ AI พัฒนาอย่างต่อเนื่อง อาจทำลายบทบาททางเศรษฐกิจของมนุษย์ในที่สุด ก็อาจเป็นคำทำนายที่แม่นอย่างน่ากลัวได้เหมือนกัน
- เพราะฟีดแบบอัลกอริทึมทำงานโดยอิง การมีส่วนร่วม คอนเทนต์ที่เร้าอารมณ์จึงได้รับรางวัล
  ทำให้ความเห็นที่น่าเบื่อและรอบคอบถูกกลบได้ง่าย
- เวลาให้คะแนนการทำนาย ควรถ่วงน้ำหนักด้วย ความไม่แน่นอนในเวลานั้น
  เหมือนตลาดคาดการณ์ ควรมีวิธีให้คะแนนตามความแตกต่างจากความน่าจะเป็น ณ ตอนนั้น
หลังจากได้รับคำเตือนว่า Gmail ใช้ไปแล้ว 90% ฉันก็ทำ โปรเจกต์วิเคราะห์อีเมล ตลอดสุดสัปดาห์
จัดหมวดหมู่อีเมลไปมากกว่า 65,000 ฉบับ และมากกว่าครึ่งเป็นขยะ
เดิมทีตั้งใจจะลบอีเมลที่ไม่จำเป็น แต่ทุกวันนี้กลับรู้สึกว่าการ ลบอีเมลส่วนตัวที่มีคุณค่า ทิ้ง
แล้วปล่อยให้ Google เหลือแต่ข้อมูลไร้ประโยชน์อย่างจดหมายข่าวหรือใบเสร็จ น่าจะปลอดภัยกว่า
ฉันมักใช้ LLM สรุปคอมเมนต์ HN อยู่บ่อยๆ
หลายครั้งได้ สรุปที่ลุ่มลึกกว่า ต้นฉบับเสียอีก เลยคิดว่ามันเป็น game changer แบบเต็มตัว
ฉันแปลกใจที่ผู้เขียนคิดว่าผ่านการตรวจคุณภาพแล้ว
การประเมินของ LLM ส่วนใหญ่ดู เหลวไหล มาก
ถ้าดูรีวิวจริงในเว็บ โมเดลดูเหมือนจะตัดสินจาก “เห็นด้วยไหม” มากกว่า “ทำนายถูกไหม”
สุดท้ายจึงกลายเป็นโครงสร้างที่ ความคิดเห็นแบบคล้อยตาม ได้คะแนนสูง
- ตัวอย่างเช่น คอมเมนต์เกี่ยวกับ DF ของ tptacek ได้ ‘A’ แต่
  รีวิว LLM
  กลับประเมินว่า “บรรยายธรรมชาติอันโหดร้ายของเกมได้ดี”
  แต่นี่ไม่ใช่การทำนายอนาคต เป็นเพียง การพรรณนาสถานะปัจจุบัน ในตอนนั้นเท่านั้น
  แถมจริงๆ อาจมีความหมายตรงกันข้ามด้วยซ้ำ
  การที่กรณีแบบนี้ติดอันดับบนๆ แสดงให้เห็นว่าเกณฑ์ประเมินเละเทะมาก
- แต่ในส่วนที่สามของแต่ละรีวิว จะมีการแยกคอมเมนต์ “เฉียบคมที่สุด” กับ “ผิดที่สุด” ไว้ต่างหาก
  ตัวอย่างเช่น ในโพสต์ Kickstarter is Debt
  มีการประเมินว่าคำทำนายที่เปรียบเทียบอนาคตของ Oculus กับ Pebble นั้นถูกต้องอย่างแม่นยำ
  ส่วนแบบนี้ดูเป็น การวิเคราะห์ที่แม่นและมีประโยชน์ พอสมควร
- โดยรวมแล้วการประเมินของ LLM ไม่แม่นและไม่สม่ำเสมอ
  มันไม่ทำตามคำสั่ง ปนความเห็นตัวเองเข้าไป และไม่ได้คาลิเบรต
  ระบบตัดสิน LLM ที่ “ดี” ควรทำงานแบบรวม การตัดสินไบนารีอย่างง่าย (ถูก/ผิด) หลายๆ ครั้งเข้าด้วยกัน
  โปรเจกต์นี้ดูสนุกดีถ้ามองเล่นๆ แต่ฉันคิดว่า ไม่เหมาะเป็นเครื่องมือประเมินจริง

ให้ LLM ให้คะแนนการถกเถียงบน Hacker News เมื่อ 10 ปีก่อนแบบอัตโนมัติ

ภาพรวมของโปรเจ็กต์

โครงสร้างพรอมป์ต์สำหรับการวิเคราะห์

การพัฒนาและต้นทุน

ตัวอย่างเธรดสำคัญ

Hall of Fame

ข้อความเชิงปรัชญา

บทสรุป

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News