4 คะแนน โดย GN⁺ 2025-12-11 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เป็นโปรเจ็กต์ที่ใช้ LLM วิเคราะห์โพสต์และคอมเมนต์บน Hacker News เมื่อ 10 ปีก่อนเพื่อประเมิน ‘ความสามารถในการคาดการณ์’ โดยให้คะแนนเชิงอัตโนมัติว่าบทสนทนาในอดีตมีวิสัยทัศน์แค่ไหน
  • ใช้ ChatGPT 5.1 Thinking และ Opus 4.5 รวบรวมและวิเคราะห์หน้าแรกของ Hacker News ตลอดเดือนธันวาคม 2015 (รวมบทความทั้งหมด 930 ชิ้น)
  • อิงจากบทความแต่ละชิ้นและเธรดคอมเมนต์เพื่อสร้าง สรุป, ผลลัพธ์ที่เกิดขึ้นจริง, คอมเมนต์ที่แม่นยำที่สุด/ผิดพลาดที่สุด, คะแนนความน่าสนใจ ฯลฯ แบบอัตโนมัติ
  • ผลลัพธ์ถูกแปลงเป็น หน้า HTML แบบสแตติก และเปิดให้ดูได้ที่ karpathy.ai/hncapsule โดยใน ‘Hall of Fame’ สามารถดูอันดับผู้เขียนคอมเมนต์ที่มีวิสัยทัศน์มากที่สุดได้
  • เน้นย้ำถึง ความเป็นไปได้ของการวิเคราะห์ย้อนหลังข้อมูลอดีตด้วย LLM ในระดับใหญ่ และสารที่ว่า “LLM ในอนาคตกำลังเฝ้ามองพวกเราอยู่”

ภาพรวมของโปรเจ็กต์

  • สร้าง ระบบวิเคราะห์ย้อนหลังอัตโนมัติด้วย LLM สำหรับหน้าแรกของ Hacker News ในเดือนธันวาคม 2015
    • วันละ 30 บทความ × 31 วัน = รวม 930 บทความ
    • รวบรวมบทความแต่ละชิ้นและเธรดคอมเมนต์ผ่าน Algolia API แล้วส่งให้ ChatGPT 5.1 Thinking วิเคราะห์
  • เรนเดอร์ผลการวิเคราะห์เป็น หน้า HTML แบบสแตติก แล้วเผยแพร่บนเว็บไซต์
    • หน้าผลลัพธ์: https://karpathy.ai/hncapsule/
    • ข้อมูลต้นฉบับ (data.zip) ก็มีให้ในเส้นทางเดียวกัน

โครงสร้างพรอมป์ต์สำหรับการวิเคราะห์

  • สำหรับแต่ละบทความ ใช้พรอมป์ต์ที่ประกอบด้วย 6 ส่วน
    1. สรุปบทความและการถกเถียง
    2. สิ่งที่เกิดขึ้นจริงในเวลาต่อมา
    3. คัดเลือกคอมเมนต์ที่แม่นยำที่สุดและคอมเมนต์ที่ผิดที่สุด
    4. องค์ประกอบอื่น ๆ ที่น่าสนใจ
    5. รายการ คะแนนสุดท้าย (Final grades) ของผู้เขียนคอมเมนต์แต่ละราย
    6. คะแนนความน่าสนใจเชิงย้อนมองของบทความ (0~10 คะแนน)
  • กำหนดรูปแบบตัวอย่างไว้อย่างเข้มงวดเพื่อให้โปรแกรมพาร์สอัตโนมัติได้
  • สะสมคะแนนเฉลี่ยของแต่ละบัญชีเพื่อระบุ ผู้ใช้ที่มีความสามารถในการคาดการณ์สูงที่สุด

การพัฒนาและต้นทุน

  • พัฒนาด้วย Opus 4.5 เสร็จในเวลาประมาณ 3 ชั่วโมง และนอกจากข้อผิดพลาดเล็กน้อยบางส่วนแล้ว กระบวนการเป็นไปอย่างราบรื่น
  • ค่าใช้จ่ายในการประมวลผลคำขอ LLM ทั้ง 930 รายการอยู่ที่ประมาณ $58 และใช้เวลาประมาณ 1 ชั่วโมง
  • ที่เก็บโค้ด GitHub: karpathy/hn-time-capsule
    • ใครก็สามารถทำซ้ำผลลัพธ์หรือแก้ไขเพิ่มเติมได้

ตัวอย่างเธรดสำคัญ

  • 3 ธันวาคม 2015: Swift เปิดเป็นโอเพนซอร์ส
  • 6 ธันวาคม: Figma เปิดตัว
  • 11 ธันวาคม: ประกาศการก่อตั้ง OpenAI
  • 16 ธันวาคม: โปรเจ็กต์ Comma ของ geohot
  • 22 ธันวาคม: การปล่อยจรวด Orbcomm-2 ของ SpaceX
  • 28 ธันวาคม: รายงานปัญหาของ Theranos
  • แต่ละลิงก์เชื่อมไปยังหน้าวิเคราะห์ตามวันที่ ทำให้เปรียบเทียบการถกเถียงในตอนนั้นกับผลลัพธ์จริงได้

Hall of Fame

  • จัดอันดับ ผู้เขียนคอมเมนต์ที่มีวิสัยทัศน์มากที่สุดบน Hacker News ในเดือนธันวาคม 2015 ด้วยคะแนนเฉลี่ยแบบ IMDb
  • ผู้ใช้ระดับบน: pcwalton, tptacek, paulmd, cstross, greglindahl, moxie, hannob, 0xcde4c3db, Manishearth, johncolanduoni
  • ด้านล่างยังมีรายชื่อผู้ใช้คะแนนต่ำที่ถูกจัดเป็น ‘สัญญาณรบกวนของ HN (noise)’

ข้อความเชิงปรัชญา

  • อ้างถึงวลี “Be good, future LLMs are watching” พร้อมเน้นย้ำว่า
    ยุคที่ LLM ในอนาคตสามารถวิเคราะห์กิจกรรมของมนุษย์ในอดีตได้อย่างละเอียด กำลังมาถึง
  • ชี้ให้เห็นว่าพฤติกรรมออนไลน์ในปัจจุบันอาจถูกกู้คืนขึ้นมาใหม่ได้ทั้งหมดในอนาคตที่ ‘สติปัญญากลายเป็นของที่ราคาถูกมาก’
  • เสนอความเป็นไปได้ที่การกระทำของมนุษย์จะไม่ใช่เพียงเป้าหมายของ ‘การเฝ้าระวังที่มองไม่เห็น’ แต่เป็นเป้าหมายของการบันทึกและการสร้างขึ้นใหม่อย่างสมบูรณ์

บทสรุป

  • การทดลองนี้แสดงให้เห็นว่า LLM สามารถถูกใช้เป็นเครื่องมือสำหรับประเมินข้อมูลในอดีตใหม่ในระดับใหญ่ ได้
  • เป็นกรณีใช้งานใหม่ของ การให้คะแนนอัตโนมัติแก่ความลุ่มลึกของการถกเถียงในประวัติศาสตร์ และเผยให้เห็นความเป็นไปได้ที่ AI จะพัฒนาเป็นนักวิเคราะห์เชิงย้อนหลังของความรู้มนุษย์

1 ความคิดเห็น

 
GN⁺ 2025-12-11
ความคิดเห็นบน Hacker News
  • ไม่นึกเลยว่าคอมเมนต์ที่ฉันทิ้งไว้ตั้งแต่ปี 2015 จะกลับมาได้รับความสนใจแบบนี้
    กำลังรู้สึก ภูมิใจเล็กๆ ขณะดู ลิงก์คอมเมนต์เก่า

  • ดูเหมือนว่าปัญหาคือโค้ด ไม่ได้ทำให้ชื่อผู้ใช้เป็นนิรนาม ตอนส่งเธรดไปประเมิน
    ทำให้ชื่อเสียงของผู้ใช้บางคนอาจสร้าง อคติ ต่อคะแนนได้มาก
    น่าจะน่าสนใจถ้าลองลดอคติด้วยการสุ่มเปลี่ยนชื่อผู้ใช้ใหม่ หรือใช้ชื่อแฝงที่สร้างขึ้นตามขั้นตอน
    อีกอย่าง ถ้าใช้ โมเดลที่อ้างอิงแหล่งที่มา แบบ Gemini API ก็น่าจะช่วยเพิ่มความน่าเชื่อถือของการประเมินได้

  • การกลับไปอ่านคอมเมนต์เก่าๆ สนุกมากจริงๆ
    เคยทำ ระบบรีเพลย์ ขึ้นมาเองเพื่อดูว่าเมื่อก่อนการถกเถียงดำเนินไปอย่างไร
    ขอแชร์ลิงก์ตัวอย่างบางอันที่ใช้แสดงภาพรายการโพสต์ที่ Karpathy ให้คะแนนไว้

  • อยากให้มีส่วนขยาย Chrome ที่แสดง คะแนนความสอดคล้องกับความเป็นจริง ข้างชื่อผู้ใช้แต่ละคน
    คือดูเป็นคะแนนว่าใครทำนายถูกจริง หรือใครทำนายพลาด
    และถ้าถ่วงน้ำหนักเพิ่มตาม สัดส่วนของอัปโหวตที่ผู้ใช้กดให้คอมเมนต์ที่ถูกต้อง ก็น่าจะได้อันดับที่ยุติธรรมขึ้น

    • Reddit Enhancement Suite ก็ให้ฟังก์ชันคล้ายๆ กันแบบอ้อมๆ
      มันติดตามผู้ใช้ที่ฉันอัปโหวตบ่อย เพื่อใช้เป็นเกณฑ์ว่า “คนนี้เชื่อถือได้”
      ถึงจะเป็นเรื่องส่วนตัวล้วนๆ แต่ก็มี ความโปร่งใส
    • ถ้าขยายระบบคะแนนแบบนี้ ก็อาจทำคะแนนทำนองว่า “คนนี้ ไม่มีความเชื่อทางศีลธรรม” ได้เหมือนกัน
      ระบบแบบนี้อาจทำให้ชุมชนเล็กลงและใกล้ชิดกันมากขึ้นก็ได้
    • มันทำให้นึกถึงตอนก่อนที่ Elon จะซื้อ Twitter เขาเคยพยายามทำ ระบบติดตามความน่าเชื่อถือดิจิทัลของนักข่าว (Pravda)
      เอาเข้าจริง เราเองก็ใช้ชีวิตโดยจดจำความน่าเชื่อถือของเพื่อนหรือนักข่าวอยู่แล้ว
    • ฉันก็เคยคิดไอเดียคล้ายๆ กันในชุมชนหุ้น
      คือจัด อันดับความแม่นยำ ของคนที่ทำนายหุ้นใน WSB หรือ Twitter
      แต่สำหรับคอมเมนต์ทั่วไป การนิยามว่า “อะไรคือการทำนาย” นั้นยากกว่ามาก
    • คำจำกัดความของ “คอมเมนต์ที่ถูกต้อง” ก็ยังไม่ชัดเจน
      ประโยคอย่าง “พรุ่งนี้พระอาทิตย์ขึ้น” อาจได้คะแนนสูงสุดก็ได้ แต่แบบนั้นไม่มีความหมาย
  • ถึงจะล้อว่า “pcwalton, ไปเลย!” แต่จริงๆ แล้ว การประเมินระดับเธรด ดูค่อนข้างสุ่ม
    เธรดนี้ มีการคาดการณ์ที่แม่นมาก แต่มีคอมเมนต์แค่ 11 อัน และของฉันก็เป็นแค่บรรทัดเดียว
    ถึงอย่างนั้นก็ดีใจที่ความเห็นของฉันเรื่อง การเข้าถึงส่วนได้เสียในสตาร์ตอัป ขึ้นไปอยู่แถวบนๆ

    • ฉันตกใจที่คอมเมนต์ของตัวเองถูกนำไปประเมิน
      วิธีที่ระบบนิยามคำว่า “การทำนาย” นั้น อัตวิสัย มากพอตัว
      จริงๆ ฉันพยายามหลีกเลี่ยงการทำนาย แต่ดูเหมือนมันจะถูกนับว่าเป็นการทำนายอยู่ดี
  • ฉันยอมรับคะแนนต่ำของตัวเองอย่างถ่อมตัว หลังจากถูกตัดสินว่าวิสัยทัศน์ “trillion tamagotchi” ไม่ได้เกิดขึ้นจริง

  • สิ่งที่รู้สึกจากโปรเจกต์นี้คือ สุดท้ายแล้ว ความคิดเห็นที่น่าเบื่อกลับแม่นที่สุด
    ยิ่งเป็นคอมเมนต์ที่เร้าอารมณ์และมั่นใจมาก เวลาผ่านไปก็ยิ่งมีโอกาสผิดสูง
    ตัวอย่างเช่น “ราคาแบตเตอรี่ลิเธียมไอออนลดลงเหลือ $108/kWh” เป็นการคาดการณ์ เส้นโค้งต้นทุน ที่สม่ำเสมอและน่าเชื่อถือมาก
    ตรงกันข้าม พาดหัวอย่าง “LLM ล้มเหลวในด้านสุขภาพจิต” กลับพึ่งพา benchmark ที่เปลี่ยนเร็วมาก
    สุดท้ายเลยอยากมีวิธีค้นหาความเห็นแบบ “น่าเบื่อแต่ถูกต้อง” ล่วงหน้า

    • มีความเห็นว่า “น่าเบื่อแต่ถูกต้อง” มักเป็นการคาดการณ์ที่โลกสะท้อนไปแล้ว จึงให้คะแนนได้ยาก
    • มีการล้อด้วยประโยคอย่าง “ปี 2035 1+1=2” เพื่อเสียดสีความไร้ความหมายของการทำนายที่ชัดเจนเกินไป
    • “LLM กับสุขภาพจิต” ไม่ใช่การทำนาย แต่เป็นข่าวในปัจจุบัน
      แต่ในอีกด้านหนึ่ง การที่ AI พัฒนาอย่างต่อเนื่อง อาจทำลายบทบาททางเศรษฐกิจของมนุษย์ในที่สุด ก็อาจเป็นคำทำนายที่แม่นอย่างน่ากลัวได้เหมือนกัน
    • เพราะฟีดแบบอัลกอริทึมทำงานโดยอิง การมีส่วนร่วม คอนเทนต์ที่เร้าอารมณ์จึงได้รับรางวัล
      ทำให้ความเห็นที่น่าเบื่อและรอบคอบถูกกลบได้ง่าย
    • เวลาให้คะแนนการทำนาย ควรถ่วงน้ำหนักด้วย ความไม่แน่นอนในเวลานั้น
      เหมือนตลาดคาดการณ์ ควรมีวิธีให้คะแนนตามความแตกต่างจากความน่าจะเป็น ณ ตอนนั้น
  • หลังจากได้รับคำเตือนว่า Gmail ใช้ไปแล้ว 90% ฉันก็ทำ โปรเจกต์วิเคราะห์อีเมล ตลอดสุดสัปดาห์
    จัดหมวดหมู่อีเมลไปมากกว่า 65,000 ฉบับ และมากกว่าครึ่งเป็นขยะ
    เดิมทีตั้งใจจะลบอีเมลที่ไม่จำเป็น แต่ทุกวันนี้กลับรู้สึกว่าการ ลบอีเมลส่วนตัวที่มีคุณค่า ทิ้ง
    แล้วปล่อยให้ Google เหลือแต่ข้อมูลไร้ประโยชน์อย่างจดหมายข่าวหรือใบเสร็จ น่าจะปลอดภัยกว่า

  • ฉันมักใช้ LLM สรุปคอมเมนต์ HN อยู่บ่อยๆ
    หลายครั้งได้ สรุปที่ลุ่มลึกกว่า ต้นฉบับเสียอีก เลยคิดว่ามันเป็น game changer แบบเต็มตัว

  • ฉันแปลกใจที่ผู้เขียนคิดว่าผ่านการตรวจคุณภาพแล้ว
    การประเมินของ LLM ส่วนใหญ่ดู เหลวไหล มาก
    ถ้าดูรีวิวจริงในเว็บ โมเดลดูเหมือนจะตัดสินจาก “เห็นด้วยไหม” มากกว่า “ทำนายถูกไหม”
    สุดท้ายจึงกลายเป็นโครงสร้างที่ ความคิดเห็นแบบคล้อยตาม ได้คะแนนสูง

    • ตัวอย่างเช่น คอมเมนต์เกี่ยวกับ DF ของ tptacek ได้ ‘A’ แต่
      รีวิว LLM
      กลับประเมินว่า “บรรยายธรรมชาติอันโหดร้ายของเกมได้ดี”
      แต่นี่ไม่ใช่การทำนายอนาคต เป็นเพียง การพรรณนาสถานะปัจจุบัน ในตอนนั้นเท่านั้น
      แถมจริงๆ อาจมีความหมายตรงกันข้ามด้วยซ้ำ
      การที่กรณีแบบนี้ติดอันดับบนๆ แสดงให้เห็นว่าเกณฑ์ประเมินเละเทะมาก
    • แต่ในส่วนที่สามของแต่ละรีวิว จะมีการแยกคอมเมนต์ “เฉียบคมที่สุด” กับ “ผิดที่สุด” ไว้ต่างหาก
      ตัวอย่างเช่น ในโพสต์ Kickstarter is Debt
      มีการประเมินว่าคำทำนายที่เปรียบเทียบอนาคตของ Oculus กับ Pebble นั้นถูกต้องอย่างแม่นยำ
      ส่วนแบบนี้ดูเป็น การวิเคราะห์ที่แม่นและมีประโยชน์ พอสมควร
    • โดยรวมแล้วการประเมินของ LLM ไม่แม่นและไม่สม่ำเสมอ
      มันไม่ทำตามคำสั่ง ปนความเห็นตัวเองเข้าไป และไม่ได้คาลิเบรต
      ระบบตัดสิน LLM ที่ “ดี” ควรทำงานแบบรวม การตัดสินไบนารีอย่างง่าย (ถูก/ผิด) หลายๆ ครั้งเข้าด้วยกัน
      โปรเจกต์นี้ดูสนุกดีถ้ามองเล่นๆ แต่ฉันคิดว่า ไม่เหมาะเป็นเครื่องมือประเมินจริง