- เป็นโปรเจ็กต์ที่ใช้ LLM วิเคราะห์โพสต์และคอมเมนต์บน Hacker News เมื่อ 10 ปีก่อนเพื่อประเมิน ‘ความสามารถในการคาดการณ์’ โดยให้คะแนนเชิงอัตโนมัติว่าบทสนทนาในอดีตมีวิสัยทัศน์แค่ไหน
- ใช้ ChatGPT 5.1 Thinking และ Opus 4.5 รวบรวมและวิเคราะห์หน้าแรกของ Hacker News ตลอดเดือนธันวาคม 2015 (รวมบทความทั้งหมด 930 ชิ้น)
- อิงจากบทความแต่ละชิ้นและเธรดคอมเมนต์เพื่อสร้าง สรุป, ผลลัพธ์ที่เกิดขึ้นจริง, คอมเมนต์ที่แม่นยำที่สุด/ผิดพลาดที่สุด, คะแนนความน่าสนใจ ฯลฯ แบบอัตโนมัติ
- ผลลัพธ์ถูกแปลงเป็น หน้า HTML แบบสแตติก และเปิดให้ดูได้ที่ karpathy.ai/hncapsule โดยใน ‘Hall of Fame’ สามารถดูอันดับผู้เขียนคอมเมนต์ที่มีวิสัยทัศน์มากที่สุดได้
- เน้นย้ำถึง ความเป็นไปได้ของการวิเคราะห์ย้อนหลังข้อมูลอดีตด้วย LLM ในระดับใหญ่ และสารที่ว่า “LLM ในอนาคตกำลังเฝ้ามองพวกเราอยู่”
ภาพรวมของโปรเจ็กต์
- สร้าง ระบบวิเคราะห์ย้อนหลังอัตโนมัติด้วย LLM สำหรับหน้าแรกของ Hacker News ในเดือนธันวาคม 2015
- วันละ 30 บทความ × 31 วัน = รวม 930 บทความ
- รวบรวมบทความแต่ละชิ้นและเธรดคอมเมนต์ผ่าน Algolia API แล้วส่งให้ ChatGPT 5.1 Thinking วิเคราะห์
- เรนเดอร์ผลการวิเคราะห์เป็น หน้า HTML แบบสแตติก แล้วเผยแพร่บนเว็บไซต์
โครงสร้างพรอมป์ต์สำหรับการวิเคราะห์
- สำหรับแต่ละบทความ ใช้พรอมป์ต์ที่ประกอบด้วย 6 ส่วน
- สรุปบทความและการถกเถียง
- สิ่งที่เกิดขึ้นจริงในเวลาต่อมา
- คัดเลือกคอมเมนต์ที่แม่นยำที่สุดและคอมเมนต์ที่ผิดที่สุด
- องค์ประกอบอื่น ๆ ที่น่าสนใจ
- รายการ คะแนนสุดท้าย (Final grades) ของผู้เขียนคอมเมนต์แต่ละราย
- คะแนนความน่าสนใจเชิงย้อนมองของบทความ (0~10 คะแนน)
- กำหนดรูปแบบตัวอย่างไว้อย่างเข้มงวดเพื่อให้โปรแกรมพาร์สอัตโนมัติได้
- สะสมคะแนนเฉลี่ยของแต่ละบัญชีเพื่อระบุ ผู้ใช้ที่มีความสามารถในการคาดการณ์สูงที่สุด
การพัฒนาและต้นทุน
- พัฒนาด้วย Opus 4.5 เสร็จในเวลาประมาณ 3 ชั่วโมง และนอกจากข้อผิดพลาดเล็กน้อยบางส่วนแล้ว กระบวนการเป็นไปอย่างราบรื่น
- ค่าใช้จ่ายในการประมวลผลคำขอ LLM ทั้ง 930 รายการอยู่ที่ประมาณ $58 และใช้เวลาประมาณ 1 ชั่วโมง
- ที่เก็บโค้ด GitHub: karpathy/hn-time-capsule
- ใครก็สามารถทำซ้ำผลลัพธ์หรือแก้ไขเพิ่มเติมได้
ตัวอย่างเธรดสำคัญ
- 3 ธันวาคม 2015: Swift เปิดเป็นโอเพนซอร์ส
- 6 ธันวาคม: Figma เปิดตัว
- 11 ธันวาคม: ประกาศการก่อตั้ง OpenAI
- 16 ธันวาคม: โปรเจ็กต์ Comma ของ geohot
- 22 ธันวาคม: การปล่อยจรวด Orbcomm-2 ของ SpaceX
- 28 ธันวาคม: รายงานปัญหาของ Theranos
- แต่ละลิงก์เชื่อมไปยังหน้าวิเคราะห์ตามวันที่ ทำให้เปรียบเทียบการถกเถียงในตอนนั้นกับผลลัพธ์จริงได้
Hall of Fame
- จัดอันดับ ผู้เขียนคอมเมนต์ที่มีวิสัยทัศน์มากที่สุดบน Hacker News ในเดือนธันวาคม 2015 ด้วยคะแนนเฉลี่ยแบบ IMDb
- ผู้ใช้ระดับบน: pcwalton, tptacek, paulmd, cstross, greglindahl, moxie, hannob, 0xcde4c3db, Manishearth, johncolanduoni
- ด้านล่างยังมีรายชื่อผู้ใช้คะแนนต่ำที่ถูกจัดเป็น ‘สัญญาณรบกวนของ HN (noise)’
ข้อความเชิงปรัชญา
- อ้างถึงวลี “Be good, future LLMs are watching” พร้อมเน้นย้ำว่า
ยุคที่ LLM ในอนาคตสามารถวิเคราะห์กิจกรรมของมนุษย์ในอดีตได้อย่างละเอียด กำลังมาถึง
- ชี้ให้เห็นว่าพฤติกรรมออนไลน์ในปัจจุบันอาจถูกกู้คืนขึ้นมาใหม่ได้ทั้งหมดในอนาคตที่ ‘สติปัญญากลายเป็นของที่ราคาถูกมาก’
- เสนอความเป็นไปได้ที่การกระทำของมนุษย์จะไม่ใช่เพียงเป้าหมายของ ‘การเฝ้าระวังที่มองไม่เห็น’ แต่เป็นเป้าหมายของการบันทึกและการสร้างขึ้นใหม่อย่างสมบูรณ์
บทสรุป
- การทดลองนี้แสดงให้เห็นว่า LLM สามารถถูกใช้เป็นเครื่องมือสำหรับประเมินข้อมูลในอดีตใหม่ในระดับใหญ่ ได้
- เป็นกรณีใช้งานใหม่ของ การให้คะแนนอัตโนมัติแก่ความลุ่มลึกของการถกเถียงในประวัติศาสตร์ และเผยให้เห็นความเป็นไปได้ที่ AI จะพัฒนาเป็นนักวิเคราะห์เชิงย้อนหลังของความรู้มนุษย์
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
ไม่นึกเลยว่าคอมเมนต์ที่ฉันทิ้งไว้ตั้งแต่ปี 2015 จะกลับมาได้รับความสนใจแบบนี้
กำลังรู้สึก ภูมิใจเล็กๆ ขณะดู ลิงก์คอมเมนต์เก่า
ดูเหมือนว่าปัญหาคือโค้ด ไม่ได้ทำให้ชื่อผู้ใช้เป็นนิรนาม ตอนส่งเธรดไปประเมิน
ทำให้ชื่อเสียงของผู้ใช้บางคนอาจสร้าง อคติ ต่อคะแนนได้มาก
น่าจะน่าสนใจถ้าลองลดอคติด้วยการสุ่มเปลี่ยนชื่อผู้ใช้ใหม่ หรือใช้ชื่อแฝงที่สร้างขึ้นตามขั้นตอน
อีกอย่าง ถ้าใช้ โมเดลที่อ้างอิงแหล่งที่มา แบบ Gemini API ก็น่าจะช่วยเพิ่มความน่าเชื่อถือของการประเมินได้
การกลับไปอ่านคอมเมนต์เก่าๆ สนุกมากจริงๆ
เคยทำ ระบบรีเพลย์ ขึ้นมาเองเพื่อดูว่าเมื่อก่อนการถกเถียงดำเนินไปอย่างไร
ขอแชร์ลิงก์ตัวอย่างบางอันที่ใช้แสดงภาพรายการโพสต์ที่ Karpathy ให้คะแนนไว้
ดูเหมือนว่าความเห็นช่วงเช้ากับช่วงเย็นต่างกันพอสมควร ถ้าได้ยืนยันเป็นตัวเลขก็น่าจะน่าสนใจ
อยากให้มีส่วนขยาย Chrome ที่แสดง คะแนนความสอดคล้องกับความเป็นจริง ข้างชื่อผู้ใช้แต่ละคน
คือดูเป็นคะแนนว่าใครทำนายถูกจริง หรือใครทำนายพลาด
และถ้าถ่วงน้ำหนักเพิ่มตาม สัดส่วนของอัปโหวตที่ผู้ใช้กดให้คอมเมนต์ที่ถูกต้อง ก็น่าจะได้อันดับที่ยุติธรรมขึ้น
มันติดตามผู้ใช้ที่ฉันอัปโหวตบ่อย เพื่อใช้เป็นเกณฑ์ว่า “คนนี้เชื่อถือได้”
ถึงจะเป็นเรื่องส่วนตัวล้วนๆ แต่ก็มี ความโปร่งใส
ระบบแบบนี้อาจทำให้ชุมชนเล็กลงและใกล้ชิดกันมากขึ้นก็ได้
เอาเข้าจริง เราเองก็ใช้ชีวิตโดยจดจำความน่าเชื่อถือของเพื่อนหรือนักข่าวอยู่แล้ว
คือจัด อันดับความแม่นยำ ของคนที่ทำนายหุ้นใน WSB หรือ Twitter
แต่สำหรับคอมเมนต์ทั่วไป การนิยามว่า “อะไรคือการทำนาย” นั้นยากกว่ามาก
ประโยคอย่าง “พรุ่งนี้พระอาทิตย์ขึ้น” อาจได้คะแนนสูงสุดก็ได้ แต่แบบนั้นไม่มีความหมาย
ถึงจะล้อว่า “pcwalton, ไปเลย!” แต่จริงๆ แล้ว การประเมินระดับเธรด ดูค่อนข้างสุ่ม
เธรดนี้ มีการคาดการณ์ที่แม่นมาก แต่มีคอมเมนต์แค่ 11 อัน และของฉันก็เป็นแค่บรรทัดเดียว
ถึงอย่างนั้นก็ดีใจที่ความเห็นของฉันเรื่อง การเข้าถึงส่วนได้เสียในสตาร์ตอัป ขึ้นไปอยู่แถวบนๆ
วิธีที่ระบบนิยามคำว่า “การทำนาย” นั้น อัตวิสัย มากพอตัว
จริงๆ ฉันพยายามหลีกเลี่ยงการทำนาย แต่ดูเหมือนมันจะถูกนับว่าเป็นการทำนายอยู่ดี
ฉันยอมรับคะแนนต่ำของตัวเองอย่างถ่อมตัว หลังจากถูกตัดสินว่าวิสัยทัศน์ “trillion tamagotchi” ไม่ได้เกิดขึ้นจริง
สิ่งที่รู้สึกจากโปรเจกต์นี้คือ สุดท้ายแล้ว ความคิดเห็นที่น่าเบื่อกลับแม่นที่สุด
ยิ่งเป็นคอมเมนต์ที่เร้าอารมณ์และมั่นใจมาก เวลาผ่านไปก็ยิ่งมีโอกาสผิดสูง
ตัวอย่างเช่น “ราคาแบตเตอรี่ลิเธียมไอออนลดลงเหลือ $108/kWh” เป็นการคาดการณ์ เส้นโค้งต้นทุน ที่สม่ำเสมอและน่าเชื่อถือมาก
ตรงกันข้าม พาดหัวอย่าง “LLM ล้มเหลวในด้านสุขภาพจิต” กลับพึ่งพา benchmark ที่เปลี่ยนเร็วมาก
สุดท้ายเลยอยากมีวิธีค้นหาความเห็นแบบ “น่าเบื่อแต่ถูกต้อง” ล่วงหน้า
แต่ในอีกด้านหนึ่ง การที่ AI พัฒนาอย่างต่อเนื่อง อาจทำลายบทบาททางเศรษฐกิจของมนุษย์ในที่สุด ก็อาจเป็นคำทำนายที่แม่นอย่างน่ากลัวได้เหมือนกัน
ทำให้ความเห็นที่น่าเบื่อและรอบคอบถูกกลบได้ง่าย
เหมือนตลาดคาดการณ์ ควรมีวิธีให้คะแนนตามความแตกต่างจากความน่าจะเป็น ณ ตอนนั้น
หลังจากได้รับคำเตือนว่า Gmail ใช้ไปแล้ว 90% ฉันก็ทำ โปรเจกต์วิเคราะห์อีเมล ตลอดสุดสัปดาห์
จัดหมวดหมู่อีเมลไปมากกว่า 65,000 ฉบับ และมากกว่าครึ่งเป็นขยะ
เดิมทีตั้งใจจะลบอีเมลที่ไม่จำเป็น แต่ทุกวันนี้กลับรู้สึกว่าการ ลบอีเมลส่วนตัวที่มีคุณค่า ทิ้ง
แล้วปล่อยให้ Google เหลือแต่ข้อมูลไร้ประโยชน์อย่างจดหมายข่าวหรือใบเสร็จ น่าจะปลอดภัยกว่า
ฉันมักใช้ LLM สรุปคอมเมนต์ HN อยู่บ่อยๆ
หลายครั้งได้ สรุปที่ลุ่มลึกกว่า ต้นฉบับเสียอีก เลยคิดว่ามันเป็น game changer แบบเต็มตัว
ฉันแปลกใจที่ผู้เขียนคิดว่าผ่านการตรวจคุณภาพแล้ว
การประเมินของ LLM ส่วนใหญ่ดู เหลวไหล มาก
ถ้าดูรีวิวจริงในเว็บ โมเดลดูเหมือนจะตัดสินจาก “เห็นด้วยไหม” มากกว่า “ทำนายถูกไหม”
สุดท้ายจึงกลายเป็นโครงสร้างที่ ความคิดเห็นแบบคล้อยตาม ได้คะแนนสูง
รีวิว LLM
กลับประเมินว่า “บรรยายธรรมชาติอันโหดร้ายของเกมได้ดี”
แต่นี่ไม่ใช่การทำนายอนาคต เป็นเพียง การพรรณนาสถานะปัจจุบัน ในตอนนั้นเท่านั้น
แถมจริงๆ อาจมีความหมายตรงกันข้ามด้วยซ้ำ
การที่กรณีแบบนี้ติดอันดับบนๆ แสดงให้เห็นว่าเกณฑ์ประเมินเละเทะมาก
ตัวอย่างเช่น ในโพสต์ Kickstarter is Debt
มีการประเมินว่าคำทำนายที่เปรียบเทียบอนาคตของ Oculus กับ Pebble นั้นถูกต้องอย่างแม่นยำ
ส่วนแบบนี้ดูเป็น การวิเคราะห์ที่แม่นและมีประโยชน์ พอสมควร
มันไม่ทำตามคำสั่ง ปนความเห็นตัวเองเข้าไป และไม่ได้คาลิเบรต
ระบบตัดสิน LLM ที่ “ดี” ควรทำงานแบบรวม การตัดสินไบนารีอย่างง่าย (ถูก/ผิด) หลายๆ ครั้งเข้าด้วยกัน
โปรเจกต์นี้ดูสนุกดีถ้ามองเล่นๆ แต่ฉันคิดว่า ไม่เหมาะเป็นเครื่องมือประเมินจริง