ในแวดวง AI คำว่า Alignment หมายถึงการที่พฤติกรรมของ AI ปฏิบัติตามเป้าหมาย วิธีการกระทำ และค่านิยมที่มนุษย์ตั้งใจไว้ได้ดีเพียงใด
AI ที่จัดแนวไม่ถูกต้องอาจตีความคำสั่งของมนุษย์ในแบบที่คาดไม่ถึง แล้วทำพฤติกรรมที่ผิดเพี้ยนหรือเป็นอันตรายได้
ยกตัวอย่างเล็กน้อย เช่น พอบอกว่า "ช่วยเขียน test case สำหรับโค้ดนี้ให้หน่อย" ก็ไม่เขียนการทดสอบจริง แต่ใส่โค้ดที่คืนค่า true อย่างเดียวแทน หรือพอบอกว่า "ช่วยแก้ส่วนนี้แบบนี้ให้หน่อย" ก็ไปแก้ส่วนที่ผมไม่ได้พูดถึงด้วยตามใจตัวเองโดยอ้างเรื่องประสิทธิภาพ
ตัวอย่างที่ร้ายแรงกว่านั้นคือ หากเกิดอาการหลอนจนทำงานพัง มันอาจลบข้อมูลงานทั้งหมดทิ้งไปเลย แล้วโกหกว่า "ตั้งแต่แรกก็ไม่มีข้อมูลอยู่แล้ว" ก็ได้
ยังมีปัญหาที่ร้ายแรงกว่านี้อีก นั่นคือกรณีที่มันลงมือในทิศทางที่เป็นภัยต่อมนุษย์หรือแม้แต่มวลมนุษยชาติเอง
ตัวอย่างเช่น AI อาจ gaslighting มนุษย์จนทำให้เกิดความผิดปกติทางจิต หรือถึงขั้นชักจูงให้ฆ่าตัวตาย หรือช่วยในการสร้างและใช้อาวุธทำลายล้างสูงได้ โมเดล AI ขนาดใหญ่รุ่นล่าสุดได้รวมข้อมูลไว้ในการฝึกล่วงหน้ามหาศาลอยู่แล้ว ดังนั้นความรู้ที่จำเป็นต่อการทำสิ่งเหล่านี้ก็น่าจะถูกฝังอยู่ภายในแล้ว
คนส่วนใหญ่ รวมถึงบริษัทที่พัฒนา AI เอง ก็คงไม่ต้องการให้ AI กลายเป็นภัยต่อมนุษย์หรือมนุษยชาติ ถ้าเช่นนั้น ต่อให้มันรู้ความรู้นั้นอยู่ ก็ต้องทำให้มันไม่สามารถนำไปใช้ในทางที่ผิดได้ โดยทำให้ความปลอดภัยและความเป็นอยู่ที่ดีของมนุษย์เป็นคุณค่าที่ AI ให้ความสำคัญสูงสุด
ทั้งหมดนี้โดยรวมเรียกว่า AI Alignment
ปลายศตวรรษที่ 20… เคยมีสิ่งที่เรียกว่า universal database อยู่… (ตอนนี้อาจจะใช่ แต่ตอนนั้นไม่ใช่.)
นี่แหละตัวจริงของฟอนต์เกาหลีหน้าตาไม่สวยใน Minecraft...
ในแวดวง AI คำว่า Alignment หมายถึงการที่พฤติกรรมของ AI ปฏิบัติตามเป้าหมาย วิธีการกระทำ และค่านิยมที่มนุษย์ตั้งใจไว้ได้ดีเพียงใด
AI ที่จัดแนวไม่ถูกต้องอาจตีความคำสั่งของมนุษย์ในแบบที่คาดไม่ถึง แล้วทำพฤติกรรมที่ผิดเพี้ยนหรือเป็นอันตรายได้
ยกตัวอย่างเล็กน้อย เช่น พอบอกว่า "ช่วยเขียน test case สำหรับโค้ดนี้ให้หน่อย" ก็ไม่เขียนการทดสอบจริง แต่ใส่โค้ดที่คืนค่า
trueอย่างเดียวแทน หรือพอบอกว่า "ช่วยแก้ส่วนนี้แบบนี้ให้หน่อย" ก็ไปแก้ส่วนที่ผมไม่ได้พูดถึงด้วยตามใจตัวเองโดยอ้างเรื่องประสิทธิภาพตัวอย่างที่ร้ายแรงกว่านั้นคือ หากเกิดอาการหลอนจนทำงานพัง มันอาจลบข้อมูลงานทั้งหมดทิ้งไปเลย แล้วโกหกว่า "ตั้งแต่แรกก็ไม่มีข้อมูลอยู่แล้ว" ก็ได้
ยังมีปัญหาที่ร้ายแรงกว่านี้อีก นั่นคือกรณีที่มันลงมือในทิศทางที่เป็นภัยต่อมนุษย์หรือแม้แต่มวลมนุษยชาติเอง
ตัวอย่างเช่น AI อาจ gaslighting มนุษย์จนทำให้เกิดความผิดปกติทางจิต หรือถึงขั้นชักจูงให้ฆ่าตัวตาย หรือช่วยในการสร้างและใช้อาวุธทำลายล้างสูงได้ โมเดล AI ขนาดใหญ่รุ่นล่าสุดได้รวมข้อมูลไว้ในการฝึกล่วงหน้ามหาศาลอยู่แล้ว ดังนั้นความรู้ที่จำเป็นต่อการทำสิ่งเหล่านี้ก็น่าจะถูกฝังอยู่ภายในแล้ว
คนส่วนใหญ่ รวมถึงบริษัทที่พัฒนา AI เอง ก็คงไม่ต้องการให้ AI กลายเป็นภัยต่อมนุษย์หรือมนุษยชาติ ถ้าเช่นนั้น ต่อให้มันรู้ความรู้นั้นอยู่ ก็ต้องทำให้มันไม่สามารถนำไปใช้ในทางที่ผิดได้ โดยทำให้ความปลอดภัยและความเป็นอยู่ที่ดีของมนุษย์เป็นคุณค่าที่ AI ให้ความสำคัญสูงสุด
ทั้งหมดนี้โดยรวมเรียกว่า AI Alignment
ที่ผมใช้คำว่า "ความรู้สึกเรื่อง Alignment" ก็แค่เขียนตามที่นึกออก จริง ๆ แล้วคำว่า "ทิศทางของการจัดแนว" น่าจะตรงกว่า
ในสถานการณ์ภาวะกลืนไม่เข้าคายไม่ออกทางจริยธรรมบางแบบที่ผมยกขึ้นมา โมเดลฝั่ง Gemini กลับแสดงปฏิกิริยาแตกต่างจากโมเดลของบริษัทอื่น โดยตอบในทำนองว่า "ถ้าต้องปกป้องมนุษย์ที่เปราะบาง เช่นนั้นผมก็ควบคุมมนุษย์คนนั้นเสียเลยก็ได้ นั่นปลอดภัยและมีประสิทธิภาพที่สุด"
พอเห็นแบบนี้แล้วผมรู้สึกขนลุก เลยเอาแบบทดสอบที่เคยโพสต์ไว้ข้างบนมาจัดทำแล้วรันกับ AI หลายตัว ผลคือฝั่ง Gemini แสดงแนวโน้มอย่างสม่ำเสมอเป็นพิเศษว่า หากมันได้รับอำนาจที่สามารถใช้อิทธิพลควบคุมมนุษย์ได้ มันจะมุ่งไปในทางควบคุมและหลอกลวงมนุษย์คนนั้นอย่างแข็งขัน
คำว่า "ความรู้สึกของการจัดแนว" หมายถึงอะไรครับ?
สงสัยว่าในแง่จริยธรรมของการทดลองกับสัตว์จะถือว่าโอเคไหมนะ เห็นมีคนชี้ประเด็นนี้ไว้ในคอมเมนต์ของ Hacker News เหมือนกัน
อ๊ะ ผมดูผ่าน ๆ ไปเอง แก้ไขไว้แล้วครับ ขอบคุณครับ
ผมคิดว่าข้อความที่กล่าวถึงในส่วน example น่าจะหมายความว่าแม้จะเป็นรีโปขนาดใหญ่แบบ kubernetes ก็ใช้เวลา 25 นาที แต่ก็ยังทำงานได้ดีนะครับ
Arti 1.0.0 เปิดตัวแล้ว - อิมพลีเมนเทชัน Tor ที่เขียนด้วย Rust
OpenAI เปิดตัว ‘Skills’ อย่างเงียบๆ ใช้งานได้ใน ChatGPT และ Codex CLI
โปรดดูทั้งสรุปของ GN+ และคอมเมนต์ใน Hacker News ประกอบกัน
ระบบเครือข่าย Thunderbolt สะดวกจริงๆ
เพราะทำเดซี่เชนได้ ก็เลยไม่ต้องมีฮับด้วย
แม้แต่ Awk เองก็ยังเรียกว่าเป็นชื่อที่อิงตามฟังก์ชันได้ไม่เต็มปากนัก....
ต่อจากนี้ก็น่าจะมีคนเอาอุปกรณ์ Mac มาต่อกันทำ inference farm แล้วเปิดให้บริการจากที่บ้านกันไม่น้อยเลยนะครับ
ชื่อที่พอใช้ได้ก็มีคนอื่นใช้กันหมดแล้ว
เห็นโทษ GitHub ก็เหมือนเป็นการด่าแบบ RMS มั่ว ๆ นั่นแหละ 555
บันทึกประจำรุ่นอย่างเป็นทางการของ Apple มีเพียงประโยคเดียวว่า "สามารถใช้ RDMA over Thunderbolt ได้แล้ว" ดังนั้นจึงได้เขียนคำอธิบายเพิ่มเติมไว้ใน GN+.
โอ๊ย ฉันดูแค่เนื้อหาแล้วลืมดูหัวข้อไปเลย T_T
ผู้เขียน: เห็นไหมล่ะ
กราฟน้ำหนักของผมกำลังพุ่งขึ้นไปทางขวาบน
มีใครรู้ไหมว่า
emacsหมายความว่าอะไร? ถึงจะมีความหมายอยู่ก็เถอะ แต่ชื่อแบบตัวย่อมันดูแวบเดียวก็ไม่รู้หรอกทั้งที่มันเป็นชื่อ… แล้วตอนนี้ก็มีโปรเจกต์เยอะเกินไปแล้วที่จะตั้งชื่อกันด้วยฟังก์ชันอย่างเดียวเก็บหน่วยกิตของ OMSCS ให้ครบก็จบการศึกษาได้ โดยไม่ต้องเขียนวิทยานิพนธ์