- เกิดการสูญหายทั้งหมดของข้อมูล G-Drive cloud ของรัฐบาล จากเหตุไฟไหม้ห้องเซิร์ฟเวอร์ของ National Information Resources Service (NIRS) ในเมืองแทจอน
- ปัญหาไฟล์งานส่วนบุคคลของข้าราชการราว 750,000 คน ถูกลบถาวร
- จุดอ่อนร้ายแรงคือถูกออกแบบเป็น สตอเรจความจุสูง ประสิทธิภาพต่ำ ทำให้ไม่มีการแบ็กอัปภายนอก
- บางหน่วยงาน โดยเฉพาะ Ministry of Personnel Management ได้รับความเสียหายหนัก และการกู้คืนทำได้อย่างจำกัด
- เสียงวิจารณ์ ต่อระบบการจัดการข้อมูลขยายวงกว้าง และมีข้อเรียกร้องให้ป้องกันไม่ให้เกิดซ้ำ
ภาพรวมเหตุระบบคลาวด์สตอเรจของรัฐบาลสูญหายจากไฟไหม้ NIRS
- เหตุไฟไหม้ที่อาคารหลักของ National Information Resources Service (NIRS) ในเมืองแทจอน เมื่อวันที่ 27 กันยายน ทำให้ระบบ คลาวด์สตอเรจ G-Drive ของรัฐบาลสูญหาย
- ตามการประกาศของ Ministry of the Interior and Safety ไฟล์งานที่ข้าราชการ 750,000 คนจัดเก็บไว้เป็นการส่วนตัวถูกลบทั้งหมด
ความเสียหายและผลกระทบ
- ไฟไหม้เกิดขึ้นที่ห้องเซิร์ฟเวอร์ชั้น 5 ของศูนย์ ส่งผลให้ ระบบสารสนเทศ 96 ระบบที่จำเป็นต่อการทำงานของรัฐบาลกลาง และแพลตฟอร์ม G-Drive ได้รับความเสียหายอย่างรุนแรง
- G-Drive ซึ่งเริ่มใช้งานในปี 2018 บังคับให้ข้าราชการจัดเก็บเอกสารงานทั้งหมดไว้บนคลาวด์แทนการเก็บไว้ในพีซีส่วนตัว
- มีโครงสร้างให้พื้นที่ประมาณ 30GB ต่อคน
การแบ็กอัปที่ไม่เพียงพอและสาเหตุของการสูญหายถาวรของข้อมูล
- ระบบถูกออกแบบเป็น โครงสร้างสตอเรจความจุสูง ประสิทธิภาพต่ำ จึงเป็นระบบที่ ไม่มีการแบ็กอัปภายนอก
- ข้อจำกัดเชิงโครงสร้างนี้ทำให้เกิดสถานการณ์ที่ไม่สามารถกู้คืนข้อมูลจากเหตุไฟไหม้ได้
ความแตกต่างของความเสียหายตามหน่วยงาน
- ขนาดความเสียหายแตกต่างกันไปในแต่ละหน่วยงาน
- Ministry of Personnel Management ได้รับความเสียหายมากที่สุด เนื่องจากกำหนดให้จัดเก็บเอกสารทั้งหมดไว้ใน G-Drive
- บางหน่วยงาน เช่น Office for Government Policy Coordination ได้รับผลกระทบค่อนข้างน้อยกว่า
ความพยายามในการกู้คืนและข้อจำกัด
- ในช่วงหนึ่งเดือนที่ผ่านมา แต่ละกระทรวงกำลังดำเนินการกู้คืนแบบจำกัด โดยอาศัยข้อมูลทดแทน เช่น ไฟล์ที่เก็บไว้ในพีซีส่วนตัว อีเมล เอกสารทางการ และบันทึกการพิมพ์
- เอกสารบางส่วนที่สร้างขึ้นผ่านการอนุมัติและรายงานอย่างเป็นทางการยังถูกเก็บไว้ใน ระบบ Onnara ด้วย จึงยังมีความเป็นไปได้ที่จะกู้คืนข้อมูลบางส่วนได้หากระบบดังกล่าวได้รับการกู้คืน
ข้อวิจารณ์ต่อระบบการจัดการข้อมูล
- โดยปกติแล้ว ระบบส่วนใหญ่จะมี การแบ็กอัปทุกวันทั้งบนอุปกรณ์แยกภายในศูนย์และที่ศูนย์แบ็กอัประยะไกล แต่ G-Drive มีจุดอ่อนผิดปกติจากข้อจำกัดเชิงโครงสร้างที่ทำให้ ไม่สามารถแบ็กอัปภายนอกได้
- เหตุการณ์ครั้งนี้ทำให้เสียงวิจารณ์ต่อ ระบบความปลอดภัยและการจัดการข้อมูล ของรัฐบาลรุนแรงขึ้น และมีการเรียกร้องให้จัดทำมาตรการป้องกันไม่ให้เกิดซ้ำ
1 ความคิดเห็น
ความเห็นจาก Hacker News
รู้สึกโกรธที่ไม่มีแบ็กอัป แต่ก็อยากรู้สถานการณ์ให้มากกว่านี้ก่อนจะไปเอาผิดใครจริงจัง
จำได้ว่าตอนทำงานเป็นผู้รับผิดชอบคอมพิวเตอร์คนแรกในช่วงปี 1990–1991 เมนเทอร์เคยบอกว่า "หน้าที่ของคุณคือทำให้แน่ใจว่าแบ็กอัปทำงานอยู่ ที่เหลือเป็นแค่โบนัส"
ตอนนั้นระบบแบ็กอัปเทปเต็มความจุ จึงเริ่มทำสำเนาข้อมูลสำคัญระหว่างสองไซต์ผ่านโมเด็ม 14400bps และทิ้งบันทึกขอระบบแบ็กอัปที่ใช้งานได้ทุกเดือน แต่บริษัทก็เมินเพราะเรื่องต้นทุน
ตอนฮาร์ดดิสก์เซิร์ฟเวอร์เสีย ดูเหมือนจะเป็นปัญหาที่ลูกปืน จึงเปิดเคสฮาร์ดแล้วใช้นิ้วหมุนจานแพลตเตอร์ให้มันยื้ออยู่ได้อีกไม่กี่สัปดาห์ เพื่อให้เห็นความร้ายแรงของปัญหา ผมให้ผู้จัดการมาดูด้วยตาตัวเอง สุดท้ายก็ซื้อฮาร์ดลูกใหม่ แต่ไม่ยอมซื้อเพิ่มสำหรับทำมิเรอร์
หนึ่งเดือนหลังผมลาออก เซิร์ฟเวอร์ก็ล่มแล้วพยายามจะโทษผม แต่คนที่มารับช่วงต่อเจอกองบันทึกที่ผมทิ้งไว้ จึงช่วยแก้ความเข้าใจผิดได้
ชอบที่ช่วงท้ายบทความมีการระบุไว้อย่างชัดเจนว่า
จริง ๆ แล้วเทคโนโลยี LLM เองก็ถูกพัฒนาขึ้นมาเพื่อการแปลตั้งแต่แรก
มีการวิจัยเพราะต้องการสร้างโมเดลที่จัดการบริบทได้ และต่อมาก็พบว่าเอาไปใช้ประโยชน์ได้ดีในอีกหลายด้าน
ในวงการแปลเอง เทคโนโลยีที่อิง LLM ก็ถูกใช้งานอย่างมีประสิทธิภาพมานานเกิน 5 ปีแล้ว
ผมแปลแบบนี้มาหลายปีแล้ว แม้แต่ก่อนยุค LLM การให้เครื่องแปลก่อนแล้วค่อยมาแก้ ระหว่างภาษาที่ผมถนัด ก็เร็วกว่าการแปลเองตั้งแต่ต้นมาก
(ในเวิร์กโฟลว์การแปลจริง ๆ มันไม่ใช่ประเด็นใหญ่ว่า machine translation นั้นเป็น LLM หรือไม่)
ผมยังคิดว่าได้ผลลัพธ์ที่ไร้ประโยชน์สิ้นดีอยู่ดี
ดูบทความนี้เรื่อง AI แย่งงานนักแปลของฉัน
มีการแชร์ ลิงก์ที่เกี่ยวข้อง
ดูไทม์ไลน์แล้วขนลุก
วันที่เกิดไฟไหม้คือวันเดียวกับวันที่กำหนดจะเริ่มการตรวจสอบภาคสนามของรัฐบาลพอดี (เกี่ยวกับการแฮ็กจากจีน/เกาหลีเหนือ)
อ้าง บทความ
พอเห็นข้อมูลเชิงลำดับเหตุการณ์แบบนี้ ก็ทำให้หมดความคิดที่จะออกมาพูดสิ่งที่ถูกต้องเพื่อต่อต้านอำนาจ
รู้สึกว่าแค่ลบข้อมูล ทิ้งอุปกรณ์ แล้วนั่งรถบัสไปเริ่มงานใหม่ในเมืองอื่นน่าจะดีกว่า
ถ้ามองในแง่ดี ทางเทคนิคแล้วมีความเป็นไปได้สูงว่าจริง ๆ อาจมีแบ็กอัปอยู่ (ดูข้อ 1.3)
ปัญหาคือมีข่าวลือว่าแบ็กอัปนั้นอยู่ในเกาหลีเหนือหรือจีน
น่าตกใจมาก
ไม่ใช่ประเด็นสำคัญที่สุดของบทความนี้ก็จริง แต่ผมไม่เข้าใจว่าทำไมแม้แต่นักเขียนบทความเองซึ่งบัญชีถูกระงับไปแล้ว ยังออกมาปกป้อง Proton อยู่
ทั้งที่มีคำบอกเล่าว่าคนในหน่วยข่าวกรองเกาหลีเตือนว่า Proton ไม่ปลอดภัย
ต่อให้มันปลอดภัยสมบูรณ์แบบในทางเทคนิค ก็แสดงให้เห็นว่าบริษัทนี้ไม่ได้มีเข็มทิศทางศีลธรรมชัดเจนอย่างที่หลายคนคิด
เจ้าหน้าที่รัฐที่เคยบอกว่าเชื่อถือ AWS/GCP/Azure เชิงพาณิชย์ไม่ได้ คงต้องเงียบ ๆ ไปสักพัก
"กระทรวงมหาดไทยและความปลอดภัยของเกาหลีอธิบายว่า ระบบส่วนใหญ่ของศูนย์ข้อมูลแทจอนมีการแบ็กอัปรายวันไปยังอุปกรณ์แยกต่างหากภายในศูนย์เดียวกันและไปยังสถานที่แบ็กอัปที่แยกออกทางกายภาพ แต่ด้วยโครงสร้างของ G-Drive จึงไม่สามารถแบ็กอัปภายนอกได้"
ผมคิดว่านี่เป็นสถานการณ์ที่เหลือเชื่อจริง ๆ
ผมคิดว่าปัญหาไม่ใช่การปฏิเสธใช้บริษัทต่างชาติ
การกำหนดให้ต้องใช้สตอเรจภายนอก แต่กลับไม่ทำแบ็กอัปจริง ๆ ต่างหากที่เป็นงานบริหารสุดเพี้ยน
ไฟไหม้เป็นความเสี่ยงพื้นฐานที่สุดที่ควรนึกถึงอยู่แล้ว การไม่เตรียมการแม้แต่ระดับนี้เป็นความล้มเหลวด้านการกำกับดูแลที่ไม่น่าเชื่อ
เห็นด้วยว่าการรันระบบสำคัญขนาดนี้โดยไม่มีแบ็กอัปเป็นเรื่องร้ายแรง
แต่ถึงอย่างนั้น ผมก็ยังคิดว่าในระดับรัฐบาล การเก็บข้อมูลสำคัญไว้บนคลาวด์ของต่างชาติก็ไม่เหมาะสม
ถ้าใช้คลาวด์ก็คงทำความซ้ำซ้อนได้ง่ายขึ้น แต่ก็ไม่ใช่วิธีเดียว
ตั้งแต่แนวคิดการออกแบบก็ผิดไปแล้ว และเป็นโครงสร้างที่ไม่มีการทำ redundancy อย่างแท้จริง
ทางแก้ง่าย ๆ ของปัญหานี้คือ ทำไซต์แบ็กอัปสำรองด้วย snapmirror บน netapp หลายเครื่อง
หรือใช้โซลูชันโอเพนซอร์สอย่าง ZFS, DRBD ก็ได้
ทุกวันนี้มีทางเลือกแบบนี้มากพอที่ใคร ๆ ก็ใช้งานได้
หลายคนคิดว่าบริษัทพวกนี้ไม่มีทางทำข้อมูลหาย แต่ก็เคยมีกรณีศูนย์ข้อมูลพังเพราะฟ้าผ่าเหมือนกัน (ข่าวที่เกี่ยวข้อง)
ในมุมของรัฐบาล ข้อมูลไม่ควรไปอยู่ในสภาพแวดล้อมที่ถูกดูแลโดยบริษัทเอกชนของต่างประเทศ
นี่เป็นประเด็นที่แยกจากปัญหาแบ็กอัปโดยสิ้นเชิง
ที่จริงหนักกว่านั้นอีก
ตามบทความอื่น ปริมาณข้อมูลรวมทั้ง G-Drive มีเพียง 858TB
แม้จะเป็นการคำนวณคร่าว ๆ ที่ออกจะขำอยู่บ้าง แต่ถ้าอิง AWS S3 ก็สามารถแบ็กอัปทั้งหมดได้ด้วยค่าใช้จ่ายเดือนละ 20,000 ดอลลาร์สหรัฐ (ประมาณ 20 ล้านวอน)
ถ้าลดระดับไปเป็น “Glacier deep archive” ก็จะเหลือแค่ 900 ดอลลาร์ต่อเดือนเท่านั้น
มีแบ็กอัปอยู่ก็จริง แต่ทั้งหมดอยู่ในห้องเซิร์ฟเวอร์เดียวกัน (บทความ 1, บทความ 2)
ไม่ควรใช้ค่าเฉลี่ย 30GB ต่อคน
ในความเป็นจริงปริมาณการใช้งานเฉลี่ยอาจอยู่แค่ระดับ 0.3GB เท่านั้น
นอกเหนือจากคอมเมนต์ในบทความ ยังไม่ชัดเจนว่าจริง ๆ แล้วไม่มีแบ็กอัปเลยหรือไม่
ดูเหมือนจะชัดเจนว่าไม่มีแบ็กอัป "ภายนอก" แต่ก็เป็นไปได้ว่าอาจมีแบ็กอัป "ภายใน"
ถ้าเป็นระบบที่ไม่อนุญาตให้ทำแบ็กอัปและรวมข้อมูลทั้งหมดไว้ที่เดียว ก็อาจกลายเป็นเป้าของการโจมตีจากภายนอกได้ ขณะเดียวกันจากประสบการณ์ของผม ภายในองค์กรก็มักมีอุปกรณ์แบ็กอัปทางกายภาพอย่าง fire vault (ตู้เซฟกันระเบิด/กันไฟ) อยู่ด้วย
แน่นอนว่าถ้าไม่มีแม้แต่อุปกรณ์แบบนี้จริง ๆ ก็นับว่าเป็นความผิดพลาดครั้งใหญ่
อ้างอิงเพิ่มเติม มีกรณีศึกษาในงานวิจัยเมื่อหลายสิบปีก่อนด้วยว่าการสร้างระบบเก็บถาวรลักษณะนี้ทำได้ (บทความโครงการของ IBM)
ที่น่าสนใจคือ ไม่กี่สัปดาห์ก่อนก็มีเหตุคล้ายกันในเนปาล
ผู้ประท้วงเผาอาคารรัฐบาลบางส่วนจนโครงสร้างพื้นฐานด้าน IT ถูกทำลาย สุดท้ายข้อมูลอิเล็กทรอนิกส์แทบทั้งหมดก็หายไป
ถ้าเอกสารพวกนี้ยังอยู่ในรูปแบบแอนะล็อก ผลลัพธ์จะต่างออกไปไหมก็ชวนสงสัย
ข้อดีของข้อมูลอิเล็กทรอนิกส์คือทำแบ็กอัปได้ แต่ต่อให้ดำเนินการด้วยกระดาษล้วน สถานการณ์ก็คงไม่ได้ดีกว่านี้นัก
หรือพวกเขาเป็นพวกชาตินิยมต่อต้านอำนาจกันนะ
ในหนัง Blade Runner ก็มีเหตุการณ์คล้ายกันเกิดขึ้นเหมือนกัน
ไม่กี่วันก่อน เว็บไซต์สมัคร GKS (ทุนการศึกษารัฐบาลเกาหลีใต้สำหรับนักศึกษาต่างชาติ) เข้าใช้งานไม่ได้อยู่หลายวัน และน่าตกใจที่ข้อมูลอาจหายไปทั้งหมดจริง ๆ
ผมคิดว่านี่เป็นโอกาสที่จะสร้างระบบเว็บไซต์ที่ดีกว่าเดิม
ตอนนี้ข้อมูลสำคัญมาก ๆ ในเกาหลีได้หายวับไปในพริบตา จนกลายเป็นประเด็นใหญ่ในชุมชนและมีคนพูดถึงกันมาก
ผมมั่นใจว่าข้อมูลล้ำค่าจำนวนมากน่าจะหายไปถาวรแล้ว แต่ในอีกมุมหนึ่งก็อดยิ้มไม่ได้เมื่อนึกภาพว่าฝ่ายดูแลอาจส่งข้อความประมาณว่า "ถ้ามีใครในเงา IT ที่แอบรันมิเรอร์ฐานข้อมูลไว้อย่างไม่เป็นทางการ ตอนนี้มารายงานได้เลย จะไม่เอาผิดใด ๆ"
ผมเองก็เคยมีประสบการณ์ทำแบ็กอัปแยกแบบไม่เป็นทางการเหมือนกัน เวลาที่ต้นฉบับข้อมูลสำคัญจริง ๆ เปลี่ยนไปเรื่อย ๆ หรือเซิร์ฟเวอร์ดับ ค้าง หรือรวนอยู่ตลอด
หลายคนบอกว่าปัญหาคือการปฏิเสธใช้คลาวด์สหรัฐ แต่ผมไม่คิดว่านั่นคือแก่นของเรื่อง
ขึ้นอยู่กับสถานการณ์ การดูแลโครงสร้างพื้นฐานเองเป็นการตัดสินใจที่สมเหตุสมผลได้เต็มที่
แต่ในกรณีนี้ ปัญหาใหญ่ที่สุดคือการชูเรื่องความปลอดภัยและความเป็นส่วนตัวจนยอมเสีย "ความพร้อมใช้งาน" ไป
ความเสี่ยงที่จะสูญเสียข้อมูลจากภัยพิบัติทางกายภาพ (ไฟไหม้ แผ่นดินไหว) หรือความผิดพลาดของมนุษย์มีอยู่เสมอ
ระบบที่ป้องกันความเสี่ยงแบบนี้ไม่ได้ไม่ควรถูกนำไปใช้งานเด็ดขาด
ตามคำอธิบายของกระทรวงมหาดไทยและความปลอดภัย ระบบส่วนใหญ่ของศูนย์ข้อมูลแทจอนมีแบ็กอัปไว้ที่อื่น แต่ G-Drive ไม่สามารถแบ็กอัปภายนอกได้เพราะข้อจำกัดเชิงโครงสร้าง
นั่นหมายความว่าพวกเขารู้ถึงความเสี่ยงนี้อยู่แล้วแต่เลือกจะยอมรับมัน และผลลัพธ์ก็คือสิ่งที่เกิดขึ้นตอนนี้