ตารางเทียบคำศัพท์วิทยาการคอมพิวเตอร์เกาหลี·จีน·ญี่ปุ่น
(cjk-compsci-terms.netlify.app)สวัสดีครับ หลังจากสร้างบัญชีบน GeekNews แล้ว ตลอดมาก็เป็นเพียงผู้อ่านอย่างเดียว แต่พอถึงวันฮันกึลก็ทำให้นึกถึงตาราง 《ตารางเทียบคำศัพท์วิทยาการคอมพิวเตอร์เกาหลี·จีน·ญี่ปุ่น》 ที่ทำไว้เมื่อต้นปีนี้ เลยลองนำมาแชร์ใน Show GN ดูครับ
ไม่ว่าในสาขาเฉพาะทางไหนก็มักจะมีแนวโน้มแบบนี้อยู่ แต่ทุกวันนี้เพื่อความสะดวก คำศัพท์วิทยาการคอมพิวเตอร์จำนวนมากมักไม่ใช้คำแปลที่บัญญัติและใช้กันมานานแล้ว แต่ใช้ภาษาอังกฤษทับศัพท์ตรง ๆ แทน ยกตัวอย่างเช่น ทุกวันนี้แม้แต่คำว่า “ค่า” ก็มักจะพูดกันว่า “value” และตอนเขียนก็มักใช้แบบนั้นเช่นกัน
อย่างไรก็ดี ในภาษาเกาหลีก็ยังมีคำแปลด้านวิทยาการคอมพิวเตอร์ที่ดีและใช้กันมาหลายสิบปีอยู่มาก และผมได้รู้ว่าคำเหล่านี้จำนวนไม่น้อยก็ใช้ร่วมกันกับญี่ปุ่นหรือไต้หวันซึ่งอยู่ในวัฒนธรรมอักษรจีนเหมือนกัน จึงทำตารางเปรียบเทียบนี้ขึ้นมาเล่น ๆ ครับ เนื่องในวันฮันกึล ถ้าลองแวะเข้าไปชมสักครั้งก็น่าจะดีครับ
ซอร์สโค้ดอยู่ที่ < https://github.com/dahlia/cjk-compsci-terms > คำศัพท์แต่ละคำถูกจัดไว้เป็นไฟล์ YAML ตามหมวดหมู่ภายในไดเรกทอรี tables/ ดังนั้นยินดีรับ PR สำหรับการเพิ่มคำศัพท์หรือแก้ไขข้อผิดพลาดด้วยครับ
ขอบคุณที่อ่านครับ!
13 ความคิดเห็น
มีข้อสงสัยครับ
พอดูการเขียนภาษาจีนและภาษาญี่ปุ่นใน YAML ก็พบว่าใช้การเขียนอักษรจีนแบบที่ใช้ในเกาหลี แล้วใส่รูปแบบอักษรจีนตัวเต็ม ตัวจีนตัวย่อ และตัวย่อแบบญี่ปุ่นไว้ด้านล่างใน
termเลยอยากทราบว่าพัฒนาขึ้นมาด้วยเจตนาแบบใด
ยกตัวอย่างเช่น สำหรับ Source Code
ระบุว่าในจีนแผ่นดินใหญ่ (zh-CN) ใช้คำว่า "源代碼" และ "源程序" ซึ่งเป็นการเขียนแบบอักษรจีนตามการแสดงผลด้วยฮันจาเกาหลี
แต่เมื่อดูใน
termกลับใช้รูปแบบตัวย่อได้ถูกต้อง จึงดูเหมือนขาดความสอดคล้องกันอยู่ครับเพื่ออ้างอิง Source Code นั้น
ในจีนแผ่นดินใหญ่ มักใช้ 源代码、源码、源程序
ในไต้หวัน ใช้ 原始碼、原始程式碼
ได้ยินมาว่าในฮ่องกงใช้ 原始碼, 源碼
และในกรณีของ Computer
ในจีนแผ่นดินใหญ่ คำทางการคือ "电子计算机" และในหนังสือกับเอกสารจำนวนมากก็ใช้คำว่า "计算机" สำหรับ Computer
แต่ด้วยอิทธิพลจากไต้หวันและฮ่องกง ผู้คนจึงนิยมใช้คำว่า "电脑" ปะปนกันอยู่มากเช่นกัน
อ้างอิง 1: https://zh.wikipedia.org/wiki/…
อ้างอิง 2: 电脑吧 https://tieba.baidu.com/f?kw=%B5%E7%C4%D4&fr=ala0&tpl=5
มุม CPU ของ JD.com : https://pcdiy.jd.com/
มุมโน้ตบุ๊กของ JD.com: https://list.jd.com/list.html?cat=670,671,672
ดังนั้น ในส่วนนี้น่าจะมีหลายประเด็นที่ต้องตรวจสอบว่า จะดำเนินการโดยยึดตามการเขียนอย่างเป็นทางการของภาครัฐเป็นหลักหรือไม่
รูปแบบคำที่ใช้ในกลุ่มภาษาจีนมีความแตกต่างกันไป และความถี่ในการใช้งานก็แตกต่างกันตามผู้ใช้แต่ละคน จึงดูเหมือนว่าจะมีหลายปัจจัยที่ต้องนำมาพิจารณาครับ
ขอบคุณสำหรับความเห็นอันมีค่า
ก่อนอื่น หากคุณลองตรวจดูหน้าที่เผยแพร่บนเว็บก่อน คุณจะยืนยันได้ว่าในบรรดาศัพท์ภาษาจีนแผ่นดินใหญ่ ไม่มีรายการใดที่แสดงด้วยการเขียนฮันจาแบบเกาหลีแทนอักษรจีนตัวย่อ เนื่องจากในข้อมูล YAML มีเพียงฟิลด์
termเท่านั้นที่เป็นเนื้อหาซึ่งแสดงบนหน้าจอจริง ดังนั้นตามที่คุณกล่าวไว้ เราจึงเขียนเฉพาะในtermด้วยรูปแบบการเขียนที่ใช้ในแต่ละภูมิภาค (ยกเว้นกรณีภาษาเกาหลีที่แสดงด้วยฮันจาแบบเกาหลีแทนฮันกึล)ถ้าเช่นนั้น สตริงรูปแบบ 《พจนานุกรมคังซี》ที่เขียนอยู่ด้านบนกว่านั้นคืออะไร ก็เป็นเพียงตัวระบุกลุ่มตามอำเภอใจสำหรับผูกคำร่วมเชื้อสายระหว่างภาษาต่าง ๆ (หรือภาษาถิ่น) ภายในข้อมูลเข้าด้วยกันเท่านั้น เพราะเป็นสิ่งที่กำหนดขึ้นตามอำเภอใจ จึงไม่จำเป็นต้องเป็นอักษรจีน จะใช้เป็นตัวเลขหรือแฮชธรรมดาก็ได้ อย่างไรก็ตาม ตัวอย่างเช่นภาษาญี่ปุ่น 「科学」 และภาษาจีนไต้หวัน 「科學」 ควรถูกแสดงว่าเชื่อมโยงกันในฐานะคำร่วมเชื้อสายคำเดียวกัน จึงต้องใช้ตัวระบุกลุ่มเดียวกัน ในทำนองเดียวกัน ภาษาเกาหลี 「keompyuteo」 และภาษาญี่ปุ่น 「コンピュータ」 ก็ต้องถูกจัดรวมด้วยตัวระบุกลุ่มเดียวกันเช่นกัน
แม้จะตั้งตัวระบุเป็นสตริงสุ่มไร้ความหมายอย่าง 「foobar」 ก็ได้ แต่ผมคิดว่าเพื่อความสะดวก การตั้งชื่อให้สื่อเนื้อหาและเป็นไปตามกฎที่สม่ำเสมอจะทำให้ดูแลจัดการได้ง่ายกว่า ดังนั้น สำหรับคำยืมจากภาษาอังกฤษ การเขียนด้วยอักษรโรมัน และสำหรับคำเชื้อสายอักษรจีน การเขียนด้วยอักษรจีน จึงเป็นกฎที่นึกออกได้ง่ายที่สุด อย่างไรก็ตาม การเขียนอักษรจีนเองก็มีได้หลายแบบ จึงต้องทำ normalization กับอักษรแปรรูปหรือรูปอักษรต่างแบบหลายชนิด (เพราะเป็นตัวระบุกลุ่มจึงต้องรวมให้เป็นหนึ่งเดียว) และในกระบวนการนี้ อักษรจีนตัวย่อของจีนหรือชินจิไตของญี่ปุ่นจึงหลุดจากตัวเลือกไปโดยธรรมชาติ เนื่องจากมีหลายกรณีที่นำอักษรต่างกันมารวมกันเพียงเพราะการอ่านออกเสียงตามมาตรฐานของแต่ละภูมิภาคเหมือนกัน จึงไม่เหมาะกับการทำ normalization (ทำให้ข้อมูลการจำแนกสูญหาย) ดังนั้นตัวเลือกจึงเหลือเพียงอักษรตัวเต็มแบบฮ่องกง อักษรมาตรฐานแบบไต้หวัน หรือฮันจาแบบเกาหลี เป็นต้น และผมเลือกยึดรูปแบบ 《พจนานุกรมคังซี》เป็นเกณฑ์ เพราะถือได้ว่าไม่มีนัยเชื่อมโยงกับระบอบการเขียนทางการเมืองใดที่ยังมีอยู่ในปัจจุบัน
เนื้อหาข้างต้นนี้ได้อธิบายไว้แล้วในไฟล์
CONTRIBUTING.mdภายในรีโพซิทอรี หากต้องการก็สามารถดูส่วนอื่น ๆ ที่เขียนไว้เพิ่มเติมได้เช่นกันการสำรวจอย่างกว้างขวางว่าผู้ใช้ภาษาใช้คำใดมากที่สุดในบรรดาคำหลายคำที่ชี้ถึงความหมายเดียวกัน หรือก็คือการทำความเข้าใจการกระจายตัวของคำศัพท์นั้น สำหรับบุคคลคนเดียวที่ไม่ใช่นักวิจัยผู้เชี่ยวชาญ ทั้งต้นทุนและเวลาก็มากเกินไปจนทำได้ยาก หากมีงานวิจัยก่อนหน้าที่สำรวจการกระจายการใช้คำศัพท์ในหมู่ผู้ทำวิจัยด้านวิทยาการคอมพิวเตอร์หรือผู้พัฒนาซอฟต์แวร์ ผมก็อยากนำมาใช้เชิงรุกเช่นกัน แต่ถ้ายังไม่มีสิ่งนั้น โดยส่วนตัวแล้วผมจำเป็นต้องพึ่งพาความช่วยเหลือจากผู้มีส่วนร่วมหลายคน โดยเฉพาะข้อเสนอจากเจ้าของภาษาของแต่ละภาษาอย่างยิ่ง แน่นอนว่าจนถึงตอนนี้ผมสำรวจอยู่คนเดียว จึงหลีกเลี่ยงไม่ได้ที่จะต้องอาศัย Chinese Wikipedia หรือ Baidu Baike เป็นหลัก
สำหรับกรณีตัวอย่างเฉพาะที่คุณกล่าวถึง หากส่งพูลรีเควสต์มา ก็น่าจะสะท้อนเข้าไปได้เร็วกว่า
ขอบคุณที่อ่านความเห็นยาว ๆ นี้จนจบ
ถ้าอ้างอิง
English-Chinese Glossary of IT Termsที่จัดพิมพ์โดยรัฐบาลฮ่องกง ก็จะช่วยรวบรวมคำศัพท์ที่ใช้ในฮ่องกงได้ครับhttps://ogcio.gov.hk/en/our_work/…
ยอดเยี่ยมมาก :D
ขอบคุณสำหรับการสรุปที่ดีครับ
ถ้ามีโอกาสในภายหลังก็อยากเห็นข้อมูลเกี่ยวกับคำศัพท์คอมพิวเตอร์ของเกาหลีเหนือด้วยนะครับ ไม่แน่ใจว่าที่ศูนย์ข้อมูลเกาหลีเหนือของกระทรวงการรวมชาติจะมีเอกสารที่เหมาะสมหรือไม่
มีอยู่แล้วบนเว็บไซต์ของกระทรวงการรวมชาติ
เปรียบเทียบคำศัพท์ไอทีระหว่างเกาหลีเหนือและเกาหลีใต้: https://nkinfo.unikorea.go.kr/nkp/term/skNkItTerm.do
ถ้าลองแกะอะไรอย่าง Red Star ซึ่งเป็นลินุกซ์ดิสทริบิวชันของเกาหลีเหนือดู ก็น่าจะมีข้อมูลอะไรออกมาบ้างเหมือนกันนะครับ ดูเหมือนว่าจะมี 《พจนานุกรมภาษาเกาหลีฉบับใหญ่》 อยู่ในนั้นด้วย... ไว้ถ้ามีเวลาจะลองเพิ่มภาษาเกาหลีเหนือเข้าไปด้วยครับ!
การเปรียบเทียบคำศัพท์ IT ระหว่างเกาหลีเหนือและเกาหลีใต้: https://nkinfo.unikorea.go.kr/nkp/term/skNkItTerm.do
ถ้าสแครปอันนี้ ก็น่าจะเพิ่มได้อย่างรวดเร็วครับ
ดูดีๆ แล้วก็พบว่าไม่จำเป็นต้องสแครปเลย เพราะเขาให้เนื้อหาทั้งหมดมาเป็นไฟล์ฟอร์แมต xls อยู่แล้ว
น่าจะแยก
koออกเป็นko-krกับko-kpแล้วใส่คำศัพท์คอมพิวเตอร์ของเกาหลีเหนือเพิ่มเข้าไปก็น่าจะดีนะผมนึกว่าถ้าครอบด้วย <> แบบใน Markdown มันจะจับขอบเขต URL ได้ แต่ดูเหมือนจะไม่ใช่แฮะ 😅 ลิงก์รีโพซิทอรี่อยู่ทางนี้ครับ: https://github.com/dahlia/cjk-compsci-terms
กำลังต้องทำงานรองรับ Markdown อยู่ แต่ยังทำไม่ได้เลย T_T
ฉันเลยแก้ไว้ให้โดยเพิ่มแค่เว้นวรรคหน้าและหลังเพื่อให้คลิก URL ได้
แต่นี่เป็น Show ที่เข้ากับวันฮันกึลจริง ๆ นะครับ จะดูอย่างสนุกเลย!
ขอบคุณที่ช่วยแก้ไขเนื้อหาด้วยครับ!