15 คะแนน โดย hongminhee 2021-10-09 | 13 ความคิดเห็น | แชร์ทาง WhatsApp

สวัสดีครับ หลังจากสร้างบัญชีบน GeekNews แล้ว ตลอดมาก็เป็นเพียงผู้อ่านอย่างเดียว แต่พอถึงวันฮันกึลก็ทำให้นึกถึงตาราง 《ตารางเทียบคำศัพท์วิทยาการคอมพิวเตอร์เกาหลี·จีน·ญี่ปุ่น》 ที่ทำไว้เมื่อต้นปีนี้ เลยลองนำมาแชร์ใน Show GN ดูครับ

ไม่ว่าในสาขาเฉพาะทางไหนก็มักจะมีแนวโน้มแบบนี้อยู่ แต่ทุกวันนี้เพื่อความสะดวก คำศัพท์วิทยาการคอมพิวเตอร์จำนวนมากมักไม่ใช้คำแปลที่บัญญัติและใช้กันมานานแล้ว แต่ใช้ภาษาอังกฤษทับศัพท์ตรง ๆ แทน ยกตัวอย่างเช่น ทุกวันนี้แม้แต่คำว่า “ค่า” ก็มักจะพูดกันว่า “value” และตอนเขียนก็มักใช้แบบนั้นเช่นกัน

อย่างไรก็ดี ในภาษาเกาหลีก็ยังมีคำแปลด้านวิทยาการคอมพิวเตอร์ที่ดีและใช้กันมาหลายสิบปีอยู่มาก และผมได้รู้ว่าคำเหล่านี้จำนวนไม่น้อยก็ใช้ร่วมกันกับญี่ปุ่นหรือไต้หวันซึ่งอยู่ในวัฒนธรรมอักษรจีนเหมือนกัน จึงทำตารางเปรียบเทียบนี้ขึ้นมาเล่น ๆ ครับ เนื่องในวันฮันกึล ถ้าลองแวะเข้าไปชมสักครั้งก็น่าจะดีครับ

ซอร์สโค้ดอยู่ที่ < https://github.com/dahlia/cjk-compsci-terms > คำศัพท์แต่ละคำถูกจัดไว้เป็นไฟล์ YAML ตามหมวดหมู่ภายในไดเรกทอรี tables/ ดังนั้นยินดีรับ PR สำหรับการเพิ่มคำศัพท์หรือแก้ไขข้อผิดพลาดด้วยครับ

ขอบคุณที่อ่านครับ!

13 ความคิดเห็น

 
dhsung 2021-10-10

มีข้อสงสัยครับ

พอดูการเขียนภาษาจีนและภาษาญี่ปุ่นใน YAML ก็พบว่าใช้การเขียนอักษรจีนแบบที่ใช้ในเกาหลี แล้วใส่รูปแบบอักษรจีนตัวเต็ม ตัวจีนตัวย่อ และตัวย่อแบบญี่ปุ่นไว้ด้านล่างใน term

เลยอยากทราบว่าพัฒนาขึ้นมาด้วยเจตนาแบบใด

ยกตัวอย่างเช่น สำหรับ Source Code

ระบุว่าในจีนแผ่นดินใหญ่ (zh-CN) ใช้คำว่า "源代碼" และ "源程序" ซึ่งเป็นการเขียนแบบอักษรจีนตามการแสดงผลด้วยฮันจาเกาหลี

แต่เมื่อดูใน term กลับใช้รูปแบบตัวย่อได้ถูกต้อง จึงดูเหมือนขาดความสอดคล้องกันอยู่ครับ

เพื่ออ้างอิง Source Code นั้น

ในจีนแผ่นดินใหญ่ มักใช้ 源代码、源码、源程序

ในไต้หวัน ใช้ 原始碼、原始程式碼

ได้ยินมาว่าในฮ่องกงใช้ 原始碼, 源碼

และในกรณีของ Computer

ในจีนแผ่นดินใหญ่ คำทางการคือ "电子计算机" และในหนังสือกับเอกสารจำนวนมากก็ใช้คำว่า "计算机" สำหรับ Computer

แต่ด้วยอิทธิพลจากไต้หวันและฮ่องกง ผู้คนจึงนิยมใช้คำว่า "电脑" ปะปนกันอยู่มากเช่นกัน

อ้างอิง 1: https://zh.wikipedia.org/wiki/…

อ้างอิง 2: 电脑吧 https://tieba.baidu.com/f?kw=%B5%E7%C4%D4&fr=ala0&tpl=5

มุม CPU ของ JD.com : https://pcdiy.jd.com/

มุมโน้ตบุ๊กของ JD.com: https://list.jd.com/list.html?cat=670,671,672

ดังนั้น ในส่วนนี้น่าจะมีหลายประเด็นที่ต้องตรวจสอบว่า จะดำเนินการโดยยึดตามการเขียนอย่างเป็นทางการของภาครัฐเป็นหลักหรือไม่

รูปแบบคำที่ใช้ในกลุ่มภาษาจีนมีความแตกต่างกันไป และความถี่ในการใช้งานก็แตกต่างกันตามผู้ใช้แต่ละคน จึงดูเหมือนว่าจะมีหลายปัจจัยที่ต้องนำมาพิจารณาครับ

 
hongminhee 2021-10-10

ขอบคุณสำหรับความเห็นอันมีค่า

ก่อนอื่น หากคุณลองตรวจดูหน้าที่เผยแพร่บนเว็บก่อน คุณจะยืนยันได้ว่าในบรรดาศัพท์ภาษาจีนแผ่นดินใหญ่ ไม่มีรายการใดที่แสดงด้วยการเขียนฮันจาแบบเกาหลีแทนอักษรจีนตัวย่อ เนื่องจากในข้อมูล YAML มีเพียงฟิลด์ term เท่านั้นที่เป็นเนื้อหาซึ่งแสดงบนหน้าจอจริง ดังนั้นตามที่คุณกล่าวไว้ เราจึงเขียนเฉพาะใน term ด้วยรูปแบบการเขียนที่ใช้ในแต่ละภูมิภาค (ยกเว้นกรณีภาษาเกาหลีที่แสดงด้วยฮันจาแบบเกาหลีแทนฮันกึล)

ถ้าเช่นนั้น สตริงรูปแบบ 《พจนานุกรมคังซี》ที่เขียนอยู่ด้านบนกว่านั้นคืออะไร ก็เป็นเพียงตัวระบุกลุ่มตามอำเภอใจสำหรับผูกคำร่วมเชื้อสายระหว่างภาษาต่าง ๆ (หรือภาษาถิ่น) ภายในข้อมูลเข้าด้วยกันเท่านั้น เพราะเป็นสิ่งที่กำหนดขึ้นตามอำเภอใจ จึงไม่จำเป็นต้องเป็นอักษรจีน จะใช้เป็นตัวเลขหรือแฮชธรรมดาก็ได้ อย่างไรก็ตาม ตัวอย่างเช่นภาษาญี่ปุ่น 「科学」 และภาษาจีนไต้หวัน 「科學」 ควรถูกแสดงว่าเชื่อมโยงกันในฐานะคำร่วมเชื้อสายคำเดียวกัน จึงต้องใช้ตัวระบุกลุ่มเดียวกัน ในทำนองเดียวกัน ภาษาเกาหลี 「keompyuteo」 และภาษาญี่ปุ่น 「コンピュータ」 ก็ต้องถูกจัดรวมด้วยตัวระบุกลุ่มเดียวกันเช่นกัน

แม้จะตั้งตัวระบุเป็นสตริงสุ่มไร้ความหมายอย่าง 「foobar」 ก็ได้ แต่ผมคิดว่าเพื่อความสะดวก การตั้งชื่อให้สื่อเนื้อหาและเป็นไปตามกฎที่สม่ำเสมอจะทำให้ดูแลจัดการได้ง่ายกว่า ดังนั้น สำหรับคำยืมจากภาษาอังกฤษ การเขียนด้วยอักษรโรมัน และสำหรับคำเชื้อสายอักษรจีน การเขียนด้วยอักษรจีน จึงเป็นกฎที่นึกออกได้ง่ายที่สุด อย่างไรก็ตาม การเขียนอักษรจีนเองก็มีได้หลายแบบ จึงต้องทำ normalization กับอักษรแปรรูปหรือรูปอักษรต่างแบบหลายชนิด (เพราะเป็นตัวระบุกลุ่มจึงต้องรวมให้เป็นหนึ่งเดียว) และในกระบวนการนี้ อักษรจีนตัวย่อของจีนหรือชินจิไตของญี่ปุ่นจึงหลุดจากตัวเลือกไปโดยธรรมชาติ เนื่องจากมีหลายกรณีที่นำอักษรต่างกันมารวมกันเพียงเพราะการอ่านออกเสียงตามมาตรฐานของแต่ละภูมิภาคเหมือนกัน จึงไม่เหมาะกับการทำ normalization (ทำให้ข้อมูลการจำแนกสูญหาย) ดังนั้นตัวเลือกจึงเหลือเพียงอักษรตัวเต็มแบบฮ่องกง อักษรมาตรฐานแบบไต้หวัน หรือฮันจาแบบเกาหลี เป็นต้น และผมเลือกยึดรูปแบบ 《พจนานุกรมคังซี》เป็นเกณฑ์ เพราะถือได้ว่าไม่มีนัยเชื่อมโยงกับระบอบการเขียนทางการเมืองใดที่ยังมีอยู่ในปัจจุบัน

เนื้อหาข้างต้นนี้ได้อธิบายไว้แล้วในไฟล์ CONTRIBUTING.md ภายในรีโพซิทอรี หากต้องการก็สามารถดูส่วนอื่น ๆ ที่เขียนไว้เพิ่มเติมได้เช่นกัน

การสำรวจอย่างกว้างขวางว่าผู้ใช้ภาษาใช้คำใดมากที่สุดในบรรดาคำหลายคำที่ชี้ถึงความหมายเดียวกัน หรือก็คือการทำความเข้าใจการกระจายตัวของคำศัพท์นั้น สำหรับบุคคลคนเดียวที่ไม่ใช่นักวิจัยผู้เชี่ยวชาญ ทั้งต้นทุนและเวลาก็มากเกินไปจนทำได้ยาก หากมีงานวิจัยก่อนหน้าที่สำรวจการกระจายการใช้คำศัพท์ในหมู่ผู้ทำวิจัยด้านวิทยาการคอมพิวเตอร์หรือผู้พัฒนาซอฟต์แวร์ ผมก็อยากนำมาใช้เชิงรุกเช่นกัน แต่ถ้ายังไม่มีสิ่งนั้น โดยส่วนตัวแล้วผมจำเป็นต้องพึ่งพาความช่วยเหลือจากผู้มีส่วนร่วมหลายคน โดยเฉพาะข้อเสนอจากเจ้าของภาษาของแต่ละภาษาอย่างยิ่ง แน่นอนว่าจนถึงตอนนี้ผมสำรวจอยู่คนเดียว จึงหลีกเลี่ยงไม่ได้ที่จะต้องอาศัย Chinese Wikipedia หรือ Baidu Baike เป็นหลัก

สำหรับกรณีตัวอย่างเฉพาะที่คุณกล่าวถึง หากส่งพูลรีเควสต์มา ก็น่าจะสะท้อนเข้าไปได้เร็วกว่า

ขอบคุณที่อ่านความเห็นยาว ๆ นี้จนจบ

 
dhsung 2021-10-10

ถ้าอ้างอิง English-Chinese Glossary of IT Terms ที่จัดพิมพ์โดยรัฐบาลฮ่องกง ก็จะช่วยรวบรวมคำศัพท์ที่ใช้ในฮ่องกงได้ครับ

https://ogcio.gov.hk/en/our_work/…

 
alstjr7375 2021-10-09

ยอดเยี่ยมมาก :D

 
kunggom 2021-10-09

ขอบคุณสำหรับการสรุปที่ดีครับ

ถ้ามีโอกาสในภายหลังก็อยากเห็นข้อมูลเกี่ยวกับคำศัพท์คอมพิวเตอร์ของเกาหลีเหนือด้วยนะครับ ไม่แน่ใจว่าที่ศูนย์ข้อมูลเกาหลีเหนือของกระทรวงการรวมชาติจะมีเอกสารที่เหมาะสมหรือไม่

 
dhsung 2021-10-10

มีอยู่แล้วบนเว็บไซต์ของกระทรวงการรวมชาติ

เปรียบเทียบคำศัพท์ไอทีระหว่างเกาหลีเหนือและเกาหลีใต้: https://nkinfo.unikorea.go.kr/nkp/term/skNkItTerm.do

 
hongminhee 2021-10-09

ถ้าลองแกะอะไรอย่าง Red Star ซึ่งเป็นลินุกซ์ดิสทริบิวชันของเกาหลีเหนือดู ก็น่าจะมีข้อมูลอะไรออกมาบ้างเหมือนกันนะครับ ดูเหมือนว่าจะมี 《พจนานุกรมภาษาเกาหลีฉบับใหญ่》 อยู่ในนั้นด้วย... ไว้ถ้ามีเวลาจะลองเพิ่มภาษาเกาหลีเหนือเข้าไปด้วยครับ!

 
dhsung 2021-10-10

การเปรียบเทียบคำศัพท์ IT ระหว่างเกาหลีเหนือและเกาหลีใต้: https://nkinfo.unikorea.go.kr/nkp/term/skNkItTerm.do

ถ้าสแครปอันนี้ ก็น่าจะเพิ่มได้อย่างรวดเร็วครับ

 
kunggom 2021-10-10

ดูดีๆ แล้วก็พบว่าไม่จำเป็นต้องสแครปเลย เพราะเขาให้เนื้อหาทั้งหมดมาเป็นไฟล์ฟอร์แมต xls อยู่แล้ว

 
luavis 2021-10-09

น่าจะแยก ko ออกเป็น ko-kr กับ ko-kp แล้วใส่คำศัพท์คอมพิวเตอร์ของเกาหลีเหนือเพิ่มเข้าไปก็น่าจะดีนะ

 
hongminhee 2021-10-09

ผมนึกว่าถ้าครอบด้วย <> แบบใน Markdown มันจะจับขอบเขต URL ได้ แต่ดูเหมือนจะไม่ใช่แฮะ 😅 ลิงก์รีโพซิทอรี่อยู่ทางนี้ครับ: https://github.com/dahlia/cjk-compsci-terms

 
xguru 2021-10-09

กำลังต้องทำงานรองรับ Markdown อยู่ แต่ยังทำไม่ได้เลย T_T

ฉันเลยแก้ไว้ให้โดยเพิ่มแค่เว้นวรรคหน้าและหลังเพื่อให้คลิก URL ได้

แต่นี่เป็น Show ที่เข้ากับวันฮันกึลจริง ๆ นะครับ จะดูอย่างสนุกเลย!

 
hongminhee 2021-10-09

ขอบคุณที่ช่วยแก้ไขเนื้อหาด้วยครับ!