Charcuterie – เครื่องมือสำรวจ Unicode ตามความคล้ายคลึงกันทางสายตา
(charcuterie.elastiq.ch)- เป็นเครื่องมือสำหรับสำรวจ ชุดอักขระ Unicode ด้วยภาพ และดู glyph, script, สัญลักษณ์ และรูปทรง ของอักขระแต่ละตัวได้
- ใช้ SigLIP 2 embedding เพื่อวิเคราะห์ ความคล้ายคลึงกันทางสายตา ระหว่างอักขระ โดยเปรียบเทียบ glyph ในปริภูมิเวกเตอร์
- ผู้ใช้สามารถทำความเข้าใจ ความสัมพันธ์เชิงสัณฐาน ของอักขระและสำรวจโครงสร้างของ Unicode ได้อย่างเป็นธรรมชาติ
- อินเทอร์เฟซได้รับการออกแบบให้มอบ ประสบการณ์การสำรวจที่เน้นภาพเป็นหลัก เพื่อช่วยให้เข้าใจระบบอักขระที่ซับซ้อนได้ง่ายขึ้น
- โครงการนี้ ยังอยู่ระหว่างการพัฒนาอย่างต่อเนื่อง และเปิดรับ ข้อเสนอแนะและการสนับสนุนผ่านการบริจาค
ภาพรวมของ Charcuterie
- เป็น เครื่องมือสำรวจ Unicode เชิงภาพ สำหรับสำรวจชุดอักขระและดู glyph, script, สัญลักษณ์ และรูปทรง ที่เกี่ยวข้อง
- ใช้วิธีฝัง glyph ที่เรนเดอร์ด้วย SigLIP 2 เพื่อวิเคราะห์ ความคล้ายคลึงกันทางสายตา ของอักขระแต่ละตัว และนำไป เปรียบเทียบในปริภูมิเวกเตอร์
- ผู้ใช้สามารถสำรวจ ความสัมพันธ์เชิงสัณฐาน ระหว่างอักขระได้อย่างเป็นธรรมชาติ และทำความเข้าใจโครงสร้างของมาตรฐาน Unicode
- โครงการนี้ ยังอยู่ระหว่างการพัฒนาอย่างต่อเนื่อง และได้รับ การสนับสนุนผ่านข้อเสนอแนะและการบริจาคจากผู้ใช้
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
เข้าใจว่าโดยทั่วไปการ trim อัตโนมัติ ในช่องกรอกข้อมูลเป็นค่าเริ่มต้นที่มีประโยชน์ แต่ในกรณีนี้มันทำให้ค้นหาช่องว่างเองไม่ได้ เลยรู้สึกไม่สะดวก
เลยคิดว่าน่าจะเพิ่มข้อยกเว้นอย่าง
if (trim(str)=="") return strได้ตอนแรกไม่รู้มาก่อน แต่ถ้าคลิกไอคอนดินสอ จะสามารถ วาดรูปทรงเองเพื่อค้นหา แทนข้อความได้
เป็นทั้ง คอนเซปต์และการทำออกมา ที่ยอดเยี่ยมมาก
แต่แนวคิด UI แบบ “spotlight” ยังทำให้งงนิดหน่อย พอกดที่ตัวอักษร พื้นที่รอบ ๆ จะถูกเน้น แล้วภูมิประเทศของตัวอักษรที่คล้ายกันรอบตัวนั้นก็ถูกโหลดใหม่อีกที แบบนี้เลยสามารถสำรวจภูมิประเทศความคล้ายได้ แต่ก็ยังรู้สึกเหมือนตัวเองพลาดบางส่วนของอุปมาเชิงภาพไป
เจ๋งมากจนกดบุ๊กมาร์กไว้ทันที แต่ก่อนผมใช้ EmojiDB เพื่อค้นหาอีโมจิแบบเวกเตอร์ ตอนนี้ว่าจะใช้ตัวนี้ควบคู่กันไป
เว็บไซต์ของผมคือ unicode-atlas.vercel.app
เห็นแล้วขำเลยว่ามีตัวอักษร ‘X’ เยอะขนาดไหน
พอดูที่ลิงก์ charcuterie.elastiq.ch/#1100B ก็ชวนให้สับสนว่าเขาหมายถึง “Aegean Check Mark” หรือ “Old North Arabian letter Teh” กันแน่
ยอดเยี่ยมจริง ๆ ปกติผมจะพยายามใช้ อักขระ Unicode แทนรูปภาพถ้าเป็นไปได้ เช่นพวกลูกศร แต่ก็หาตัวอักษรที่ตรงได้ยากตลอด
แต่ที่นี่สามารถวาด ‼ เองแล้วค่อย ๆ จำกัดสิ่งที่ต้องการได้ สมบูรณ์แบบมาก UX ก็เข้าใจง่าย เลยบุ๊กมาร์กไว้ทันที
ไม่เคยรู้มาก่อนเลยว่ามีตัวอักษรแบบนี้ด้วย: อักขระฮันกึล จงซอง รีอึล-ฮีอึต
เว็บไซต์ของผมคือ unicode-atlas.vercel.app
ดูเหมือนว่าจะพิจารณามากกว่าแค่ ความคล้ายกันทางภาพ เฉย ๆ ไม่อย่างนั้น “@” กับ “U+1F582 (BACK OF ENVELOPE)” คงไม่อยู่ใกล้กันขนาดนั้น
และผมหวังให้ Word มีฟีเจอร์แบบนี้มาหลายปีแล้ว ไม่สิ หลายสิบปีด้วยซ้ำ อธิบายสัญลักษณ์เป็นคำพูดได้นะ แต่ UI ใช้งานลำบากมากจนหาเองยาก ยังไม่อยากเชื่อเลยว่าหน้าต่าง “แทรกสัญลักษณ์” ยังไม่มีฟังก์ชันค้นหา
เว็บไซต์ของผมคือ unicode-atlas.vercel.app
การค้นหาคันจิ ภาษาญี่ปุ่นใช้งานไม่ได้
https://unicodeplus.com/U+2F8F ใช้ได้
แต่ https://unicodeplus.com/U+884C ใช้งานไม่ได้
ประทับใจตรงที่มุมซ้ายบนสามารถ วาดตัวอักษรเองเพื่อหาตัวที่คล้ายกัน ได้ แสดงให้เห็นว่ามันทำได้มากกว่าแค่ตาราง lookup ธรรมดา
เว็บไซต์ของผมคือ unicode-atlas.vercel.app
มาตรฐาน Unicode ไม่ได้กำหนดรูปลักษณ์ทางภาพ ของ code point (ยกเว้นบางกรณีอย่างกลุ่มอีโมจิบางตัว)
เพราะงั้นเครื่องมือนี้จึงเป็นเพียง ภาพแสดงความคล้ายของ glyph ในฟอนต์หนึ่งฟอนต์เท่านั้น (ไม่ได้บอกด้วยว่าเป็นฟอนต์อะไร และก็เปลี่ยนไม่ได้) ไม่ใช่ “การสำรวจเชิงภาพ” ของ code point ใน Unicode โดยตรง