4 คะแนน โดย GN⁺ 2023-10-05 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • สร้างโมเดลแมชชีนเลิร์นนิง (ML) เชิงกำเนิดสำหรับการสร้างฟอนต์ชื่อ FontoGen
  • โมเดลรับคำอธิบายของฟอนต์เป็นอินพุต และส่งออกเป็นไฟล์ฟอนต์
  • ผู้เขียนได้รับแรงบันดาลใจจากการเติบโตของ AI ในปี 2023 จึงเริ่มสำรวจการสร้าง SVG จากข้อความ และนำไปสู่ไอเดียการสร้างฟอนต์
  • ผู้เขียนสร้างโมเดลโดยอ้างอิงจากงานวิจัย IconShop2 และพบว่าสามารถสร้างฟอนต์ได้ในลักษณะคล้ายกับการสร้าง SVG
  • โมเดลเป็นแบบ sequence-to-sequence ที่ฝึกด้วยลำดับซึ่งมี text embedding ตามด้วย font embedding
  • text embedding สร้างโดยใช้โมเดลเอนโค้ดเดอร์ BERT ที่ผ่านการพรีเทรนไว้ล่วงหน้า ส่วน font embedding สร้างโดยแปลงฟอนต์เป็นลำดับโทเคน
  • โมเดลเป็นทรานส์ฟอร์เมอร์แบบ autoregressive เฉพาะเอนโค้ดเดอร์ ประกอบด้วย 16 เลเยอร์และ 8 บล็อก มีพารามิเตอร์ทั้งหมด 73.7 ล้านตัว
  • ผู้เขียนใช้ BigBird3 attention เพื่อโฟกัสกับพรอมป์ต์เริ่มต้นและดูโทเคนก่อนหน้า N ตัว เพื่อจับสไตล์ของหลาย glyph ก่อนหน้า
  • โมเดลฝึกด้วยชุดข้อมูลฟอนต์เฉพาะ 71k รายการ โดยใช้ GPT-3.5 สรุปคำอธิบายหลากหลายประเภทให้เหลือคีย์เวิร์ดไม่กี่คำ
  • กระบวนการฝึกใช้เวลา 127 ชั่วโมง และหยุดเมื่อ validation loss แทบไม่ดีขึ้น
  • ผู้เขียนปรับปรุงประสิทธิภาพได้ 3 เท่า โดยย้ายงานให้มากที่สุดไปไว้ในขั้นตอน preprocessing ของชุดข้อมูล
  • ผู้เขียนเสนอการประยุกต์ใช้ในอนาคตที่เป็นไปได้ เช่น ผสานโมเดลเข้ากับโปรแกรมแก้ไขฟอนต์ที่มีอยู่ เพื่อสร้าง glyph อื่นทั้งหมดจาก glyph เดียวที่นักออกแบบสร้างขึ้น

2 ความคิดเห็น

 
dbgus2028 2023-10-06

ช่วยสร้างฟอนต์น่ารักๆ ให้ฉันหน่อย

 
GN⁺ 2023-10-05
ความคิดเห็นจาก Hacker News
  • ตัวแปลโค้ดของ gpt-4 สามารถแปลง png ขาวดำของ glyph เป็น svg ได้ และสามารถนำไปใช้ร่วมกับโมเดลสร้างภาพเพื่อสร้างฟอนต์ได้
  • Douglas Hofstader ผู้เขียน Godel Escher Bach เชื่อว่าการสร้างฟอนต์เป็นไปไม่ได้หากไม่มี AI ทั่วไป
  • โปรเจกต์ Letter Spirit มีเป้าหมายเพื่อจำลองความคิดสร้างสรรค์เชิงศิลปะ โดยออกแบบแบบอักษรที่มีสไตล์สอดคล้องกันในรูปแบบที่เรียกว่า "gridfonts" ซึ่งถูกจำกัดอยู่บนกริด
  • มีความกังวลเกี่ยวกับความแม่นยำของฟอนต์ที่สร้างโดยโมเดล ML เช่น เส้นที่ไม่ขนานกันอย่างสมบูรณ์ และมุมที่ไม่เป็น 90 องศาอย่างแม่นยำ
  • มองว่าวิธีแทนพิกเซลเป็น bin เฉพาะขนาด 150x150 ไม่ใช่แนวทางที่เหมาะนัก และมีการเสนอให้ใช้ convnet แทนพร้อมติดตามเอาต์พุต
  • ด้วยแนวทางนี้ การสร้างฟอนต์ใหม่ โดยเฉพาะฟอนต์ที่มีการทำสไตล์อย่างมาก อาจกลายเป็นสิ่งที่ทำได้จริงมากขึ้น
  • โมเดลนี้เป็น ckpt ไม่ใช่ safetensor ซึ่งอาจมีผลต่อการตัดสินใจของผู้ใช้บางคนว่าจะลองใช้งานหรือไม่
  • แม้ว่าโมเดล diffusion จะมีปัญหาในการวาดข้อความ แต่วิธีนี้ก็ทำงานได้ดีกับการใช้งานลักษณะนี้