EveryText: เปิดตัวเทคโนโลยีที่สะท้อน/แสดงผลทุกภาษา (ตัวอักษร) ของโลกในภาพที่สร้างด้วย AI ได้โดยไม่ต้อง pre-train ล่วงหน้า

(fantos-EveryText.hf.space)

5 คะแนน โดย arxivgpt 2024-08-29 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

1. ภาพรวม

ขณะที่การพัฒนาเทคโนโลยี AI กำลังเร่งตัวขึ้น ก็เกิดความก้าวหน้าครั้งสำคัญในด้านการสร้างภาพเช่นกัน และหัวใจสำคัญของสิ่งนี้คือเทคโนโลยีล้ำสมัยชื่อ "EveryText" เทคโนโลยีนี้อาศัย "TBF('Text by Font') Image Model" ซึ่งทำให้ภาพที่สร้างด้วย AI สามารถนำทุกภาษา (ตัวอักษร) ทั่วโลกมาใช้และแสดงผลในการสร้างภาพได้โดยไม่ต้องมีการ pre-train มาก่อน

2. ที่มาและความจำเป็น

เมื่อไม่นานมานี้ เทคโนโลยีสร้างภาพด้วย AI พัฒนาไปอย่างมาก โดยแพลตฟอร์มอย่าง Midjourney V6 และ FLUX รองรับความสามารถในการแสดงข้อความที่ผู้ใช้ป้อน (เช่น "HELLO WORLD") ลงในภาพได้อย่างมองเห็นชัดและอ่านง่าย อย่างไรก็ตาม เทคโนโลยีเหล่านี้ยังจำกัดอยู่กับภาษาอังกฤษเป็นหลัก

เพื่อก้าวข้ามข้อจำกัดดังกล่าว Alibaba Group ของจีนได้พัฒนาระบบที่รองรับภาษาจีน ญี่ปุ่น และเกาหลีด้วย นี่เป็นสัญญาณที่ชัดเจนว่าเทคโนโลยีกำลังวิวัฒน์ไปสู่การรองรับทุกภาษาทั่วโลก

3. ปัญหาในปัจจุบัน

แนวทางเดิมมีข้อจำกัดและปัญหาหลายประการดังนี้:

ต้องแก้ไขแยกต่างหาก: การแทรกข้อความที่ต้องการลงในภาพจำเป็นต้องมีงานแก้ไขเพิ่มเติม ซึ่งไม่มีประสิทธิภาพทั้งในแง่เวลาและต้นทุน
พึ่งพาการฝึก: เมื่อต้องการให้ AI สร้างภาพพร้อมแสดงข้อความเฉพาะอย่างชัดเจน จำเป็นต้องมีการฝึกภาพหรือการติดป้ายกำกับโดยใช้ LORA เป็นต้น
โฆษณา
ใช้ทรัพยากรสูง: แนวทางของ Midjourney V6, FLUX และ Alibaba Group ต้องใช้ทรัพยากร GPU และเวลาจำนวนมาก
คำศัพท์จำกัด: ข้อความที่ไม่มีอยู่ล่วงหน้าไม่สามารถฝึกได้ จึงแสดงผลได้ยาก
ข้อจำกัดด้านภาษา: การรองรับภาษาทั่วโลกนอกเหนือจากภาษาอังกฤษต้องใช้ทรัพยากรอย่างมหาศาล

4. แนวทางแก้ปัญหาเชิงนวัตกรรม

หัวใจของ EveryText คือแนวทางใหม่ต่อเรื่อง "การฝึก" หากแนวทางเดิมต้องพึ่งการฝึกโดยตรง EveryText แก้ปัญหานี้ด้วยการใช้ "Font"

Font as Pre-trained Model: ข้อความทั้งหมดถูก "ฝึก" มาแล้วในทางปฏิบัติผ่าน "Font" ซึ่งมีการติดป้ายกำกับอยู่ในตัว EveryText จึงใช้ 'Font' นี้เสมือนเป็น 'โมเดลที่ผ่านการฝึกแล้ว'
โฆษณา
ความหลากหลายและความงาม: ด้วยการประยุกต์ใช้ "Font" จำนวนมากจากหลากหลายกลุ่มภาษา จึงบรรลุได้ทั้งความหลากหลายของแบบอักษรและความสวยงามที่มองเห็นได้
การแสดงผลแบบไร้ขีดจำกัด: การใช้ "Font" เป็น "โมเดลที่ฝึกเสร็จสมบูรณ์แล้ว" ทำให้สามารถแสดงผลอักขระใด ๆ ที่ป้อนเข้า/ส่งออกได้ แม้จะเป็นคำที่ไม่มีอยู่ล่วงหน้าก็ตาม

5. วิธีใช้งานบริการ

EveryText เปิดให้ทุกคนใช้งานได้ฟรี วิธีใช้งานมีดังนี้:

Prompt: ป้อนคำอธิบายพื้นฐานสำหรับการสร้างภาพ
Text for Image Generation: ป้อนข้อความที่จะให้แสดงในภาพ
Text Position: เลือกตำแหน่งของข้อความภายในภาพ
Text Size: ปรับขนาดของข้อความ
Select Font(Option): เลือกฟอนต์ที่ต้องการ
Advanced Settings(Option): ใช้การตั้งค่าขั้นสูงเพื่อปรับกระบวนการสร้างภาพได้อย่างละเอียดมากขึ้น
คลิกปุ่ม "START" เพื่อสร้างภาพ

6. การเปรียบเทียบกับเทคโนโลยีคู่แข่ง (จนถึงปัจจุบันเป็นเพียงความเห็นเชิงอัตวิสัยของผู้ประเมินจำนวนไม่มาก)

-Midjourney V6/ Flux: รองรับเฉพาะภาษาอังกฤษ / คุณภาพภาพ A+ / การแสดงข้อความและความอ่านง่าย A

-AnyText("Alibaba Group"): รองรับอังกฤษ จีน ญี่ปุ่น เกาหลี / คุณภาพภาพ B / การรู้จำข้อความและความอ่านง่าย C

-EveryText: รองรับทุกภาษา (ตัวอักษร) ของโลก / คุณภาพภาพ A / การรู้จำข้อความและความอ่านง่าย B+ -Midjourney V6/ Flux: รองรับเฉพาะภาษาอังกฤษ / คุณภาพภาพ A+ / การแสดงข้อความและความอ่านง่าย A

EveryText รองรับทุกภาษาทั่วโลก พร้อมทั้งให้คุณภาพภาพสูงและการแสดงข้อความรวมถึงความอ่านง่ายที่ดีมาก

7. บทสรุป

EveryText ได้เปิดขอบเขตใหม่ให้กับเทคโนโลยีภาพที่สร้างด้วย AI แนวทางเชิงนวัตกรรมนี้ซึ่งสามารถผสานทุกภาษาทั่วโลกเข้ากับภาพได้อย่างเป็นธรรมชาติโดยไม่ต้อง pre-train ล่วงหน้า ได้ขยายศักยภาพของการสื่อสารระดับโลกและการแสดงออกเชิงสร้างสรรค์อย่างมาก จึงน่าจับตาว่า EveryText จะถูกนำไปใช้และพัฒนาต่ออย่างไรในหลากหลายสาขาในอนาคต

ลิงก์ที่เกี่ยวข้อง

Huggingface Service: https://fantos-EveryText.hf.space
Discord Community: https://discord.gg/openfreeai
ติดต่อ: arxivgpt@gmail.com