EveryText: เปิดตัวเทคโนโลยีที่สะท้อน/แสดงผลทุกภาษา (ตัวอักษร) ของโลกในภาพที่สร้างด้วย AI ได้โดยไม่ต้อง pre-train ล่วงหน้า
(fantos-EveryText.hf.space)1. ภาพรวม
ขณะที่การพัฒนาเทคโนโลยี AI กำลังเร่งตัวขึ้น ก็เกิดความก้าวหน้าครั้งสำคัญในด้านการสร้างภาพเช่นกัน และหัวใจสำคัญของสิ่งนี้คือเทคโนโลยีล้ำสมัยชื่อ "EveryText" เทคโนโลยีนี้อาศัย "TBF('Text by Font') Image Model" ซึ่งทำให้ภาพที่สร้างด้วย AI สามารถนำทุกภาษา (ตัวอักษร) ทั่วโลกมาใช้และแสดงผลในการสร้างภาพได้โดยไม่ต้องมีการ pre-train มาก่อน
2. ที่มาและความจำเป็น
เมื่อไม่นานมานี้ เทคโนโลยีสร้างภาพด้วย AI พัฒนาไปอย่างมาก โดยแพลตฟอร์มอย่าง Midjourney V6 และ FLUX รองรับความสามารถในการแสดงข้อความที่ผู้ใช้ป้อน (เช่น "HELLO WORLD") ลงในภาพได้อย่างมองเห็นชัดและอ่านง่าย อย่างไรก็ตาม เทคโนโลยีเหล่านี้ยังจำกัดอยู่กับภาษาอังกฤษเป็นหลัก
เพื่อก้าวข้ามข้อจำกัดดังกล่าว Alibaba Group ของจีนได้พัฒนาระบบที่รองรับภาษาจีน ญี่ปุ่น และเกาหลีด้วย นี่เป็นสัญญาณที่ชัดเจนว่าเทคโนโลยีกำลังวิวัฒน์ไปสู่การรองรับทุกภาษาทั่วโลก
3. ปัญหาในปัจจุบัน
แนวทางเดิมมีข้อจำกัดและปัญหาหลายประการดังนี้:
-
ต้องแก้ไขแยกต่างหาก: การแทรกข้อความที่ต้องการลงในภาพจำเป็นต้องมีงานแก้ไขเพิ่มเติม ซึ่งไม่มีประสิทธิภาพทั้งในแง่เวลาและต้นทุน
-
พึ่งพาการฝึก: เมื่อต้องการให้ AI สร้างภาพพร้อมแสดงข้อความเฉพาะอย่างชัดเจน จำเป็นต้องมีการฝึกภาพหรือการติดป้ายกำกับโดยใช้ LORA เป็นต้น
-
ใช้ทรัพยากรสูง: แนวทางของ Midjourney V6, FLUX และ Alibaba Group ต้องใช้ทรัพยากร GPU และเวลาจำนวนมาก
-
คำศัพท์จำกัด: ข้อความที่ไม่มีอยู่ล่วงหน้าไม่สามารถฝึกได้ จึงแสดงผลได้ยาก
-
ข้อจำกัดด้านภาษา: การรองรับภาษาทั่วโลกนอกเหนือจากภาษาอังกฤษต้องใช้ทรัพยากรอย่างมหาศาล
4. แนวทางแก้ปัญหาเชิงนวัตกรรม
หัวใจของ EveryText คือแนวทางใหม่ต่อเรื่อง "การฝึก" หากแนวทางเดิมต้องพึ่งการฝึกโดยตรง EveryText แก้ปัญหานี้ด้วยการใช้ "Font"
-
Font as Pre-trained Model: ข้อความทั้งหมดถูก "ฝึก" มาแล้วในทางปฏิบัติผ่าน "Font" ซึ่งมีการติดป้ายกำกับอยู่ในตัว EveryText จึงใช้ 'Font' นี้เสมือนเป็น 'โมเดลที่ผ่านการฝึกแล้ว'
-
ความหลากหลายและความงาม: ด้วยการประยุกต์ใช้ "Font" จำนวนมากจากหลากหลายกลุ่มภาษา จึงบรรลุได้ทั้งความหลากหลายของแบบอักษรและความสวยงามที่มองเห็นได้
-
การแสดงผลแบบไร้ขีดจำกัด: การใช้ "Font" เป็น "โมเดลที่ฝึกเสร็จสมบูรณ์แล้ว" ทำให้สามารถแสดงผลอักขระใด ๆ ที่ป้อนเข้า/ส่งออกได้ แม้จะเป็นคำที่ไม่มีอยู่ล่วงหน้าก็ตาม
5. วิธีใช้งานบริการ
EveryText เปิดให้ทุกคนใช้งานได้ฟรี วิธีใช้งานมีดังนี้:
- Prompt: ป้อนคำอธิบายพื้นฐานสำหรับการสร้างภาพ
- Text for Image Generation: ป้อนข้อความที่จะให้แสดงในภาพ
- Text Position: เลือกตำแหน่งของข้อความภายในภาพ
- Text Size: ปรับขนาดของข้อความ
- Select Font(Option): เลือกฟอนต์ที่ต้องการ
- Advanced Settings(Option): ใช้การตั้งค่าขั้นสูงเพื่อปรับกระบวนการสร้างภาพได้อย่างละเอียดมากขึ้น
- คลิกปุ่ม "START" เพื่อสร้างภาพ
6. การเปรียบเทียบกับเทคโนโลยีคู่แข่ง (จนถึงปัจจุบันเป็นเพียงความเห็นเชิงอัตวิสัยของผู้ประเมินจำนวนไม่มาก)
-Midjourney V6/ Flux: รองรับเฉพาะภาษาอังกฤษ / คุณภาพภาพ A+ / การแสดงข้อความและความอ่านง่าย A
-AnyText("Alibaba Group"): รองรับอังกฤษ จีน ญี่ปุ่น เกาหลี / คุณภาพภาพ B / การรู้จำข้อความและความอ่านง่าย C
-EveryText: รองรับทุกภาษา (ตัวอักษร) ของโลก / คุณภาพภาพ A / การรู้จำข้อความและความอ่านง่าย B+ -Midjourney V6/ Flux: รองรับเฉพาะภาษาอังกฤษ / คุณภาพภาพ A+ / การแสดงข้อความและความอ่านง่าย A
EveryText รองรับทุกภาษาทั่วโลก พร้อมทั้งให้คุณภาพภาพสูงและการแสดงข้อความรวมถึงความอ่านง่ายที่ดีมาก
7. บทสรุป
EveryText ได้เปิดขอบเขตใหม่ให้กับเทคโนโลยีภาพที่สร้างด้วย AI แนวทางเชิงนวัตกรรมนี้ซึ่งสามารถผสานทุกภาษาทั่วโลกเข้ากับภาพได้อย่างเป็นธรรมชาติโดยไม่ต้อง pre-train ล่วงหน้า ได้ขยายศักยภาพของการสื่อสารระดับโลกและการแสดงออกเชิงสร้างสรรค์อย่างมาก จึงน่าจับตาว่า EveryText จะถูกนำไปใช้และพัฒนาต่ออย่างไรในหลากหลายสาขาในอนาคต
ลิงก์ที่เกี่ยวข้อง
Huggingface Service: https://fantos-EveryText.hf.space
Discord Community: https://discord.gg/openfreeai
ติดต่อ: arxivgpt@gmail.com
ยังไม่มีความคิดเห็น