แอปแปลหน้าจอ/เสียงที่ทำขึ้นเพื่อเล่นเกมวิชวลโนเวล
(github.com/tchinso)ผมเป็นโอตาคุธรรมดาคนหนึ่งที่ชอบเกมวิชวลโนเวลมากครับ
ได้ยินมาว่าเมื่อก่อนมีช่วงที่คนใช้ EasyTrans หรือ AralTrans ในการแปลกัน
ทุกวันนี้เหมือนจะใช้ MORT รันตัวแปล OCR กันได้
แต่พอลองใช้เองแล้ว ทั้งการตั้งค่าและฟังก์ชันก็มีเยอะเกินไปและซับซ้อนมาก
ที่สำคัญคือความแม่นยำในการรู้จำหน้าจอแย่มากจริง ๆ
ส่วนการแปลด้วย DeepL ถ้าไม่ใส่ API key ก็เด้ง error บ่อย ๆ
ช่วงนี้ local AI ก็ดีขึ้นมากแล้ว เลยคิดว่า
ถ้าใส่ทั้ง local OCR AI model กับ
local AI translation model เข้าไปด้วยน่าจะดีไหม? ก็เลยทำขึ้นมาครับ
พอทำไปก็คิดว่า ถ้าเพิ่มฟังก์ชันรู้จำเสียงแล้วแปลได้ด้วยก็น่าจะดีไม่ใช่เหรอ?
พอขนาดงานค่อย ๆ ใหญ่ขึ้นเรื่อย ๆ
สุดท้ายก็เลยกลายเป็นแอปเดียวที่รู้จำทั้งหน้าจอ/เสียงและแปลได้
รองรับแค่ภาษาญี่ปุ่นนะครับ (เพราะจุดประสงค์เดิมก็คือเพื่อเกมวิชวลโนเวลอยู่แล้ว...)
การแปลจากการรู้จำหน้าจอ
คือหลังจากลงทะเบียนพื้นที่ชั่วคราวเป็นพื้นที่ยืนยันแล้ว ก็แค่กดปุ่มแปลรัว ๆ
ตัวแปลจะแสดงผลเป็น overlay
ส่วนการรู้จำเสียงนั้น ถ้ารับไฟล์เสียงเข้ามาทั้งไฟล์ ระบบจะเขียน transcript แล้วแสดงบน overlay ครับ
กระบวนการทำไม่ง่ายเลยครับ
เดิมทีผมเรียนสาขาที่ไม่เกี่ยวกับการเขียนโปรแกรมเลย และก็ทำงานที่ไม่เกี่ยวข้องกันเลยด้วย
ประสบการณ์กับโปรแกรมที่มีก็มีแค่สมัยเรียนวิชาคอมตอนมัธยมที่เคยลองจับ DevC++ แป๊บเดียวจนถึงระดับ if/while เท่านั้นเอง
ผมอยากให้ทุกคนเห็นว่าแค่ใช้ GPT-5.5 ก็สามารถทำได้ถึงขนาดนี้
จำนวนโทเคนที่ใช้ไปอยู่ที่ประมาณ 720 ล้านโทเคน
รบกวนชาว GN ช่วยแนะนำและติชมกันเยอะ ๆ นะครับ!
ยังไม่มีความคิดเห็น