1 คะแนน โดย GN⁺ 2025-02-10 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • การทดลองที่ให้ reMarkable 2 รู้จำลายมือ ตอบสนองตามท่าทางหรือเนื้อหาบนหน้าจอ แล้วเขียนกลับลงบนหน้าจออีกครั้ง
    • โปรเจ็กต์ที่สำรวจปฏิสัมพันธ์ระหว่างลายมือกับหน้าจอ

การตั้งค่า/ติดตั้ง

  • ต้องตั้งค่าตัวแปรสภาพแวดล้อม เช่น OPENAI_API_KEY
  • ต้องติดตั้งและรันไบนารีบน reMarkable

วิธีใช้งาน

  • ต้องเริ่ม ghostwriter บน reMarkable
  • วาดรูปบนหน้าจอ แล้วแตะมุมขวาบนเพื่อเปิดใช้งานฟังก์ชันเสริมได้
  • ระหว่างประมวลผลจะมีการวาดจุด และสามารถเห็นคำตอบที่ถูกพิมพ์หรือวาดออกมาได้

สถานะ / บันทึก

  • 2024-10-06: เสร็จสิ้นการพิสูจน์แนวคิดขั้นต้นแล้ว ฟังก์ชันวาดกลับลงบนหน้าจอยังทำงานได้ไม่ดี
  • 2024-10-07: พัฒนาท่าทางพื้นฐานและการแสดงสถานะแล้ว
  • 2024-10-10: เริ่มตั้งค่าคีย์บอร์ดเสมือน
  • 2024-10-20: เพิ่มการแสดงผลข้อความและโหมดอื่น ๆ
  • 2024-10-21: สร้างบิลด์รีลีสของไบนารีเสร็จแล้ว
  • 2024-10-23: รีแฟกเตอร์โค้ดและวางแผนทดสอบโมเดล Anthropic ใหม่
  • 2024-11-02: เปลี่ยนไปเป็นรูปแบบการจัดเตรียมเครื่องมือ
  • 2024-11-07: เพิ่ม Claude/Anthropic
  • 2024-11-22: เริ่มร่างระบบประเมินผล
  • 2024-12-02: เพิ่มขั้นตอนแบ่งส่วนภาพพื้นฐาน
  • 2024-12-15: รวมเอนจินเข้าด้วยกัน
  • 2024-12-18: แก้ปัญหาการอัปเกรดระบบ
  • 2024-12-19: ทดลองโหมด VLM บนเครือข่ายภายใน
  • 2024-12-22: เริ่มสร้างระบบประเมินผล
  • 2024-12-25: ทำ CLI ให้ง่ายขึ้นและขยายความสามารถ
  • 2024-12-28: ปรับปรุงการใช้งาน

ไอเดีย

  • ทริกเกอร์คำขอด้วยท่าทางหรือเนื้อหา
  • ป้อนภาพหน้าจอเข้าโมเดลวิชัน แล้วแสดงผลลัพธ์บนหน้าจอ
  • สามารถส่งเหตุการณ์จากคีย์บอร์ดได้
  • สร้างระบบประเมินผลพื้นฐาน
  • พัฒนาไลบรารีพรอมป์ต์
  • ทำระบบอัตโนมัติสำหรับการตั้งค่าเริ่มต้น
  • เพิ่มความสามารถสร้างไดอะแกรม
  • เพิ่มความสามารถค้นหาและส่งข้อมูลภายนอก
  • ทำโหมดสนทนา
  • ทดลองใช้ VLM แบบโลคัลบนเครือข่าย

เอกสารอ้างอิง

  • ใช้ทรัพยากรจาก Awesome reMarkable
  • นำเทคนิคจับภาพหน้าจอจาก reSnap มาใช้
  • ได้แรงบันดาลใจเรื่องการวาดหน้าจอจาก rmkit lamp
  • ใช้ resvg แปลง SVG เป็น png
  • ใช้ rM-input-devices สร้างอุปกรณ์ป้อนข้อมูลจากคีย์บอร์ด
  • พบกระบวนการ OCR→OpenAI→PDF→Device ใน reMarkableAI
  • rMAI เป็นแอปแยกที่ใช้ replicate เป็นบริการ API ของโมเดล
  • Crazy Cow เป็นเครื่องมือแปลงข้อความเป็นลายเส้นปากกา

1 ความคิดเห็น

 
GN⁺ 2025-02-10
ความเห็นจาก Hacker News
  • ผมเป็นผู้เขียนโปรเจ็กต์นี้เอง โปรเจ็กต์ยังคงพัฒนาอย่างต่อเนื่อง และข้อค้นพบที่ใหญ่ที่สุดคือข้อจำกัดด้านการรับรู้เชิงพื้นที่ของโมเดลการมองเห็น

    • สามารถดูตัวอย่างการประเมินเบื้องต้นได้ที่ https://github.com/awwaiid/ghostwriter/blob/main/evaluation_results/2024-12-29_21-05-47/results.md
    • เป้าหมายถัดไปคือสร้างสิ่งนี้ต่อเป็นเฟรมเวิร์ก/เครื่องมือเอเจนต์ด้วย yaml+shellscript และเดินหน้าทำ extraction ต่อไป
    • เดินหน้าสำรวจการแบ่งส่วนล่วงหน้าสำหรับการรับรู้เชิงพื้นที่ หรือวิธีอื่น ๆ ต่อไป
    • เขียนแบ็กเอนด์ reSvg ที่ส่งเส้นปากกาจริงแทนการส่งจุดจำนวนมาก
  • เจ๋งมาก ชอบที่ได้เห็นคนแฮ็กแอปสำหรับแท็บเล็ต reMarkable

    • ผมก็เคยทำแอปเล็ก ๆ สำหรับ reMarkable และเพิ่งแชร์ที่นี่ไปเมื่อไม่นานนี้: https://digest.ferrucc.io/
  • อยากให้แท็บเล็ต reMarkable ไม่ถูกล็อกไว้แน่นขนาดนี้

    • มันเป็นฮาร์ดแวร์ชิ้นโปรดชิ้นหนึ่งของผม และอยากให้มีแอปมากกว่านี้
  • เจ๋งมาก

    • ผมอยากลองทำสิ่งนี้มาหลายเดือนแล้ว ทำได้ดีมาก
  • เจ๋งจริง ๆ สุดสัปดาห์นี้จะลองดู

    • ผมกำลังลองเล่นกับไอเดียส่งอีเมล PDF แล้วส่งต่อให้ LLM เพื่อสร้างงานอัตโนมัติเมื่อเขียนสิ่งที่ต้องทำ
    • โปรเจ็กต์นี้เปิดทางให้มีวิธีที่ดีกว่าในการบรรลุเป้าหมายนั้นแบบเรียลไทม์
  • สำหรับคนที่อ่านเอกสาร PDF อยากรู้ว่าขนาด 11 นิ้วของ reMarkable เพียงพอไหม

    • ผมมี Sony DPT รุ่นที่ 2 ขนาด 13 นิ้ว และประสบการณ์การดูนั้นสมบูรณ์แบบ
    • แต่โปรเจ็กต์แบบนี้ก็ยังดึงดูดให้ผมอยากไปใช้ผลิตภัณฑ์ของ reMarkable อยู่เรื่อย ๆ
  • ชอบโปรเจ็กต์นี้มาก มี vector diffusion model อยู่แล้ว ถ้าเมื่อโมเดลตัดสินใจว่าจะวาดอะไรสักอย่าง แล้วจ้างออกผ่านการเรียกใช้เครื่องมือจะเป็นอย่างไร?

    • จากนั้นก็สามารถระบุช่วงพิกัดและพรอมป์ต์ได้
  • กรณีใช้งานนี้ที่รวมการป้อนลายมือเข้ากับ LLM นั้นยอดเยี่ยมมาก

    • สงสัยว่ามันจัดการกับลายมือหวัด ๆ ได้ดีแค่ไหน และการ fine-tune กับโน้ตส่วนตัวจะช่วยให้การรู้จำดีขึ้นตามเวลาได้หรือไม่
  • ผมใช้แท็บเล็ต boox อยู่ (แท็บเล็ต Android เต็มรูปแบบพร้อมหน้าจอ eink) และอะไรแบบนี้น่าจะเหมาะมาก

    • สงสัยว่าอีก 5 ปีข้างหน้า ฮาร์ดแวร์มือถือจะรองรับสิ่งนี้แบบโลคัลได้ไหม
  • โปรเจ็กต์นี้จะเป็นอย่างไรบนเครื่องอ่าน e-book Onyx Boox ที่ใช้ Android?

    • จะเป็นไปได้ไหม?