- การทดลองที่ให้ reMarkable 2 รู้จำลายมือ ตอบสนองตามท่าทางหรือเนื้อหาบนหน้าจอ แล้วเขียนกลับลงบนหน้าจออีกครั้ง
- โปรเจ็กต์ที่สำรวจปฏิสัมพันธ์ระหว่างลายมือกับหน้าจอ
การตั้งค่า/ติดตั้ง
- ต้องตั้งค่าตัวแปรสภาพแวดล้อม เช่น
OPENAI_API_KEY
- ต้องติดตั้งและรันไบนารีบน reMarkable
วิธีใช้งาน
- ต้องเริ่ม
ghostwriter บน reMarkable
- วาดรูปบนหน้าจอ แล้วแตะมุมขวาบนเพื่อเปิดใช้งานฟังก์ชันเสริมได้
- ระหว่างประมวลผลจะมีการวาดจุด และสามารถเห็นคำตอบที่ถูกพิมพ์หรือวาดออกมาได้
สถานะ / บันทึก
- 2024-10-06: เสร็จสิ้นการพิสูจน์แนวคิดขั้นต้นแล้ว ฟังก์ชันวาดกลับลงบนหน้าจอยังทำงานได้ไม่ดี
- 2024-10-07: พัฒนาท่าทางพื้นฐานและการแสดงสถานะแล้ว
- 2024-10-10: เริ่มตั้งค่าคีย์บอร์ดเสมือน
- 2024-10-20: เพิ่มการแสดงผลข้อความและโหมดอื่น ๆ
- 2024-10-21: สร้างบิลด์รีลีสของไบนารีเสร็จแล้ว
- 2024-10-23: รีแฟกเตอร์โค้ดและวางแผนทดสอบโมเดล Anthropic ใหม่
- 2024-11-02: เปลี่ยนไปเป็นรูปแบบการจัดเตรียมเครื่องมือ
- 2024-11-07: เพิ่ม Claude/Anthropic
- 2024-11-22: เริ่มร่างระบบประเมินผล
- 2024-12-02: เพิ่มขั้นตอนแบ่งส่วนภาพพื้นฐาน
- 2024-12-15: รวมเอนจินเข้าด้วยกัน
- 2024-12-18: แก้ปัญหาการอัปเกรดระบบ
- 2024-12-19: ทดลองโหมด VLM บนเครือข่ายภายใน
- 2024-12-22: เริ่มสร้างระบบประเมินผล
- 2024-12-25: ทำ CLI ให้ง่ายขึ้นและขยายความสามารถ
- 2024-12-28: ปรับปรุงการใช้งาน
ไอเดีย
- ทริกเกอร์คำขอด้วยท่าทางหรือเนื้อหา
- ป้อนภาพหน้าจอเข้าโมเดลวิชัน แล้วแสดงผลลัพธ์บนหน้าจอ
- สามารถส่งเหตุการณ์จากคีย์บอร์ดได้
- สร้างระบบประเมินผลพื้นฐาน
- พัฒนาไลบรารีพรอมป์ต์
- ทำระบบอัตโนมัติสำหรับการตั้งค่าเริ่มต้น
- เพิ่มความสามารถสร้างไดอะแกรม
- เพิ่มความสามารถค้นหาและส่งข้อมูลภายนอก
- ทำโหมดสนทนา
- ทดลองใช้ VLM แบบโลคัลบนเครือข่าย
เอกสารอ้างอิง
- ใช้ทรัพยากรจาก Awesome reMarkable
- นำเทคนิคจับภาพหน้าจอจาก reSnap มาใช้
- ได้แรงบันดาลใจเรื่องการวาดหน้าจอจาก rmkit lamp
- ใช้ resvg แปลง SVG เป็น png
- ใช้ rM-input-devices สร้างอุปกรณ์ป้อนข้อมูลจากคีย์บอร์ด
- พบกระบวนการ OCR→OpenAI→PDF→Device ใน reMarkableAI
- rMAI เป็นแอปแยกที่ใช้ replicate เป็นบริการ API ของโมเดล
- Crazy Cow เป็นเครื่องมือแปลงข้อความเป็นลายเส้นปากกา
1 ความคิดเห็น
ความเห็นจาก Hacker News
ผมเป็นผู้เขียนโปรเจ็กต์นี้เอง โปรเจ็กต์ยังคงพัฒนาอย่างต่อเนื่อง และข้อค้นพบที่ใหญ่ที่สุดคือข้อจำกัดด้านการรับรู้เชิงพื้นที่ของโมเดลการมองเห็น
เจ๋งมาก ชอบที่ได้เห็นคนแฮ็กแอปสำหรับแท็บเล็ต reMarkable
อยากให้แท็บเล็ต reMarkable ไม่ถูกล็อกไว้แน่นขนาดนี้
เจ๋งมาก
เจ๋งจริง ๆ สุดสัปดาห์นี้จะลองดู
สำหรับคนที่อ่านเอกสาร PDF อยากรู้ว่าขนาด 11 นิ้วของ reMarkable เพียงพอไหม
ชอบโปรเจ็กต์นี้มาก มี vector diffusion model อยู่แล้ว ถ้าเมื่อโมเดลตัดสินใจว่าจะวาดอะไรสักอย่าง แล้วจ้างออกผ่านการเรียกใช้เครื่องมือจะเป็นอย่างไร?
กรณีใช้งานนี้ที่รวมการป้อนลายมือเข้ากับ LLM นั้นยอดเยี่ยมมาก
ผมใช้แท็บเล็ต boox อยู่ (แท็บเล็ต Android เต็มรูปแบบพร้อมหน้าจอ eink) และอะไรแบบนี้น่าจะเหมาะมาก
โปรเจ็กต์นี้จะเป็นอย่างไรบนเครื่องอ่าน e-book Onyx Boox ที่ใช้ Android?