Ghostwriter ที่ใช้ reMarkable 2 เป็นอินเทอร์เฟซ Vision-LLMs

(github.com/awwaiid)

1 คะแนน โดย GN⁺ 2025-02-10 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Ghostwriter เป็นโปรเจกต์ทดลองที่คอยเฝ้าดูสิ่งที่ผู้ใช้เขียนด้วยมือบน reMarkable เมื่อถูกทริกเกอร์ด้วย gesture หรือคอนเทนต์บนหน้าจอ ก็จะส่งไปยัง Vision-LLM แล้วนำผลลัพธ์กลับมาแสดงบนหน้าจอเป็นตัวอักษรหรือภาพ
การรันต้องใช้ API key เช่น OPENAI_API_KEY, ANTHROPIC_API_KEY, GOOGLE_API_KEY และให้ดาวน์โหลดไบนารีสำหรับ reMarkable2 กับ reMarkable Paper Pro คัดลอกลงอุปกรณ์ แล้วรันผ่าน SSH
โมเดลเริ่มต้นคือ claude-sonnet-4-0 และสามารถเปลี่ยน โมเดลกับเอนจิน ได้ด้วย --model gpt-4o-mini, --engine openai, --engine anthropic, --engine google, --engine-base-url เป็นต้น
รูปแบบเอาต์พุตรองรับทั้งการวาด SVG และการป้อนข้อความผ่านคีย์บอร์ดเสมือน โดยปรับพฤติกรรมได้ด้วยตัวเลือกอย่าง --no-svg, --no-keyboard, --thinking, --web-search, --apply-segmentation
โปรเจกต์ขยายไปถึงการจับภาพหน้าจอ, การเรียก Vision-LLM, การใช้เครื่องมือ, image segmentation, สคริปต์ประเมินผล และการรองรับโมดูล uinput ของ reMarkable Paper Pro แล้ว แต่บางฟีเจอร์ระบุชัดว่าเป็นเชิงทดลองหรือยังอยู่ในสถานะ WIP

Ghostwriter ทำอะไร

Ghostwriter เป็นอินเทอร์เฟซทดลองที่ทำงานบน reMarkable
- ผู้ใช้เขียนด้วยมือหรือวาดภาพบนหน้าจอ
- แตะมุมที่กำหนดด้วยนิ้ว หรือทริกเกอร์ด้วยคอนเทนต์บนหน้าจอ
- ส่งหน้าจอปัจจุบันไปยัง Vision-LLM และแสดงคำตอบของโมเดลกลับมาบนหน้าจอ
มีตัวอย่างที่ผู้ใช้ป้อนพรอมป์ต์ด้วยลายมือ แล้ว GPT-4o วาดภาพชิวาวา
จุดประสงค์ของโปรเจกต์คือการสำรวจรูปแบบปฏิสัมพันธ์หลากหลายบนสื่อที่ผสานลายมือเข้ากับหน้าจอ

วิธีติดตั้งและรัน

ก่อนรันต้องตั้งค่า API key ในสภาพแวดล้อมของ reMarkable
- OPENAI_API_KEY
- ANTHROPIC_API_KEY
- GOOGLE_API_KEY
การติดตั้งทำโดยดาวน์โหลดไบนารีแยกตามอุปกรณ์บนคอมพิวเตอร์ภายในเครื่อง แล้วคัดลอกไปยัง reMarkable
- reMarkable2: ghostwriter-rm2
- reMarkable Paper Pro: ghostwriter-rmpp
บนอุปกรณ์ ให้เชื่อมต่อผ่าน SSH มอบสิทธิ์รัน แล้วรัน ./ghostwriter
การรันเริ่มต้นใช้ claude-sonnet-4-0
- ./ghostwriter
- ./ghostwriter --model gpt-4o-mini
ตัวอย่างการรันเบื้องหลังคือ nohup ./ghostwriter --model gpt-4o-mini &
การรันอัตโนมัติเมื่อบูตยังคงอยู่ใน TODO

โฟลว์การใช้งานและตัวเลือก CLI

ผู้ใช้ต้องรัน ghostwriter บน reMarkable ก่อน จากนั้นวาดคอนเทนต์บนหน้าจอ แล้วแตะ มุมขวาบน ด้วยนิ้วเพื่อทริกเกอร์ผู้ช่วย
ระหว่างประมวลผล เซสชัน SSH จะแสดงการตรวจจับการแตะและล็อกการประมวลผล ส่วนบนหน้าจอจะวาดจุดเพื่อแสดงความคืบหน้า แล้วจึงแสดงคำตอบแบบพิมพ์หรือแบบวาด
ตัวเลือกเกี่ยวกับโมเดลและเอนจิน
- --model MODEL: โมเดลที่จะใช้ ค่าเริ่มต้นคือ claude-sonnet-4-0
- --engine ENGINE: เลือกจาก openai, anthropic, google และอาจตรวจจับอัตโนมัติจากโมเดลได้
- --engine-api-key KEY: ระบุ API key โดยตรง
- --engine-base-url URL: ระบุ URL พื้นฐานของ API แบบกำหนดเอง
ตัวเลือกเกี่ยวกับการทำงาน
- --prompt PROMPT: ระบุไฟล์พรอมป์ต์ ค่าเริ่มต้นคือ general.json
- --trigger-corner CORNER: ระบุมุมสำหรับทริกเกอร์ด้วยการแตะ ค่าเริ่มต้นคือ UR และรองรับ UL, LR, LL ด้วย
ตัวเลือกเกี่ยวกับเครื่องมือ
- --no-svg: ปิดใช้งานเครื่องมือวาด SVG
- --no-keyboard: ปิดใช้งานเอาต์พุตข้อความ
- --thinking: เปิดใช้ thinking ของ Anthropic
- --web-search: เปิดใช้เว็บเสิร์ชของ Anthropic
ตัวเลือกเกี่ยวกับการทดสอบและดีบัก
- --log-level LEVEL: ตั้งค่า info, debug, trace
- --no-loop: รันครั้งเดียวแล้วจบ
- --input-png FILE: ใช้ไฟล์ PNG แทนภาพหน้าจอ
- --output-file FILE: บันทึกเอาต์พุต
- --save-screenshot FILE: บันทึกภาพหน้าจอ
- --save-bitmap FILE: บันทึกผลลัพธ์การเรนเดอร์
- --no-submit: ไม่ส่งไปยังโมเดล
- --no-draw: ไม่วาดเอาต์พุต
- --no-trigger: ปิดใช้งานทริกเกอร์จากการแตะ
- --apply-segmentation: เพิ่ม image segmentation เพื่อการรับรู้เชิงพื้นที่

การนำไปใช้งานและเวิร์กโฟลว์พัฒนา

การพัฒนาส่วนใหญ่ทำบน Ubuntu และทำงานบน OSX ได้ด้วย
โฟลว์การพัฒนาประกอบด้วยการติดตั้ง dependency, cross-compile สำหรับเป้าหมาย reMarkable, ส่งไปยังอุปกรณ์ด้วย scp และรันใหม่บนอุปกรณ์
การ cross-compile ใช้ Docker, Rust, cross-rs และ target ARM
- target ของ reMarkable2: armv7-unknown-linux-gnueabihf
- target ของ reMarkable Paper Pro: aarch64-unknown-linux-gnu
กระบวนการ build แล้วส่งถูกห่อไว้ด้วย build.sh
- ./build.sh: build และส่งสำหรับ reMarkable2
- ./build.sh rmpp: build และส่งสำหรับ reMarkable Paper Pro
การ build สำหรับ release ใช้วิธีติด tag เช่น v2026.09.21-01 บน main แล้ว GitHub Action จะสร้าง release ล่าสุด

การเปลี่ยนแปลงฟีเจอร์และบันทึกการทดลอง

วันที่ 2024-10-06 proof of concept พื้นฐานทำงานได้
- ตัวอย่างการเติมคำตอบให้โจทย์คณิตศาสตร์ 3 + 7 = ทำงานได้
- ตัวอย่าง “Draw a picture of a chihuahua. Use simple line-art” ทำงานได้
- วิธี rasterize เอาต์พุต SVG แล้ววาดเป็นจุดจำนวนมากมีบางกรณีที่ทำงานได้ไม่ดีบน reMarkable
วันที่ 2024-10-07 เพิ่มทริกเกอร์แตะมุมขวาบนและตัวบอกสถานะ
- เมื่อแตะ จะวาด X บนหน้าจอ และระหว่างประมวลผลจะขีดเส้นเพิ่มบน X
- ผู้ใช้ต้องลบเอง
ตั้งแต่วันที่ 2024-10-10 เริ่มทดลองการป้อนข้อความผ่านคีย์บอร์ดเสมือน
- แต่ละหน้าของ reMarkable มีพื้นที่ข้อความขนาดใหญ่หนึ่งส่วน และการจัดรูปแบบอยู่ในระดับพื้นฐาน
- ตรวจสอบแนวทางสร้างคีย์บอร์ดเสมือนผ่าน rM-input-devices เพื่อส่งออกไปยังเลเยอร์ข้อความ
วันที่ 2024-11-02 เริ่มมีเครื่องมือ draw_text และ draw_svg
- ผู้ช่วยรวมตัวเดียวเป็นผู้ตัดสินใจว่าจะตอบด้วยข้อความผ่านคีย์บอร์ดหรือด้วยภาพ SVG
วันที่ 2024-11-07 เพิ่มการรองรับ Claude/Anthropic
- สามารถใช้การตั้งค่า tool use แทบเหมือนกับ OpenAI
- มีบันทึกว่าดูเหมือนจะชอบวาดมากกว่า แต่การวาดและการรับรู้เชิงพื้นที่ไม่ดีนัก
วันที่ 2024-12-02 เพิ่มขั้นตอน image segmentation พื้นฐาน
- ส่งพิกัด segment ให้ Vision-LLM นำไปพิจารณา
- ตอนนั้นเชื่อมกับ Claude เท่านั้น
- มีบันทึกตัวอย่างที่ดีขึ้นในการใส่ X ลงในกล่อง และการวางตำแหน่งคำตอบคณิตศาสตร์
- ต้องเปิดใช้งานอย่างชัดเจนด้วย --apply-segmentation และถือว่ามี --input-png หรือ --save-screenshot เพื่อ parse PNG ใหม่
วันที่ 2024-12-15 แยกชั้นเอนจินแบบ polymorphic สำหรับ backend ของ OpenAI และ Anthropic
- ทำให้ส่งเอนจินและโมเดลเป็นอาร์กิวเมนต์ได้
- นิยามพรอมป์ต์และเครื่องมือถูกย้ายออกไปและรวมไว้ในไดเรกทอรี prompts/
วันที่ 2024-12-25 CLI ถูกทำให้ง่ายและขยายขึ้น
- แค่ส่ง -m gpt-4o-mini ก็จะอนุมานเอนจินเป็น openai
- เพิ่มตัวอย่างการใช้ Groq
- เพิ่มการรองรับ Google Gemini ผ่าน gemini-2.0-flash-exp และ GOOGLE_API_KEY
วันที่ 2025-05-10 เพิ่ม thinking และ web_search ของ Anthropic
- ประมวลผลคำตอบ thinking แต่ไม่ส่งไปยังหน้าจอ
- เว็บเสิร์ชทำงานเป็นฟีเจอร์ฝั่งเซิร์ฟเวอร์ของ Anthropic
- ไม่ได้เปิดใช้เป็นค่าเริ่มต้น และรันด้วย ./ghostwriter --thinking --web-search
วันที่ 2025-09-21 มีการแก้ไขเกี่ยวกับ reMarkable Paper Pro และเพิ่มตัวเลือก
- แก้ปัญหาใน 3.20 ที่ความละเอียดหน้าจอเปลี่ยน ทำให้ภาพหน้าจอเข้ามาไม่ถูกต้อง
- เพิ่ม --no-svg ตามคำขอของผู้ใช้
- เพิ่มการระบุมุมทริกเกอร์ เช่น --trigger-corner LR

reMarkable Paper Pro และ uinput

วันที่ 2025-03-03 Ghostwriter ทำงานบน reMarkable Paper Pro ได้แล้ว
ความแตกต่างเล็กน้อยของหน้าจอและวิธีอินพุตเป็นสิ่งที่คาดไว้
ปัญหาที่ไม่คาดคิดคือ reMarkable Paper Pro ไม่มีโมดูลเคอร์เนล uinput รวมอยู่ด้วย
จึงใช้ reMarkable/linux-imx-rm เพื่อ build และ bundle โมดูล uinput
Ghostwriter จะพยายามโหลดโมดูล uinput หากยังไม่ได้โหลดไว้
เนื่องจาก release ของ reMarkable แต่ละรุ่นมักใช้ Linux เวอร์ชันใหม่และอาจเข้ากันไม่ได้ จึงมีบันทึกว่าส่วนนี้เป็นภาระหนัก
วันที่ 2025-04-26 มีโมดูลสำหรับ 3.16, 3.17, 3.18 พร้อมแล้ว
บันทึกวันที่ 2025-12-06 ระบุว่าหลังอัปเดต rmpp Linux ถูกเผยแพร่อยู่แล้ว และมีโมดูล uinput อยู่แล้วเช่นกัน แต่ยังต้องโหลดโมดูล

การประเมินผลและไอเดียต่อไป

ระบบประเมินผลพื้นฐานถูกจัดว่าเป็นรายการที่เสร็จแล้ว
- สร้างชุดภาพหน้าจอสำหรับอินพุต
- แสดง use case หลากหลาย
- สร้างตัวอย่างเอาต์พุตในรูปแบบข้อความ, SVG และ action
- บางส่วนมีความเป็นไปได้ในการประเมินโดยมนุษย์หรือ Vision-LLM judge แยกต่างหาก
วันที่ 2024-12-22 ระบบประเมินผลเริ่มขยายขึ้น รวมถึง run_eval.sh
- ตอนนั้นพารามิเตอร์ hardcode ให้เลือกว่าจะใช้ segment หรือไม่ และเลือก Claude 3.5 Sonnet หรือ ChatGPT 4o-mini
- มี รายงานประเมินผลเริ่มต้น
- รายงานสุดท้ายมีการรัน 48 ครั้ง และบันทึกค่าใช้จ่ายไว้ประมาณ $1
รายการ WIP มี ไลบรารีพรอมป์ต์
- มีจุดเริ่มต้นอยู่ใน prompts/
- แนวคิดคือทำให้ตั้งค่าเครื่องมือจากพรอมป์ต์ได้
- ตัวอย่างพรอมป์ต์สำหรับจัดการ TODO มีวิธีค้นหาและดึง todo ออกมา แล้วรันคำสั่งภายนอกอย่าง add-todo.sh
ไอเดียในอนาคตรวมถึงการสร้างไฟล์ตั้งค่าเริ่มต้น, การป้อน API key, การเริ่มอัตโนมัติและกู้คืนอัตโนมัติ, การสร้างไดอะแกรมด้วย PlantUML หรือ Mermaid, การค้นหาข้อมูลภายนอก, การส่งอีเมลหรือ Slack
มีแนวคิดโหมดสนทนาด้วย
- ติดตามเวอร์ชันหน้าจอตามแต่ละเทิร์นในหน้าจอเดียว
- เสนอวิธีแยกสีระหว่างอินพุตต้นฉบับ, คำตอบของโมเดล และอินพุตใหม่
- รวมถึงวิธีแบ่งทริกเกอร์ “พรอมป์ต์ใหม่” กับ “ดำเนินต่อ” ออกจากกัน
มีการทดลอง Vision-LLM บนเครือข่ายภายในด้วย
- โหมดเข้ากันได้กับ OpenAI API ของ Ollama ล้มเหลวเพราะ llama3.2-vision ไม่รองรับเครื่องมือ
- llama-3.2-vision ของ Groq รองรับเครื่องมือ แต่มีบันทึกว่าไม่ดีเท่า ChatGPT, Claude, Gemini
ไอเดียเพิ่มเติมรวมถึงบริการ LLM แบบ streaming และการหยุดกลางคัน, การประมวลผลแบบ async, OpenAI responses API, MCP(Model Context Protocol), เว็บอินเทอร์เฟซแบบรวมศูนย์

ทรัพยากรที่อ้างอิง

Awesome reMarkable: ทรัพยากรเกี่ยวกับ reMarkable
reSnap: พื้นฐานการจับภาพหน้าจอ
rmkit lamp: อ้างอิงเทคนิคการวาดหน้าจอ
resvg: การประมวลผล SVG-to-PNG
rM-input-devices: สร้างอุปกรณ์อินพุตเสมือนโดยไม่ใช้คีย์บอร์ด
reMarkableAI: โปรเจกต์ที่เกี่ยวข้องในแนว OCR→OpenAI→PDF→Device
rMAI: อินเทอร์เฟซ reMarkable-LLM ในรูปแบบแอปแยก
Crazy Cow: เครื่องมือสำหรับ reMarkable1 ที่แปลงข้อความเป็น pen stroke

1 ความคิดเห็น

GN⁺ 2025-02-10

ความคิดเห็นบน Hacker News

ผมเป็นคนทำโปรเจกต์นี้เอง ยังเป็นงานที่กำลังพัฒนาอยู่ และสิ่งที่ได้ตระหนักชัดที่สุดคือ ข้อจำกัดด้านการรับรู้เชิงพื้นที่ ของโมเดลวิชัน
ตัวอย่างการประเมินคร่าว ๆ อยู่ที่ https://github.com/awwaiid/ghostwriter/blob/main/evaluation_...
ต่อไปผมวางแผนจะสร้างและสกัดต่อด้วยเฟรมเวิร์ก/เครื่องมือเอเจนต์ที่ใช้ yaml+เชลล์สคริปต์ สำรวจวิธีการรับรู้เชิงพื้นที่เพิ่มเติมอย่างการแบ่งล่วงหน้า และเขียน แบ็กเอนด์ reSvg ที่ส่งเส้นปากกาจริงแทนการส่งจุดจำนวนมาก
- เจ๋งมาก ไม่ใช่แค่ “ผลัดกันแบบไม่ปรุงแต่ง” แต่ทำให้นึกถึงรูปแบบการใช้งานที่ร่วมมือกันมากขึ้น
  เช่น ระหว่างเขียนโน้ตที่มีทั้งคำ คณิตศาสตร์ง่าย ๆ และไดอะแกรม ถ้าขีดเส้นใต้ประโยคสำคัญ “อุปกรณ์” ก็อาจขยายความประโยคนั้นตรงขอบกระดาษให้ได้
  หรือระหว่างที่อุปกรณ์กำลังวาดไดอะแกรม ถ้าผมแทรกเข้าไปลบบางส่วนและแก้ไข มันก็ดูเป็นไปได้ที่จะเข้าใจแล้วปรับเปลี่ยนตามนั้น
  ถ้ารวมข้อความที่ได้จากการรู้จำลายมือ ท่าทางจากเส้นปากกา ภาษาไอคอนเล็ก ๆ และ LLM เข้าด้วยกัน น่าจะเปิด แพราดายม์ใหม่ของการโต้ตอบกับผู้ใช้ ที่พวกเราซึ่งติดอยู่กับนิสัยเดิม ๆ อาจนึกไม่ออกในทันที
  ดูเหมือนอีกไม่นานสิ่งแบบนี้อาจมีโมเมนต์แบบ “แม่ของเดโมทั้งหมด” ได้ แต่ผมไม่ใช่นักออกแบบ UX เลยจินตนาการให้ชัดเจนได้ยาก และบางทีคนสร้างอาจทำได้
- เอฟเฟกต์เจ๋งจริง ๆ อยากรู้ว่ามองว่าจะเอาไปใช้จริงอย่างไร
  ในมุมผลิตภัณฑ์ น่าจะต้องเปิดปิด โหมดขอให้ LLM ตอบกลับ ได้ง่าย เพื่อไม่ให้มันพยายามเขียนคำตอบตลอดทุกครั้งที่หยุดสไตลัส
  อาจมีบางช่วงที่อยากสเก็ตช์และคิดก่อน แล้วค่อยกลับมาเริ่มบทสนทนาอีกครั้ง หรืออาจอยากเปิด LLM เฉพาะบางหน้าและปิดในหน้าอื่น ๆ
  อีกอย่าง อยากรู้ว่าต้องเจลเบรกแบบไหนถึงจะ SSH เข้าอุปกรณ์ได้
ชอบมากที่ได้เห็นคนแฮ็กทำแอปสำหรับแท็บเล็ต reMarkable
เมื่อก่อนผมเคยทำแอป reMarkable เล็ก ๆ แล้วแชร์ไว้ที่นี่: https://digest.ferrucc.io/
- ทุกครั้งที่เห็นอะไรแบบนี้ก็ทำให้อยากลอง พัฒนาแอปบน Remarkable 2 ขึ้นมา มีแหล่งข้อมูลอะไรแนะนำไหม
  ผมหาเว็บไซต์นักพัฒนาอย่างเป็นทางการเจอแล้ว: https://developer.remarkable.com/documentation
- เจ๋งดี ชอบที่ได้เห็นฟีเจอร์ของ reMarkable เพิ่มขึ้นผ่านการแฮ็กอย่างสร้างสรรค์
  ลองดูแอปแล้ว อยากรู้ว่าสิ่งที่ยากที่สุดในการพัฒนาสำหรับ reMarkable คืออะไร
อยากให้แท็บเล็ต reMarkable ถูกล็อกน้อยกว่านี้หน่อย
เป็นหนึ่งในฮาร์ดแวร์ที่ชอบที่สุด เลยอยากให้ มีแอปมากกว่านี้
- ล็อกเหรอ? SSH เข้าไปก็ได้เชลล์แล้ว ถ้า iPad ยอมให้ทำแบบนั้นได้ค่อยมาคุยกันอีกที
ผมอยากลองทำสิ่งนี้มาหลายเดือนแล้ว ทำออกมาได้ดีจริง ๆ
- ยังเป็นงานที่กำลังพัฒนาอยู่ แต่เป็นโปรเจกต์ที่สนุกมากสำหรับการเรียนรู้และหาแรงบันดาลใจ
  มี Rust ปนอยู่บ้าง ต้องต่อสู้กับข้อจำกัดของอุปกรณ์ และยังมีเรื่องอย่างการทำให้ LLM API หลายตัวเป็นมาตรฐานเดียวกัน กับการสอน LLM วิชันเชิงพื้นที่ด้วย
- ครั้งหนึ่งผมเคยอยากเปลี่ยน goMarkableStream ให้เป็น เซิร์ฟเวอร์ MCP
  ดึงหน้าจอมาได้แล้ว แต่ถ้าไม่มี “การแฮ็ก” ก็เขียนคำตอบกลับเข้าไปไม่ได้
สุดสัปดาห์นี้ว่าจะลองดู
ผมเคยมีไอเดียว่าเขียนรายการสิ่งที่ต้องทำ แล้วส่ง PDF ทางอีเมลไปให้ LLM เพื่อ สร้างงานอัตโนมัติ แต่นี่เปิดทางให้บรรลุเป้าหมายนั้นแบบเรียลไทม์ได้ดีกว่ามาก
- เมื่อไม่กี่เดือนก่อน ผมทำ proof of concept ด้วย Claude กับ rMPP แล้วมันทำงานได้ค่อนข้างดี
  มันยังจัดการ การกำหนดเวลาที่คลุมเครือ ได้ด้วย เช่น “อยากทำสักวัน แต่ไม่มีเวลาที่แน่นอน ช่วยเลือกช่วงที่ไม่ชนกับตารางจริงให้หน่อย”
  แทบไม่ต้องใช้พรอมป์ต์เลย แต่เวิร์กโฟลว์ไม่ค่อยดี สุดท้ายก็เป็นการส่ง PDF ทางอีเมล
  คงต้องกลับไปดูอีกครั้ง แต่ถึงอย่างไรผมก็ไม่ค่อยมีแรงจูงใจ เพราะสุดท้ายก็เมินงานที่สร้างขึ้นมาอยู่ดี
- ถ้าต้องการ ผมช่วยได้ ดูเหมือนจนถึงตอนนี้มีแค่ประมาณคนเดียวที่เคยรันสิ่งนี้จริง ๆ
  ผมอยู่ในเซิร์ฟเวอร์ Discord ของ reMarkable https://discord.gg/u3P9sDW และมีลิงก์อยู่ใน https://github.com/reHackable/awesome-reMarkable ด้วย
  เป็นไบนารี Rust ดังนั้นการติดตั้งน่าจะง่าย ในทางทฤษฎีนะ :)
สงสัยว่าจะทำบน เครื่องอ่านอีบุ๊ก Onyx Boox ที่ใช้ Android ได้ไหม
- เพราะข้อจำกัดของ reMarkable ผมเลยใช้วิธีจับภาพหน้าจอ แล้วฉีดอีเวนต์อินพุตเพื่อโต้ตอบกับแอปวาดภาพแบบกรรมสิทธิ์
  บน Android ถ้ามีสิทธิ์ที่เหมาะสม การจับภาพหน้าจอข้ามแอปน่าจะทำได้ แต่การฉีดอีเวนต์การวาด ผมไม่แน่ใจ
  อีกวิธีคือทำแอปเฉพาะขึ้นมา ผมเพิ่งซื้อ Apple Pencil และกำลังคิดจะย้ายแนวคิดนี้ไปเป็นเว็บแอป ซึ่งจนถึงตอนนี้ก็ทำงานได้ดีอย่างน่าประหลาดใจ
  ถึงอย่างนั้น ถ้าจะให้เป็นทางออกที่ถูกต้องจริง ๆ เอเจนต์นี้น่าจะโต้ตอบกับแอปที่มีอยู่ได้จะดีกว่า
การผสานอินพุตลายมือกับ LLM เป็นกรณีใช้งานที่ยอดเยี่ยม ซึ่งทำให้เวิร์กโฟลว์เป็นธรรมชาติมากขึ้นมาก
อยากรู้ว่ามันรับมือกับลายมือรก ๆ ได้ดีแค่ไหน และถ้า ปรับจูนละเอียด ด้วยโน้ตส่วนตัว การรู้จำจะดีขึ้นเมื่อเวลาผ่านไปหรือไม่
- เมื่อไม่กี่เดือนก่อนผมลองกับ Remarkable Paper Pro และ Claude แล้วทำได้ค่อนข้างดี
  แม้ลายมือผมจะเละพอสมควร แต่มันก็สร้าง ical ที่เอาไปใส่ในปฏิทินได้จากสิ่งที่อยากทำ พร้อมเวลาคร่าว ๆ หรือเวลาที่เจาะจง
- โดยปกติถ้าผมอ่านลายมือตัวเองออก โมเดลก็อ่านออกเหมือนกัน ส่วนนั้นไม่ใช่ปัญหา
  ปัญหาจริง ๆ ใกล้เคียงกับ การรับรู้เชิงพื้นที่ มากกว่า แม้แต่การวาด X ให้อยู่ในกล่องอย่างเสถียรก็ยังยาก และเกมโอเอกซ์หรือเกมลากเส้นต่อจุดยิ่งยากเข้าไปอีก
ดีเลย มีโมเดล vector diffusion อยู่หลายตัวเหมือนกัน ถ้าโมเดลตัดสินใจว่าจะวาดอะไรบางอย่าง ทำไมไม่ส่งให้โมเดลแบบนั้นผ่าน tool calling ล่ะ
แบบนั้นก็น่าจะระบุช่วงพิกัดกับพรอมป์ต์ได้
- มีสองเหตุผล เหตุผลหนึ่งคือผมยังไปไม่ถึงจุดนั้น และเหตุผลที่สองคือ… จริง ๆ ก็มีแค่นั้นแหละ
  อยากรู้ว่ามีโมเดลไหนแนะนำไหม โดยเฉพาะถ้ามีโฮสต์ API ให้ใช้
อยากรู้ว่า ขนาด 11 นิ้ว ของ reMarkable เพียงพอสำหรับอ่านบทความวิชาการ PDF ไหม
ผมใช้ Sony DPT รุ่นที่ 2 ขนาด 13 นิ้วอยู่ ซึ่งเหมาะมากสำหรับการอ่าน แต่โปรเจกต์แบบนี้ก็ยังทำให้ผลิตภัณฑ์ reMarkable น่าดึงดูดอยู่เรื่อย ๆ
- ผมเคยอ่านบทความบน Remarkable 2 แล้ว แต่รู้สึกว่ามันเล็กไปนิดสำหรับการอ่านตัวหนังสืออย่างสบาย
  ผมเป็นสายอ่านแบบจริงจัง เลยเสียดายที่ไม่มี การไฮไลต์สี ฟีเจอร์จดคำอธิบายประกอบยอดเยี่ยมมาก
  ตอนนี้ผมยังคงตรวจบทความในแอป Zotero บน iPad
- ช่วงนี้ผมซื้อแท็บเล็ต reMarkable Pro มา และมันทำให้ผมย้ายจาก Sony DPT-S1 กับ reMarkable 2 ได้
  reMarkable 2 ก็โอเคเพราะแฮ็กได้ดี แต่ ขนาดหน้าจอและฟีเจอร์สี ของ Pro ทำให้มันเป็นตัวแทนที่ยอดเยี่ยม
- สำหรับ PDF ถือว่าใช้ได้แบบเฉียด ๆ เท่านั้น
ผมใช้แท็บเล็ต Boox อยู่ และโดยพื้นฐานแล้วมันเป็นแท็บเล็ต Android เต็มรูปแบบที่มีหน้าจอ e-ink จึงน่าจะเหมาะกับฟีเจอร์แบบนี้มาก
สงสัยว่าอีกสัก 5 ปี ฮาร์ดแวร์มือถือจะรองรับสิ่งแบบนี้ด้วยการ รันในเครื่อง ได้ไหม

Ghostwriter ที่ใช้ reMarkable 2 เป็นอินเทอร์เฟซ Vision-LLMs

Ghostwriter ทำอะไร

วิธีติดตั้งและรัน

โฟลว์การใช้งานและตัวเลือก CLI

การนำไปใช้งานและเวิร์กโฟลว์พัฒนา

การเปลี่ยนแปลงฟีเจอร์และบันทึกการทดลอง

reMarkable Paper Pro และ uinput

การประเมินผลและไอเดียต่อไป

ทรัพยากรที่อ้างอิง

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News