- มีงานที่ต้องนำค่าตัวเลขซึ่งกระจายอยู่ในอีเมล 12 ฉบับที่แตกต่างกันมารวมกัน
- ขี้เกียจคัดลอกทีละรายการ จึงอัดวิดีโอหน้าจอระหว่างไล่ดูบัญชี Gmail แล้วใช้ Google Gemini ดึงตัวเลขจากวิดีโอนั้น ซึ่งพบว่าทำงานได้ดีมาก
การสแครปวิดีโอแบบคุ้มค่าด้วย AI Studio และ QuickTime
- เริ่มจากใช้ QuickTime Player บันทึกหน้าจอขณะเปิดดูอีเมลที่เกี่ยวข้อง
- อัปโหลดวิดีโอความยาว 35 วินาทีที่บันทึกไว้ไปยัง AI Studio ของ Google แล้วขอให้โมเดล Gemini ดึงข้อมูลออกมาในรูปแบบอาร์เรย์ JSON
- ได้ผลลัพธ์เป็นอาร์เรย์ JSON ที่มีวันที่และจำนวนเงินดอลลาร์กลับมาสำเร็จ
- จากนั้นขอให้แปลงผลลัพธ์เป็นรูปแบบ CSV เพื่อนำไปวางใน Numbers
- ค่าใช้จ่ายต่ำมาก อยู่ที่ราว 0.1 เซนต์หรือน้อยกว่า โดยตอนนี้ AI Studio ยังเปิดให้ใช้งานฟรี
ข้อจำกัดของทางเลือกอื่น
- การคัดลอกข้อมูลด้วยมือมีโอกาสผิดพลาดสูงและเป็นงานที่น่าเบื่อ
- การใช้ Gmail API มีความซับซ้อนและต้องใช้ความพยายามมาก
- การทำ browser automation ยังต้องมีขั้นตอนแยกสำหรับ parsing อีเมล
- การใช้เครื่องมือ AI ขั้นสูงที่เข้าถึงบัญชีอีเมลได้มีความเสี่ยง เช่น prompt injection
ข้อดีของการสแครปวิดีโอ
- ดึงทุกอย่างที่มองเห็นบนหน้าจอออกมาได้
- ผู้ใช้ควบคุมได้ทั้งหมดว่าจะให้โมเดล AI เห็นเนื้อหาใดบ้าง
- ไม่ได้รับผลกระทบจากการยืนยันตัวตนของเว็บไซต์หรือเทคนิคป้องกันการสแครป
- ไม่มีต้นทุนในการตั้งค่าเลย
- ใช้งานได้ด้วยค่าใช้จ่ายที่ถูกมาก
- ยังสามารถนำไปใช้ประโยชน์ในงานด้าน data journalism ได้ด้วย
โบนัส: เครื่องคำนวณราคา LLM
- ผู้เขียนยังทำเครื่องมือสำหรับคำนวณราคาตามโทเคนแยกต่างหาก
- เคยใช้ ChatGPT Code Interpreter แต่เกิดข้อผิดพลาดในการคำนวณ
- จากนั้นจึงใช้ Claude 3.5 สร้างเครื่องคำนวณราคา
- สามารถตั้งราคาของ input/output token เองแบบ manual หรือใช้ปุ่ม preset เพื่อตั้งราคาตามโมเดลได้
- กระบวนการสร้างทั้งหมดถูกปรับปรุงซ้ำผ่านการสนทนากับ Claude จนได้ 10 เวอร์ชันภายใน 19 นาที
- ข้อมูลราคาถูกใส่เข้าไปในบทสนทนาโดยตรงในรูปแบบสกรีนช็อต แล้วให้ Claude ดึงข้อมูลออกมา
ยังไม่มีความคิดเห็น