• มีงานที่ต้องนำค่าตัวเลขซึ่งกระจายอยู่ในอีเมล 12 ฉบับที่แตกต่างกันมารวมกัน
  • ขี้เกียจคัดลอกทีละรายการ จึงอัดวิดีโอหน้าจอระหว่างไล่ดูบัญชี Gmail แล้วใช้ Google Gemini ดึงตัวเลขจากวิดีโอนั้น ซึ่งพบว่าทำงานได้ดีมาก

การสแครปวิดีโอแบบคุ้มค่าด้วย AI Studio และ QuickTime

  • เริ่มจากใช้ QuickTime Player บันทึกหน้าจอขณะเปิดดูอีเมลที่เกี่ยวข้อง
  • อัปโหลดวิดีโอความยาว 35 วินาทีที่บันทึกไว้ไปยัง AI Studio ของ Google แล้วขอให้โมเดล Gemini ดึงข้อมูลออกมาในรูปแบบอาร์เรย์ JSON
    • ได้ผลลัพธ์เป็นอาร์เรย์ JSON ที่มีวันที่และจำนวนเงินดอลลาร์กลับมาสำเร็จ
  • จากนั้นขอให้แปลงผลลัพธ์เป็นรูปแบบ CSV เพื่อนำไปวางใน Numbers
  • ค่าใช้จ่ายต่ำมาก อยู่ที่ราว 0.1 เซนต์หรือน้อยกว่า โดยตอนนี้ AI Studio ยังเปิดให้ใช้งานฟรี

ข้อจำกัดของทางเลือกอื่น

  • การคัดลอกข้อมูลด้วยมือมีโอกาสผิดพลาดสูงและเป็นงานที่น่าเบื่อ
  • การใช้ Gmail API มีความซับซ้อนและต้องใช้ความพยายามมาก
  • การทำ browser automation ยังต้องมีขั้นตอนแยกสำหรับ parsing อีเมล
  • การใช้เครื่องมือ AI ขั้นสูงที่เข้าถึงบัญชีอีเมลได้มีความเสี่ยง เช่น prompt injection

ข้อดีของการสแครปวิดีโอ

  • ดึงทุกอย่างที่มองเห็นบนหน้าจอออกมาได้
  • ผู้ใช้ควบคุมได้ทั้งหมดว่าจะให้โมเดล AI เห็นเนื้อหาใดบ้าง
  • ไม่ได้รับผลกระทบจากการยืนยันตัวตนของเว็บไซต์หรือเทคนิคป้องกันการสแครป
  • ไม่มีต้นทุนในการตั้งค่าเลย
  • ใช้งานได้ด้วยค่าใช้จ่ายที่ถูกมาก
  • ยังสามารถนำไปใช้ประโยชน์ในงานด้าน data journalism ได้ด้วย

โบนัส: เครื่องคำนวณราคา LLM

  • ผู้เขียนยังทำเครื่องมือสำหรับคำนวณราคาตามโทเคนแยกต่างหาก
    • เคยใช้ ChatGPT Code Interpreter แต่เกิดข้อผิดพลาดในการคำนวณ
  • จากนั้นจึงใช้ Claude 3.5 สร้างเครื่องคำนวณราคา
    • สามารถตั้งราคาของ input/output token เองแบบ manual หรือใช้ปุ่ม preset เพื่อตั้งราคาตามโมเดลได้
  • กระบวนการสร้างทั้งหมดถูกปรับปรุงซ้ำผ่านการสนทนากับ Claude จนได้ 10 เวอร์ชันภายใน 19 นาที
  • ข้อมูลราคาถูกใส่เข้าไปในบทสนทนาโดยตรงในรูปแบบสกรีนช็อต แล้วให้ Claude ดึงข้อมูลออกมา

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น