Flipbook - เว็บไซต์ที่สตรีมสดโดยตรงจากโมเดล
(flipbook.page)- สร้างทุกหน้าขึ้นมาเป็นภาพด้วย การสร้างแบบเรียลไทม์ตามต้องการ และเมื่อคลิกวัตถุในภาพ ก็จะสร้างหน้าจอใหม่สำหรับสำรวจสิ่งนั้นให้ลึกขึ้น
- หน้าจอไม่มี HTML หรือช่องกรอกข้อมูล และทำงานเป็น อินเทอร์เฟซที่ยึดพิกเซลเป็นศูนย์กลาง ซึ่งแม้แต่ข้อความก็ถูกเรนเดอร์เป็นพิกเซลโดยตรงด้วยโมเดลภาพ
- ข้อมูลของหน้าเว็บถูกสร้างขึ้นโดยใช้ทั้ง agentic web search และความรู้เกี่ยวกับโลกของโมเดลภาพเอง โดยระบุว่าความแม่นยำอยู่ในระดับใกล้เคียงกับที่คาดหวังจาก ChatGPT, Gemini, Claude
- ฟีเจอร์ live video stream ทำให้ภาพสำหรับการสำรวจเคลื่อนไหวได้และทำให้การเปลี่ยนผ่านลื่นไหลขึ้น แต่ตอนนี้ยังคาดเดาพฤติกรรมได้ยากและใช้ทรัพยากรมาก จึงถูกซ่อนไว้หลังปุ่มสลับ
- ตอนนี้ยังใกล้เคียงกับ เครื่องมือทดลองเพื่อการสำรวจและการเรียนรู้ แต่หากความแม่นยำและประสิทธิภาพของโมเดลภาพและวิดีโอสูงขึ้น ก็อาจขยายไปเป็นสภาพแวดล้อมที่รวมข้อมูลจริงมากขึ้น มีปฏิสัมพันธ์ ทำงานต่างๆ และเก็บข้อมูลได้ด้วยตัวเอง
ภาพรวม
- เป็นเบราว์เซอร์เชิงภาพแบบไร้ขอบเขตที่ทำงานด้วย การสร้างแบบเรียลไทม์ตามต้องการ โดยสร้างทุกหน้าที่ผู้ใช้เข้าถึงขึ้นมาเป็นภาพ
- บนหน้าจอไม่มี HTML, โค้ด, ลิงก์เฉพาะ หรือช่องกรอกข้อมูล และเมื่อคลิกวัตถุในภาพ ก็จะสร้างภาพใหม่เพื่อสำรวจวัตถุนั้นให้ลึกขึ้น
- ปรับโฉมเว็บใหม่โดยมองว่าไม่ใช่ชุดของเอกสารและองค์ประกอบ UI แต่เป็น อินเทอร์เฟซที่ยึดพิกเซลเป็นศูนย์กลาง ซึ่งถูกสร้างขึ้นบนหน้าจอ
วิธีการทำงานและทิศทางการขยาย
- ข้อความทั้งหมดบนหน้าจอก็ถูก โมเดลภาพเรนเดอร์เป็นพิกเซลโดยตรง เช่นกัน โดยไม่ได้วางข้อความซ้อนแยกต่างหากบนภาพ
- ด้วยเหตุนี้ ข้อความอาจไม่สมบูรณ์หรือแสดงในตำแหน่งที่ผิดได้ และมีการระบุว่าน่าจะดีขึ้นเมื่อโมเดลพัฒนาขึ้น
- ข้อมูลภายในภาพถูกสร้างขึ้นโดยใช้ทั้ง agentic web search และความรู้เกี่ยวกับโลกที่มีอยู่ในตัวของโมเดลภาพ
- แม้บางครั้งอาจไม่แม่นยำ แต่ถูกนำเสนอว่าเป็นจุดเริ่มต้นที่มีประโยชน์ซึ่งโดยทั่วไปอ้างอิงจากข้อมูลจริงบนออนไลน์
- มีการระบุว่าความแม่นยำเชิงข้อเท็จจริงอยู่ในระดับใกล้เคียงกับที่คาดหวังเมื่อใช้ ChatGPT, Gemini, Claude
- ตั้งเป้าสู่ประสบการณ์การคอมพิวต์ที่สื่อสารข้อมูลด้วย การแสดงผลเชิงภาพที่สมบูรณ์ยิ่งขึ้น แทนหน้าจอที่มีแต่ข้อความและกล่องสีเป็นหลัก
- มองว่าการใช้เพียงโค้ดและกฎตายตัวนั้นสื่อสารแนวคิดที่ซับซ้อนและละเอียดอ่อนได้ยาก จึงเน้นแนวทางที่เลือกวิธีแสดงผลที่มีประสิทธิภาพที่สุดตามบริบท เช่น คำเพียงคำเดียว ภาพประกอบ หรือการเรนเดอร์สมจริง
- live video stream เป็นฟีเจอร์ทดลองที่เปลี่ยนภาพนิ่งให้เป็นวิดีโอสตรีมที่ต่อเนื่องมากขึ้น โดยทำให้ภาพแต่ละช่วงของการสำรวจมีแอนิเมชันและทำให้การเปลี่ยนผ่านระหว่างกันลื่นไหลขึ้น
- ปัจจุบันการทำงานยังคาดเดาได้ค่อนข้างยากและใช้ทรัพยากรมาก จึงถูกซ่อนไว้หลังปุ่มสลับที่เปิดหรือปิดได้
- ขณะนี้ใช้ทั้งโมเดลสร้างวิดีโอแบบคัสตอมที่ปรับแต่งมาอย่างมากและระบบสร้างภาพสองระบบร่วมกัน และมีแผนจะรวมเป็นระบบเดียวในอนาคต
- แม้ปัจจุบันจะถูกออกแบบเป็น เครื่องมือทดลองเพื่อการสำรวจและการเรียนรู้ แต่หากความแม่นยำและประสิทธิภาพของโมเดลภาพและวิดีโอสูงขึ้น ก็อาจขยายเป็นหน้าเว็บที่รวมข้อมูลจริงมากขึ้น มีปฏิสัมพันธ์ ทำงานได้โดยตรง และเก็บข้อมูลของตัวเองได้
- ยกตัวอย่างว่า จากเดิมที่ค้นคว้าทริปถัดไปในที่หนึ่งแล้วไปจองที่อื่น อาจเปลี่ยนเป็นทำทั้งกระบวนการได้ภายใน Flipbook
- มีการระบุว่า งานที่ตอนนี้ยังต้องใช้แอปและเว็บไซต์แยกต่างหาก ในอนาคตอาจถูกจัดการได้มากขึ้นภายในสภาพแวดล้อมที่มีหน้าตาและการทำงานแบบ Flipbook
- จะไม่สามารถเล่นได้ในเบราว์เซอร์ที่ไม่รองรับวิดีโอแบบฝัง
- การสาธิตใช้ วิดีโอที่สร้างไว้ล่วงหน้า และมีการตัดต่อเพื่อความเร็ว
3 ความคิดเห็น
ดูจากหน้าเว็บกับวิดีโอแนะนำแล้วก็อยากลองสักครั้งนะ.. แต่เขาบอกว่าต้องรอ 3 ชั่วโมง ดูท่าคนจะแห่กันเข้าไปเยอะมาก
https://x.com/DongwooKim/status/2047499005580738657
ลองหมุนดูนัมซานในโซลแล้ว รู้สึกว่าละเอียดน่ารักมากและดีมากเลยครับ
ความคิดเห็นจาก Hacker News
อันนี้ น่าทึ่ง มาก ลองอัปโหลดไดอะแกรม ระบบไฮโดรโปนิกส์ ที่หาเจอจากที่ไหนสักแห่งไป
มันก็แยกส่วนรายละเอียดอย่างท่อ ระบบจ่ายสารอาหาร และการเดินสายไฟออกมาเป็นไดอะแกรมคุณภาพสูงให้
ถึงจะไม่แม่นยำทั้งหมด แต่ชอบแนวคิดนี้มาก
ลองให้มันทำไดอะแกรม ค่าแรงบิดช่วงล่างรถยนต์ แล้วเพราะเป็นเรื่องที่ผมคุ้นเคยเลยตรวจดูได้
ปรากฏว่าวาดได้ถูกเกือบทั้งหมดและตัวเลขแรงบิดก็ถูกด้วย
สามารถคลิกชิ้นส่วนแต่ละชิ้นเพื่อซูมเพิ่มและดูสเปกเพิ่มเติมได้
เป็นเดโมที่น่าประทับใจที่สุดที่เห็นมาในรอบนาน และน่าจะใช้เหมือน คู่มือซ่อม Haynes แบบมีชีวิตได้เลย
มันพอรู้ว่าต้องมีแผงโซลาร์ ตัวควบคุมการชาร์จ แบตเตอรี่ และโหลด แต่การเดินสายนั้นมั่วมาก
พอเจาะไปที่รายละเอียดอย่างการตั้งค่าตัวควบคุมการชาร์จก็พังทันที
ใช้เป็นข้อมูลที่พึ่งพาได้จริงไม่ได้เด็ดขาด แต่ดูเล่นก็สนุกและการทำออกมาก็น่าประทับใจ
ผลลัพธ์ที่ได้เหมือนโรงเก็บของธรรมดาที่แค่เอา upcycled door ไปติดไว้เท่านั้น
ไม่เห็นเลยว่าจักรยานจะเข้าไปอยู่ตรงไหน และโครงสร้างที่เสนอก็ไม่คล้ายรูปร่างตอนสร้างจริงเลย
เหมือนเดโม AI อื่น ๆ ทุกอย่าง คือภายนอกดูน่าเชื่อถือ แต่ระบบไม่ได้เข้าใจจริง ๆ ว่าตัวเองกำลังทำอะไร
ให้มันติดป้ายชื่อชิ้นส่วนใน ห้องเครื่อง Jeep Wrangler JK ตอนแรกก็ได้ไดอะแกรมที่ดูเข้าท่าดี
แต่ถังน้ำมันเบรกไปอยู่คนละฝั่ง และตรงนั้นกลับติดป้ายเป็นถังพักน้ำหล่อเย็น ทั้งที่ถังพักจริงก็วาดมาแต่ไม่มีป้ายกำกับ
ตำแหน่งแบตเตอรี่ก็ผิด ด้านบนกระจังหน้ากลับถูกเขียนว่าเป็นฝาไส้กรองน้ำมันเครื่อง และตำแหน่งช่องเติมน้ำมันเครื่องก็ผิดด้วย
แบตเตอรี่ครึ่งหนึ่งถูกติดป้ายว่าเป็นกล่องฟิวส์ แต่กล่องฟิวส์จริงอยู่อีกฝั่งและวาดมาถูกแล้วแต่ไม่มีป้าย
ถังน้ำฉีดกระจกหน้าก็กลายเป็นสองใบติดกัน
พอกดที่ถังน้ำหล่อเย็นที่ติดป้ายผิด มันพาไปอีกหน้าหนึ่ง คราวนี้ตำแหน่งถูกแต่หน้าตาถังไม่เหมือนเลย และยังเอาฝาหม้อน้ำไปวางบนถังด้วย
ทั้งที่จริงควรอยู่บนหม้อน้ำ
คนที่รู้เรื่องจะจับผิดได้แทบทุกจุด แต่สำหรับคนไม่รู้ มันดูน่าเชื่อถือมาก ซึ่งก็เหมือนเรื่องของ LLM เป๊ะ ๆ
ภายนอกดูคล้าย Mac Pro แต่รายละเอียดภาพผิดทั้งหมด
ข้อความก็ดูเหมือนจะถูกแค่แวบแรกเท่านั้น และพอกดเข้าไปดูก็ผิดเกือบหมด
มันดูเท่มาก แต่การที่ AI ยังผิดได้ขนาดนี้ให้ความรู้สึกเหมือนไม่ได้เห็นมาตั้งแต่ปี 2023 แล้ว
"your mom"ลงไป แล้วมันสร้าง ไทม์ไลน์ทางสังคมเชิงประวัติศาสตร์ของความเป็นแม่ ที่มีรกซ้อนอยู่ด้านบนอันนี้ผ่าน
เป็นโปรเจกต์ที่เจ๋งนะ แต่ผมสงสัยเสมอว่าทรัพยากรและเงินสำหรับสร้างอะไรแบบนี้แล้วเอามาเปิดเป็น บริการสาธารณะ มาจากไหน
น่าจะมี GPU ของตัวเองหรือไม่ก็ใช้ GPT/Gemini API แบบอนุมานที่มีบริษัทช่วยหนุน
แต่ในมุมคนที่ใช้ชีวิตอย่างประหยัดมาโดยตลอดก็ยังนึกภาพไม่ค่อยออก
ไม่ได้คาดเลยว่ามันจะระเบิดขนาดนี้
บางคนเอาเงินไปลงกับเกม วาดรูป หรืองานไม้
บางคนก็เอางบเวลาว่างที่เหลือจาก เงินเดือนระดับ FAANG มาใช้กับ โปรเจกต์ศิลปะ GenAI แทนเหล้าหรือกีฬา
จะไม่ใช่รสนิยมของคุณก็ได้ แต่ในงบของทุกคนก็มักมีรายจ่ายสักอย่างที่คนอื่นมองว่าเป็นความฟุ่มเฟือย
ที่นี่เรียกกันว่า immigrant mentality ไม่ได้ใช้ดูถูก แต่หมายถึงความประหยัดแบบคนที่ต้องเริ่มชีวิตใหม่ตั้งแต่ศูนย์
แถมมันช้ามากจนสุดท้ายผมไม่รอ
ไม่ได้จะโทษคนทำ แค่มันช้าจริง ๆ
ตอนแรกผมนึกว่านี่ไม่ใช่ไดอะแกรม แต่เป็นการ สร้างเว็บเพจแบบเรียลไทม์โดยตรง
ผมสนใจอนาคตที่แอปพลิเคชันถูกสร้างขึ้นสด ๆ ตามความต้องการผู้ใช้มาตลอด
เลยสงสัยว่ามีใครสร้างอะไรแบบนี้ขึ้นมาจริง ๆ หรือยัง
ได้ผลลัพธ์เป็น Mac Neo, ชิป M4 quantum 2 ตัว, solid state battery, graphene connector
https://flipbook.page/n/942776fea47c4274a9a4589134924ef5
มี Sneed's Feed and Seed โผล่มาด้วย พร้อมคำว่า Formerly Chuck's
https://flipbook.page/n/4a5e1797903b478c876a35e64c6c57fe
ถ้าตอบถูกอันนี้ได้คงทึ่งจริง ๆ
ดูเหมือนมันจะไม่มีอยู่ใน ข้อมูลฝึก ของมัน
https://flipbook.page/n/d739a0bbc3664ba2aad331c90fef7406
ไอเดียน่าสนใจ แต่ตอนนี้แทบทุกอย่างล้มเหลวหมด
น่าจะเพราะ HN hug of death
มีข้อความ 429 RESOURCE_EXHAUSTED ขึ้นมาพร้อม
Gemini generateContent request failedและบอกว่าใช้โควตาเกินแล้ว ให้ตรวจสอบแพ็กเกจและข้อมูลการเรียกเก็บเงิน
พร้อมแสดงลิงก์ไปยังรายละเอียดข้อจำกัดด้วย
เดโมหน้าแรกแสดง Paris Travel Overview / Visiting Notre Dame
ผมเลยลองทดสอบกับเมืองและสถานที่ที่เคยไปมาจริงสองสามแห่ง
ตัวจุดที่น่าสนใจนั้นบางครั้งก็จับได้ถูก แต่ ความสัมพันธ์เชิงตำแหน่งในพื้นที่ ระหว่างสิ่งเหล่านั้นเละเทะมาก
ไม่ใกล้เคียงความจริงเลย
ของแบบนี้ดูเป็นผลิตภัณฑ์ที่แพงพอสมควรสำหรับการโดน HN hug of death
วิดีโอตัวอย่างบน Twitter ดูดีมากจริง ๆ
แต่ตอนนี้มันยังทำงานไม่ดี เดี๋ยวคงรอให้ทราฟฟิกลดลงแล้วค่อยกลับมาลองใหม่อีกไม่กี่วัน