- SANA-WM ของ NVIDIA รับภาพ 1 ภาพและเส้นทางกล้องแบบ 6-DoF เป็นอินพุต แล้วสร้างวิดีโอที่ควบคุมได้ความละเอียด 720p ความยาว 1 นาทีบน GPU เพียงตัวเดียว
- Hybrid Linear Diffusion Transformer ผสาน Gated DeltaNet ระดับเฟรมเข้ากับ softmax แบบเป็นคาบ เพื่อคงความสอดคล้องของลำดับที่ยาวต่อเนื่อง
- การฝึกใช้เวลา 15 วันบน H100 จำนวน 64 ตัว และรุ่น distilled สามารถใช้ NVFP4 บน RTX 5090 1 ตัวเพื่อลด noise ของคลิป 720p ความยาว 60 วินาทีได้ใน 34 วินาที
- ใช้วิดีโอสาธารณะราว 213,000 คลิป และ การกำกับ pose แบบ 6-DoF ระดับเมตร เพื่อรองรับการตามเส้นทางกล้องอย่างแม่นยำ
- บน benchmark สำหรับ world model ระดับ 1 นาที ให้ความแม่นยำในการติดตาม action สูงกว่า baseline โอเพนซอร์สเดิม และทำ throughput สูงกว่า 36 เท่า ที่คุณภาพภาพใกล้เคียงกัน
โมเดลและข้อมูลที่เปิดเผย
- SANA-WM เป็น world model โอเพนซอร์สขนาด 2.6B พารามิเตอร์ ที่รับภาพเดียวและเส้นทางกล้องเป็นอินพุตเพื่อสร้างวิดีโอที่ควบคุมได้ ความละเอียด 720p ความยาว 1 นาที
- มีผู้ร่วมพัฒนาจาก NVIDIA ได้แก่ Haoyi Zhu, Haozhe Liu, Yuyang Zhao, Tian Ye, Junsong Chen, Jincheng Yu, Tong He, Song Han และ Enze Xie
- มีเอกสาร Paper, Code, Models soon ให้ใช้งาน
- ชื่อบทความวิจัยคือ
SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer
การออกแบบหลักและ pipeline การสร้าง
-
โครงสร้างแบบ hybrid สำหรับลำดับยาว
- Hybrid Linear Diffusion Transformer ผสาน Gated DeltaNet ระดับเฟรมเข้ากับ softmax แบบเป็นคาบ เพื่อรักษาความสอดคล้องของโลกในลำดับระดับนาที
- ในการเปรียบเทียบด้านประสิทธิภาพ ตัวแปรแบบ recurrent ขยายตัวเล็กกว่าทั้งในด้านหน่วยความจำและ latency แต่แนวทาง all-softmax เกิด OOM เมื่อสร้างวิดีโอ 60 วินาที
-
การควบคุมกล้องอย่างแม่นยำ
- SANA-WM รับ เส้นทางกล้องแบบ 6-DoF เป็นอินพุต และสร้างวิดีโอที่ตามเส้นทางกล้องเชิง metric
- branch สำหรับ global pose แบบหยาบและ branch เชิงเรขาคณิตสำหรับการจัดแนวพิกเซลอย่างละเอียดทำงานร่วมกันเพื่อเพิ่มความเที่ยงตรงในการตามเส้นทางกล้อง
- ดึง camera pose แบบ 6-DoF ที่แม่นยำระดับเมตรจากวิดีโอสาธารณะ เพื่อสร้าง action label คุณภาพสูงที่สอดคล้องกันทั้งเชิงเวลาและเชิงพื้นที่
-
การยกระดับคุณภาพแบบ 2 ขั้นตอน
- เอาต์พุตจากขั้นที่ 1 ถูกนำไปผ่าน refiner สำหรับวิดีโอยาวขนาด 17B เพื่อปรับปรุงคุณภาพและความสอดคล้องตลอดทั้ง sequence
- refiner ช่วยให้ texture การเคลื่อนไหว และคุณภาพในช่วงท้ายของลำดับคมชัดขึ้นบน backbone สำหรับลำดับยาว
ประสิทธิภาพด้านการฝึกและการอนุมาน
- การฝึกใช้เวลา 15 วันบน H100 จำนวน 64 ตัว และข้อมูลฝึกประกอบด้วยคลิปวิดีโอสาธารณะประมาณ 213,000 คลิป พร้อมการกำกับ pose ระดับเมตร
- ในการอนุมาน สามารถสร้างวิดีโอ 720p ความยาว 1 นาทีได้ด้วย H100 เพียงตัวเดียว
- โมเดลรุ่น distilled ใช้ RTX 5090 1 ตัว พร้อมการ quantization แบบ NVFP4 เพื่อลด noise ของคลิป 720p ความยาว 60 วินาทีได้ใน 34 วินาที
- SANA-WM แสดงคุณภาพภาพใกล้เคียงกับ baseline อุตสาหกรรมขนาดใหญ่ เช่น LingBot-World และ HY-WorldPlay พร้อมปรับปรุงประสิทธิภาพ
- บน benchmark สำหรับ world model ระดับ 1 นาที SANA-WM ให้ ความแม่นยำในการติดตาม action สูงกว่า baseline โอเพนซอร์สเดิม และทำ throughput สูงกว่า 36 เท่า ที่คุณภาพภาพใกล้เคียงกัน
ลักษณะการสร้างที่เห็นจากเดโม
-
เดโม world ระดับ 1 นาที
- ตัวอย่าง 1 นาทีหลายชุดคง มุมมองผู้สังเกตคงที่ แบบบุคคลที่หนึ่งไว้ พร้อมสร้างการเคลื่อนไหวของสภาพแวดล้อมเองโดยไม่มีการเคลื่อนกล้องหรือการกระทำของผู้สังเกต
- Video 68: เส้นทางในเทือกเขาแอลป์ที่ปกคลุมด้วยหิมะ หน้าผา ปากถ้ำ น้ำแข็งย้อย สนที่เอนตามลม และนักปีนเขาเสื้อแจ็กเก็ตสีส้ม พร้อมการสร้างอนุภาคหิมะ หมอก กิ่งไม้ไหว และการไหลของผงหิมะ
- Video 72: สร้างทางแยกสามทางที่เปิดโล่ง โดยมีป่าสีน้ำเงิน หอคอยร้างใต้เมฆพายุ และหมู่บ้านที่มีแสงแดดส่องอยู่ปลายทาง
- Video 81: ปรากฏทางแยกตัว T ในศูนย์วิจัยไซไฟใต้ดินที่ปิดตาย พร้อมทางเดินซ้ายที่ถูกน้ำท่วม ทางเดินขวาที่เต็มไปด้วยไอน้ำ และประตูโลหะทรงกลมที่เปิดสู่ความมืด
-
เดโม world ระดับ 20 วินาที
- Video 82: ภายในกระท่อมร้างบนภูเขา แผนที่วาดมือ กุญแจขึ้นสนิม ตะเกียงอุ่น และถ้ำสีทองถัดจากทางเดินในป่าหิมะ โดยมีควันจากสะเก็ดไฟ เปลวตะเกียง และพายุหิมะที่ลอดรอยประตูเคลื่อนไหว
- Video 85: ประตูทรงกลมที่ถูกผนึกในซากโบราณกลางป่า สัญลักษณ์สีเขียว และหุ่นยนต์สำรวจขนาดเล็ก พร้อมเถาวัลย์ แมลง ผีเสื้อ แอ่งน้ำ และสัญลักษณ์บนประตูที่เต้นเป็นจังหวะ
- Video 92: ทางเดินหินของวิหารโบราณใต้น้ำ เสาปะการัง รอยแยกเรืองแสงสีเขียว และหุ่นยนต์ดำน้ำทรงกลมขนาดเล็ก พร้อมปลา ฟอง อนุภาค สาหร่ายทะเล และ caustics
-
เฟรมแรกเดียวกันและ prompt ที่วนซ้ำ
- Video 100, Video 101, Video 102: จาก prompt ทุ่งเกลือเดียวกัน ยังคงรถสปอร์ต เปลือกเกลือหยาบ และแสงอาทิตย์ต่ำไว้ พร้อมสร้างฝุ่นเกลือ การเคลื่อนของเมฆ คลื่นความร้อน และลายลมบนพื้น
- Video 103, Video 104, Video 105: น้ำตื้นสะท้อนแสง ก้อนหินโคลนสำหรับก้าวข้าม ป่าสีม่วง ยานอวกาศตกที่จมอยู่ครึ่งลำ นักบินอวกาศในชุดอวกาศ และสิ่งมีชีวิตต่างดาวขนาดเล็ก ปรากฏในชุดแปรผันของ prompt เดียวกัน
- Video 119, Video 120, Video 121: สร้างคลื่น ใบมะพร้าว นก และการเคลื่อนของเมฆในฉากพระอาทิตย์ขึ้นริมชายหาดเขตร้อนจากมุมมองคงที่
ตัวอย่างผลของ Refiner
-
หุบเขาป่าดงดิบ
- Video 124 และ Video 125 เป็นตัวอย่าง Stage 1 Refined ที่จัดฉากภายในหุบเขาป่าดงดิบขนาดมหึมาจากมุมมองบุคคลที่หนึ่งแบบคงที่
- มีวิหารหินโบราณที่เห็นเลือนอยู่หลังน้ำตก เครื่องบินกระดาษที่พับแล้ว นกหลากสี ใบไม้ลอย ผนังหินเปียก เถาวัลย์พันเกี่ยว และหยดน้ำ
- น้ำตก หมอก การกระพือปีกของนก ใบไม้ร่วง หยดน้ำระยิบระยับ และเครื่องบินกระดาษที่สั่นไหวตามกระแสอากาศ ต่างเคลื่อนไหวได้เอง
-
ประตูโบราณสลักในหน้าผา
- Video 126 และ Video 127 แสดง ประตูโบราณในหน้าผา บนพื้นที่สูงของป่า
- ขั้นบันไดหินทอดจากทางที่ปกคลุมด้วยมอสไปสู่ประตูที่แง้มอยู่ครึ่งหนึ่ง พร้อมเสาแกะสลัก รูปปั้นผู้พิทักษ์ ผนังที่ถูกไม้เลื้อยปกคลุม หุบเขาภูเขาทางซ้าย และนักเดินทางสวมเสื้อคลุมใกล้ทางเข้า
- แสงอาทิตย์อุ่นยามบ่ายคล้อยผสานกับแสงสีเขียวน้ำทะเลที่รั่วออกมาจากประตู ขณะที่ใบไม้ นก เถาวัลย์ และแสงจากพอร์ทัลเคลื่อนไหวอย่างอิสระ
-
วิหารโบราณใต้น้ำ
- Video 130 และ Video 131 นำเสนอ ผลลัพธ์ Stage 1 และ refined แบบวางคู่กัน
- มีทางเดินหินทอดผ่านเสาที่มีปะการังเกาะอยู่ และแสงสีเขียวสดรั่วออกจากรอยแยกกลางผนังพิธีกรรมที่แตกร้าว โดยจัดแนวกับสัญลักษณ์เรืองแสงบนพื้น
- หุ่นยนต์ดำน้ำทรงกลมขนาดเล็กลอยอยู่ด้านหน้า ขณะที่ปลา ฟอง อนุภาค สาหร่ายทะเล caustics และสัญลักษณ์สีเขียวเคลื่อนไหวได้เอง
หมายเหตุการสร้างเดโม
- วิดีโอทั้งหมดในหน้านี้ถูกสร้างด้วย SANA-WM แบบ bidirectional ก่อน แล้วจึงผ่าน refiner สำหรับวิดีโอระยะยาวแบบ 2 ขั้นตอน
- ภาพเฟรมแรกของวิดีโอเดโมทั้งหมดในแกลเลอรีถูกสร้างด้วย OpenAI GPT Image 2 และ Google Nano Banana Pro จากนั้น SANA-WM จึงทำให้ภาพนิ่งเหล่านั้นกลายเป็นวิดีโอความยาว 1 นาที
1 ความคิดเห็น
ความคิดเห็นใน Hacker News
ถ้ามองจากมุมของวิดีโอเกม world model แบบนี้ยังไม่ค่อยทำให้รู้สึกว้าวเท่าไร
ผมไม่ได้เป็นนักพัฒนาเกมโดยตรง แต่เกมที่ชอบมีความตั้งใจในการออกแบบสูงมาก ตัวอย่างเช่นเกมของ FromSoftware หรือ Lies of P ช่วงหลัง ๆ ปกติแล้วแทบไม่มีของชิ้นไหนถูกวางแบบส่ง ๆ ไป และออบเจ็กต์แทบทุกชิ้นถูกจัดวางอย่างมีเจตนา
ตรงกันข้าม เกมที่ไม่มีความตั้งใจแบบนี้จะให้ความรู้สึกเหมือนโลกตาย ๆ ทำลายความอิน หรือทำให้หลุดออกจากประสบการณ์ที่ผู้พัฒนาต้องการส่งมอบ
นึกไม่ค่อยออกว่า world model จะไปถึงระดับที่จับ “ความตั้งใจ” แบบนี้ได้หรือไม่ แม้แต่ LLM ระดับท็อปก็ยังพลาดบ่อยในการเขียน ทั้งงานเขียนและโค้ด ทั้งที่พื้นผิวของประสบการณ์ในสื่อเหล่านั้นดูเล็กกว่าขอบเขตปฏิสัมพันธ์ของผู้ใช้ในวิดีโอเกมเสียอีก
และก็ยังไม่ชัดว่าถ้ามนุษย์อยากสร้างประสบการณ์ที่มีเจตนา จะใช้ world model แบบแยกเป็นโมดูลได้อย่างไร LLM ยังพอทำงานแบบให้มันสร้างข้อความ มนุษย์มาแก้ แล้วให้ LLM ตัวอื่นรับช่วงต่อได้ แต่ไม่แน่ใจว่าเอาต์พุตวิดีโอที่นี่จะเป็นแบบเดียวกันหรือไม่
สุดท้าย world model เองก็น่าประทับใจ แต่เหมือน LLM สำหรับการเขียนตรงที่ยังไม่ชัดว่าเรากำลังสร้างมันไปเพื่ออะไร เพื่อให้สร้างประสบการณ์ที่น่าพอใจน้อยลงและเป็นมนุษย์น้อยลงได้เร็วขึ้นหรือเปล่า หรือประโยชน์ที่เห็นได้ทันทีที่สุดคือให้ระบบหุ่นยนต์สร้างโลกขึ้นมาเพื่อจินตนาการผลของการกระทำและจำลองมัน
โดยรวมแล้วมันให้ความรู้สึกเหมือนเรากำลังพุ่งเข้าสู่โลกที่ ความตั้งใจ เบื้องหลังทุกสิ่งที่เราสัมผัสลดลงเรื่อย ๆ และทุกอย่างก็ดูไร้ตัวตนและอึกทึกขึ้น
procedural generation ที่ทำแบบสะเพร่าอาจได้ผลลัพธ์ที่ขาดความหลากหลายหรือไร้เหตุผล ส่วนการวางองค์ประกอบด้วยมือแบบสะเพร่าก็อาจละเมิดกฎที่เกมตั้งไว้ ทำให้ประสบการณ์ไม่สอดคล้องกัน
การรักษาความสอดคล้องภายในด้วยการวางแบบกำหนดชัดเจนจะยิ่งยากเมื่อขนาดใหญ่ขึ้น ถ้าความสอดคล้องภายในเป็นปัจจัยที่มีผลต่อคุณภาพ พอถึงระดับหนึ่งเนื้อหาที่สร้างขึ้นอาจกลายเป็นวิธีแก้ที่คุณภาพสูงกว่าเสียอีก
อย่างที่สอง เวลาสร้างคอนเทนต์ด้วย AI กฎเรื่องความสะเพร่าก็ยังใช้เหมือนเดิม มีเครื่องมือ generative AI ที่มีตัวเลือกน้อยมากในการจัดองค์ประกอบสิ่งที่ต้องการ แต่สิ่งนั้นไม่ใช่คุณสมบัติบังคับของ AI บางกรณีก็เป็นเพราะคนอยากได้อินเทอร์เฟซที่เรียบง่าย หรือเพราะตัว generator ยังใหม่อยู่ เลยเน้นให้มันทำอะไรบางอย่างได้ก่อนมากกว่าการควบคุมแบบละเอียด จึงมีตัวควบคุมน้อย
ในบางแง่มันยังใหม่เกินไปจนยากจะอธิบายว่าความสามารถในการควบคุมแบบไหนถึงจะพึงประสงค์ และการสร้าง generator ออกมาก่อนเพื่อดูว่าคนอยากทำอะไรกับมัน อาจเป็นเส้นทางที่สมเหตุสมผลก่อนจะสร้างฟีเจอร์ควบคุมที่ต้องการ เครื่องมือที่ควบคุมสไตล์ของสิ่งที่สร้าง การจัดวางออบเจ็กต์ การเคลื่อนกล้อง และองค์ประกอบฉากในระดับสูงก็มีอยู่ แต่มีคนเข้าถึงน้อยกว่ามาก
AI อาจทำให้สิ่งที่เดิมเป็นไปไม่ได้กลายเป็นไปได้ แต่ถ้าจะสร้างอะไรที่พิเศษก็ยังต้องอาศัยความใส่ใจอยู่ดี
คนที่มาตรฐานต่ำอาจไม่บ่น แต่คนที่เหลือจะต้องใช้เวลามากขึ้นเรื่อย ๆ เพื่อหา 1 ชิ้นจาก 100 ชิ้นที่อีก 99 ชิ้นเป็นแค่เสียงรบกวน
มันคล้าย Amazon มากเหมือนกัน การจัดเรียงผลลัพธ์ที่พัง การแสดงราคาต่อหน่วยที่ถูกบิดเบือน และน้ำท่วมของของเลียนแบบราคาถูก รวมกันจนผู้ใช้ยอมแพ้แล้วซื้อของที่โผล่อยู่บนสุด ไม่ว่าจะเป็นรายการแนะนำหรือสินค้าก๊อบของ Amazon เอง
ถ้าลองค้นหาสินค้าหลายอย่างบนเว็บแล้วไปที่แท็บรูปภาพ บ่อยครั้งลิงก์สินค้า Amazon จะกินพื้นที่ผลลัพธ์ถึง 50~90%
แต่เพราะปริมาณมหาศาลนั้นเอง โดยรวมแล้วคอนเทนต์คุณภาพสูงอาจถูกสร้างมากขึ้นด้วย พูดอีกแบบคือคุณภาพเฉลี่ยของเกมอาจลดลง แต่ความถี่ที่มีเกม “ยอดเยี่ยม” ออกมาจริง ๆ จะเพิ่มขึ้น
ไม่ว่างานส่วนไหนในชีวิต คุณภาพของผลลัพธ์เป็นภาพสะท้อนโดยตรงของความใส่ใจและเจตนาที่ใส่ลงไป ถ้าพูดให้เรียบง่ายก็คือสะท้อนว่าทุ่มเทแค่ไหน และสิ่งนั้นมักมองออกเสมอ ในยุค AI ก็ยังเหมือนเดิม
เพียงแต่ตอนนี้เส้นทางจากไม่ต้องพยายามไปสู่ผลลัพธ์มันสั้นลงมาก เลยทำให้ปริมาณเพิ่มขึ้นและเจือจางภาพรวม ผลลัพธ์ราคาถูกแบบนี้จะทำให้ทุกวงการที่มันแตะดูราคาถูกลงไปด้วย ดังนั้นถ้าอยากโดดเด่นกลับจะยิ่งต้องใช้ความพยายามมากขึ้น
ยังมีเกมดี ๆ อีกมากที่ไม่ได้พึ่งการวางไอเท็มอย่างพิถีพิถัน ตัวอย่างเช่นหลายเกมของ Bethesda เคยยอดเยี่ยมทั้งที่ของส่วนใหญ่เป็นแค่ของตกแต่งไร้ประโยชน์ แต่พอผลงานช่วงหลังพยายามให้เศษของจุกจิกเหล่านั้นมีจุดประสงค์ขึ้นมาและทำลายกฎนั้นไป มันกลับแย่ลงมาก
ยังมีเกมดี ๆ อีกมากที่แทบไม่พึ่งความตั้งใจแบบนี้เลย และบางเกมก็แทบจะเป็นการโยนไอเดียเจ๋ง ๆ แบบสุ่ม ๆ มาปะติดปะต่อกัน หรือสร้างขึ้นแบบ procedural ล้วน ๆ
การบอกว่าน้ำหนักโมเดลจะมา “เร็ว ๆ นี้” ตอนนี้ก็แปลว่าเป็น vaporware นั่นแหละ ถ้ายังไม่ปล่อยน้ำหนักออกมา จะเรียกว่า “โอเพนซอร์ส” ได้อย่างไร
ที่ทุกคนสงสัยว่าผลลัพธ์แบบนี้จะออกมาจากโมเดล 2.8B ได้จริงหรือไม่ก็สมเหตุสมผลอยู่แล้ว ถ้าไม่มีน้ำหนักโมเดล ก็เท่ากับมันยังไม่เกิดขึ้นจริง
https://github.com/NVlabs/Sana
ถึงจะบอกว่า 2.6B แต่ต่อจากนั้นก็มีประโยคนี้
“มี 17B long-video refiner แบบเฉพาะทางที่ทำให้พื้นผิว การเคลื่อนไหว และคุณภาพช่วงท้ายของวิดีโอคมชัดขึ้นบน long-rollout backbone”
มันดูเหมือน วิดีโอเกม ทั้งหมดเลย น่าจะใช้ Unreal Engine สร้างข้อมูลสังเคราะห์สำหรับเทรน
การรันสิ่งนี้บน GPU ได้นี่ค่อนข้างน่าประทับใจ เห็นคนแสดงความไม่พอใจและความกังวลอยู่บ้าง แต่ก็ยังเป็นช่วงแรกมาก และตอนนี้น่าจะเป็นสภาพที่แย่ที่สุดของมันแล้ว เลยตื่นเต้นมากว่ามันจะ ส่งผลต่อเกม อย่างไร
อาจเป็นคำถามโง่ ๆ แต่สิ่งที่สร้างขึ้นที่นี่ตรงไหนคือ “world” กันแน่ มีการแทนเชิงนามธรรมของพื้นที่ทางกายภาพจริง เช่น scene graph แบบ game engine หรือเปล่า หรือแค่หมายถึง “ตัวสร้างวิดีโอนี้มีความสอดคล้องทางฟิสิกส์มากกว่าตัวสร้างวิดีโออื่น”
สถานะของโลกนั้นจะเป็นอะไรก็ได้ แต่ในช่วง 1~2 ปีที่ผ่านมา คำนี้ถูกใช้ในความหมายที่แคบลง หมายถึงโมเดลสร้างวิดีโอที่ตอบสนองต่อการควบคุมแบบเกมได้อย่างเป็นธรรมชาติ จนดูเหมือนกำลังจำลองวิดีโอเกมอยู่ เพียงแต่ไม่ได้มีสถานะเพิ่มเติมอยู่เบื้องหลังเฟรมวิดีโอ
โมเดลถูกฝึกให้รักษาความสอดคล้องของฉากได้ราว 1 นาที ดังนั้นหลังจากมองไปรอบ ๆ แล้ว วัตถุที่เคยออกนอกจอไปก็จะกลับมาปรากฏอีกเมื่อหันกลับไปมองทิศนั้น
ลิงก์ดาวน์โหลดอยู่ไหน หาใน GitHub ไม่เจอ และปุ่มดาวน์โหลดบนเว็บก็เป็นสีเทากดไม่ได้
แล้วมันจะรันบน RTX 4090 ที่มีหน่วยความจำ 24GB ได้ไหม?
คำเตือน: ผมเปิดวิดีโอ autoplay ในหน้านั้นแล้วพบว่าดาวน์โหลดพุ่งไปถึง 350Mbps
หวังว่าจะไม่มีใครเปิดหน้านั้นทิ้งไว้บนเครือข่ายที่คิดตามปริมาณหรือมีโควตาจำกัด
แปลกใจที่ GitHub ยังไม่ปิดหน้านั้น
นักวิจัย AI คงชินกับการเผาทรัพยากรคอมพิวต์และเครือข่ายมากเกินไป จนหยุดคิดไปว่าหน้าเว็บที่ autoplay และ loop วิดีโอ HD หลายตัวพร้อมกันมันหมายความว่าอย่างไร
ที่โมเดล 2.6B จะสร้างวิดีโอความยาว 1 นาทีด้วยคุณภาพและความสอดคล้องระดับนั้นได้ ดูเหลือเชื่อจนน่าทึ่งมาก
วิดีโอแรกที่เป็นผู้ชายเดินอยู่บนภูเขาหิมะมีปัญหาเรื่อง ความสอดคล้องของทางเข้าถ้ำ อยู่บ้าง ในขนาดโมเดลระดับนี้ถือว่า “คาดไว้ได้” ไหม
ถ้าตัวอย่างพวกนี้เป็นตัวแทนจริง ๆ ผลของ ‘Refiner’ ดูเหมือนจะทำงานย้อนทางเสียมากกว่า ในทุกกรณีภาพขั้นที่ 1 ดูดีกว่าภาพที่ ‘ขัดเกลา’ แล้ว ทั้งรกน้อยกว่า สมจริงกว่า และถ้าใครรู้จักคำนี้ก็จะรู้สึกว่า “คาวเบลล์” น้อยกว่า