- Mistral AI ได้เพิ่มฟีเจอร์ใหม่ 5 อย่างให้กับ Le Chat เพื่อให้การสำรวจ การแสดงออก และการจัดระเบียบของผู้ใช้เป็นธรรมชาติและทรงพลังยิ่งขึ้น
- โหมด Deep Research มอบความสามารถในการสรุปคำถามที่ซับซ้อนอย่างรวดเร็วให้อยู่ในรูปแบบรายงานวิจัยที่มีโครงสร้าง
- โหมดเสียง ช่วยให้สนทนาได้อย่างเป็นธรรมชาติและรวดเร็วผ่านโมเดลเสียงใหม่ Voxtral และใช้งานได้โดยไม่ต้องพิมพ์
- ความสามารถด้านการให้เหตุผลหลายภาษาแบบเนทีฟที่ขับเคลื่อนด้วย Magistral สร้างคำตอบที่ชัดเจนและลึกซึ้งในหลากหลายภาษา รวมถึงสลับภาษาในประโยคเดียวกันได้
- ฟีเจอร์ Projects ช่วยจัดระเบียบบทสนทนา เอกสาร และไอเดียเป็นหน่วยโปรเจกต์ พร้อมจดจำบริบท จึงเหมาะกับงานระยะยาวด้วย
What’s new in Le Chat.
1. Deep Research mode
- ฟีเจอร์ที่ช่วยค้นคว้าหัวข้อซับซ้อนได้อย่างรวดเร็วในรูปแบบรายงานที่มีโครงสร้าง
- แยกย่อยคำถามของผู้ใช้ ค้นหาแหล่งข้อมูลที่เชื่อถือได้ และสร้างเป็นรายงานที่จัดระเบียบแล้ว
- แม้จะใช้ Deep Research agent ที่อิงเครื่องมือเบื้องหลัง แต่ประสบการณ์ผู้ใช้ยังคงเรียบง่าย โปร่งใส และให้ความรู้สึกเหมือนทำงานร่วมกัน
2. Voice mode
- ใช้โมเดลเสียงใหม่ชื่อ Voxtral เพื่อให้การสนทนาด้วยเสียงอย่างเป็นธรรมชาติเป็นไปได้
- เหมาะกับหลากหลายสถานการณ์ เช่น ระดมไอเดียระหว่างเดินเล่น ถาม-ตอบด่วนขณะอยู่นอกบ้าน หรือถอดเสียงการประชุม
- ค่าหน่วงต่ำ ทำให้ตามความเร็วในการพูดของผู้ใช้ได้ทัน
3. Natively multilingual reasoning
- ตอบคำถามที่ซับซ้อนได้อย่างชัดเจนในหลายภาษา โดยอิงจากโมเดลให้เหตุผล Magistral
- เหมาะกับการใช้งานหลายภาษา เช่น ร่างข้อเสนอเป็นภาษาสเปน หรืออธิบายแนวคิดทางกฎหมายเป็นภาษาญี่ปุ่น
- รองรับการสลับภาษาในประโยคเดียวกัน (code-switching) ได้ด้วย
4. Projects
- จัดระเบียบบทสนทนาที่เกี่ยวข้องในรูปแบบโฟลเดอร์ที่ยึดตามบริบท
- แต่ละโปรเจกต์จะจดจำไลบรารีเฉพาะของตัวเองและสถานะการตั้งค่าเครื่องมือ
- อัปโหลดเอกสาร เรียกดูเนื้อหาในไลบรารี และทำงานร่วมกับบทสนทนาและไอเดียได้ โดยคงสภาพแวดล้อมการทำงานที่สอดคล้องกัน
- มีประโยชน์สำหรับการวางแผนย้ายบ้าน การออกแบบฟีเจอร์ผลิตภัณฑ์ และการจัดการโปรเจกต์ระยะยาว
5. Advanced image editing
- ต่างจากเครื่องมือสร้างภาพจากข้อความทั่วไป ตรงที่สามารถแก้ไขภาพที่สร้างแล้วได้โดยตรง
- ตัวอย่างเช่น ใช้พรอมป์ต์อย่าง “ลบวัตถุ” หรือ “ย้ายไปเมืองอื่น” เพื่อปรับแก้ฉากได้
- สามารถแก้ไขเป็นชุดได้โดยคงความสม่ำเสมอของบุคคล วัตถุ และองค์ประกอบการออกแบบ
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
ฟังก์ชันแก้ไขภาพดูยอดเยี่ยมมาก ที่จริงรู้สึกว่านี่ต่างหากคือจุดเด่นหลักแต่กลับไม่ค่อยถูกนำเสนอชัดเจน โมเดลของ OpenAI มักเปลี่ยนภาพทั้งภาพและทำให้รายละเอียดในส่วนที่ไม่เกี่ยวกับคำสั่งเสียหายไปด้วย แต่โมเดลนี้น่าประทับใจตรงที่เก็บส่วนที่ไม่เกี่ยวกับคำสั่งไว้ได้สมบูรณ์แบบ พร้อมแก้เฉพาะส่วนที่ต้องการได้ดีมาก เพียงแต่ความละเอียดของผลลัพธ์ยังน่าผิดหวังอยู่บ้าง (ภาพต้นฉบับใหญ่กว่านี้มาก แต่ภาพผลลัพธ์มีแค่ 1184px) ผมลองอัปโหลดรูปโฮมออฟฟิศแล้วขอให้ “ซ่อมแผงสีเทาด้านล่างที่ฉีกนิดหน่อยให้ดูเหมือนใหม่เอี่ยม” ผลลัพธ์ออกมาดีมาก คุณภาพของภาพที่ได้ด้อยกว่าต้นฉบับเพียงเล็กน้อยมาก แต่คาดว่าส่วนนี้คงดีขึ้นในไม่ช้า
ภาพต้นฉบับ: https://i.imgur.com/t0WCKAu.jpeg
ภาพผลลัพธ์: https://i.imgur.com/xb99lmC.png
เทคโนโลยีแบบนี้น่าจะกระทบ Craigslist อย่างมาก เช่น ไปดูรถเพราะในรูปดูสภาพดี แต่พอไปถึงจริงกลับพบว่าซุ้มล้อบุบ ฝากระโปรงมีรู และไฟหน้าก็แตก
เคยมีกรณีนายหน้าอสังหาริมทรัพย์ใช้ AI จัดแต่งภาพบ้านใหม่หมดจนบ้านเก่าดูเหมือนบ้านสร้างใหม่ คนที่ไปดูของจริงโกรธกันมาก นายหน้าบอกว่านี่เป็นเพียงอีกขั้นของการ staging แต่กรณีนี้ใช้ไม่ได้ผลเลย สุดท้ายต้องถอนประกาศ และก็มีคนจำนวนมากแวะมาดูเพื่อมารับงานซ่อมด้วย (น่าจะเป็นญาติกัน แต่ก็ไม่แน่ใจ)
ขอแจ้งไว้ว่า ลิงก์ภาพต้นฉบับกับภาพผลลัพธ์ที่คุณแปะมาเหมือนกัน ตอนแรกผมพยายามหาความต่างของภาพแล้วงงเลย
สำหรับงานบางอย่าง Kontext น่าจะเก่งกว่า และคิดว่า Mistral ก็น่าจะใช้มันอยู่ ที่สำคัญคือเร็วและถูกมาก
แต่เมื่อวาน OpenAI ก็เพิ่งเพิ่มฟีเจอร์แก้ไขภาพความละเอียดสูงแบบใหม่ด้วย ยังไม่แน่ใจว่ามีเฉพาะใน API หรือจะมาในแชต UI ด้วยไหม นี่คือผลลัพธ์จาก prompt และภาพอินพุตเดียวกัน: https://i.imgur.com/w5Q0UQm.png
ข่าวจาก OpenAI: https://x.com/OpenAIDevs/status/1945538534884135132
ใช้ Flux Kontext ของ Black Forest Labs อยู่ และมันเป็นโมเดลที่ยอดเยี่ยมจริง ๆ
ชื่อหนังสือในภาพผลลัพธ์ดูเพี้ยนไป
ในที่สุดก็รู้สึกว่า EU ตื่นแล้ว เรื่องนี้น่าภูมิใจมาก ทันทีที่สัญญากับ OpenAI หมด ผมตั้งใจจะย้ายไปใช้ Mistral เลย ต้องสนับสนุนยุโรป, Viva La France
ในโพสต์บล็อก Mistral Medium 3 เดือนพฤษภาคม มีส่วน “One more thing” ที่พูดไว้แบบนี้:
ผมกำลังเจอกับ MRF หรือ Model Release Fatigue (ความล้าจากการออกโมเดลใหม่) พอมีโมเดลใหญ่ ๆ ออกมาถี่มาก ก็เอาแต่สลับโมเดลใน IDE ตลอด แล้วพอกลับไปเปิดอะไรที่ก่อนหน้านี้ดูดี ตอนนี้กลับรู้สึกว่ามันไม่ดีแล้ว
Claude 4, gpt, llama, Gemini 2.5, pro-mini, mistral… พอสลับไปมาทุกวันก็เหมือนมึนหัวตลอดเวลา
เป็นความเหนื่อยล้าจากการต้องสลับ LLM ไปมา
ผมเข้าใจความรู้สึกนะ แต่คิดว่าการมีตัวเลือกหลากหลายแบบนี้ออกมาเรื่อย ๆ เป็นเรื่องที่ดีมาก ความเร็วของนวัตกรรมก็น่าทึ่ง ถ้าคุณอยากใช้แต่โมเดลที่ดีที่สุดตลอด เวลานี้คงเหนื่อยหน่อย แต่ก็ยังดีกว่าความนิ่งหรือการผูกขาดมาก
เพราะอย่างนี้ผมเลยแทบไม่ลองของใหม่พวกนี้เลย (ถึงจะสนุกก็เถอะ) ตั้งใจว่าจะค่อยลองจริงจังช่วงครึ่งหลังของปี 2026 ตอนนั้นโมเดลรันโลคัลและฮาร์ดแวร์ก็คงพัฒนาไปมากแล้ว
ขอคารวะคนที่รับมือกับเวอร์ชันทดลองทั้งหลายอยู่ตอนนี้
การแข่งขันแบบนี้กลับเป็นสิ่งที่ดีมาก ผมใช้แต่โมเดลพรีเมียมเสมอ แต่แทบไม่ต้องจ่ายเงินเลย เพราะมักมีโปรโมชันหรือโอกาสที่แทบฟรีอยู่เรื่อย ๆ
ไม่จำเป็นต้องตามทุกอย่างก็ได้ ใช้โมเดลที่เหมาะกับตัวเองสักตัวอย่างต่อเนื่องก็เพียงพอแล้ว
ที่เวอร์ชันเก่าดูแย่ลง เป็นเพราะผู้ให้บริการเอาทรัพยากรไปทุ่มกับเวอร์ชันใหม่ อีกอย่างก็มีผลจาก data cutoff ของข้อมูลฝึกด้วย (เช่น claude sonnet 3.5→3.7)
ส่วนตัวผมใช้แต่ Claude/Anthropic เพราะมันเข้าใจผมดีกว่า และก็ฉลาดพอมากอยู่แล้วจนไม่ค่อยจำเป็นต้องใช้เวอร์ชันล่าสุด
การเปิดตัว Voxtral น่าสนใจเพราะทำให้โอเพนซอร์สด้าน audio transcription (เสียง→ข้อความ) ที่แข่งขันได้กลับมาคึกคักอีกครั้ง ถึงจะสงสัยว่าจำเป็นต้องมี LLM backbone จริงหรือไม่ แต่อย่างไรก็เป็นแนวทางที่น่าสนใจ
ข่าวประชาสัมพันธ์ของ Mistral ทำให้รู้สึกเหมือนมันดีที่สุดนับจาก Whisper แต่คู่เทียบจริง ๆ ไม่ได้อยู่ในกลุ่มหัวแถว
เบนช์มาร์กแบบเปิด: https://huggingface.co/spaces/hf-audio/open_asr_leaderboard
และ Scribe ที่ Mistral ใช้เทียบก็อยู่อันดับ 10
แม้จะเป็นเบนช์มาร์กภาษาอังกฤษ แต่ก็มีโมเดลหลายภาษาจำนวนมาก จึงพอใช้อ้างอิงได้ (เช่น https://huggingface.co/nvidia/canary-1b-flash)
ตอนนี้ผมสนใจโมเดลที่เปิดข้อมูลมากกว่าโอเพนโค้ดหรือโอเพนน้ำหนักเสียอีก โดยต้องเป็นข้อมูลที่เปิดในแบบที่ตรวจสอบได้ทางจริยธรรมด้วย
เช่น ผมอยากใช้โมเดลที่บอกได้ว่าแหล่งข้อมูลที่ผมระบุถูกนำเข้าไปอยู่ในข้อมูลฝึกหรือไม่
ทุกวันนี้ผมสลัดความรู้สึกที่ว่าอุตสาหกรรม AI แค่ลอกบริการของ OpenAI ไม่ได้เลย
บริการของบริษัทอื่น ๆ ก็แทบจะเหมือนกัน ต่างกันแค่โครงสร้างเล็กน้อย
ตัวนวัตกรรมเองก็ไม่ได้สูงอย่างที่คิด
ถ้าได้ลองใช้จริงจะรู้ว่าไม่เหมือนกันเลย สำหรับงานประจำวันอย่างการเขียนโค้ด ความต่างระหว่างโมเดลชัดมาก
ตอนนี้ให้ความรู้สึกเหมือนทั้งโลกกำลังสร้างบริการใหม่อยู่บนฟังก์ชัน
f(input: string): stringมันเลยเลี่ยงไม่ได้ที่จะคล้ายกันOpenAI ก็เอาฟีเจอร์ Deep Research มาจาก Google เหมือนกัน ใช้ชื่อเดียวกัน และ Mistral ก็เหมือนกัน
นี่ต่างหากคือการแข่งขันในตลาดที่ดีต่อสุขภาพ ตัวอย่างอย่าง Apple ที่สร้างนวัตกรรมต่อเนื่องมาหลายสิบปีนั้นเป็นผลผลิตของการคุมประตูแบบกึ่งผูกขาด
ท้ายที่สุดแล้วก็เป็นเทคโนโลยีชุดคล้าย ๆ กันที่ถูกนำไปใช้ทั่วกระดาน ต่างกันหลัก ๆ ที่ข้อมูลฝึกและพลังประมวลผลเท่านั้น
ผมใช้ ChatGPT หนักมาก เลยอยากลอง Le Chat ดูบ้าง แต่อยากรู้ว่าจะต่างกันมากไหม หรือจริง ๆ ก็คล้ายกันมาก
ถ้ายังไม่เคยใช้ฟีเจอร์ Deep Research ของ OpenAI ผมแนะนำให้ลองมาก ๆ ยังหาทางเลือกอื่นที่ใช้แทนได้จริงไม่ได้เลย ของ Google ก็ลองแล้วแต่ไม่ค่อยประทับใจ
มันช่วยประหยัดเวลาได้มหาศาลสำหรับวิศวกรที่ต้องทำการศึกษาพวก trade-off
ฟีเจอร์ Research ของ Anthropic ก็ดีทีเดียว คิดว่าอยู่ระดับเดียวกับ OpenAI
ของ Google เวอร์ชันเสียเงินแม่นยำขึ้นนิดหน่อย แต่รายงานที่ได้ยืดยาวเกินไปจนอ่านลำบาก เหมือนรายงานนักศึกษาที่พยายามยืดเนื้อหาให้ครบจำนวนคำ
ผมได้ประโยชน์มากโดยเฉพาะกับการทำวิจัยตลาด (เกี่ยวกับการเริ่มต้นธุรกิจ) ให้ความรู้สึกเหมือนจ้างผู้ช่วยวางแผน/PM ระดับจูเนียร์ที่ฉลาดมากคนหนึ่ง
แนะนำให้ลองฟีเจอร์รีเสิร์ชของ Kimi 2 ด้วย ผลลัพธ์ดีเกินคาดจนผมแปลกใจ
ผลลัพธ์ของ OpenAI กับ Gemini ออกมาต่างกันพอสมควร จะบอกว่าฝั่งไหนดีกว่าไม่ได้ แค่มันต่างกันชัดเจน
Perplexities ก็ไม่เลว เพียงแต่ผมไม่มีสมาชิกแบบเสียเงินของ OpenAI เลยเทียบตรง ๆ ไม่ได้
ตัวอย่างพรอมป์ต์ไม่ค่อยดีเลย เช่น คำตอบเรื่องแผนส่วนตัว ถ้าไม่ใช้ Deep Research แล้วตอบตรง ๆ เลยกลับจะดีกว่ามาก (ตอบได้ถูกจริงแค่หัวข้อวีซ่า)
สงสัยว่า Voxtral จะพอเอาไปใช้กับคีย์บอร์ด Futo บน Android ได้ไหม