Ask HN: มีแนวโน้มอะไรในสาย ML ที่ไม่ถูกกลบด้วยกระแส LLM บ้าง?

(news.ycombinator.com)

19 คะแนน โดย GN⁺ 2024-03-29 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

ในแวดวง machine learning (ML) และ data science มีเรื่องน่าสนใจหลายอย่างเกิดขึ้น ซึ่งมักถูกกลบด้วยกระแสของ large language models (LLMs)
Cynthia Rudin ยังคงเผยแพร่งานวิจัยยอดเยี่ยมด้าน AI ที่อธิบายได้อย่างต่อเนื่อง
โปรเจ็กต์ที่น่าสนใจในช่วงไม่กี่เดือนที่ผ่านมา:
- สร้างฉาก 3D ขึ้นใหม่จากภาพเพียงไม่กี่ภาพ: NAVER LABS Europe
- Gaussian avatars: Gaussian Avatars
- Relightable Gaussian codec: Relightable Gaussian Codec
- ติดตามทุกอย่าง: Co-Tracker, Omnimotion
- แบ่งส่วนทุกอย่าง: Segment Anything by Facebook Research
- โมเดลประมาณค่าท่าทางมนุษย์ที่ยอดเยี่ยม: Yolov8, โมเดล MediaPipe ของ Google
- TTS ที่สมจริง: XTTS-v2 by Coqui on Hugging Face, Bark TTS
- STT ที่ยอดเยี่ยม: ส่วนใหญ่ใช้ Whisper เป็นฐาน
- การแปลด้วยเครื่อง: เช่น SeamlessM4T ของ Meta
- ชื่นชมผลงานจำนวนมากที่ออกมาจาก R&D ของ Meta
คำอธิบายเกี่ยวกับ NeRFs:
- เป็นการคิดใหม่อย่างถึงรากเกี่ยวกับกราฟิก 3D โดยแทนที่จะใช้รูปหลายเหลี่ยมที่มี texture จะใช้ทรงกลมกึ่งโปร่งแสงที่เปล่งแสงแทน
- ตำแหน่งและสีของทรงกลมถูกเรียนรู้โดยโครงข่ายประสาทผ่านภาพจากกล้องหลายมุมที่แม่นยำและข้อมูล pose และสามารถเรนเดอร์ได้ด้วย ray tracing บน GPU
- เนื่องจากฉากถูกสร้างจากภาพถ่าย จึงสมจริงอย่างเต็มที่ และยังสามารถสำรวจได้ด้วย
- ในทางทฤษฎี ฉากเหล่านี้สามารถทำให้เคลื่อนไหวได้ แต่ในทางปฏิบัติ วิธีทำยังคงเป็นประเด็นวิจัย
- ยังไม่ชัดเจนว่าจะดีกว่าระบบที่อิงรูปหลายเหลี่ยมซึ่งถูกปรับแต่งมาอย่างดี เช่น Nanite+photogrammetry หรือไม่
คำถามเกี่ยวกับเครื่องมือที่สามารถสร้างฉาก 3D จากวิดีโอถนนที่ถ่ายจากรถ:
- เน้นภูมิทัศน์รอบถนน สามารถขับผ่านหลายรอบจากหลายมุมได้ และใช้เวลาประมวลผลนานก็ได้
- ต้องการสร้างถนนท้องถิ่นเพื่อใช้ในเรซซิงซิมูเลเตอร์
โฆษณา
ความสนใจใน geometric deep learning:
- วิธีออกแบบโมเดลอย่างมีหลักการเพื่อให้เคารพสมมาตรที่ทราบอยู่แล้วของข้อมูล
- ConvNets เป็นที่รู้จักจากความเป็น equivariant ต่อการแปลงของมัน แต่ก็มีตัวอย่างล่าสุดสำหรับกลุ่มสมมาตรอื่น ๆ ด้วย
- ยังมีคำถามว่าระบบจะค้นพบหรือระบุสมมาตรเฉพาะได้โดยอัตโนมัติหรือไม่
แนะนำ machine learning marathon ที่จัดโดยชุมชน ML+X ของ UW-Madison:
- อีเวนต์ช่วงฤดูร้อนราว 12 สัปดาห์ที่จะถูกนำเสนอเป็นการแข่งขันบน Kaggle
- เป็นโอกาสในการเรียนรู้และประยุกต์ใช้เครื่องมือ machine learning ร่วมกัน เพื่อหาแนวทางแก้ปัญหาที่สร้างสรรค์กับชุดข้อมูลจริง
- มีความท้าทายหลากหลาย เหมาะทั้งสำหรับผู้เริ่มต้นและผู้ปฏิบัติงานระดับสูง
- ผู้เข้าร่วม ที่ปรึกษาโครงการ และผู้จัดงานจะมาพบกันทุกสัปดาห์หรือสองสัปดาห์ครั้งเพื่อแชร์เคล็ดลับและทำเดโม/อภิปรายสั้น ๆ
- นอกจากรางวัลภายในอย่างการพัฒนาทักษะและการสร้างชุมชนแล้ว ทีมที่ชนะยังได้รับเงินรางวัล
แนะนำ RT-2 โมเดล Vision-Language-Action (VLA) ซึ่งเปรียบเสมือนลูกพี่ลูกน้องของ LLMs:
- นอกจากข้อมูลข้อความและภาพแล้ว ยังรวมข้อมูลการเคลื่อนไหวของหุ่นยนต์ในฐานะ "ภาษาอีกแบบหนึ่ง" และใช้เป็นโทเค็นสำหรับสร้างการเคลื่อนไหวของหุ่นยนต์
มีความเห็นว่าโมเดล computer vision ตระกูล SAM ทำให้บริการและเครื่องมือ annotation โดยมนุษย์จำนวนมากไม่จำเป็นลงไปพอสมควร:
- สามารถทำ auto-labeling ของข้อมูลภาพได้ในคุณภาพค่อนข้างสูง
โฆษณา
แชร์ประสบการณ์เปิดตัว Scholars.io เพื่อรับงานวิจัยล่าสุดจาก arXiv ในหัวข้อเฉพาะที่สนใจ:
- หวังว่าจะช่วยให้คนอื่นค้นหากิจกรรมวิจัยนอกเหนือจาก LLM ได้ เพราะสามารถกรองงานวิจัยที่ไม่สนใจออกได้
คำถามว่าการเรียน ML ต่อไปในปี 2024 ยังมีคุณค่าหรือไม่ พร้อมกล่าวถึงสัญชาตญาณส่วนตัว:
- แชร์ประสบการณ์ทำงานกับโปรเจ็กต์เสริมที่ใช้ xgboost
- รู้สึกว่า ML ยังมีคุณค่าอยู่ แต่ก็ยังไม่แน่ใจ

Ask HN: มีแนวโน้มอะไรในสาย ML ที่ไม่ถูกกลบด้วยกระแส LLM บ้าง?

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น