• ในแวดวง machine learning (ML) และ data science มีเรื่องน่าสนใจหลายอย่างเกิดขึ้น ซึ่งมักถูกกลบด้วยกระแสของ large language models (LLMs)
  • Cynthia Rudin ยังคงเผยแพร่งานวิจัยยอดเยี่ยมด้าน AI ที่อธิบายได้อย่างต่อเนื่อง
  • โปรเจ็กต์ที่น่าสนใจในช่วงไม่กี่เดือนที่ผ่านมา:
    • สร้างฉาก 3D ขึ้นใหม่จากภาพเพียงไม่กี่ภาพ: NAVER LABS Europe
    • Gaussian avatars: Gaussian Avatars
    • Relightable Gaussian codec: Relightable Gaussian Codec
    • ติดตามทุกอย่าง: Co-Tracker, Omnimotion
    • แบ่งส่วนทุกอย่าง: Segment Anything by Facebook Research
    • โมเดลประมาณค่าท่าทางมนุษย์ที่ยอดเยี่ยม: Yolov8, โมเดล MediaPipe ของ Google
    • TTS ที่สมจริง: XTTS-v2 by Coqui on Hugging Face, Bark TTS
    • STT ที่ยอดเยี่ยม: ส่วนใหญ่ใช้ Whisper เป็นฐาน
    • การแปลด้วยเครื่อง: เช่น SeamlessM4T ของ Meta
    • ชื่นชมผลงานจำนวนมากที่ออกมาจาก R&D ของ Meta
  • คำอธิบายเกี่ยวกับ NeRFs:
    • เป็นการคิดใหม่อย่างถึงรากเกี่ยวกับกราฟิก 3D โดยแทนที่จะใช้รูปหลายเหลี่ยมที่มี texture จะใช้ทรงกลมกึ่งโปร่งแสงที่เปล่งแสงแทน
    • ตำแหน่งและสีของทรงกลมถูกเรียนรู้โดยโครงข่ายประสาทผ่านภาพจากกล้องหลายมุมที่แม่นยำและข้อมูล pose และสามารถเรนเดอร์ได้ด้วย ray tracing บน GPU
    • เนื่องจากฉากถูกสร้างจากภาพถ่าย จึงสมจริงอย่างเต็มที่ และยังสามารถสำรวจได้ด้วย
    • ในทางทฤษฎี ฉากเหล่านี้สามารถทำให้เคลื่อนไหวได้ แต่ในทางปฏิบัติ วิธีทำยังคงเป็นประเด็นวิจัย
    • ยังไม่ชัดเจนว่าจะดีกว่าระบบที่อิงรูปหลายเหลี่ยมซึ่งถูกปรับแต่งมาอย่างดี เช่น Nanite+photogrammetry หรือไม่
  • คำถามเกี่ยวกับเครื่องมือที่สามารถสร้างฉาก 3D จากวิดีโอถนนที่ถ่ายจากรถ:
    • เน้นภูมิทัศน์รอบถนน สามารถขับผ่านหลายรอบจากหลายมุมได้ และใช้เวลาประมวลผลนานก็ได้
    • ต้องการสร้างถนนท้องถิ่นเพื่อใช้ในเรซซิงซิมูเลเตอร์
  • ความสนใจใน geometric deep learning:
    • วิธีออกแบบโมเดลอย่างมีหลักการเพื่อให้เคารพสมมาตรที่ทราบอยู่แล้วของข้อมูล
    • ConvNets เป็นที่รู้จักจากความเป็น equivariant ต่อการแปลงของมัน แต่ก็มีตัวอย่างล่าสุดสำหรับกลุ่มสมมาตรอื่น ๆ ด้วย
    • ยังมีคำถามว่าระบบจะค้นพบหรือระบุสมมาตรเฉพาะได้โดยอัตโนมัติหรือไม่
  • แนะนำ machine learning marathon ที่จัดโดยชุมชน ML+X ของ UW-Madison:
    • อีเวนต์ช่วงฤดูร้อนราว 12 สัปดาห์ที่จะถูกนำเสนอเป็นการแข่งขันบน Kaggle
    • เป็นโอกาสในการเรียนรู้และประยุกต์ใช้เครื่องมือ machine learning ร่วมกัน เพื่อหาแนวทางแก้ปัญหาที่สร้างสรรค์กับชุดข้อมูลจริง
    • มีความท้าทายหลากหลาย เหมาะทั้งสำหรับผู้เริ่มต้นและผู้ปฏิบัติงานระดับสูง
    • ผู้เข้าร่วม ที่ปรึกษาโครงการ และผู้จัดงานจะมาพบกันทุกสัปดาห์หรือสองสัปดาห์ครั้งเพื่อแชร์เคล็ดลับและทำเดโม/อภิปรายสั้น ๆ
    • นอกจากรางวัลภายในอย่างการพัฒนาทักษะและการสร้างชุมชนแล้ว ทีมที่ชนะยังได้รับเงินรางวัล
  • แนะนำ RT-2 โมเดล Vision-Language-Action (VLA) ซึ่งเปรียบเสมือนลูกพี่ลูกน้องของ LLMs:
    • นอกจากข้อมูลข้อความและภาพแล้ว ยังรวมข้อมูลการเคลื่อนไหวของหุ่นยนต์ในฐานะ "ภาษาอีกแบบหนึ่ง" และใช้เป็นโทเค็นสำหรับสร้างการเคลื่อนไหวของหุ่นยนต์
  • มีความเห็นว่าโมเดล computer vision ตระกูล SAM ทำให้บริการและเครื่องมือ annotation โดยมนุษย์จำนวนมากไม่จำเป็นลงไปพอสมควร:
    • สามารถทำ auto-labeling ของข้อมูลภาพได้ในคุณภาพค่อนข้างสูง
  • แชร์ประสบการณ์เปิดตัว Scholars.io เพื่อรับงานวิจัยล่าสุดจาก arXiv ในหัวข้อเฉพาะที่สนใจ:
    • หวังว่าจะช่วยให้คนอื่นค้นหากิจกรรมวิจัยนอกเหนือจาก LLM ได้ เพราะสามารถกรองงานวิจัยที่ไม่สนใจออกได้
  • คำถามว่าการเรียน ML ต่อไปในปี 2024 ยังมีคุณค่าหรือไม่ พร้อมกล่าวถึงสัญชาตญาณส่วนตัว:
    • แชร์ประสบการณ์ทำงานกับโปรเจ็กต์เสริมที่ใช้ xgboost
    • รู้สึกว่า ML ยังมีคุณค่าอยู่ แต่ก็ยังไม่แน่ใจ

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น