- ในแวดวง machine learning (ML) และ data science มีเรื่องน่าสนใจหลายอย่างเกิดขึ้น ซึ่งมักถูกกลบด้วยกระแสของ large language models (LLMs)
- Cynthia Rudin ยังคงเผยแพร่งานวิจัยยอดเยี่ยมด้าน AI ที่อธิบายได้อย่างต่อเนื่อง
- โปรเจ็กต์ที่น่าสนใจในช่วงไม่กี่เดือนที่ผ่านมา:
- คำอธิบายเกี่ยวกับ NeRFs:
- เป็นการคิดใหม่อย่างถึงรากเกี่ยวกับกราฟิก 3D โดยแทนที่จะใช้รูปหลายเหลี่ยมที่มี texture จะใช้ทรงกลมกึ่งโปร่งแสงที่เปล่งแสงแทน
- ตำแหน่งและสีของทรงกลมถูกเรียนรู้โดยโครงข่ายประสาทผ่านภาพจากกล้องหลายมุมที่แม่นยำและข้อมูล pose และสามารถเรนเดอร์ได้ด้วย ray tracing บน GPU
- เนื่องจากฉากถูกสร้างจากภาพถ่าย จึงสมจริงอย่างเต็มที่ และยังสามารถสำรวจได้ด้วย
- ในทางทฤษฎี ฉากเหล่านี้สามารถทำให้เคลื่อนไหวได้ แต่ในทางปฏิบัติ วิธีทำยังคงเป็นประเด็นวิจัย
- ยังไม่ชัดเจนว่าจะดีกว่าระบบที่อิงรูปหลายเหลี่ยมซึ่งถูกปรับแต่งมาอย่างดี เช่น Nanite+photogrammetry หรือไม่
- คำถามเกี่ยวกับเครื่องมือที่สามารถสร้างฉาก 3D จากวิดีโอถนนที่ถ่ายจากรถ:
- เน้นภูมิทัศน์รอบถนน สามารถขับผ่านหลายรอบจากหลายมุมได้ และใช้เวลาประมวลผลนานก็ได้
- ต้องการสร้างถนนท้องถิ่นเพื่อใช้ในเรซซิงซิมูเลเตอร์
- ความสนใจใน geometric deep learning:
- วิธีออกแบบโมเดลอย่างมีหลักการเพื่อให้เคารพสมมาตรที่ทราบอยู่แล้วของข้อมูล
- ConvNets เป็นที่รู้จักจากความเป็น equivariant ต่อการแปลงของมัน แต่ก็มีตัวอย่างล่าสุดสำหรับกลุ่มสมมาตรอื่น ๆ ด้วย
- ยังมีคำถามว่าระบบจะค้นพบหรือระบุสมมาตรเฉพาะได้โดยอัตโนมัติหรือไม่
- แนะนำ machine learning marathon ที่จัดโดยชุมชน ML+X ของ UW-Madison:
- อีเวนต์ช่วงฤดูร้อนราว 12 สัปดาห์ที่จะถูกนำเสนอเป็นการแข่งขันบน Kaggle
- เป็นโอกาสในการเรียนรู้และประยุกต์ใช้เครื่องมือ machine learning ร่วมกัน เพื่อหาแนวทางแก้ปัญหาที่สร้างสรรค์กับชุดข้อมูลจริง
- มีความท้าทายหลากหลาย เหมาะทั้งสำหรับผู้เริ่มต้นและผู้ปฏิบัติงานระดับสูง
- ผู้เข้าร่วม ที่ปรึกษาโครงการ และผู้จัดงานจะมาพบกันทุกสัปดาห์หรือสองสัปดาห์ครั้งเพื่อแชร์เคล็ดลับและทำเดโม/อภิปรายสั้น ๆ
- นอกจากรางวัลภายในอย่างการพัฒนาทักษะและการสร้างชุมชนแล้ว ทีมที่ชนะยังได้รับเงินรางวัล
- แนะนำ RT-2 โมเดล Vision-Language-Action (VLA) ซึ่งเปรียบเสมือนลูกพี่ลูกน้องของ LLMs:
- นอกจากข้อมูลข้อความและภาพแล้ว ยังรวมข้อมูลการเคลื่อนไหวของหุ่นยนต์ในฐานะ "ภาษาอีกแบบหนึ่ง" และใช้เป็นโทเค็นสำหรับสร้างการเคลื่อนไหวของหุ่นยนต์
- มีความเห็นว่าโมเดล computer vision ตระกูล SAM ทำให้บริการและเครื่องมือ annotation โดยมนุษย์จำนวนมากไม่จำเป็นลงไปพอสมควร:
- สามารถทำ auto-labeling ของข้อมูลภาพได้ในคุณภาพค่อนข้างสูง
- แชร์ประสบการณ์เปิดตัว Scholars.io เพื่อรับงานวิจัยล่าสุดจาก arXiv ในหัวข้อเฉพาะที่สนใจ:
- หวังว่าจะช่วยให้คนอื่นค้นหากิจกรรมวิจัยนอกเหนือจาก LLM ได้ เพราะสามารถกรองงานวิจัยที่ไม่สนใจออกได้
- คำถามว่าการเรียน ML ต่อไปในปี 2024 ยังมีคุณค่าหรือไม่ พร้อมกล่าวถึงสัญชาตญาณส่วนตัว:
- แชร์ประสบการณ์ทำงานกับโปรเจ็กต์เสริมที่ใช้ xgboost
- รู้สึกว่า ML ยังมีคุณค่าอยู่ แต่ก็ยังไม่แน่ใจ
ยังไม่มีความคิดเห็น