TabPFN - โมเดลพื้นฐานสำหรับข้อมูลแบบตาราง
(github.com/PriorLabs)- โมเดลพื้นฐานสำหรับ ข้อมูลแบบตาราง (structured data) โดยเฉพาะ รองรับการทำงานจำแนกประเภทและรีเกรสชันได้ทันทีผ่านอินเทอร์เฟซ
fit/predictสไตล์ scikit-learn - โมเดลหลัก TabPFN-2.6 ฝึกด้วยข้อมูลสังเคราะห์ล้วน และเมื่อใช้งานครั้งแรกจะดาวน์โหลดเช็กพอยต์อัตโนมัติ ทำให้ ไม่จำเป็นต้องตั้งค่าไปป์ไลน์การฝึกแยกต่างหาก
- ไม่ต้องทำ data preprocessing ด้วย: ไม่ควรใช้การสเกล การเข้ารหัสแบบ one-hot ฯลฯ แต่ให้ป้อนข้อมูลต้นฉบับเข้าไปได้เลย และยังจัดการ missing values ได้ในตัว
- แนะนำให้ใช้ GPU (~8GB VRAM ขึ้นไป) โดยบน CPU จะรันได้เพียงประมาณ ไม่เกิน 1,000 ตัวอย่าง และสำหรับสภาพแวดล้อมที่ไม่มี GPU ก็มี TabPFN Client (cloud inference) ให้ใช้
- จำเป็นต้องทำ batch prediction: หากเรียก
predictแยกทีละตัวอย่าง จะต้องคำนวณชุดฝึกใหม่ทุกครั้ง ทำให้ ช้ากว่าการเรียกครั้งเดียวประมาณ 100 เท่า — แนะนำให้แบ่งชุดทดสอบเป็นหน่วยละ 1,000 รายการ - ช่วงที่ให้ประสิทธิภาพดีที่สุดคือ ไม่เกิน 100,000 ตัวอย่าง และ 2,000 ฟีเจอร์ โดยสำหรับ 50,000~100,000 ตัวอย่างให้ตั้งค่า
ignore_pretraining_limits=Trueและหากเกิน 100,000 ให้ใช้ Large Datasets Guide - มีฟังก์ชันขยายผ่าน TabPFN Extensions เช่น การอธิบายผลด้วย SHAP, การตรวจจับค่าผิดปกติ, การสร้างข้อมูลสังเคราะห์, การดึง embedding, การปรับแต่งไฮเปอร์พารามิเตอร์ และ Post-Hoc ensemble
- บน HuggingFace มี เช็กพอยต์เฉพาะทางหลายแบบ: สำหรับฟีเจอร์จำนวนมาก (สูงสุด 1,000), ตัวอย่างจำนวนมาก (30,000+), ตัวอย่างจำนวนน้อย (ต่ำกว่า 3K), รวมถึงเวอร์ชันที่ fine-tune ด้วยข้อมูลจริง
- ใน Enterprise Edition มี inference แบบ latency ต่ำที่อิงกับ distilled engine, รองรับได้สูงสุด 10 ล้านแถว และมีไลเซนส์เชิงพาณิชย์
- ยังมี TabPFN UX (อินเทอร์เฟซกราฟิกแบบ no-code) แยกต่างหากสำหรับการใช้งานโดยไม่ต้องเขียนโค้ด
- โค้ดใช้ Prior Labs License (Apache 2.0 + ข้อกำหนดการแสดงที่มา) ส่วนน้ำหนักโมเดล TabPFN-2.5/2.6 ใช้ไลเซนส์แบบไม่ใช่เชิงพาณิชย์
ยังไม่มีความคิดเห็น