TabPFN - โมเดลพื้นฐานสำหรับข้อมูลแบบตาราง

xguru · 2026-05-21T09:46:01+09:00

โมเดลพื้นฐานสำหรับ ข้อมูลแบบตาราง (structured data) โดยเฉพาะ รองรับการทำงานจำแนกประเภทและรีเกรสชันได้ทันทีผ่านอินเทอร์เฟซ fit/predict สไตล์ scikit-learn โมเดลหลัก TabPFN-2.6 ฝึกด้วยข้อมูลสังเคราะห์ล้วน และเมื่อใช้งานครั้งแรกจะดาวน์โหลดเช็กพอยต์อัตโนมัติ ทำให้ ไม่จำเป็นต้องตั้งค่าไปป์ไลน์การฝึกแยกต่างหาก ไม่ต้องทำ data preprocessing ด้วย: ไม่ควรใช้การสเกล การเข้ารหัสแบบ one-hot ฯลฯ แต่ให้ป้อนข้อมูลต้นฉบับเข้าไปได้เลย และยังจัดการ missing values ได้ในตัว แนะนำให้ใช้ GPU (~8GB VRAM ขึ้นไป) โดยบน CPU จะรันได้เพียงประมาณ ไม่เกิน 1,000 ตัวอย่าง และสำหรับสภาพแวดล้อมที่ไม่มี GPU ก็มี TabPFN Client (cloud inference) ให้ใช้ จำเป็นต้องทำ batch prediction: หากเรียก predict แยกทีละตัวอย่าง จะต้องคำนวณชุดฝึกใหม่ทุกครั้ง ทำให้ ช้ากว่าการเรียกครั้งเดียวประมาณ 100 เท่า — แนะนำให้แบ่งชุดทดสอบเป็นหน่วยละ 1,000 รายการ ช่วงที่ให้ประสิทธิภาพดีที่สุดคือ ไม่เกิน 100,000 ตัวอย่าง และ 2,000 ฟีเจอร์ โดยสำหรับ 50,000~100,000 ตัวอย่างให้ตั้งค่า ignore_pretraining_limits=True และหากเกิน 100,000 ให้ใช้ Large Datasets Guide มีฟังก์ชันขยายผ่าน TabPFN Extensions เช่น การอธิบายผลด้วย SHAP, การตรวจจับค่าผิดปกติ, การสร้างข้อมูลสังเคราะห์, การดึง embedding, การปรับแต่งไฮเปอร์พารามิเตอร์ และ Post-Hoc ensemble บน HuggingFace มี เช็กพอยต์เฉพาะทางหลายแบบ: สำหรับฟีเจอร์จำนวนมาก (สูงสุด 1,000), ตัวอย่างจำนวนมาก (30,000+), ตัวอย่างจำนวนน้อย (ต่ำกว่า 3K), รวมถึงเวอร์ชันที่ fine-tune ด้วยข้อมูลจริง ใน Enterprise Edition มี inference แบบ latency ต่ำที่อิงกับ distilled engine, รองรับได้สูงสุด 10 ล้านแถว และมีไลเซนส์เชิงพาณิชย์ ยังมี TabPFN UX (อินเทอร์เฟซกราฟิกแบบ no-code) แยกต่างหากสำหรับการใช้งานโดยไม่ต้องเขียนโค้ด โค้ดใช้ Prior Labs License (Apache 2.0 + ข้อกำหนดการแสดงที่มา) ส่วนน้ำหนักโมเดล TabPFN-2.5/2.6 ใช้ไลเซนส์แบบไม่ใช่เชิงพาณิชย์

(github.com/PriorLabs)

9 คะแนน โดย xguru 2026-05-21 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

โมเดลพื้นฐานสำหรับ ข้อมูลแบบตาราง (structured data) โดยเฉพาะ รองรับการทำงานจำแนกประเภทและรีเกรสชันได้ทันทีผ่านอินเทอร์เฟซ fit/predict สไตล์ scikit-learn
โมเดลหลัก TabPFN-2.6 ฝึกด้วยข้อมูลสังเคราะห์ล้วน และเมื่อใช้งานครั้งแรกจะดาวน์โหลดเช็กพอยต์อัตโนมัติ ทำให้ ไม่จำเป็นต้องตั้งค่าไปป์ไลน์การฝึกแยกต่างหาก
ไม่ต้องทำ data preprocessing ด้วย: ไม่ควรใช้การสเกล การเข้ารหัสแบบ one-hot ฯลฯ แต่ให้ป้อนข้อมูลต้นฉบับเข้าไปได้เลย และยังจัดการ missing values ได้ในตัว
แนะนำให้ใช้ GPU (~8GB VRAM ขึ้นไป) โดยบน CPU จะรันได้เพียงประมาณ ไม่เกิน 1,000 ตัวอย่าง และสำหรับสภาพแวดล้อมที่ไม่มี GPU ก็มี TabPFN Client (cloud inference) ให้ใช้
จำเป็นต้องทำ batch prediction: หากเรียก predict แยกทีละตัวอย่าง จะต้องคำนวณชุดฝึกใหม่ทุกครั้ง ทำให้ ช้ากว่าการเรียกครั้งเดียวประมาณ 100 เท่า — แนะนำให้แบ่งชุดทดสอบเป็นหน่วยละ 1,000 รายการ
ช่วงที่ให้ประสิทธิภาพดีที่สุดคือ ไม่เกิน 100,000 ตัวอย่าง และ 2,000 ฟีเจอร์ โดยสำหรับ 50,000~100,000 ตัวอย่างให้ตั้งค่า ignore_pretraining_limits=True และหากเกิน 100,000 ให้ใช้ Large Datasets Guide
มีฟังก์ชันขยายผ่าน TabPFN Extensions เช่น การอธิบายผลด้วย SHAP, การตรวจจับค่าผิดปกติ, การสร้างข้อมูลสังเคราะห์, การดึง embedding, การปรับแต่งไฮเปอร์พารามิเตอร์ และ Post-Hoc ensemble
บน HuggingFace มี เช็กพอยต์เฉพาะทางหลายแบบ: สำหรับฟีเจอร์จำนวนมาก (สูงสุด 1,000), ตัวอย่างจำนวนมาก (30,000+), ตัวอย่างจำนวนน้อย (ต่ำกว่า 3K), รวมถึงเวอร์ชันที่ fine-tune ด้วยข้อมูลจริง
ใน Enterprise Edition มี inference แบบ latency ต่ำที่อิงกับ distilled engine, รองรับได้สูงสุด 10 ล้านแถว และมีไลเซนส์เชิงพาณิชย์
ยังมี TabPFN UX (อินเทอร์เฟซกราฟิกแบบ no-code) แยกต่างหากสำหรับการใช้งานโดยไม่ต้องเขียนโค้ด
โค้ดใช้ Prior Labs License (Apache 2.0 + ข้อกำหนดการแสดงที่มา) ส่วนน้ำหนักโมเดล TabPFN-2.5/2.6 ใช้ไลเซนส์แบบไม่ใช่เชิงพาณิชย์

TabPFN - โมเดลพื้นฐานสำหรับข้อมูลแบบตาราง

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น