PriorLabs의 TabPFN을 단순한 또 하나의 tabular ML 라이브러리로 분류하면 그 의도를 놓치게 된다. 이 모델의 핵심은 정확도 숫자가 아니라, 표 데이터를 다루는 머신러닝 워크플로의 골격을 다시 그려보자는 제안에 있다. 우리는 지금까지 새 데이터셋이 들어올 때마다 XGBoost나 LightGBM 같은 트리 앙상블을 처음부터 학습시키고, Optuna로 하이퍼파라미터를 튜닝하고, 교차검증을 돌리는 일을 반복해왔다. TabPFN은 이 사이클 자체를 잘라낸다.
구조는 의외로 단호하다. 연구진은 사전학습 단계에서 서로 다른 인과 구조와 노이즈, 결측 패턴을 가진 수백만 개의 합성 tabular 데이터셋을 만들어 트랜스포머에 통째로 학습시켰다. 그 결과 모델은 '특정 도메인'을 배운 게 아니라 '표가 일반적으로 어떻게 생겼는지'에 대한 prior를 외운 셈이 된다. 사용자가 fit을 호출해도 가중치는 갱신되지 않는다. 학습 행이 그대로 컨텍스트로 적재되고, predict 시점에 학습 행과 테스트 행이 한 시퀀스에 함께 들어가 단 한 번의 forward pass로 결과가 나온다. 표 데이터에 in-context learning이 본격적으로 도입된 사건이다.
이 설계는 실전에서 두 갈래로 갈린다. 한쪽은 작은 데이터셋, 빠른 프로토타입, 비ML 팀의 첫 모델 같은 자리다. 여기서는 튜닝에 쓰던 반나절이 사라지고, 피처와 검증 설계에 시간을 쓸 수 있다. 다른 쪽은 행 수와 컬럼 수가 큰 산업 규모 데이터, 시계열 누수가 핵심인 문제, 도메인 분포가 합성 prior에서 멀리 떨어진 경우다. 이 영역에서는 여전히 잘 튜닝된 트리 앙상블이나 AutoGluon 같은 스태킹 솔루션이 더 단단하다. TabPFN의 컨텍스트 길이 한도와 클래스 수 제약은 그 자체로 모델 선택의 경계선을 그어준다.
그래서 이 repo를 'XGBoost 대체재'로 받아들이는 건 너무 좁은 해석이다. 더 정확히는 표 데이터에서도 '사전학습된 일반 모델 + in-context inference'라는, 그동안 LLM의 전유물처럼 여겨졌던 패턴이 진지한 선택지가 됐다는 신호에 가깝다. 새 데이터셋을 받았을 때 첫 baseline을 TabPFN으로 깔아보고, 그 위에서 트리 앙상블이 얼마나 더 가져가는지를 측정해보는 습관 — 이 작은 변화 하나가 표 데이터 팀의 의사결정 속도를 꽤 다른 자리로 옮겨놓는다.