큐브리드 대용량 컬럼 저장 구조 개선

DBMS	방식/이름	특징
PostgreSQL	TOAST (The Oversized-Attribute Storage Technique)	큰 컬럼 값을 별도 테이블에 저장, 필요 시 잘라서 접근
MySQL (InnoDB)	Off-Page Storage (Singly-Linked Overflow Pages)	큰 데이터를 페이지 밖에 저장, 오버플로우 페이지 체인으로 연결
Oracle	LOB (SecureFiles), Row Chaining	LOB은 전용 스토리지 구조 제공, Row Chaining은 행이 여러 블록에 분산

DBMS	컬럼 단위 제어	Threshold 제어	분할 저장(청크)	LOB 타입 필요 여부	특이사항
PostgreSQL (TOAST)	가능 (STORAGE 옵션)	불가능 (2KB~ 자동)	있음 (chunk 단위)	불필요	행마다 다른 컬럼만 TOAST 될 수 있음
MySQL (InnoDB Off-Page)	불가능	Page Size 변경 필요 (기본 16KB → 8KB 기준)	없음 (컬럼값 통째로)	불필요	행당 컬럼별 overflow chain
Oracle	불가능	불가능	없음 (Row Chaining만)	필요 (BLOB, CLOB, SecureFile)	일반 컬럼은 무조건 in-row 저장

성능 실험 (Postgresql)

벤치마크 준비

CREATE TABLE IF NOT EXISTS s.t_plain
(
  id bigserial PRIMARY KEY,
  payload varchar STORAGE PLAIN -- TOAST 금지
);
CREATE TABLE IF NOT EXISTS s.t_ext
(
  id bigserial PRIMARY KEY,
  payload varchar STORAGE EXTERNAL -- TOAST
);

INSERT INTO s.t_plain  (payload) SELECT s.gen_rand_text(3000)   FROM generate_series(1,200000) ON CONFLICT DO NOTHING;
INSERT INTO s.t_ext    (payload) SELECT s.gen_rand_text(3000)   FROM generate_series(1,200000) ON CONFLICT DO NOTHING;

각각 3000-byte varchar 데이터 20만 행 삽입

Case	실행 (ms)	Read (pages)	≈ Disk (MiB)	I/O시간 (ms)	Notes
`t_plain`	1,549.3	100,000	~781	1,447.1	Big heap; payload inline.
`t_ext`	29.5	1,471	~11.5	9.7	Tiny heap; payload out-of-line.

테이블	실행 (ms)	Read (pages)	≈ Disk(MiB)	Hit (pages)	I/O시간 (ms)	계획(요약)
`s.t_plain`	1,767.6	10,057	≈ 78.6	28,918	1,660.8	Nested Loop + Index Scan
`s.t_ext`	1,977.4	12,666	≈ 99.0	66,424	1,824.3	Nested Loop + Index Scan (+ TOAST)

구분	TOAST 적용 (Out-of-Line)	TOAST 미적용 (Inline)
Full Table Scan	힙 크기 작음 → 작은 컬럼만 읽을 때 매우 빠름 (I/O 절감)	불필요한 대용량 컬럼까지 읽음 → 느림
Random Access (PK 등)	추가 TOAST 페이지 읽기 필요 → 3kB 기준 약간 느림 (~10~20%)	모든 데이터가 한 페이지에 → 조금 더 빠름
스토리지 효율	대용량 속성은 압축 + 분리 저장 → 공간 절약	압축 없음, 큰 컬럼이 항상 힙에 포함됨
유연성	행/컬럼 단위로 일부만 TOAST 가능	모든 컬럼이 항상 인라인
복잡성	추가 페이지 관리 필요 (성능 변동 요인)	단순 (추가 관리 없음)

구분	요구사항	세부 내용
필수 (Must-have)	기능적 안정성	- Recovery / Replication / HA 환경에서 Out-of-Line 컬럼 정상 동작 - DBMS 내부에서 Out-of-Line 데이터 관리 (외부 파일 아님)
	쿼리 최적화	- 일부 컬럼만 조회 시 대용량 컬럼 불필요하게 읽지 않도록 I/O 최적화 - Full Table Scan 성능 개선 (대용량 컬럼 제외 시 빠르게)
선택	개발자/DBA 제어	- 컬럼 단위 Out-of-Line 강제/금지 설정 - 컬럼 단위 임계치(threshold) 설정 가능
기타	압축 및 저장 효율	- 컬럼 단위 압축 알고리즘 선택 (예: zlib, LZ4) - Out-of-Line 데이터 통계(사용량, 압축률 등) 수집 및 모니터링
	호환성	- 기존 애플리케이션 코드 변경 없이 Out-of-Line 기능 자동 활용 - JDBC/CCI 등 API fetch 시 인라인/Out-of-Line 구분 없이 동일 동작
	운영 관리 편의	- 시스템 카탈로그 뷰 제공 (어떤 컬럼이 Out-of-Line인지, 크기 정보 등)
	장애 대응	- Out-of-Line 데이터만 부분 복구 가능한 도구 제공 - 단일 컬럼 손상 시 테이블 전체 영향 최소화

큐브리드 대용량 컬럼 저장 구조 개선

미팅 목적

발표 순서

용어 정의 및 설명

비슷한 용어들

현재 문제점

현재 문제점

큐브리드 개선 필요성

타 DBMS 사례

PostgreSQL: TOAST

TOAST 과정

TOAST 레코드 단위 동작

PostgreSQL Toast 제어

MySQL (InnoDB)

MySQL Off-Page 과정

MySQL Row Format

MySQL 유저 레벨 제어

Oracle

행 크기를 줄이고 싶다면...

벤더별 제약사항 비교

성능 실험 (Postgresql)

실험 시나리오

성능 결과: Full Table Scan

성능 결과: PK random access

성능으로 보는 Toast 장단점

성능으로 보는 Toast 장단점

TOAST 적용 vs 미적용 장단점

정리

정리

결론

예상 사용자 요구사항 (우선순위별)

필수 요구사항 (Must-have)

선택 요구사항

기타 요구사항

기타 요구사항

구현 계획 제안