KB-6C09
GPT Review — Unit-centric, document-as-label và quyết định kiến trúc đơn giản
3 min read Revision 1
gptreviewdieu38unit-centricdocument-labelsegmentationssot2026-04-25
GPT Review — Unit-centric, document-as-label và quyết định kiến trúc đơn giản
Kết luận
User muốn đơn giản hóa: miếng thông tin là trung tâm, Agent quyết định cắt, đưa vào PG ngay, metadata/vector chạy theo miếng.
GPT đồng ý với hướng Unit-Centric, nhưng không đồng ý xóa hoàn toàn document object. Đề xuất mô hình trung dung:
- Unit/version là SSOT nội dung.
- Document/law/SOP/class/topic là labels hoặc views để pivot/assembly.
- Cần một
publication/view envelopenhẹ để quản version/lifecycle/authority của một bản công bố, nhưng envelope không chứa content và không phải SSOT nội dung.
Nói ngắn: Content SSOT = unit. Document = governed view/label-set, không phải content container.
Nguyên tắc đơn giản đề xuất
- Miếng thông tin là một ý có thể đặt tên.
- Agent quyết định cắt theo tên/ý nghĩa; nếu đặt được title rõ thì thành miếng.
- Miếng không nên quá dài đến mức sửa khó; độ dài chỉ warn/escalate, không cắt cơ học.
- Mọi content authoritative sống trong unit_version PG.
- Metadata governance thuộc unit/logical unit/version; Qdrant inherit/derive metadata đó.
- Vector chunk canonical chỉ nằm trong một unit_version.
- Document/law/SOP/topic/class là labels/views để pivot và publish.
- Published document cần envelope/view snapshot nhẹ để quản lifecycle/version/authority, nhưng không giữ content inline.
Phản biện Opus
Điểm đúng:
- Document không nên là content container.
- Label/pivot là hướng đúng cho corpus lớn.
- Unit phải là trung tâm của PG và SSOT nội dung.
Điểm cần sửa:
- Không nên nói
document không phải object thậttuyệt đối. Published document/view cần object nhẹ để quản lifecycle, version, authority, audit, snapshot. - Parent-child không nên biến hoàn toàn thành label tự do. Cần canonical tree tối thiểu cho một published view, nếu không render/audit sẽ rối.
Miếng thông tin là một ý có thể đặt tênlà tốt nhưng cần thêm điều kiệnđặt tên không mơ hồ và có thể sửa/review riêngđể tránh mỗi câu đặt title tùy tiện.
Quyết định kiến trúc đề xuất
Adopt Unit-Centric View Model:
- Unit = atom content.
- Unit version = SSOT content at time.
- Label = classification/pivot/tag/collection membership.
- View/publication = ordered label-set/snapshot of units for reading/publishing.
- Document = một loại view/publication, không phải content container.
Cần amend gì
Có khả năng phải amend/clarify L1/C1/C2, nhưng chưa cần rewrite ngay. Trước hết soạn S0 doctrine v0.1 theo Unit-Centric View Model, pilot, rồi quyết định mức amend.
Điều phối tiếp theo
Yêu cầu Opus soạn S0 Doctrine v0.1 thật ngắn, theo 8 nguyên tắc, không viết C1A dài, không schema.