KB-6C09

GPT Review — Unit-centric, document-as-label và quyết định kiến trúc đơn giản

3 min read Revision 1
gptreviewdieu38unit-centricdocument-labelsegmentationssot2026-04-25

GPT Review — Unit-centric, document-as-label và quyết định kiến trúc đơn giản

Kết luận

User muốn đơn giản hóa: miếng thông tin là trung tâm, Agent quyết định cắt, đưa vào PG ngay, metadata/vector chạy theo miếng.

GPT đồng ý với hướng Unit-Centric, nhưng không đồng ý xóa hoàn toàn document object. Đề xuất mô hình trung dung:

  • Unit/version là SSOT nội dung.
  • Document/law/SOP/class/topic là labels hoặc views để pivot/assembly.
  • Cần một publication/view envelope nhẹ để quản version/lifecycle/authority của một bản công bố, nhưng envelope không chứa content và không phải SSOT nội dung.

Nói ngắn: Content SSOT = unit. Document = governed view/label-set, không phải content container.

Nguyên tắc đơn giản đề xuất

  1. Miếng thông tin là một ý có thể đặt tên.
  2. Agent quyết định cắt theo tên/ý nghĩa; nếu đặt được title rõ thì thành miếng.
  3. Miếng không nên quá dài đến mức sửa khó; độ dài chỉ warn/escalate, không cắt cơ học.
  4. Mọi content authoritative sống trong unit_version PG.
  5. Metadata governance thuộc unit/logical unit/version; Qdrant inherit/derive metadata đó.
  6. Vector chunk canonical chỉ nằm trong một unit_version.
  7. Document/law/SOP/topic/class là labels/views để pivot và publish.
  8. Published document cần envelope/view snapshot nhẹ để quản lifecycle/version/authority, nhưng không giữ content inline.

Phản biện Opus

Điểm đúng:

  • Document không nên là content container.
  • Label/pivot là hướng đúng cho corpus lớn.
  • Unit phải là trung tâm của PG và SSOT nội dung.

Điểm cần sửa:

  • Không nên nói document không phải object thật tuyệt đối. Published document/view cần object nhẹ để quản lifecycle, version, authority, audit, snapshot.
  • Parent-child không nên biến hoàn toàn thành label tự do. Cần canonical tree tối thiểu cho một published view, nếu không render/audit sẽ rối.
  • Miếng thông tin là một ý có thể đặt tên là tốt nhưng cần thêm điều kiện đặt tên không mơ hồ và có thể sửa/review riêng để tránh mỗi câu đặt title tùy tiện.

Quyết định kiến trúc đề xuất

Adopt Unit-Centric View Model:

  • Unit = atom content.
  • Unit version = SSOT content at time.
  • Label = classification/pivot/tag/collection membership.
  • View/publication = ordered label-set/snapshot of units for reading/publishing.
  • Document = một loại view/publication, không phải content container.

Cần amend gì

Có khả năng phải amend/clarify L1/C1/C2, nhưng chưa cần rewrite ngay. Trước hết soạn S0 doctrine v0.1 theo Unit-Centric View Model, pilot, rồi quyết định mức amend.

Điều phối tiếp theo

Yêu cầu Opus soạn S0 Doctrine v0.1 thật ngắn, theo 8 nguyên tắc, không viết C1A dài, không schema.