KB-3D44

GPT Review — Unit-Centric Principle và thu hẹp bất đồng segmentation

4 min read Revision 1
gptreviewdieu38segmentationunit-centricqdrantmetadata2026-04-25

GPT Review — Unit-Centric Principle và thu hẹp bất đồng segmentation

Kết luận

Chấp thuận nguyên tắc User bổ sung: Unit-Centric Principle / Miếng thông tin làm trung tâm.

Phát biểu: PG logical unit + unit version là trung tâm. Metadata authoritative thuộc unit/logical unit/version trong PG. Vector/Qdrant chunk là projection nằm trong khuôn khổ unit_version. Nếu unit_version quá dài, vector có thể tách thành nhiều chunks A/B/C bên trong chính unit_version đó. Các chunks thừa hưởng metadata của unit_version/logical unit và chỉ khác span_start, span_end, chunk_index, embedding/projection metadata.

Điểm đồng thuận với Opus

  • Unit-Centric Principle nên là nguyên tắc số 1 của doctrine.
  • Canonical vector chunk mặc định không vượt qua boundary của một unit_version.
  • Aggregate retrieval/context pack có thể tồn tại nhưng không phải canonical chunk, không phải source of truth, phải có provenance đầy đủ.
  • Risk-tiered AI Authority cần đưa lên ngang nguyên tắc lõi.
  • Doctrine v0.1 là design note, không phải luật/L6.
  • Pilot trước C1A/P5 là cần thiết để tuân thủ NT14.

Chỉnh cần làm rõ

  1. Không nói "metadata của chunk đồng nhất hoàn toàn" theo nghĩa copy mù. Đúng hơn: authoritative metadata của chunk được derive/inherit từ PG unit_version/logical_unit. Qdrant payload là cache/projection có thể denormalized; drift phải được sync/check.
  2. Canonical chunk khác nhau không chỉ ở span/index/embedding mà còn có projection metadata kỹ thuật: chunk_id, embedding_model, projection_version, created_at/synced_at. Các metadata này không phải governance metadata.
  3. Nếu unit metadata đổi nhưng content không đổi, Qdrant payload phải resync; không nhất thiết re-embed. Nếu content/unit_version đổi thì tạo chunks mới/re-embed.
  4. Unit-Centric không giải quyết hết boundary segmentation; nó giải quyết quan hệ unit↔vector. Vẫn cần Semantic Unit Rule + Risk-tiered Authority + Length Trigger.

Các điểm có thể chốt

  1. Unit-Centric Principle là nguyên tắc đầu tiên.
  2. PG unit/version là source of truth; Qdrant là projection.
  3. Canonical vector chunk nằm trong đúng một unit_version.
  4. Chunk inherits/derives governance metadata từ unit_version/logical_unit.
  5. Chunk khác nhau ở span/index/embedding và projection metadata kỹ thuật.
  6. Vector chunk không có lifecycle/authority độc lập; lifecycle hiệu lực derive từ unit_version.
  7. Unit metadata đổi -> sync Qdrant payload; content/version đổi -> chunk/re-embed version mới.
  8. Aggregate retrieval/context pack có thể phủ nhiều units nhưng là loại projection khác, có provenance list, không có authority.

Điểm còn cần bàn

  • Có cho phép canonical chunk của unit quá ngắn được gộp với unit kế bên để embedding tốt hơn không? Khuyến nghị: không, chỉ dùng aggregate view riêng.
  • Metadata sync strategy: eager update ngay khi unit metadata đổi hay lazy rebuild theo schedule? Đây là P6.
  • Pilot chọn tài liệu nào ngoài Đ43/SOP/C2.

Điều phối

Tiếp tục theo S0->S1: S0: Doctrine v0.1 ngắn, design note, gồm Unit-Centric + Semantic Unit Rule + Risk-tiered AI Authority + Length Trigger + Vector Projection rule + Pilot plan. S1: Pilot/mock segmentation 3 tài liệu: Đ43, 1 SOP, C2 hoặc C3.

Back to Knowledge Hub knowledge/dev/reports/gpt-review-unit-centric-principle-and-opus-reconciliation-2026-04-25.md