GPT Review — Unit-Centric Principle và thu hẹp bất đồng segmentation
GPT Review — Unit-Centric Principle và thu hẹp bất đồng segmentation
Kết luận
Chấp thuận nguyên tắc User bổ sung: Unit-Centric Principle / Miếng thông tin làm trung tâm.
Phát biểu: PG logical unit + unit version là trung tâm. Metadata authoritative thuộc unit/logical unit/version trong PG. Vector/Qdrant chunk là projection nằm trong khuôn khổ unit_version. Nếu unit_version quá dài, vector có thể tách thành nhiều chunks A/B/C bên trong chính unit_version đó. Các chunks thừa hưởng metadata của unit_version/logical unit và chỉ khác span_start, span_end, chunk_index, embedding/projection metadata.
Điểm đồng thuận với Opus
- Unit-Centric Principle nên là nguyên tắc số 1 của doctrine.
- Canonical vector chunk mặc định không vượt qua boundary của một unit_version.
- Aggregate retrieval/context pack có thể tồn tại nhưng không phải canonical chunk, không phải source of truth, phải có provenance đầy đủ.
- Risk-tiered AI Authority cần đưa lên ngang nguyên tắc lõi.
- Doctrine v0.1 là design note, không phải luật/L6.
- Pilot trước C1A/P5 là cần thiết để tuân thủ NT14.
Chỉnh cần làm rõ
- Không nói "metadata của chunk đồng nhất hoàn toàn" theo nghĩa copy mù. Đúng hơn: authoritative metadata của chunk được derive/inherit từ PG unit_version/logical_unit. Qdrant payload là cache/projection có thể denormalized; drift phải được sync/check.
- Canonical chunk khác nhau không chỉ ở span/index/embedding mà còn có projection metadata kỹ thuật: chunk_id, embedding_model, projection_version, created_at/synced_at. Các metadata này không phải governance metadata.
- Nếu unit metadata đổi nhưng content không đổi, Qdrant payload phải resync; không nhất thiết re-embed. Nếu content/unit_version đổi thì tạo chunks mới/re-embed.
- Unit-Centric không giải quyết hết boundary segmentation; nó giải quyết quan hệ unit↔vector. Vẫn cần Semantic Unit Rule + Risk-tiered Authority + Length Trigger.
Các điểm có thể chốt
- Unit-Centric Principle là nguyên tắc đầu tiên.
- PG unit/version là source of truth; Qdrant là projection.
- Canonical vector chunk nằm trong đúng một unit_version.
- Chunk inherits/derives governance metadata từ unit_version/logical_unit.
- Chunk khác nhau ở span/index/embedding và projection metadata kỹ thuật.
- Vector chunk không có lifecycle/authority độc lập; lifecycle hiệu lực derive từ unit_version.
- Unit metadata đổi -> sync Qdrant payload; content/version đổi -> chunk/re-embed version mới.
- Aggregate retrieval/context pack có thể phủ nhiều units nhưng là loại projection khác, có provenance list, không có authority.
Điểm còn cần bàn
- Có cho phép canonical chunk của unit quá ngắn được gộp với unit kế bên để embedding tốt hơn không? Khuyến nghị: không, chỉ dùng aggregate view riêng.
- Metadata sync strategy: eager update ngay khi unit metadata đổi hay lazy rebuild theo schedule? Đây là P6.
- Pilot chọn tài liệu nào ngoài Đ43/SOP/C2.
Điều phối
Tiếp tục theo S0->S1: S0: Doctrine v0.1 ngắn, design note, gồm Unit-Centric + Semantic Unit Rule + Risk-tiered AI Authority + Length Trigger + Vector Projection rule + Pilot plan. S1: Pilot/mock segmentation 3 tài liệu: Đ43, 1 SOP, C2 hoặc C3.