GPT Analysis — Miếng thông tin và khoảng hở Segmentation Operating Model
GPT Analysis — Miếng thông tin và khoảng hở Segmentation Operating Model
Kết luận
Các tài liệu L1, 02C1, C1, C2 đã định nghĩa khá rõ miếng thông tin sau khi đã được cắt: text unit/logical unit + unit version, có address, parent, version, review, lifecycle, metadata, vector projection.
Tuy nhiên, câu hỏi ai quyết định cắt, cắt theo tiêu chí nào, quy trình đề xuất/cắt/duyệt boundary ra sao chưa được khóa thành một operating model riêng. Hiện phần này mới tồn tại rải rác qua ví dụ, write path, birth gate, review/change-set.
Đã có
- 02C1: text unit = đơn vị thông tin nhỏ nhất được quản lý độc lập trong PG; có thể sửa/review/version/vector riêng.
- L1: text unit/logical unit là đơn vị quản trị thông tin nhỏ nhất; có addressing, cây dọc, relation ngang, version, change-set.
- C1: tách logical unit và unit version; published snapshot chứa unit versions; write path tạo logical unit + draft version đầu tiên.
- C2: tách identity metadata logical unit và content metadata unit version.
Chưa đủ rõ
- Tiêu chí boundary: khi nào một đoạn trở thành một unit riêng?
- Ai có quyền quyết định boundary ban đầu?
- Agent được tự cắt đến đâu, human/council phải duyệt chỗ nào?
- Cơ chế import/migration văn bản cũ thành units đi qua các bước nào?
- Vector chunk trong Qdrant có trùng text unit không, hay có thể là subchunk projection?
- Split/merge unit sau này xử lý bằng quy trình nào?
Định nghĩa đề xuất
Một miếng thông tin quản trị là một logical text unit nếu nó thỏa đồng thời:
- Có thể được định danh bằng canonical address.
- Có ý nghĩa quản trị tương đối độc lập trong ngữ cảnh document.
- Có thể review/version/lifecycle riêng.
- Có thể là target/source của reference hoặc binding.
- Có metadata core/profile riêng.
- Không nhỏ đến mức mất nghĩa, không lớn đến mức sửa một ý kéo theo nhiều ý độc lập.
Unit version là bản nội dung cụ thể của logical unit tại một thời điểm. Vector chunk/Qdrant chunk không phải source of truth; nếu cần chia nhỏ để embedding thì nó là projection/subchunk trỏ về unit_version + range.
Quy trình đề xuất cần bổ sung
Tạo C1A hoặc C0.5 — Segmentation Operating Model trước khi P5 schema:
- Input document inventory.
- Parse cấu trúc đọc: chương/mục/khoản/bảng/định nghĩa/note.
- Agent đề xuất segmentation tree.
- Gán section_type, parent, sort_order, draft canonical address.
- Áp dụng boundary criteria.
- Human owner/council review boundary theo risk.
- Tạo logical units + draft versions qua change-set.
- Birth gate kiểm completeness.
- Review/approve change-set.
- Published snapshot + vector projection.
Điều phối
Không nên sang P5 schema nếu chưa có ít nhất một mục trong C1 hoặc C1A chốt segmentation boundary rules. Có thể xử lý bằng cách yêu cầu Opus bổ sung C1A — Segmentation Operating Model hoặc amend C1 thêm mục Segmentation Decision Model.