KB-69ED

GPT Analysis — Segmentation Semantics và NT14 trước C1A

2 min read Revision 1
gptanalysisdieu38segmentationnt14text-unitpre-design2026-04-25

GPT Analysis — Segmentation Semantics và NT14 trước C1A

Kết luận

Segmentation không phải bài toán cắt độ dài. Đây là bài toán xác định boundary ngữ nghĩa có thể vận hành được. Nếu không làm rõ trước, triển khai PG schema/migration sẽ vi phạm NT14: luật/thiết kế hay nhưng runtime vướng.

Quan điểm điều phối

Không nên viết C1A ngay theo kiểu hoàn thiện giả tạo. Cần thống nhất trước một segmentation doctrine gồm:

  • semantic boundary;
  • maximum length as review trigger;
  • unit family/type-specific rules;
  • authority và workflow;
  • test cases/pilot corpus;
  • failure modes.

Nguyên tắc nền

  1. Cắt theo nghĩa quản trị, không cắt theo token.
  2. Độ dài là tín hiệu cảnh báo boundary, không phải tiêu chí duy nhất.
  3. Một unit phải vừa tự đứng được vừa không chứa quá nhiều ý độc lập.
  4. Nếu mục lớn quá dài thì không cắt A/B/C cơ học; phải tìm các tiểu-ý quản trị bên trong và nâng thành units có title/type/address riêng.
  5. Heading/container có thể là unit cấu trúc nhưng không nhất thiết chứa body dài.
  6. Vector chunk có thể nhỏ hơn unit nhưng chỉ là projection, trỏ về unit_version + span.

Cần thống nhất trước khi giao Opus viết C1A

  • Taxonomy unit types: heading/container, principle/rule, definition, procedure step, list item group, table, exception, example/note, reference-only, config/guard.
  • Boundary tests: independent review, independent version, reference target, metadata distinction, lifecycle effect, semantic cohesion.
  • Length policy: soft limit/hard limit theo unit type; exception approval; split by semantic sub-units.
  • Authority model: agent propose, human/council approve boundary for high-risk documents.
  • Pilot examples: luật, SOP, table, definition list, long section.

Quyết định

Tạm thời không viết prompt hoàn chỉnh cho Opus C1A cho tới khi User/GPT thống nhất doctrine ở mức này. Sau khi doctrine rõ, mở phiên Claude mới và giao Opus soạn C1A từ đầu.