Council Review — GPT — NĐ-36-01 v1.0 DRAFT

Ngày: 2026-04-06 Phiên: S169 Đối tượng: knowledge/dev/architecture/nd-36-01-semantic-relationship-infrastructure-draft.md

Tài liệu đã đọc

knowledge/dev/architecture/council-review-request-nd-36-01.md
knowledge/dev/architecture/nd-36-01-semantic-relationship-infrastructure-draft.md
knowledge/dev/architecture/dieu39-knowledge-graph-law-draft.md
knowledge/dev/architecture/dieu38-normative-document-law-draft.md
knowledge/dev/architecture/dieu36-collection-protocol-law-draft.md
knowledge/dev/ssot/operating-rules.md
knowledge/dev/laws/constitution.md
knowledge/current-state/handoff-s168-session.md

Kết luận ngắn

NĐ-36-01 đi đúng hướng và là điều kiện tiên quyết thật sự cho Đ38→Đ39. Điểm mạnh nhất là chuyển trọng tâm từ “từ điển tên gọi” sang “hạ tầng entity linking + provenance + học từ sửa lỗi”. Tuy nhiên bản v1.0 vẫn thiếu vài mục tiêu và vài hàng rào pháp trị để đủ chuẩn production trên single VPS.

Điểm tổng thể

8.7/10

Trả lời 10 câu hỏi

Đầy đủ chưa? Chưa hoàn toàn. Nên bổ sung 3 mục tiêu/điều khoản bắt buộc: (a) Identity Resolution/Merge Governance, (b) Access Scope/ACL cho annotation và relation, (c) Retention/TTL + archival cho annotation và candidate assertions.
PG native đã khai thác hết chưa? Chưa. Nên tính thêm: pgvector (nếu muốn giữ fallback trong PG), citext, ts_rank_cd, GIN/GiST expression indexes, DISTINCT ON/window ranking cho candidate selection, partitioning theo thời gian cho annotation log lớn, LISTEN/NOTIFY cho pipeline nhẹ, DEFERRABLE constraints cho batch import, tablefunc/crosstab cho audit/pivot chất lượng.
Chuẩn ngành còn gì? Nên thêm: entity resolution/blocking, synonym ring/thesaurus cho FTS, record linkage survivorship, weak supervision/snorkel-style labeling, calibration of confidence, evaluation set/gold set management, ontology alignment, lexical resource governance.
4 tầng pipeline hợp lý không? Hợp lý. Nhưng nên đổi thành: normalize/blocking → PG exact → PG fuzzy/FTS → Qdrant rerank → LLM chỉ cho cases ambiguity/relation extraction. Không nên gọi agent trước khi đã có candidate set hẹp.
ltree hay recursive CTE? Nên dùng hybrid. ltree cho taxonomy ổn định/approved; entity_relations + recursive CTE cho quan hệ mềm, DAG, quan hệ đa cha. Không nên ép mọi semantic relation vào ltree.
Semantic Annotation nên dùng chuẩn gì? Nên dùng custom JSONB schema nội bộ làm canonical runtime format, nhưng map được sang W3C Web Annotation/PROV-O ở lớp export. Không nên dùng JSON-LD nặng làm runtime mặc định trên VPS nhỏ.
Active Learning qua disambiguation_log đủ chưa? Chưa đủ. Nên thêm review queue + hard negatives + confidence calibration + mẫu gold set định kỳ. Log chỉ là một phần của human-in-the-loop.
Rủi ro scale trên VPS $8? Có nhưng kiểm soát được nếu: annotation tách nóng/lạnh, partial index, materialized view rất tiết chế, embedding không lưu trùng, batch LLM không realtime. Rủi ro lớn nhất là index phình và refresh MV nặng.
Thứ tự triển khai có đúng không? Đúng đại thể, nhưng nên tách nhỏ: NĐ-36-01 Phase A (alias+relation+confidence) → Đ38 binding MVP → Đ39 A3/A4/A8 MVP → quay lại NĐ-36-01 Phase B (active learning, CBR, RLHF data prep).
Ranh giới NĐ-36-01 / Đ38 / Đ39? NĐ-36-01 sở hữu hạ tầng nhận diện, alias, relation mềm, provenance chuẩn, candidate resolution. Đ38 sở hữu semantic annotation của văn bản quy phạm và binding runtime cho VB. Đ39 tiêu thụ 2 nguồn này để xây KG. Binding table nên thuộc Đ38; relation dictionary/alias/disambiguation nên thuộc NĐ-36-01.

Thiếu sót / vi phạm / rủi ro

Thiếu sót

Thiếu Identity Resolution Governance: merge/split/survivorship khi 2 concept thực ra là 1, hoặc 1 tên chỉ nhiều nghĩa.
Thiếu candidate zone tách biệt với approved zone. NT-09 yêu cầu không chắc = sai; vì vậy candidate không được nhập chung approved.
Thiếu ACL và scope filtering cho annotation/context; Đ39 C8 đã yêu cầu role→allowed species/relations.
Thiếu retention policy cho annotation/provenance log; nếu không log sẽ nổ theo thời gian.
Thiếu evaluation protocol: precision/recall@k, ambiguity rate, human override rate, stale alias rate.

Rủi ro OR/Hiến pháp

NT-11 / Khai tối thiểu: có nguy cơ tạo species semantic_concept quá rộng, biến thành SSOT song song với Birth Registry. Chỉ cho phép khi concept thực sự chưa có “nhà PG”; nếu concept đã có entity chuẩn thì alias/relation phải trỏ về entity đó, không đẻ concept mới.
NT-10 / Quản lý bằng PG: đúng hướng. Nhưng nếu quá nhiều logic resolution nhét vào prompt agent/Langroid thay vì bảng config + queue + thresholds thì sẽ trượt khỏi PG-first.
NT-13 / PG FIRST: v1.0 đã tốt nhưng vẫn hơi “AI-first” ở MT3/MT6/MT7. Phải đóng rõ: LLM là tầng cuối, không phải tầng mặc định.
NT-02 + NT-03: phải DOT-hoá toàn bộ review queue / merge / approve / refresh embeddings. Nếu chưa có DOT tương ứng thì mục tiêu chưa khép kín.

Đề xuất hiệu chỉnh cụ thể

Thêm MT8 — Identity Resolution + Merge Governance.
Thêm MT9 — Evaluation & Calibration.
Tách 3 lớp dữ liệu: approved, candidate, quarantine.
Chuẩn hoá confidence thành 2 trường: match_score (kỹ thuật) và approval_state (quản trị).
Dùng schema runtime kiểu:
- entity_aliases
- entity_relations
- semantic_annotations
- annotation_mentions
- disambiguation_cases
- concept_candidates
- relation_candidates
Với ltree: chỉ áp cho taxonomy/containment approved; synonym, contradiction, abbreviation, related-to vẫn để edge table.
Với semantic annotation: JSONB runtime + cột chuẩn hóa hot fields (doc_id, section_id, entity_id, confidence, method, status) để index/query rẻ.
Với VPS nhỏ: ưu tiên trigram + FTS + alias dictionary trước; embedding/Qdrant và LLM chạy batch/offline.

Chấm điểm

Tính đúng hướng chiến lược: 9.2/10
Tuân thủ OR/HP: 8.5/10
Tận dụng PG native: 8.4/10
Khả thi trên single VPS: 8.6/10
Chuẩn ngành / không phát minh: 8.9/10
Độ sẵn sàng triển khai ngay: 8.3/10

Nhận xét cuối

NĐ-36-01 nên được thông qua ở mức “đúng hướng, cần siết pháp trị dữ liệu trước khi viết giải pháp chi tiết”. Nếu bổ sung merge governance, candidate/approved split, evaluation protocol và ranh giới sở hữu dữ liệu giữa NĐ-36-01–Đ38–Đ39, đây sẽ là một nền hạ tầng rất mạnh cho semantic annotation và knowledge graph trên PG-first architecture.