Council Review — GPT — NĐ-36-01 v1.0 DRAFT
Council Review — GPT — NĐ-36-01 v1.0 DRAFT
Ngày: 2026-04-06 Phiên: S169 Đối tượng:
knowledge/dev/architecture/nd-36-01-semantic-relationship-infrastructure-draft.md
Tài liệu đã đọc
knowledge/dev/architecture/council-review-request-nd-36-01.mdknowledge/dev/architecture/nd-36-01-semantic-relationship-infrastructure-draft.mdknowledge/dev/architecture/dieu39-knowledge-graph-law-draft.mdknowledge/dev/architecture/dieu38-normative-document-law-draft.mdknowledge/dev/architecture/dieu36-collection-protocol-law-draft.mdknowledge/dev/ssot/operating-rules.mdknowledge/dev/laws/constitution.mdknowledge/current-state/handoff-s168-session.md
Kết luận ngắn
NĐ-36-01 đi đúng hướng và là điều kiện tiên quyết thật sự cho Đ38→Đ39. Điểm mạnh nhất là chuyển trọng tâm từ “từ điển tên gọi” sang “hạ tầng entity linking + provenance + học từ sửa lỗi”. Tuy nhiên bản v1.0 vẫn thiếu vài mục tiêu và vài hàng rào pháp trị để đủ chuẩn production trên single VPS.
Điểm tổng thể
8.7/10
Trả lời 10 câu hỏi
- Đầy đủ chưa? Chưa hoàn toàn. Nên bổ sung 3 mục tiêu/điều khoản bắt buộc: (a) Identity Resolution/Merge Governance, (b) Access Scope/ACL cho annotation và relation, (c) Retention/TTL + archival cho annotation và candidate assertions.
- PG native đã khai thác hết chưa? Chưa. Nên tính thêm:
pgvector(nếu muốn giữ fallback trong PG),citext,ts_rank_cd,GIN/GiSTexpression indexes,DISTINCT ON/window ranking cho candidate selection, partitioning theo thời gian cho annotation log lớn,LISTEN/NOTIFYcho pipeline nhẹ,DEFERRABLEconstraints cho batch import,tablefunc/crosstab cho audit/pivot chất lượng. - Chuẩn ngành còn gì? Nên thêm: entity resolution/blocking, synonym ring/thesaurus cho FTS, record linkage survivorship, weak supervision/snorkel-style labeling, calibration of confidence, evaluation set/gold set management, ontology alignment, lexical resource governance.
- 4 tầng pipeline hợp lý không? Hợp lý. Nhưng nên đổi thành: normalize/blocking → PG exact → PG fuzzy/FTS → Qdrant rerank → LLM chỉ cho cases ambiguity/relation extraction. Không nên gọi agent trước khi đã có candidate set hẹp.
ltreehay recursive CTE? Nên dùng hybrid.ltreecho taxonomy ổn định/approved;entity_relations+ recursive CTE cho quan hệ mềm, DAG, quan hệ đa cha. Không nên ép mọi semantic relation vàoltree.- Semantic Annotation nên dùng chuẩn gì? Nên dùng custom JSONB schema nội bộ làm canonical runtime format, nhưng map được sang W3C Web Annotation/PROV-O ở lớp export. Không nên dùng JSON-LD nặng làm runtime mặc định trên VPS nhỏ.
- Active Learning qua
disambiguation_logđủ chưa? Chưa đủ. Nên thêm review queue + hard negatives + confidence calibration + mẫu gold set định kỳ. Log chỉ là một phần của human-in-the-loop. - Rủi ro scale trên VPS $8? Có nhưng kiểm soát được nếu: annotation tách nóng/lạnh, partial index, materialized view rất tiết chế, embedding không lưu trùng, batch LLM không realtime. Rủi ro lớn nhất là index phình và refresh MV nặng.
- Thứ tự triển khai có đúng không? Đúng đại thể, nhưng nên tách nhỏ: NĐ-36-01 Phase A (alias+relation+confidence) → Đ38 binding MVP → Đ39 A3/A4/A8 MVP → quay lại NĐ-36-01 Phase B (active learning, CBR, RLHF data prep).
- Ranh giới NĐ-36-01 / Đ38 / Đ39? NĐ-36-01 sở hữu hạ tầng nhận diện, alias, relation mềm, provenance chuẩn, candidate resolution. Đ38 sở hữu semantic annotation của văn bản quy phạm và binding runtime cho VB. Đ39 tiêu thụ 2 nguồn này để xây KG. Binding table nên thuộc Đ38; relation dictionary/alias/disambiguation nên thuộc NĐ-36-01.
Thiếu sót / vi phạm / rủi ro
Thiếu sót
- Thiếu Identity Resolution Governance: merge/split/survivorship khi 2 concept thực ra là 1, hoặc 1 tên chỉ nhiều nghĩa.
- Thiếu candidate zone tách biệt với approved zone. NT-09 yêu cầu không chắc = sai; vì vậy candidate không được nhập chung approved.
- Thiếu ACL và scope filtering cho annotation/context; Đ39 C8 đã yêu cầu role→allowed species/relations.
- Thiếu retention policy cho annotation/provenance log; nếu không log sẽ nổ theo thời gian.
- Thiếu evaluation protocol: precision/recall@k, ambiguity rate, human override rate, stale alias rate.
Rủi ro OR/Hiến pháp
- NT-11 / Khai tối thiểu: có nguy cơ tạo species
semantic_conceptquá rộng, biến thành SSOT song song với Birth Registry. Chỉ cho phép khi concept thực sự chưa có “nhà PG”; nếu concept đã có entity chuẩn thì alias/relation phải trỏ về entity đó, không đẻ concept mới. - NT-10 / Quản lý bằng PG: đúng hướng. Nhưng nếu quá nhiều logic resolution nhét vào prompt agent/Langroid thay vì bảng config + queue + thresholds thì sẽ trượt khỏi PG-first.
- NT-13 / PG FIRST: v1.0 đã tốt nhưng vẫn hơi “AI-first” ở MT3/MT6/MT7. Phải đóng rõ: LLM là tầng cuối, không phải tầng mặc định.
- NT-02 + NT-03: phải DOT-hoá toàn bộ review queue / merge / approve / refresh embeddings. Nếu chưa có DOT tương ứng thì mục tiêu chưa khép kín.
Đề xuất hiệu chỉnh cụ thể
- Thêm MT8 — Identity Resolution + Merge Governance.
- Thêm MT9 — Evaluation & Calibration.
- Tách 3 lớp dữ liệu:
approved,candidate,quarantine. - Chuẩn hoá confidence thành 2 trường:
match_score(kỹ thuật) vàapproval_state(quản trị). - Dùng schema runtime kiểu:
entity_aliasesentity_relationssemantic_annotationsannotation_mentionsdisambiguation_casesconcept_candidatesrelation_candidates
- Với
ltree: chỉ áp cho taxonomy/containment approved; synonym, contradiction, abbreviation, related-to vẫn để edge table. - Với semantic annotation: JSONB runtime + cột chuẩn hóa hot fields (
doc_id,section_id,entity_id,confidence,method,status) để index/query rẻ. - Với VPS nhỏ: ưu tiên trigram + FTS + alias dictionary trước; embedding/Qdrant và LLM chạy batch/offline.
Chấm điểm
- Tính đúng hướng chiến lược: 9.2/10
- Tuân thủ OR/HP: 8.5/10
- Tận dụng PG native: 8.4/10
- Khả thi trên single VPS: 8.6/10
- Chuẩn ngành / không phát minh: 8.9/10
- Độ sẵn sàng triển khai ngay: 8.3/10
Nhận xét cuối
NĐ-36-01 nên được thông qua ở mức “đúng hướng, cần siết pháp trị dữ liệu trước khi viết giải pháp chi tiết”. Nếu bổ sung merge governance, candidate/approved split, evaluation protocol và ranh giới sở hữu dữ liệu giữa NĐ-36-01–Đ38–Đ39, đây sẽ là một nền hạ tầng rất mạnh cho semantic annotation và knowledge graph trên PG-first architecture.