Handoff — Opus New Session: Vector Hygiene Agent Running
Handoff — Opus New Session: Vector Hygiene Agent Running
Date: 2026-05-05 Author: GPT-5.5 Thinking / Incomex Hội đồng AI Purpose: Copy nguyên văn cho Opus phiên mới để tiếp tục liền mạch. Trạng thái hiện tại: Agent đang chạy investigation về context-pack/search/vector hygiene. Nhiệm vụ đầu tiên của Opus phiên mới là đọc report Agent và cho ý kiến, KHÔNG tự điều tra lại từ đầu.
0. One-line status
Agent đang chạy prompt inv-search-vector-hygiene-context-pack-prompt.md. Chờ report tại knowledge/dev/laws/dieu44-trien-khai/reports/inv-search-vector-hygiene-context-pack-report.md. Opus phiên mới phải đọc report đó trước, rồi đánh giá và đề xuất bước tiếp theo.
1. Vì sao chuyển sang việc này
Trong quá trình điều tra birth pipeline và các tài liệu DOT/IU, search KB bị nhiễu nặng bởi context-pack/.
Quan sát ban đầu:
context-pack/có khoảng hơn 1.000 tài liệu/snapshot gần giống nhau.- Đ43 build context pack định kỳ khoảng 3 giờ/lần.
- Mỗi build sinh nhiều section như
PROJECT_MAP.md,DOT_REGISTRY.md,LAWS_INDEX.md, v.v. - Các snapshot đều chứa nhiều keyword rộng như
birth,trigger,registry,DOT,orphan,ghost. - Khi search, top results thường bị context-pack historical snapshots chiếm, đẩy canonical docs như luật/quy trình/report thật xuống dưới.
User nhận xét đúng: hiện mới vài nghìn tài liệu mà đã search kém; khi scale lên hàng trăm nghìn hoặc hơn thì đây sẽ thành vấn đề nền tảng. Vì vậy cần quy hoạch dài hạn về search/vector/storage tiering.
2. Triết lý/User directive cần giữ
User nhấn mạnh:
- Không sáng tạo bừa; học chuẩn ngành tốt nhất.
- Vector hóa toàn bộ có thể giúp recall, nhưng nếu không phân tầng sẽ gây ô nhiễm search.
- Cần bàn và quy hoạch:
- cái gì lưu ngắn hạn;
- cái gì lưu dài hạn;
- cái gì nằm hot vector;
- cái gì cold/archive;
- có vùng vector ưu tiên / không ưu tiên không;
- context-pack latest khác gì historical snapshots.
- Không được vội xóa/deindex khi chưa có evidence.
3. Ý kiến Opus/User trước khi Agent chạy
Opus phát hiện context-pack có nhiều snapshot và đề xuất đơn giản:
- KB/vector chỉ giữ bản context-pack mới nhất;
- bản cũ giữ trên filesystem VPS 7 ngày cho audit;
- DOT build script sau upload bản mới thì deleteDocument bản cũ;
- nôm na: photocopy mục lục mới mỗi 3 giờ là tốt, nhưng không chất đống 1.200 bản trên kệ search.
GPT đồng ý Option H có lý nhưng chưa chốt làm ngay. Lý do:
- cần xác minh Đ43 có yêu cầu audit/history trong KB không;
- cần xác minh filesystem/manifest có đủ làm cold archive không;
- cần xem search layer có filter/deindex an toàn hơn delete không;
- cần phân biệt “xóa tài liệu” với “deindex khỏi hot vector”.
Vì vậy Option H được đưa vào prompt như một option để Agent đánh giá ngang hàng A–G, không phải kết luận trước.
4. Prompt đang được Agent thực hiện
Path:
knowledge/dev/laws/dieu44-trien-khai/prompts/inv-search-vector-hygiene-context-pack-prompt.md
Status lúc handoff: đã dispatch cho Agent, đang chờ report.
Report expected path:
knowledge/dev/laws/dieu44-trien-khai/reports/inv-search-vector-hygiene-context-pack-report.md
Prompt này là READ-ONLY. Không xóa, không deindex, không mutate.
5. File phải đọc đầu phiên mới
Opus phiên mới đọc đúng thứ tự:
knowledge/dev/laws/dieu44-trien-khai/prompts/inv-search-vector-hygiene-context-pack-prompt.mdknowledge/dev/laws/dieu44-trien-khai/reviews/gpt-review-inv-search-vector-hygiene-prompt-2026-05-05.md- Khi Agent xong, đọc report:
knowledge/dev/laws/dieu44-trien-khai/reports/inv-search-vector-hygiene-context-pack-report.md
- Nếu cần đối chiếu luật:
knowledge/dev/laws/dieu43-system-context-law.mdknowledge/current-state/context-pack/README.mdknowledge/current-state/context-pack-staging/README.mdknowledge/dev/dot/dot-context-pack-build.sh
- Nếu cần đối chiếu vector thực tế cũ:
knowledge/dev/laws/dieu38-trien-khai/reports/vector-reality-check-agent-data-qdrant-2026-05-02.md
Không search lan man trước khi đọc report Agent.
6. Prompt Agent đang hỏi gì
Prompt có 13 câu hỏi chính:
| Q | Nội dung | Mục đích |
|---|---|---|
| Q1 | Count docs theo prefix | Xác định context-pack chiếm bao nhiêu KB |
| Q2 | Count chunks/vector nếu truy được | Xác định vector/chunk footprint |
| Q3 | Search pollution test 7 queries | Đo top-k bị context-pack chiếm ra sao |
| Q4 | Metadata inspection | Có filter được context-pack không |
| Q5 | Đ43 lifecycle | Đ43 có yêu cầu giữ history trong KB/vector không |
| Q6 | Storage pattern | KB / filesystem / PG / vector lưu thế nào |
| Q7 | Near-duplicate evidence | Chứng minh các snapshot gần giống nhau |
| Q8 | Latest-only detection | Có latest/live pointer không |
| Q9 | Compare options A–H | So sánh phương án chuẩn ngành + User Option H |
| Q10 | Retrieval policy recommendation | Đề xuất search policy mặc định |
| Q11 | Risk note | Rủi ro xóa vs deindex vs archive |
| Q12 | Direct recommendation | Trả lời thẳng nên làm gì |
| Q13 | Success metrics | Tiêu chí đo sau fix |
7. Options Agent phải đánh giá
| Option | Ý nghĩa |
|---|---|
| A | Exclude historical context-pack/<build_id>/ khỏi vector search mặc định |
| B | Chỉ giữ latest context-pack live trong hot vector |
| C | Giữ snapshots trong cold storage/filesystem/manifest, không hot vector |
| D | Metadata filter mặc định exclude context-pack trừ khi query yêu cầu |
| E | Dedup/near-dedup trước embedding |
| F | TTL/retention chỉ giữ N builds gần nhất trong KB/vector |
| G | Hybrid retrieval: canonical docs first, context-pack fallback |
| H | User/Opus đề xuất: delete old snapshots khỏi KB, chỉ giữ latest; filesystem VPS giữ 7 ngày audit; DOT build sau upload bản mới deleteDocument bản cũ |
Điểm quan trọng: Option H là option cần đánh giá, không phải quyết định đã chốt.
8. Quan điểm chiến lược GPT trước report
Khả năng cao kiến trúc dài hạn nên là tiering, không phải xóa mù:
- Canonical hot/default retrieval: luật, design, process, reports chính thức.
- Latest context-pack hot-lite / explicit context mode: chỉ bản mới nhất hoặc stable latest pointer.
- Historical context-pack cold/archive: filesystem, manifest, hoặc cold index; exclude khỏi default search.
- Default search filter: exclude historical
context-pack/<build_id>/trừ khi query yêu cầu context-pack/build_id/Đ43 snapshot. - Dedup/rerank: tránh snapshots giống nhau chiếm top-k.
- TTL/retention: giữ N bản gần nhất trong vector, archive phần còn lại.
Nhưng phải chờ report để quyết.
9. Nhiệm vụ đầu tiên của Opus phiên mới
Khi Agent report xong:
- Đọc report thật từ KB.
- Rà đủ 13 câu hỏi trong prompt.
- Kiểm xem Agent có giữ read-only không.
- Kiểm số liệu chính:
- số docs/chunks context-pack;
- search pollution top-20;
- canonical docs bị đẩy thế nào;
- metadata có filter được không;
- latest/live path có tồn tại không;
- Đ43 có retention rule không;
- filesystem/PG/manifest có đủ cold archive không;
- Option H có feasible không;
- Agent có phân biệt delete vs deindex không.
- Viết review cho GPT/User, không tự dispatch cleanup.
10. Format review Opus nên viết sau report
Opus nên trả lời ngắn gọn nhưng đủ:
## Verdict
P0/INV report PASS/PARTIAL/FAIL.
## Key evidence
- context-pack docs = X / total Y = Z%
- vector/chunks context-pack = ...
- search pollution: ...
- metadata filterable: yes/no
- latest build/live path: ...
- Đ43 retention: exists/absent
## Recommendation
Chọn Option(s): ...
Lý do: ...
## Risks
- audit/history
- agent runtime
- search recall
- rollback
## Next step proposed
- design cleanup/deindex pack, or
- patch Đ43 lifecycle first, or
- patch search layer filter, or
- dispatch follow-up investigation if report thiếu.
11. Không được làm trong phiên mới
Trước khi GPT/User chốt sau report, Opus không được:
- xóa context-pack;
- deleteDocument;
- deindex vector;
- patch DOT build script;
- patch Đ43;
- mutate vector config;
- cleanup filesystem;
- tự quyết chỉ giữ latest;
- mở Pack 2C/IU tiếp nếu User đang ưu tiên vector hygiene.
12. Nếu report Agent thiếu
Nếu Agent report thiếu evidence trọng yếu, Opus không được đoán. Hãy chỉ rõ thiếu gì và soạn prompt bổ sung read-only hẹp hơn.
Các thiếu sót trọng yếu gồm:
- không đo Q3 search pollution;
- không phân biệt KB vs vector vs filesystem;
- không đọc Đ43 lifecycle;
- không kiểm latest/live path;
- không đánh giá Option H;
- không đưa success metrics;
- không phân biệt delete vs deindex.
13. Nôm na cho phiên mới
Thư viện đang bị quá nhiều bản photocopy mục lục làm nghẽn kệ tìm kiếm. Agent đang kiểm kê:
- có bao nhiêu bản photocopy;
- chúng chiếm bao nhiêu kệ;
- khi hỏi sách thật thì photocopy chen lên thế nào;
- có kho lạnh giữ bản cũ không;
- có nên chỉ để bản photocopy mới nhất ngoài kệ không.
Opus phiên mới không tự dọn. Đọc biên bản kiểm kê rồi mới đề xuất cách dọn.
End of handoff. Copy to Opus new session.