KB-4876

Báo cáo đóng sự cố MCP — Verify GPT + Codex (2026-02-28)

5 min read Revision 1

Báo cáo đóng sự cố MCP — MCP Connectivity Verify (GPT + Codex)

Ngày: 2026-02-28
Bối cảnh: Sự cố mất kết nối MCP do sửa trực tiếp VPS. Đã khôi phục theo MCP-UNIFY + CLEANUP. Mục tiêu: xác minh kết nối ổn định trước khi đóng sự cố.


1) Kết quả Verify — GPT (Custom GPT: Incomex Agent Data)

Tổng: 7/7 PASS

# Lệnh/Tool Input Kết quả Bằng chứng (tóm tắt)
1 searchKnowledge "operating rules SSOT" PASS Trả về context có liên quan (Mission Template/SSOT).
2 searchKnowledge "tech debt" PASS Trả về context có liên quan (Tech Debt Registry).
3 listDocuments prefix knowledge/dev/ssot PASS Trả về danh sách 18 documents.
4 getDocument knowledge/current-state/agent-connections.md PASS Trả về nội dung + revision.
5 healthCheck PASS status=healthy; services: qdrant ok; firestore ok; openai ok.
6 OPS Proxy listTasks limit=2 PASS Trả về 2 tasks items.
7 OPS Proxy listComments limit=2 PASS Trả về 2 task_comments items.

Ghi chú từ healthCheck: Firestore latency ~2.1s (không lỗi, nhưng là điểm cần theo dõi xu hướng). Event system: enabled nhưng listeners/webhooks = 0 (đúng với trạng thái hiện tại; không nằm trong scope verify MCP connectivity).


2) Kết quả Verify — Codex CLI (MCP tools trực tiếp)

Tổng: 7/7 PASS

# Tool Input Kết quả Bằng chứng
1 search_knowledge "operating rules" PASS Trả context liên quan knowledge/dev/ssot/mission-template.md, knowledge/dev/ssot/operating-rules.md; latency 2748ms
2 list_documents "knowledge/dev/ssot" PASS Trả về 18 documents (gồm operating-rules.md, tech-debt.md, checklist-layer0.md)
3 get_document "knowledge/dev/ssot/tech-debt.md" PASS Trả về doc revision 61, truncated=true, title Nợ Kỹ Thuật — Tech Debt Registry
4 upload_document knowledge/other/test/mcp-verify-codex.md PASS Tạo doc thành công status=created, revision=1
5 patch_document test doc vừa tạo PASS Patch thành công status=patched, revision=2
6 search_knowledge "mcp-verify-codex" PASS Tìm thấy doc vừa tạo: knowledge/other/test/mcp-verify-codex.md, score 0.7200554, latency 1508ms
7 delete_document test doc vừa tạo PASS Xóa thành công status=deleted, revision=3

Ghi chú:

  • Test doc đã tạo → patch → search → delete đúng quy trình.
  • Timestamp được dùng trong nội dung test: 2026-02-28T04:47:33Z.
  • Thư mục ~/codex-adtest không tồn tại trên máy chạy test, nhưng verify vẫn PASS vì toàn bộ thao tác gọi MCP tools trực tiếp trong workspace hiện tại.

3) Đánh giá ổn định & latency

  • Ổn định: Cả GPT-side (Agent Data + OPS Proxy) và Codex-side (CRUD + vector search) đều PASS 100% trong vòng verify này.
  • Latency:
    • search_knowledge theo Codex: ~1.5s–2.7s (1508–2748ms) → chấp nhận được cho interactive, nhưng nên có retry/backoff để chống spike.
    • healthCheck ghi nhận Firestore latency ~2.1s → cần theo dõi để phát hiện tăng dần hoặc intermittent.

4) Đề xuất cải thiện (tổng hợp GPT + Codex)

A) Reliability / Stability

  1. Client-side retry ngắn cho search_knowledge (Codex đề xuất)
    • Exponential backoff + jitter, giới hạn 2–3 lần retry để tránh thổi tải.
  2. Chuẩn hóa error envelope cho MCP transport (Codex đề xuất)
    • Phân loại rõ: lỗi backend vs lỗi auth vs lỗi routing/transport, kèm error_code/trace_id để debug nhanh.
  3. Smoke test định kỳ (GPT đề xuất)
    • Chạy script test connectivity theo cron/CI pipeline, và alert khi fail.

B) Observability / Auditability

  1. Trả latency_ms nhất quán cho các tool CRUD (Codex đề xuất)
    • Hiện chủ yếu thấy latency_ms ở search; thêm latency cho list/get/upload/patch/delete giúp audit & SLA rõ ràng.
  2. Monitoring endpoint MCP bằng Uptime Kuma (GPT đề xuất)
    • Thiết lập monitor HTTP cho các endpoint trọng yếu (Agent Data + OPS Proxy). (Theo SSOT, Uptime Kuma đã fresh install nhưng còn cần setup UI ở port 3001.)

C) DX / Friction

  1. Round-trip benchmark theo tool (GPT đề xuất, align với TD-022)
    • Ghi nhận thời gian thực thi cho từng tool để so sánh client (GPT/Claude Code/Codex) và phát hiện regression.

5) Kết luận

  • GPT: 7/7 PASS
  • Codex: 7/7 PASS
  • Không ghi nhận lỗi intermittent trong vòng verify.

➡️ Sự cố MCP được coi là: ĐÓNG HOÀN TOÀN (ALL PASS).