📋總覽摘要
HW3 採用三層 LLM 分工與雙模型盲評機制。
① Haiku 4.5 對每位學生的 README + Phase 1/2 程式碼做結構化摘要(590 次廉價 pass);
② Opus 4.7 從全班摘要 map-reduce 建立 22 個 primary taxonomy 與跨面向統計;
③ Opus 4.7 + GPT-5.5 平行盲評 Phase 1 與 Phase 2,每位學生 × 2 phases × 2 models = 4 次評分呼叫;
④ Opus 4.7 產生全班分析報告 narrative。整體以 Anthropic + OpenAI Batch API 批次送出以取得約 50% 折扣。
📊分數分布
μ = 81.13 / median = 86.44 / σ = 18.56 / range = [0.00, 97.08]
μ = 75.14 / median = 82.56 / σ = 20.84 / range = [0.00, 93.95]
🔍面向分析(7 個 facets)
| 面向 | Phase | Mean | Median | σ | Min | Max | Q25 | Q75 |
|---|---|---|---|---|---|---|---|---|
| 資料收集 (P1) | P1 | 72.75 | 78.0 | 19.58 | 0.0 | 96.5 | 66.0 | 85.0 |
| RAG 系統完整度 (P1) | P1 | 81.05 | 87.0 | 19.7 | 0.0 | 96.0 | 82.5 | 89.0 |
| 冪等性 (P1) | P1 | 81.13 | 92.0 | 23.28 | 0.0 | 97.5 | 78.0 | 94.0 |
| 資料收集深度 (P2) | P2 | 76.26 | 80.0 | 13.85 | 2.5 | 93.5 | 74.0 | 83.5 |
| skill.md 品質 (P2) | P2 | 75.56 | 82.5 | 19.6 | 0.0 | 94.0 | 73.0 | 87.0 |
| README 設計決策 (P2) | P2 | 83.37 | 89.0 | 17.83 | 1.0 | 96.0 | 85.0 | 91.0 |
| skill_builder 品質 (P2) | P2 | 76.14 | 82.0 | 18.07 | 0.0 | 93.5 | 75.5 | 85.5 |
🤖雙模型比較(Opus 4.7 vs GPT-5.5)
skill_builder_quality(最主觀的整合品質判斷)
與 data_collection(檔案完整度判斷有寬嚴差異)兩個面向。所有 |Δ| > 20 的高分歧案例自動寫入
_grade_review_index.md 並標示於評分 UI,最終結合人工覆核裁定。
🏷️領域分佈 (Taxonomy by Opus 4.7)
| 領域 | 人數 | 平均分 | 中位數 |
|---|---|---|---|
| academic_research_papers | 147 | 84.73 | 86.13 |
| biomedical_health_domain | 68 | 85.08 | 86.31 |
| industry_specific_apps | 63 | 83.87 | 88.17 |
| ai_ml_systems_engineering | 53 | 85.47 | 88.18 |
| finance_investment | 35 | 84.27 | 86.52 |
| vendor_documentation | 33 | 86.09 | 89.08 |
| broken_or_incomplete | 25 | 6.6 | 0.0 |
| semiconductor_industry | 24 | 85.47 | 87.94 |
| legal_regulatory_compliance | 21 | 84.59 | 84.08 |
| personal_study_notes | 19 | 84.26 | 85.19 |
| humanities_culture_entertainment | 14 | 83.43 | 86.11 |
| lifestyle_entertainment | 14 | 82.51 | 83.81 |
| engineering_industrial | 10 | 87.27 | 88.88 |
| ai_safety_alignment | 9 | 84.19 | 85.51 |
| esg_sustainability | 9 | 85.73 | 87.66 |
| talent_workforce | 9 | 81.45 | 86.21 |
| policy_news_tracking | 8 | 87.23 | 90.31 |
| edtech | 7 | 76.17 | 77.99 |
| open_source_codebase | 7 | 85.92 | 86.58 |
| marketing_consumer_insights | 5 | 66.8 | 81.96 |
| other | 5 | 74.21 | 65.0 |
| hci_design_research | 5 | 86.86 | 89.06 |
academic_research_papers 為最大宗領域(學術論文知識庫導向),其次為
vendor_documentation(框架文件)、biomedical_health_domain(生醫健康)等。
長尾領域涵蓋金融、法律、政策、文學與娛樂等垂直應用。
🎯兩個分數政策
本次 HW3 每位同學會公布兩個分數,取以下三個候選值中最高的兩個:
最高分(score_1)來源分布: A(Max P1)293 位、 B(Max P2)66 位、 C(final_with_bonus)231 位。 多數學生的最高分來自 final_with_bonus(C),代表雙 phase 整體表現一致; 若 A 或 B 高於 C,通常代表該學生只有單一 phase 表現特別好(例如 Phase 1 強但 Phase 2 較弱)。
⚠️常見問題
- 整個 repo 幾乎空白(僅 Classroom skeleton),兩 phase 都未實作
skill_builder.py未呼叫向量檢索,僅一次 LLM call 自由生成 skill.md,違反 RAG 萃取精神- chunking 使用固定字元 / token 切分,未針對領域結構(法條、論文 section、code block)做特化
data_update.py缺增量 hash 機制,每次 rebuild 等同全量重建- README 未說明 chunking / embedding / vectorDB / retrieval / prompt 的設計取捨
- skill.md 章節缺漏(最常見:Knowledge Gaps、Source References、Key Trends)
- 幾乎無人實作
reranking或hybrid retrieval(BM25 + 向量)
🔎評分透明度
為了讓評分盡量公正,系統會自動標記以下幾種需要更多判讀的情境,並經由人工複核後才定案。
⚖️評分方法論
| 面向 | Phase | 權重 |
|---|---|---|
| data_collection | Phase 1 | P1 內部均分 |
| rag_system_completeness | Phase 1 | P1 內部均分 |
| idempotency | Phase 1 | P1 內部均分 |
| data_collection_depth | Phase 2 | P2 內部均分 |
| skill_md_quality | Phase 2 | P2 內部均分 |
| readme_design_decisions | Phase 2 | P2 內部均分 |
| skill_builder_quality | Phase 2 | P2 內部均分 |
| Phase 加權 | final = 0.4 × P1_avg + 0.6 × P2_avg | |
# 各面向由兩模型獨立給 0–100 分 opus_P1 = mean(opus 對 P1 三個 facet 評分) opus_P2 = mean(opus 對 P2 四個 facet 評分) gpt_P1 = mean(gpt 對 P1 三個 facet 評分) gpt_P2 = mean(gpt 對 P2 四個 facet 評分) # 兩模型平均 final_P1 = (opus_P1 + gpt_P1) / 2 final_P2 = (opus_P2 + gpt_P2) / 2 # 加權 raw_avg = 0.4 × final_P1 + 0.6 × final_P2 # Normalize(max-floor 模式) Normalize 後 = max(60, raw_avg) # 空殼繳件(max of all 4 cells < 30)→ 改用 raw_avg 不套 floor # 老師加分 final_with_bonus = min(100, Normalize + professor_bonus)
| 階段 | 模型 | 呼叫數 | 理由 |
|---|---|---|---|
| Summarize | claude-haiku-4-5 | 590 (batch) | 每生一份結構化摘要;Haiku 最廉價且足夠精準 |
| Taxonomy | claude-opus-4-7 | ~14(map-reduce) | 需全局視野建立 22 個 primary 領域;只跑 Opus 一次 |
| Score A | claude-opus-4-7 | 590 × 2 = 1180 (batch+cache) | Phase 1 + Phase 2 評分;Opus 4.7 + 1h prompt cache 享 65%+ hit rate |
| Score B | gpt-5.5 | 590 × 2 = 1180 (batch) | 獨立盲評作為交叉驗證;不同家族模型降低單模型偏差 |
| Report Narrative | claude-opus-4-7 | 1 | Executive Summary + 各領域 narrative + anti-patterns 彙整 |
Haiku 4.5 做 590 次 summarize、Opus 4.7 做 taxonomy(~13 map + 1 reduce)、雙模型各 1180 次評分、Opus 做 1 次 narrative report。 大宗呼叫走 batch + cache,享 50% batch 折扣再疊 65%+ cache hit。