📋總覽摘要

607
總學生數
完成評分
607
雙模型齊全
覆蓋率 100.0%
0
單模型評分
另一側 JSON 解析失敗
48
檔案不齊全
佔 7.9%
90.12
平均分
Rescaled [60–100]
93.12
中位數
Q1=90.25 / Q3=94.39
463
高分(≥ 90)
佔 76.3%
49
v1/ 逾期改動
v1/ 逾期改動(已記錄供人工審閱)
執行架構

HW2 採用 三層 LLM 分工雙模型盲評機制。
Haiku 4.5 對每位學生的 README + v1/sdd_v1 做結構化摘要(607 次廉價 pass);
Opus 4.7 從全班摘要一次性建立 taxonomy 與跨面向統計;
Sonnet 4.6 + GPT-5.4 mini 平行盲評 Phase 1 與 Phase 2,每位學生 × 2 phases × 2 models = 4 次評分呼叫;
Opus 4.7 產生全班分析報告 narrative。整體以 Anthropic + OpenAI Batch API 批次送出以取得約 50% 折扣。

📊分數分布

📈 Rescaled 最終分數直方圖([60, 100],N = 607)

μ = 90.12 / median = 93.12 / σ = 8.29 / range = [60.14, 96.88]

📊 原始加權總分直方圖(0–105 分,未 rescale)

μ = 79.06 / median = 86.95 / σ = 21.76 / range = [0.38, 96.8]

觀察:分數分佈明顯右偏,多數學生集中在 85 分以上區段。最低分來自完全空白或嚴重缺件的 repository;前段學生則多能將 v1→v2 的 schema 演進、atomic write、Adapter / Strategy pattern 等前瞻設計一併在 README 與 sdd_v2 中論述。

🔍面向分析

🎯 七面向雷達圖(全體平均)
📏 各面向 IQR 與中位數
📋 各面向統計
面向權重MeanMedianσMinMaxQ25Q75
創新度 (15%)1559.7463.018.692.590.552.073.0
SDD v1 品質 (10%)1075.7781.019.360.095.076.086.0
細節完成度 (5%)570.5977.019.890.091.568.583.0
需求匹配 (20%)2082.191.024.610.098.085.093.5
v2 完整度 (20%)2077.5788.025.00.098.578.091.5
向下相容 (20%)2084.3792.522.660.097.586.595.0
驚喜度 (15%)1567.8877.022.970.089.068.080.0
創新度 (15%)
SDD v1 品質 (10%)
細節完成度 (5%)
需求匹配 (20%)
v2 完整度 (20%)
向下相容 (20%)
驚喜度 (15%)

🤖雙模型比較(Sonnet 4.6 vs GPT-5.4 mini)

607
雙模型齊全
可做一致性分析
17
高分歧(|Δ| ≥ 20)
佔 2.8%,列入人工覆核
-7.4
Δ 中位數
σ = 6.6
75.55
Sonnet 平均
raw_weighted (0–105)
82.56
GPT 平均
raw_weighted (0–105)
📊 雙模型分數差(Sonnet − GPT)直方圖
📐 各面向:Sonnet vs GPT 平均差異
觀察:雙模型總分差中位數約 -7.4,大多數分歧落在 innovation 與 surprise 兩個最主觀的面向;結構化面向(completeness / backward_compat)兩模型一致性較高。17 筆高分歧案例已寫入 _grade_review_index.md 供助教人工覆核。

🏷️類別分佈 (Taxonomy by Opus 4.7)

類別分佈(依人數)
類別 × 平均分數
類別人數平均分中位數
個人理財 / 投資15990.4492.63
任務管理11191.0292.81
開發者工具5292.4193.65
領域工具4891.1993.3
健身 / 健康4792.3493.66
字卡 / 學習3592.0193.43
筆記 / 書籤3392.1293.79
文字分析2691.693.89
遊戲2493.2193.79
資料轉換2091.7192.88
媒體處理1391.8992.1
密碼管理693.4193.73
寵物照護292.2492.24
Opus 4.7 以 map-reduce 對全班 607 份摘要建立 13 個 primary 類別,其中 finance_tool / tasks_manager 為本屆最大宗,合計超過 40%。

特色專案

463
rescaled ≥ 90
佔 76.3%
39
平均 surprise ≥ 85
超出作業要求的亮點設計
特色專案典型特徵(彙整自 report narrative)
  • 完整的 Repository Pattern / Strategy / Adapter 抽象層,v1→v2 schema 演進有清楚遷移策略
  • 測試策略具深度:單元測試 + 屬性測試 (hypothesis) + 邊界 case
  • README 有設計決策trade-off 討論未來 v3 方向三大敘述段落
  • 額外加入 TUI(rich/textual)、SQLite 遷移、atomic write、可觀測性指標等作業沒要求但你自己做了的延伸
  • sdd_v2 的 Mermaid 圖不只兩種,而是針對多個核心功能獨立繪製 sequence / flowchart
  • 向下相容性章節具體列出每個 v1 指令的遷移行為與例外處理

⚠️常見問題

🚫 檔案缺失統計
⏰ v1/ 逾期改動(已記錄供人工審閱)
49
位學生在 v1.0 截止後仍修改 v1/ 資料夾
此紀錄會保留供老師 / 助教審閱,分數仍依實際 v2 對 v1 介面相容性評估
佔總人數 8.1%;有部分可能為 rebase / 空改 / 格式變更,實質後續修改則由助教再依情況調整。
📉 全班常見 anti-pattern(由 Opus 4.7 narrative 彙整)
  • 整個 repo 幾乎空白(僅 README 數字,無 sdd_v1 / main.py)
  • JSON 單檔無並發寫入保護與 rollback 機制
  • 外部 API 依賴易斷線且缺降級 / 快取策略
  • sdd_v1.md 六大章節不齊全(尤其缺錯誤處理與測試案例)
  • v2 實作功能齊全但未更新 sdd_v2.md — SDD 文件與程式 drift
  • 向下相容章節僅表列「完全相容」而未說明遷移策略

🔎評分透明度

為了讓評分盡量公正,系統會自動標記以下幾種需要更多判讀的情境。這些案例的最終分數會經過人工複核後才定案,目的是避免單一模型的偏差或規則判定造成誤判。

17
兩模型高度分歧
|Sonnet − GPT| ≥ 20 分
49
v1/ 逾期改動
v1/ 逾期改動(已記錄供人工審閱)
3
README 缺失
退回 sdd_v1 推斷
63
類別判讀分歧
兩模型選出不同 primary
為什麼需要兩個模型 + 人工複核? 創新度(innovation)與驚喜度(surprise)這兩個最主觀的面向,本來就容易因模型偏好造成分歧——本屆兩模型總分差中位數約 -7.4 分,主要差異就集中在這兩欄。用「Sonnet 4.6 × GPT-5.4-mini」兩家不同家族的模型做盲評,搭配差距超過 20 分就強制進入人工複核,是為了降低單一模型偏差對你分數的影響。

⚖️評分方法論

面向權重(每項 0–100 分)
面向權重Phase
創新度 (15%)15Phase 1
SDD v1 品質 (10%)10Phase 1
細節完成度 (5%)5Phase 1
需求匹配 (20%)20Phase 2
v2 完整度 (20%)20Phase 2
向下相容 (20%)20Phase 2
驚喜度 (15%)15Phase 2
總權重105(Phase 1 小計 30 / Phase 2 小計 75)
融合公式
# 每個面向由模型給 0–100 分
raw_weighted_per_model = Σ(weights[k] × score[k] / 100)
                       # ∈ [0, 105]

# 雙模型融合
final_raw = 0.5 × sonnet.raw + 0.5 × gpt.raw

# Rescale 到 [60, 100]
rescaled = 60 + (final_raw / 105) × 40

v1/ 逾期改動:若系統偵測到 v1/ 在截止後仍有 commit,flag 會保留供老師 / 助教審閱,並不會自動把 backward_compat 歸 0;分數仍依模型對學生 v2 實作的客觀評估為準。
Surprise 上限拉高到 15(原 HW2.md 規劃 1–5 分人工抽查 bonus 併入此面向)。

模型分工
階段模型呼叫數理由
Summarize claude-haiku-4-5-20251001 607 (batch) 每生一份結構化摘要;Haiku 最廉價且足夠精準
Taxonomy claude-opus-4-7 1(map-reduce) 需全局視野建立類別學 + 多面向統計;只跑 Opus 一次
Score A claude-sonnet-4-6 607 × 2 = 1214 (batch) Phase 1 + Phase 2 評分;Sonnet 品質與成本平衡
Score B gpt-5.4-mini 607 × 2 = 1214 (batch) 獨立盲評作為交叉驗證;不同家族模型降低單模型偏差
Report Narrative claude-opus-4-7 1 Executive Summary + 各類別 narrative + anti-patterns 彙整
成本優化:所有大量呼叫(summarize、score × 2 providers)均走 Anthropic Message Batches API 與 OpenAI Batch API,享 ~50% 折扣;taxonomy 與 report narrative 單次呼叫走 sync。
💰 實際執行成本
US$11
OpenAI API
GPT-5.4 mini(score × 2 phase)
US$65
Anthropic API
Haiku + Opus + Sonnet 加總
US$76
總計
對應 ~3049 次 LLM 呼叫

細項構成:Haiku 4.5 做 607 次 summarize,Opus 4.7 做 taxonomy(13 map + 1 reduce)與 report narrative 各 1 次,Sonnet 4.6 做 1214 次評分(Phase 1 + Phase 2),GPT-5.4 mini 做 1214 次評分(同樣 Phase 1 + Phase 2,加上一次補救性 sync rescore)。大宗 LLM 呼叫走 batch 模式享 50% 折扣——同樣流量若全走 sync,成本會翻倍到 ~US$150 左右。