AIASE2026 HW2 評分分析報告

📋總覽摘要

607

總學生數

完成評分

607

雙模型齊全

覆蓋率 100.0%

0

單模型評分

另一側 JSON 解析失敗

48

檔案不齊全

佔 7.9%

90.12

平均分

Rescaled [60–100]

93.12

中位數

Q1=90.25 / Q3=94.39

463

高分（≥ 90）

佔 76.3%

49

v1/ 逾期改動

v1/ 逾期改動（已記錄供人工審閱）

執行架構

HW2 採用 三層 LLM 分工與雙模型盲評機制。
① Haiku 4.5 對每位學生的 README + v1/sdd_v1 做結構化摘要（607 次廉價 pass）；
② Opus 4.7 從全班摘要一次性建立 taxonomy 與跨面向統計；
③ Sonnet 4.6 + GPT-5.4 mini 平行盲評 Phase 1 與 Phase 2，每位學生 × 2 phases × 2 models = 4 次評分呼叫；
④ Opus 4.7 產生全班分析報告 narrative。整體以 Anthropic + OpenAI Batch API 批次送出以取得約 50% 折扣。

📊分數分布

📈 Rescaled 最終分數直方圖（[60, 100]，N = 607）

μ = 90.12 ／ median = 93.12 ／ σ = 8.29 ／ range = [60.14, 96.88]

📊 原始加權總分直方圖（0–105 分，未 rescale）

μ = 79.06 ／ median = 86.95 ／ σ = 21.76 ／ range = [0.38, 96.8]

觀察：分數分佈明顯右偏，多數學生集中在 85 分以上區段。最低分來自完全空白或嚴重缺件的 repository；前段學生則多能將 v1→v2 的 schema 演進、atomic write、Adapter / Strategy pattern 等前瞻設計一併在 README 與 sdd_v2 中論述。

🔍面向分析

🎯 七面向雷達圖（全體平均）

📏 各面向 IQR 與中位數

📋 各面向統計

面向	權重	Mean	Median	σ	Min	Max	Q25	Q75
創新度 (15%)	15	59.74	63.0	18.69	2.5	90.5	52.0	73.0
SDD v1 品質 (10%)	10	75.77	81.0	19.36	0.0	95.0	76.0	86.0
細節完成度 (5%)	5	70.59	77.0	19.89	0.0	91.5	68.5	83.0
需求匹配 (20%)	20	82.1	91.0	24.61	0.0	98.0	85.0	93.5
v2 完整度 (20%)	20	77.57	88.0	25.0	0.0	98.5	78.0	91.5
向下相容 (20%)	20	84.37	92.5	22.66	0.0	97.5	86.5	95.0
驚喜度 (15%)	15	67.88	77.0	22.97	0.0	89.0	68.0	80.0

創新度 (15%)

SDD v1 品質 (10%)

細節完成度 (5%)

需求匹配 (20%)

v2 完整度 (20%)

向下相容 (20%)

驚喜度 (15%)

🤖雙模型比較（Sonnet 4.6 vs GPT-5.4 mini）

607

雙模型齊全

可做一致性分析

17

高分歧（|Δ| ≥ 20）

佔 2.8%，列入人工覆核

-7.4

Δ 中位數

σ = 6.6

75.55

Sonnet 平均

raw_weighted (0–105)

82.56

GPT 平均

raw_weighted (0–105)

📊 雙模型分數差（Sonnet − GPT）直方圖

📐 各面向：Sonnet vs GPT 平均差異

觀察：雙模型總分差中位數約 -7.4，大多數分歧落在 innovation 與 surprise 兩個最主觀的面向；結構化面向（completeness / backward_compat）兩模型一致性較高。17 筆高分歧案例已寫入 _grade_review_index.md 供助教人工覆核。

🏷️類別分佈 (Taxonomy by Opus 4.7)

類別分佈（依人數）

類別 × 平均分數

類別	人數	平均分	中位數
個人理財 / 投資	159	90.44	92.63
任務管理	111	91.02	92.81
開發者工具	52	92.41	93.65
領域工具	48	91.19	93.3
健身 / 健康	47	92.34	93.66
字卡 / 學習	35	92.01	93.43
筆記 / 書籤	33	92.12	93.79
文字分析	26	91.6	93.89
遊戲	24	93.21	93.79
資料轉換	20	91.71	92.88
媒體處理	13	91.89	92.1
密碼管理	6	93.41	93.73
寵物照護	2	92.24	92.24

Opus 4.7 以 map-reduce 對全班 607 份摘要建立 13 個 primary 類別，其中 finance_tool / tasks_manager 為本屆最大宗，合計超過 40%。

⭐特色專案

463

rescaled ≥ 90

佔 76.3%

39

平均 surprise ≥ 85

超出作業要求的亮點設計

特色專案典型特徵（彙整自 report narrative）

完整的 Repository Pattern / Strategy / Adapter 抽象層，v1→v2 schema 演進有清楚遷移策略
測試策略具深度：單元測試 + 屬性測試 (hypothesis) + 邊界 case
README 有設計決策、trade-off 討論、未來 v3 方向三大敘述段落
額外加入 TUI（rich/textual）、SQLite 遷移、atomic write、可觀測性指標等作業沒要求但你自己做了的延伸
sdd_v2 的 Mermaid 圖不只兩種，而是針對多個核心功能獨立繪製 sequence / flowchart
向下相容性章節具體列出每個 v1 指令的遷移行為與例外處理

⚠️常見問題

🚫 檔案缺失統計

⏰ v1/ 逾期改動（已記錄供人工審閱）

49

位學生在 v1.0 截止後仍修改 v1/ 資料夾
此紀錄會保留供老師 / 助教審閱，分數仍依實際 v2 對 v1 介面相容性評估

佔總人數 8.1%；有部分可能為 rebase / 空改 / 格式變更，實質後續修改則由助教再依情況調整。

📉 全班常見 anti-pattern（由 Opus 4.7 narrative 彙整）

整個 repo 幾乎空白（僅 README 數字，無 sdd_v1 / main.py）
JSON 單檔無並發寫入保護與 rollback 機制
外部 API 依賴易斷線且缺降級 / 快取策略
sdd_v1.md 六大章節不齊全（尤其缺錯誤處理與測試案例）
v2 實作功能齊全但未更新 sdd_v2.md — SDD 文件與程式 drift
向下相容章節僅表列「完全相容」而未說明遷移策略

🔎評分透明度

為了讓評分盡量公正，系統會自動標記以下幾種需要更多判讀的情境。這些案例的最終分數會經過人工複核後才定案，目的是避免單一模型的偏差或規則判定造成誤判。

17

兩模型高度分歧

|Sonnet − GPT| ≥ 20 分

49

v1/ 逾期改動

v1/ 逾期改動（已記錄供人工審閱）

3

README 缺失

退回 sdd_v1 推斷

63

類別判讀分歧

兩模型選出不同 primary

為什麼需要兩個模型 + 人工複核？ 創新度（innovation）與驚喜度（surprise）這兩個最主觀的面向，本來就容易因模型偏好造成分歧——本屆兩模型總分差中位數約 -7.4 分，主要差異就集中在這兩欄。用「Sonnet 4.6 × GPT-5.4-mini」兩家不同家族的模型做盲評，搭配差距超過 20 分就強制進入人工複核，是為了降低單一模型偏差對你分數的影響。

⚖️評分方法論

面向權重（每項 0–100 分）

面向	權重	Phase
創新度 (15%)	15	Phase 1
SDD v1 品質 (10%)	10	Phase 1
細節完成度 (5%)	5	Phase 1
需求匹配 (20%)	20	Phase 2
v2 完整度 (20%)	20	Phase 2
向下相容 (20%)	20	Phase 2
驚喜度 (15%)	15	Phase 2
總權重	105	(Phase 1 小計 30 / Phase 2 小計 75)

融合公式

# 每個面向由模型給 0–100 分
raw_weighted_per_model = Σ(weights[k] × score[k] / 100)
                       # ∈ [0, 105]

# 雙模型融合
final_raw = 0.5 × sonnet.raw + 0.5 × gpt.raw

# Rescale 到 [60, 100]
rescaled = 60 + (final_raw / 105) × 40

v1/ 逾期改動：若系統偵測到 v1/ 在截止後仍有 commit，flag 會保留供老師 / 助教審閱，並不會自動把 backward_compat 歸 0；分數仍依模型對學生 v2 實作的客觀評估為準。
Surprise 上限拉高到 15（原 HW2.md 規劃 1–5 分人工抽查 bonus 併入此面向）。

模型分工

階段	模型	呼叫數	理由
Summarize	`claude-haiku-4-5-20251001`	607 (batch)	每生一份結構化摘要；Haiku 最廉價且足夠精準
Taxonomy	`claude-opus-4-7`	1（map-reduce）	需全局視野建立類別學 + 多面向統計；只跑 Opus 一次
Score A	`claude-sonnet-4-6`	607 × 2 = 1214 (batch)	Phase 1 + Phase 2 評分；Sonnet 品質與成本平衡
Score B	`gpt-5.4-mini`	607 × 2 = 1214 (batch)	獨立盲評作為交叉驗證；不同家族模型降低單模型偏差
Report Narrative	`claude-opus-4-7`	1	Executive Summary + 各類別 narrative + anti-patterns 彙整

成本優化：所有大量呼叫（summarize、score × 2 providers）均走 Anthropic Message Batches API 與 OpenAI Batch API，享 ~50% 折扣；taxonomy 與 report narrative 單次呼叫走 sync。

💰 實際執行成本

US$11

OpenAI API

GPT-5.4 mini（score × 2 phase）

US$65

Anthropic API

Haiku + Opus + Sonnet 加總

US$76

總計

對應 ~3049 次 LLM 呼叫

細項構成：Haiku 4.5 做 607 次 summarize，Opus 4.7 做 taxonomy（13 map + 1 reduce）與 report narrative 各 1 次，Sonnet 4.6 做 1214 次評分（Phase 1 + Phase 2），GPT-5.4 mini 做 1214 次評分（同樣 Phase 1 + Phase 2，加上一次補救性 sync rescore）。大宗 LLM 呼叫走 batch 模式享 50% 折扣——同樣流量若全走 sync，成本會翻倍到 ~US$150 左右。