AIASE2026 HW1 評分分析報告

📋總覽摘要

695

總學生數

參與評分

591

通過門檻

通過率 85.0%

104

未通過門檻

佔比 15.0%

79.0

最終平均分

中位數 79.0

5.95

標準差

範圍 61–94

310

特色專案

佔通過者 52.5%

📐 最終分數統計摘要

統計指標	最終分數	加權原始分
樣本數	591	591
平均值	79.0	86.16
中位數	79.0	88.1
標準差	5.95	8.19
最小值	61.0	45.4
最大值	94.0	97.6
Q1 (25%)	75.0	83.2
Q3 (75%)	83.0	91.7
IQR	8.0	8.5

🔑 門檻通過率

正規化說明：最終分數已校準至目標平均 79、標準差 6、範圍 [60, 95]。

📊 四維度平均分概覽

86.76

Markdown 豐富度

權重 30% ｜ σ=7.97

86.12

工具完整度

權重 25% ｜ σ=10.1

87.75

README 可重現性

權重 25% ｜ σ=11.23

83.32

創意度

權重 20% ｜ σ=7.75

📊分數分布分析

📈 最終分數分布直方圖（正規化後，N=591）

觀察：分布呈現近似常態，集中於 73–84 分區間，峰值落在 76–79 分段（78 人）。平均值與中位數均為 79.0，顯示分布高度對稱，正規化效果良好。

📦 加權原始分分布直方圖（正規化前，N=591）

正規化前平均 86.16，中位數 88.1，呈現左偏分布，高分群集中於 87–95 分段。

📦 四維度分數箱形圖比較

README 可重現性標準差最大（11.23），顯示學生間差異最懸殊；創意度平均分最低（83.32）。

🔍 分數區間分布詳細統計

分數區間	人數	佔比	累積佔比	等級描述
90–94	23	3.9%	100%	🏆 優秀
85–89	85	14.4%	96.1%	⭐ 良好
80–84	167	28.3%	81.7%	✅ 中上
75–79	184	31.1%	53.5%	📝 中等
70–74	86	14.6%	22.3%	⚠️ 中下
65–69	30	5.1%	7.8%	🔴 偏低
60–64	16	2.7%	2.7%	🔴 低分

🔍維度分析

🕸️ 四維度平均分雷達圖

📊 各維度分數統計比較

維度	平均	中位數	σ	最低	最高	Q1	Q3
Markdown 豐富度	86.76	88.5	7.97	53.5	99.0	83.5	91.5
工具完整度	86.12	88.5	10.1	22.5	99.5	81.5	93.5
README 可重現性	87.75	91.5	11.23	22.5	99.5	86.0	94.0
創意度	83.32	85.0	7.75	40.0	97.0	79.0	88.5

README 可重現性平均最高（87.75），但標準差也最大（11.23），顯示學生表現兩極化。
創意度是四維度中平均分最低（83.32），且最低分僅 40 分，是最需加強的維度。
Markdown 豐富度標準差最小（7.97），學生表現最為一致。
工具完整度最低分僅 22.5，顯示少數學生工具鏈設置存在嚴重問題。

📊 Markdown 豐富度分布

分布集中於 85–95 分，呈現左偏，高分群佔多數。

📊 工具完整度分布

主體集中於 80–96 分，但有少數極低分（22–30）的離群值。

📊 README 可重現性分布

高度左偏，88–96 分段人數最多，但低分尾部較長。

📊 創意度分布

分布較為均勻，峰值在 86–88 分，低分尾部延伸至 40 分。

🤖雙模型比較分析

⚠️ 人工複審說明：共 590 份作業進行雙模型評分，其中 204 份（34.6%）因 Claude 與 Gemini 加權總分差異超過 10 分而被標記需人工複審。

81.87

Claude 平均分

σ=9.96，範圍 32–96

90.59

Gemini 平均分

σ=6.52，範圍 56–100

-8.72

平均分差（C-G）

Claude 系統性偏低

204

標記複審數

佔雙評 34.6%

🔵 Claude vs Gemini 總分散佈圖（標記複審樣本）

散佈圖顯示 Gemini 評分系統性高於 Claude，差異集中於 -10 至 -29 分之間。

📊 分數差異（Claude − Gemini）分布直方圖

差異均為負值（-10 至 -29），中位數 -13.05，顯示 Claude 在所有標記案例中均低於 Gemini。

🔍 標記複審樣本：各維度 Claude vs Gemini 比較（N=204）

📋 各維度模型評分差異詳細比較（標記複審樣本）

維度	Claude 平均	Claude σ	Gemini 平均	Gemini σ	差異（C-G）	差異幅度
Markdown 豐富度	73.22	10.0	89.96	7.99	-16.74	🔴 最大差異
工具完整度	72.71	15.21	85.83	9.88	-13.12	🟠 大差異
README 可重現性	73.24	18.01	87.28	12.57	-14.04	🟠 大差異
創意度	72.82	9.73	84.25	7.59	-11.43	🟡 中差異

Markdown 豐富度差異最大（-16.74），Claude 對 Markdown 語法豐富程度的評判標準明顯嚴格於 Gemini。
README 可重現性的 Claude 標準差高達 18.01，顯示 Claude 在此維度評分最不穩定。
創意度差異相對最小（-11.43），兩模型在主觀評估上分歧較少。
所有維度 Claude 均系統性低於 Gemini，顯示 Claude 整體評分標準更為嚴格。

⭐特色專案分析

🏆 特色專案門檻：加權總分 ≥ 85 分。共 310 份作業獲得特色專案標記，佔通過門檻學生的 52.5%，顯示整體作業品質相當優秀。

📊 特色標籤分布橫條圖（N=310 份特色專案）

🏷️ 特色標籤詳細統計

📝 exemplary_readme

229

🗣️ personal_voice

228

🔧 technical_depth

201

⚙️ advanced_toolchain

184

💡 creative_topic

152

🎮 interactive_output

52

🎨 exceptional_design

12

百分比以 310 份特色專案為基數計算

exemplary_readme 與 personal_voice 並列最常見標籤（各約 74%），顯示優秀作業普遍具備清晰文件與個人風格。
technical_depth（65%）與 advanced_toolchain（59%）也相當普遍，反映學生技術能力整體良好。
interactive_output（17%）與 exceptional_design（4%）較為稀少，是進階挑戰的方向。

🔍 特色專案特徵分析

✅ 特色專案共同特徵

README 文件結構完整，包含安裝步驟、使用說明與範例輸出
具備鮮明的個人寫作風格與主題選擇
Markdown 語法使用多樣，包含表格、程式碼區塊、圖片等
工具鏈設置完整，能正確生成輸出檔案
展現對 Markdown 渲染工具的深入理解

💡 進階特色（稀有標籤）

interactive_output（52 份）：整合互動式元素，如動態圖表或可執行程式碼
exceptional_design（12 份）：視覺設計出色，排版美觀，超越基本要求
這兩類標籤代表作業中的頂尖水準，值得作為範例分享

⚠️常見問題與建議

🚫 門檻未通過：104 名學生（15.0%）因未滿足基本要求而無法進入評分流程。

🚫 門檻失敗原因分析（N=104）

output_file_valid

100

content_md

99

output_dir

96

readme_md

2

📋 門檻失敗問題說明

output_file_valid（100 人）
輸出檔案無效或格式錯誤，是最主要的失敗原因。可能原因：工具未正確執行、輸出路徑錯誤、檔案損毀。
content_md（99 人）
Markdown 內容不符合要求，可能缺少必要的語法元素或內容過於簡短。
output_dir（96 人）
輸出目錄結構不正確，未按照作業規範建立目錄。
readme_md（2 人）
README 檔案缺失，僅 2 人有此問題，屬於少數情況。

注意：多數失敗學生同時觸發多個門檻條件（output_file_valid、content_md、output_dir 高度相關），顯示問題根源可能是工具鏈設置失敗。

📉 低分學生常見問題歸納（最終分數 < 72 分）

❌ 技術層面問題

工具鏈設置不完整，缺少必要的轉換工具（如 Pandoc、mkdocs 等）
輸出目錄結構不符合規範，檔案路徑錯誤
Markdown 語法使用單一，缺乏表格、程式碼區塊、圖片等豐富元素
README 缺乏可重現的操作步驟，他人無法依照說明重現結果

⚠️ 內容層面問題

創意度不足，主題選擇過於普通或缺乏個人特色
README 說明過於簡略，缺少環境需求、安裝步驟等關鍵資訊
Markdown 內容深度不足，未展現對工具的深入理解
缺乏個人寫作風格，內容模板化

💡 改善建議

📝 Markdown 豐富度

使用至少 5 種以上 Markdown 語法元素
加入表格、程式碼區塊（含語法高亮）
適當使用圖片、連結、引用區塊
善用標題層級建立文件結構

⚙️ 工具完整度

確認工具鏈能完整執行並生成輸出
測試輸出目錄結構是否符合規範
記錄所有使用的工具版本
提供 Makefile 或腳本自動化流程

📖 README 可重現性

列出完整的環境需求（OS、工具版本）
提供逐步安裝與執行指令
加入預期輸出的截圖或範例
說明常見錯誤的排除方法

💡 創意度

選擇具個人特色的主題，避免過於通用
加入個人觀點與反思
嘗試互動式輸出（如 Jupyter、Reveal.js）
在視覺設計上投入更多心思

💡教學回饋建議

📊 整體表現評估

整體表現良好
85% 通過率、平均分 79 分，顯示大多數學生能掌握作業基本要求。
特色專案比例高
52.5% 的通過學生獲得特色標記，顯示課程激發了學生的創作動力。
工具鏈是主要障礙
104 名未通過學生中，96% 以上有輸出目錄或檔案問題，工具設置是最大挑戰。
創意度有提升空間
創意度是四維度中平均分最低的，且 exceptional_design 標籤僅 12 份，視覺設計能力待加強。

🤖 評分系統觀察

模型評分差異顯著
34.6% 的作業需人工複審，Claude 系統性低於 Gemini 約 8.72 分，建議檢視評分 Prompt 設計。
Markdown 豐富度差異最大
兩模型在此維度差異達 16.74 分，評分標準需進一步統一。
正規化效果良好
最終分數平均 79.0、標準差 5.95，與目標（79, 6）高度吻合。

🎯 具體教學改善建議

🛠️

工具鏈教學強化

建議在課程初期增加工具鏈設置的實作練習課，提供標準化的環境設置腳本，並建立常見錯誤的 FAQ 文件。可考慮提供 Docker 容器或 GitHub Codespaces 環境，降低環境設置門檻。

🎨

創意度培養

分享歷屆優秀作業範例（匿名），特別是獲得 exceptional_design 與 interactive_output 標籤的作品。舉辦作業展示會，讓學生互相學習。提供創意主題靈感清單，鼓勵跨領域應用。

📖

README 撰寫指導

提供 README 撰寫模板與評分標準說明，強調可重現性的重要性。可安排同儕互評環節，讓學生嘗試依照他人 README 重現結果，從中體會文件品質的重要性。

🤖

AI 評分系統優化

建議統一 Claude 與 Gemini 的評分 Prompt，特別針對 Markdown 豐富度維度。可考慮增加評分標準的具體範例，減少模型間的主觀差異。人工複審比例（34.6%）偏高，可調整差異門檻或改善 Prompt。

📊

早期預警機制

對於工具鏈設置，建議在截止日前一週提供自動化檢查工具，讓學生能提前發現問題。可設置中期檢查點，對尚未完成基本設置的學生提供額外輔導。

📈

分層教學策略

針對不同程度學生設計分層學習路徑：基礎組專注工具鏈設置與基本 Markdown；進階組挑戰互動式輸出與視覺設計。特色專案可作為加分項目，激勵學生超越基本要求。

📌 下一次作業改善重點優先順序

優先級	改善項目	影響範圍	預期效益	難度
🔴 P1	工具鏈設置輔助文件與環境腳本	104 名未通過學生	降低門檻失敗率至 <5%	低
🔴 P1	統一 AI 評分 Prompt（Markdown 豐富度）	204 名複審學生	降低人工複審比例	中
🟠 P2	README 撰寫模板與範例	全體學生	提升可重現性分數	低
🟠 P2	創意度評分標準說明與範例	全體學生	提升創意度平均分	中
🟡 P3	優秀作業匿名展示與分享	全體學生	激勵學習動機	低
🟡 P3	互動式輸出教學資源	進階學生	增加 interactive_output 標籤數	高

🔎 抽檢觀察筆記（Sampling Review Notes）

以下為教學團隊透過 Claude Sonnet 4.6 對 50 份隨機抽樣作品進行人工抽檢後，彙整的評分系統觀察與改進建議。本節旨在讓師生共同理解全體分布特性，所有個人識別資訊已移除。

1

排序合理性

50 份樣本的整體排序大致合理，但存在兩個系統性問題：

部分作品的三個技術維度高分過度補償了創意度差距，導致加權總分高於創意度更突出的作品。例如某作品加權總分 94.8，但創意度僅 90.0，排名卻高於創意度 93.5 / 91.0 的同級作品。
自行開發 CLI 工具的工程創新型作品，因 Markdown Richness 維度略低（如 91.5）而被壓制至 93 分段，其工程深度未獲充分反映。

2

分數級距過密

90–96 分段（A tier）的分布過於密集，約 15 份作品擠在 6 分範圍內，導致頂尖作品與中上作品的差距不夠顯著。

改進建議：未來考慮加大創意度權重，或對「工具鏈自主開發」設立額外加分機制，以拉開級距。

3

創意度一致性

整體一致性良好——高創意度分數（91–93.5）對應更原創的主題選擇（如火影世界觀、RPG 履歷、公鯊小企劃、mark2slide 工具開發），低創意度分數（71–77.5）對應套模板或內容空洞的作品。

唯一例外：某作品創意度 91.5 但加權總分僅 88.8，主要因 Tool Completeness（86.0）偏低而被拉低——此懲罰被判定為合理。

4

特色標記一致性

creative_topic 標記被過度使用於「個人履歷」主題——而個人履歷是樣本中最常見的主題類型（估計佔 40%+），不應被視為「創意主題」。

改進建議：將 creative_topic 保留給真正稀缺的主題選擇（如火影世界觀、RPG 履歷、公鯊小企劃、手搖飲技術規格書、寵物照顧指南等），以提升標記的鑑別力。

5

底部分段合理性

底部三份作品（49.8 / 59.5 / 65.1 分）的低分有充分依據——工具鏈嚴重不完整、內容空洞。排序合理，無需調整。

6

exemplary_readme 標記通膨

exemplary_readme 標記在高分段（90+）幾乎普遍存在，失去鑑別力。

改進建議：未來設立更嚴格的標準，區分「README 完整」與「README 真正示範性」，避免標記通膨。

📌 總結

此次 AI 輔助評分系統的整體表現良好，排序與人工判斷大致吻合。主要改進方向集中在：級距拉開（加大創意度權重或設立額外加分）、標記校準（收緊 creative_topic 與 exemplary_readme 的認定標準），以及工程創新加分（對自主開發工具鏈的作品給予額外肯定）。這些觀察將作為 HW2 評分系統的改進依據。

⚖️ 校準與正規化流程（Calibration & Normalization）

本次作業評分經過四階段流水線處理。Stage 1–2 為逐份獨立評分，Stage 3–4 為跨學生校準與正規化。以下說明 Stage 3（Anchor Calibration）與 Stage 4（Normalization）的完整方法論，供師生理解最終分數的產生過程。

Stage 3：Anchor Calibration（錨點校準）

⚠️ 為什麼需要校準？

Stage 2 的評分是「逐份獨立」的——每位學生的作業獨立送出 AI 模型，模型無法跨學生比較。這會導致三個問題：

量表漂移 Scale Drift

同一份作業在第 1 份評分時可能拿 80 分，到第 500 份時因模型的隱性量表偏移而拿 75 分

個案失準

某些作業可能因措辭風格或主題冷門而被系統性低估或高估

創意度主觀性

creativity 維度最容易在不同 prompt 間出現不一致判斷

📋 錨點抽樣策略

從全部評分中抽取約 50 份代表性樣本，讓 AI 做跨學生比較校準：

層級	抽取數	來源
Top 10%	8	加權總分最高的前 10%
P75（70–80%）	8	第 70–80 百分位
Median（45–55%）	10	第 45–55 百分位
P25（20–30%）	8	第 20–30 百分位
Bottom 10%	8	加權總分最低的 10%
Distinguished	8	被標記特色的專案

🔄 校準流程

①

抽取 ~50 份錨點

②

載入 content.md + README.md + 原始分數

③

組合為單一大型 prompt（1M context）

④

AI 回傳調整建議 + 等級邊界 + 標記覆審

⑤

錨點直接套用調整值

⑥

非錨點依 tier 平均調整值套用

🏗️ 兩層傳播機制

校準調整分為「直接調整」與「等級傳播」兩層，確保所有學生都受益於校準結果：

錨點（直接調整）

AI 針對每位錨點建議 suggested_adjustment（如 +3 或 -5），直接加到原始分數

非錨點（等級傳播）

AI 定義 A/B/C/D 四個 tier 的邊界，程式計算每個 tier 中錨點的平均調整值，然後套用到該 tier 所有非錨點學生

💡 設計原理 FAQ

為什麼用 50 份錨點而非全部？

591 份 ×（content.md + README.md）遠超 Claude 的 context window。50 份 stratified sample 覆蓋所有分數帶，足以偵測系統性偏差。錨點包含 6 個分層（Top / P75 / Median / P25 / Bottom / Distinguished），確保 AI 能看見完整的分數光譜。

為什麼同時送原始分數和原文？

AI 可以交叉驗證：「這份拿 90 分的作業，真的比那份拿 85 分的好嗎？」同時可偵測 Stage 2 的漏判（如某學生使用了 Mermaid 圖但沒被計分），並審核 creativity 評分理由是否合理一致。

特色標記覆審（Distinction Override）是什麼？

AI 可建議新增（add）Stage 2 漏標的優秀作品，或移除（remove）Stage 2 誤標的一般作品。確保最終的特色專案清單經過跨學生比較驗證。

Stage 4：Normalization（分數正規化）

將校準後的分數正規化到目標分佈，確保最終成績符合教學期望的分數範圍與分佈形態。

📐 正規化步驟

1

取出所有通過門檻學生的 calibrated_weighted_total

2

Rank-based Normal Transformation

ranks = rankdata(scores, method='average')
percentiles = ranks / (N + 1)
z_scores = norm.ppf(percentiles)

3

映射到目標分佈

              final = target_mean + target_std × z_score
            

4

Clip 到 [score_min, score_max]（預設 60–95）

5

四捨五入為整數 → 最終成績

🧠 為什麼使用 Rank-based Normal Transformation？

此方法先將原始分數轉為排名，再映射到標準常態分佈，最後拉伸到目標平均與標準差。優點是：(1) 不受原始分數分佈形狀影響（即使 AI 評分偏態集中也能拉開）；(2) 保留排序——原始排名不會因轉換而改變；(3) 最終分數近似常態分佈，符合教學成績的慣例期望。

📌 完整流水線總結

Stage 1 Gate Check → Stage 2 逐份 AI 評分 → Stage 3 錨點校準 → Stage 4 正規化 → 最終成績