📋總覽摘要

695
總學生數
參與評分
591
通過門檻
通過率 85.0%
104
未通過門檻
佔比 15.0%
79.0
最終平均分
中位數 79.0
5.95
標準差
範圍 61–94
310
特色專案
佔通過者 52.5%
📐 最終分數統計摘要
統計指標最終分數加權原始分
樣本數591591
平均值79.086.16
中位數79.088.1
標準差5.958.19
最小值61.045.4
最大值94.097.6
Q1 (25%)75.083.2
Q3 (75%)83.091.7
IQR8.08.5
🔑 門檻通過率
正規化說明:最終分數已校準至目標平均 79、標準差 6、範圍 [60, 95]。
📊 四維度平均分概覽
86.76
Markdown 豐富度
權重 30% | σ=7.97
86.12
工具完整度
權重 25% | σ=10.1
87.75
README 可重現性
權重 25% | σ=11.23
83.32
創意度
權重 20% | σ=7.75

📊分數分布分析

📈 最終分數分布直方圖(正規化後,N=591)
觀察:分布呈現近似常態,集中於 73–84 分區間,峰值落在 76–79 分段(78 人)。平均值與中位數均為 79.0,顯示分布高度對稱,正規化效果良好。
📦 加權原始分分布直方圖(正規化前,N=591)
正規化前平均 86.16,中位數 88.1,呈現左偏分布,高分群集中於 87–95 分段。
📦 四維度分數箱形圖比較
README 可重現性標準差最大(11.23),顯示學生間差異最懸殊;創意度平均分最低(83.32)。
🔍 分數區間分布詳細統計
分數區間人數佔比累積佔比等級描述
90–94233.9%100%🏆 優秀
85–898514.4%96.1%⭐ 良好
80–8416728.3%81.7%✅ 中上
75–7918431.1%53.5%📝 中等
70–748614.6%22.3%⚠️ 中下
65–69305.1%7.8%🔴 偏低
60–64162.7%2.7%🔴 低分

🔍維度分析

🕸️ 四維度平均分雷達圖
📊 各維度分數統計比較
維度平均中位數σ最低最高Q1Q3
Markdown 豐富度 86.7688.57.9753.599.083.591.5
工具完整度 86.1288.510.122.599.581.593.5
README 可重現性 87.7591.511.2322.599.586.094.0
創意度 83.3285.07.7540.097.079.088.5
  • README 可重現性平均最高(87.75),但標準差也最大(11.23),顯示學生表現兩極化。
  • 創意度是四維度中平均分最低(83.32),且最低分僅 40 分,是最需加強的維度。
  • Markdown 豐富度標準差最小(7.97),學生表現最為一致。
  • 工具完整度最低分僅 22.5,顯示少數學生工具鏈設置存在嚴重問題。
📊 Markdown 豐富度分布
分布集中於 85–95 分,呈現左偏,高分群佔多數。
📊 工具完整度分布
主體集中於 80–96 分,但有少數極低分(22–30)的離群值。
📊 README 可重現性分布
高度左偏,88–96 分段人數最多,但低分尾部較長。
📊 創意度分布
分布較為均勻,峰值在 86–88 分,低分尾部延伸至 40 分。

🤖雙模型比較分析

⚠️ 人工複審說明:共 590 份作業進行雙模型評分,其中 204 份(34.6%)因 Claude 與 Gemini 加權總分差異超過 10 分而被標記需人工複審。
81.87
Claude 平均分
σ=9.96,範圍 32–96
90.59
Gemini 平均分
σ=6.52,範圍 56–100
-8.72
平均分差(C-G)
Claude 系統性偏低
204
標記複審數
佔雙評 34.6%
🔵 Claude vs Gemini 總分散佈圖(標記複審樣本)
散佈圖顯示 Gemini 評分系統性高於 Claude,差異集中於 -10 至 -29 分之間。
📊 分數差異(Claude − Gemini)分布直方圖
差異均為負值(-10 至 -29),中位數 -13.05,顯示 Claude 在所有標記案例中均低於 Gemini。
🔍 標記複審樣本:各維度 Claude vs Gemini 比較(N=204)
📋 各維度模型評分差異詳細比較(標記複審樣本)
維度 Claude 平均Claude σ Gemini 平均Gemini σ 差異(C-G)差異幅度
Markdown 豐富度 73.2210.0 89.967.99 -16.74 🔴 最大差異
工具完整度 72.7115.21 85.839.88 -13.12 🟠 大差異
README 可重現性 73.2418.01 87.2812.57 -14.04 🟠 大差異
創意度 72.829.73 84.257.59 -11.43 🟡 中差異
  • Markdown 豐富度差異最大(-16.74),Claude 對 Markdown 語法豐富程度的評判標準明顯嚴格於 Gemini。
  • README 可重現性的 Claude 標準差高達 18.01,顯示 Claude 在此維度評分最不穩定。
  • 創意度差異相對最小(-11.43),兩模型在主觀評估上分歧較少。
  • 所有維度 Claude 均系統性低於 Gemini,顯示 Claude 整體評分標準更為嚴格。

特色專案分析

🏆 特色專案門檻:加權總分 ≥ 85 分。共 310 份作業獲得特色專案標記,佔通過門檻學生的 52.5%,顯示整體作業品質相當優秀。
📊 特色標籤分布橫條圖(N=310 份特色專案)
🏷️ 特色標籤詳細統計
📝 exemplary_readme
229
🗣️ personal_voice
228
🔧 technical_depth
201
⚙️ advanced_toolchain
184
💡 creative_topic
152
🎮 interactive_output
52
🎨 exceptional_design
12
百分比以 310 份特色專案為基數計算
  • exemplary_readmepersonal_voice 並列最常見標籤(各約 74%),顯示優秀作業普遍具備清晰文件與個人風格。
  • technical_depth(65%)與 advanced_toolchain(59%)也相當普遍,反映學生技術能力整體良好。
  • interactive_output(17%)與 exceptional_design(4%)較為稀少,是進階挑戰的方向。
🔍 特色專案特徵分析

✅ 特色專案共同特徵

  • README 文件結構完整,包含安裝步驟、使用說明與範例輸出
  • 具備鮮明的個人寫作風格與主題選擇
  • Markdown 語法使用多樣,包含表格、程式碼區塊、圖片等
  • 工具鏈設置完整,能正確生成輸出檔案
  • 展現對 Markdown 渲染工具的深入理解

💡 進階特色(稀有標籤)

  • interactive_output(52 份):整合互動式元素,如動態圖表或可執行程式碼
  • exceptional_design(12 份):視覺設計出色,排版美觀,超越基本要求
  • 這兩類標籤代表作業中的頂尖水準,值得作為範例分享

⚠️常見問題與建議

🚫 門檻未通過:104 名學生(15.0%)因未滿足基本要求而無法進入評分流程。
🚫 門檻失敗原因分析(N=104)
output_file_valid
100
content_md
99
output_dir
96
readme_md
2
📋 門檻失敗問題說明
  • output_file_valid(100 人)
    輸出檔案無效或格式錯誤,是最主要的失敗原因。可能原因:工具未正確執行、輸出路徑錯誤、檔案損毀。
  • content_md(99 人)
    Markdown 內容不符合要求,可能缺少必要的語法元素或內容過於簡短。
  • output_dir(96 人)
    輸出目錄結構不正確,未按照作業規範建立目錄。
  • readme_md(2 人)
    README 檔案缺失,僅 2 人有此問題,屬於少數情況。
注意:多數失敗學生同時觸發多個門檻條件(output_file_valid、content_md、output_dir 高度相關),顯示問題根源可能是工具鏈設置失敗。
📉 低分學生常見問題歸納(最終分數 < 72 分)

❌ 技術層面問題

  • 工具鏈設置不完整,缺少必要的轉換工具(如 Pandoc、mkdocs 等)
  • 輸出目錄結構不符合規範,檔案路徑錯誤
  • Markdown 語法使用單一,缺乏表格、程式碼區塊、圖片等豐富元素
  • README 缺乏可重現的操作步驟,他人無法依照說明重現結果

⚠️ 內容層面問題

  • 創意度不足,主題選擇過於普通或缺乏個人特色
  • README 說明過於簡略,缺少環境需求、安裝步驟等關鍵資訊
  • Markdown 內容深度不足,未展現對工具的深入理解
  • 缺乏個人寫作風格,內容模板化
💡 改善建議

📝 Markdown 豐富度

  • 使用至少 5 種以上 Markdown 語法元素
  • 加入表格、程式碼區塊(含語法高亮)
  • 適當使用圖片、連結、引用區塊
  • 善用標題層級建立文件結構

⚙️ 工具完整度

  • 確認工具鏈能完整執行並生成輸出
  • 測試輸出目錄結構是否符合規範
  • 記錄所有使用的工具版本
  • 提供 Makefile 或腳本自動化流程

📖 README 可重現性

  • 列出完整的環境需求(OS、工具版本)
  • 提供逐步安裝與執行指令
  • 加入預期輸出的截圖或範例
  • 說明常見錯誤的排除方法

💡 創意度

  • 選擇具個人特色的主題,避免過於通用
  • 加入個人觀點與反思
  • 嘗試互動式輸出(如 Jupyter、Reveal.js)
  • 在視覺設計上投入更多心思

💡教學回饋建議

📊 整體表現評估
  • 整體表現良好
    85% 通過率、平均分 79 分,顯示大多數學生能掌握作業基本要求。
  • 特色專案比例高
    52.5% 的通過學生獲得特色標記,顯示課程激發了學生的創作動力。
  • 工具鏈是主要障礙
    104 名未通過學生中,96% 以上有輸出目錄或檔案問題,工具設置是最大挑戰。
  • 創意度有提升空間
    創意度是四維度中平均分最低的,且 exceptional_design 標籤僅 12 份,視覺設計能力待加強。
🤖 評分系統觀察
  • 模型評分差異顯著
    34.6% 的作業需人工複審,Claude 系統性低於 Gemini 約 8.72 分,建議檢視評分 Prompt 設計。
  • Markdown 豐富度差異最大
    兩模型在此維度差異達 16.74 分,評分標準需進一步統一。
  • 正規化效果良好
    最終分數平均 79.0、標準差 5.95,與目標(79, 6)高度吻合。
🎯 具體教學改善建議
🛠️

工具鏈教學強化

建議在課程初期增加工具鏈設置的實作練習課,提供標準化的環境設置腳本,並建立常見錯誤的 FAQ 文件。可考慮提供 Docker 容器或 GitHub Codespaces 環境,降低環境設置門檻。

🎨

創意度培養

分享歷屆優秀作業範例(匿名),特別是獲得 exceptional_design 與 interactive_output 標籤的作品。舉辦作業展示會,讓學生互相學習。提供創意主題靈感清單,鼓勵跨領域應用。

📖

README 撰寫指導

提供 README 撰寫模板與評分標準說明,強調可重現性的重要性。可安排同儕互評環節,讓學生嘗試依照他人 README 重現結果,從中體會文件品質的重要性。

🤖

AI 評分系統優化

建議統一 Claude 與 Gemini 的評分 Prompt,特別針對 Markdown 豐富度維度。可考慮增加評分標準的具體範例,減少模型間的主觀差異。人工複審比例(34.6%)偏高,可調整差異門檻或改善 Prompt。

📊

早期預警機制

對於工具鏈設置,建議在截止日前一週提供自動化檢查工具,讓學生能提前發現問題。可設置中期檢查點,對尚未完成基本設置的學生提供額外輔導。

📈

分層教學策略

針對不同程度學生設計分層學習路徑:基礎組專注工具鏈設置與基本 Markdown;進階組挑戰互動式輸出與視覺設計。特色專案可作為加分項目,激勵學生超越基本要求。

📌 下一次作業改善重點優先順序
優先級改善項目影響範圍預期效益難度
🔴 P1 工具鏈設置輔助文件與環境腳本 104 名未通過學生 降低門檻失敗率至 <5%
🔴 P1 統一 AI 評分 Prompt(Markdown 豐富度) 204 名複審學生 降低人工複審比例
🟠 P2 README 撰寫模板與範例 全體學生 提升可重現性分數
🟠 P2 創意度評分標準說明與範例 全體學生 提升創意度平均分
🟡 P3 優秀作業匿名展示與分享 全體學生 激勵學習動機
🟡 P3 互動式輸出教學資源 進階學生 增加 interactive_output 標籤數

🔎 抽檢觀察筆記(Sampling Review Notes)

以下為教學團隊透過 Claude Sonnet 4.6 對 50 份隨機抽樣作品進行人工抽檢後,彙整的評分系統觀察與改進建議。 本節旨在讓師生共同理解全體分布特性,所有個人識別資訊已移除。

1

排序合理性

50 份樣本的整體排序大致合理,但存在兩個系統性問題:

  • 部分作品的三個技術維度高分過度補償了創意度差距,導致加權總分高於創意度更突出的作品。例如某作品加權總分 94.8,但創意度僅 90.0,排名卻高於創意度 93.5 / 91.0 的同級作品。
  • 自行開發 CLI 工具的工程創新型作品,因 Markdown Richness 維度略低(如 91.5)而被壓制至 93 分段,其工程深度未獲充分反映。
2

分數級距過密

90–96 分段(A tier)的分布過於密集,約 15 份作品擠在 6 分範圍內,導致頂尖作品與中上作品的差距不夠顯著。

改進建議:未來考慮加大創意度權重,或對「工具鏈自主開發」設立額外加分機制,以拉開級距。

3

創意度一致性

整體一致性良好——高創意度分數(91–93.5)對應更原創的主題選擇(如火影世界觀、RPG 履歷、公鯊小企劃、mark2slide 工具開發),低創意度分數(71–77.5)對應套模板或內容空洞的作品。

唯一例外:某作品創意度 91.5 但加權總分僅 88.8,主要因 Tool Completeness(86.0)偏低而被拉低——此懲罰被判定為合理。

4

特色標記一致性

creative_topic 標記被過度使用於「個人履歷」主題——而個人履歷是樣本中最常見的主題類型(估計佔 40%+),不應被視為「創意主題」。

改進建議:creative_topic 保留給真正稀缺的主題選擇(如火影世界觀、RPG 履歷、公鯊小企劃、手搖飲技術規格書、寵物照顧指南等),以提升標記的鑑別力。

5

底部分段合理性

底部三份作品(49.8 / 59.5 / 65.1 分)的低分有充分依據——工具鏈嚴重不完整、內容空洞。排序合理,無需調整。

6

exemplary_readme 標記通膨

exemplary_readme 標記在高分段(90+)幾乎普遍存在,失去鑑別力。

改進建議:未來設立更嚴格的標準,區分「README 完整」與「README 真正示範性」,避免標記通膨。

📌 總結

此次 AI 輔助評分系統的整體表現良好,排序與人工判斷大致吻合。主要改進方向集中在:級距拉開(加大創意度權重或設立額外加分)、標記校準(收緊 creative_topic 與 exemplary_readme 的認定標準),以及工程創新加分(對自主開發工具鏈的作品給予額外肯定)。這些觀察將作為 HW2 評分系統的改進依據。

⚖️ 校準與正規化流程(Calibration & Normalization)

本次作業評分經過四階段流水線處理。Stage 1–2 為逐份獨立評分,Stage 3–4 為跨學生校準與正規化。 以下說明 Stage 3(Anchor Calibration)與 Stage 4(Normalization)的完整方法論,供師生理解最終分數的產生過程。

Stage 3:Anchor Calibration(錨點校準)

⚠️ 為什麼需要校準?

Stage 2 的評分是「逐份獨立」的——每位學生的作業獨立送出 AI 模型,模型無法跨學生比較。這會導致三個問題:

量表漂移 Scale Drift

同一份作業在第 1 份評分時可能拿 80 分,到第 500 份時因模型的隱性量表偏移而拿 75 分

個案失準

某些作業可能因措辭風格或主題冷門而被系統性低估或高估

創意度主觀性

creativity 維度最容易在不同 prompt 間出現不一致判斷

📋 錨點抽樣策略

從全部評分中抽取約 50 份代表性樣本,讓 AI 做跨學生比較校準:

層級 抽取數 來源
Top 10% 8 加權總分最高的前 10%
P75(70–80%) 8 第 70–80 百分位
Median(45–55%) 10 第 45–55 百分位
P25(20–30%) 8 第 20–30 百分位
Bottom 10% 8 加權總分最低的 10%
Distinguished 8 被標記特色的專案

🔄 校準流程

抽取 ~50 份錨點

載入 content.md + README.md + 原始分數

組合為單一大型 prompt(1M context)

AI 回傳調整建議 + 等級邊界 + 標記覆審

錨點直接套用調整值

非錨點依 tier 平均調整值套用

🏗️ 兩層傳播機制

校準調整分為「直接調整」與「等級傳播」兩層,確保所有學生都受益於校準結果:

50 份錨點樣本 (被 AI 逐一審閱) 直接調整(±N 分) 只影響錨點本身 定義等級邊界 A / B / C / D tier 計算每個 tier 的平均調整值 非錨點學生 依 tier 套用平均調整 所有學生獲得校準後分數 → 進入 Stage 4 正規化

錨點(直接調整)

AI 針對每位錨點建議 suggested_adjustment(如 +3 或 -5),直接加到原始分數

非錨點(等級傳播)

AI 定義 A/B/C/D 四個 tier 的邊界,程式計算每個 tier 中錨點的平均調整值,然後套用到該 tier 所有非錨點學生

💡 設計原理 FAQ

為什麼用 50 份錨點而非全部?

591 份 ×(content.md + README.md)遠超 Claude 的 context window。50 份 stratified sample 覆蓋所有分數帶,足以偵測系統性偏差。錨點包含 6 個分層(Top / P75 / Median / P25 / Bottom / Distinguished),確保 AI 能看見完整的分數光譜。

為什麼同時送原始分數和原文?

AI 可以交叉驗證:「這份拿 90 分的作業,真的比那份拿 85 分的好嗎?」同時可偵測 Stage 2 的漏判(如某學生使用了 Mermaid 圖但沒被計分),並審核 creativity 評分理由是否合理一致。

特色標記覆審(Distinction Override)是什麼?

AI 可建議新增(add)Stage 2 漏標的優秀作品,或移除(remove)Stage 2 誤標的一般作品。確保最終的特色專案清單經過跨學生比較驗證。

Stage 4:Normalization(分數正規化)

將校準後的分數正規化到目標分佈,確保最終成績符合教學期望的分數範圍與分佈形態。

📐 正規化步驟

1

取出所有通過門檻學生的 calibrated_weighted_total

2

Rank-based Normal Transformation

ranks = rankdata(scores, method='average')
percentiles = ranks / (N + 1)
z_scores = norm.ppf(percentiles)
3

映射到目標分佈

final = target_mean + target_std × z_score
4

Clip 到 [score_min, score_max](預設 60–95

5

四捨五入為整數 → 最終成績

🧠 為什麼使用 Rank-based Normal Transformation?

此方法先將原始分數轉為排名,再映射到標準常態分佈,最後拉伸到目標平均與標準差。優點是:(1) 不受原始分數分佈形狀影響(即使 AI 評分偏態集中也能拉開);(2) 保留排序——原始排名不會因轉換而改變;(3) 最終分數近似常態分佈,符合教學成績的慣例期望。

📌 完整流水線總結

Stage 1 Gate Check Stage 2 逐份 AI 評分 Stage 3 錨點校準 Stage 4 正規化 → 最終成績