📋總覽摘要
| 統計指標 | 最終分數 | 加權原始分 |
|---|---|---|
| 樣本數 | 591 | 591 |
| 平均值 | 79.0 | 86.16 |
| 中位數 | 79.0 | 88.1 |
| 標準差 | 5.95 | 8.19 |
| 最小值 | 61.0 | 45.4 |
| 最大值 | 94.0 | 97.6 |
| Q1 (25%) | 75.0 | 83.2 |
| Q3 (75%) | 83.0 | 91.7 |
| IQR | 8.0 | 8.5 |
📊分數分布分析
| 分數區間 | 人數 | 佔比 | 累積佔比 | 等級描述 |
|---|---|---|---|---|
| 90–94 | 23 | 3.9% | 100% | 🏆 優秀 |
| 85–89 | 85 | 14.4% | 96.1% | ⭐ 良好 |
| 80–84 | 167 | 28.3% | 81.7% | ✅ 中上 |
| 75–79 | 184 | 31.1% | 53.5% | 📝 中等 |
| 70–74 | 86 | 14.6% | 22.3% | ⚠️ 中下 |
| 65–69 | 30 | 5.1% | 7.8% | 🔴 偏低 |
| 60–64 | 16 | 2.7% | 2.7% | 🔴 低分 |
🔍維度分析
| 維度 | 平均 | 中位數 | σ | 最低 | 最高 | Q1 | Q3 |
|---|---|---|---|---|---|---|---|
| Markdown 豐富度 | 86.76 | 88.5 | 7.97 | 53.5 | 99.0 | 83.5 | 91.5 |
| 工具完整度 | 86.12 | 88.5 | 10.1 | 22.5 | 99.5 | 81.5 | 93.5 |
| README 可重現性 | 87.75 | 91.5 | 11.23 | 22.5 | 99.5 | 86.0 | 94.0 |
| 創意度 | 83.32 | 85.0 | 7.75 | 40.0 | 97.0 | 79.0 | 88.5 |
- README 可重現性平均最高(87.75),但標準差也最大(11.23),顯示學生表現兩極化。
- 創意度是四維度中平均分最低(83.32),且最低分僅 40 分,是最需加強的維度。
- Markdown 豐富度標準差最小(7.97),學生表現最為一致。
- 工具完整度最低分僅 22.5,顯示少數學生工具鏈設置存在嚴重問題。
🤖雙模型比較分析
| 維度 | Claude 平均 | Claude σ | Gemini 平均 | Gemini σ | 差異(C-G) | 差異幅度 |
|---|---|---|---|---|---|---|
| Markdown 豐富度 | 73.22 | 10.0 | 89.96 | 7.99 | -16.74 | 🔴 最大差異 |
| 工具完整度 | 72.71 | 15.21 | 85.83 | 9.88 | -13.12 | 🟠 大差異 |
| README 可重現性 | 73.24 | 18.01 | 87.28 | 12.57 | -14.04 | 🟠 大差異 |
| 創意度 | 72.82 | 9.73 | 84.25 | 7.59 | -11.43 | 🟡 中差異 |
- Markdown 豐富度差異最大(-16.74),Claude 對 Markdown 語法豐富程度的評判標準明顯嚴格於 Gemini。
- README 可重現性的 Claude 標準差高達 18.01,顯示 Claude 在此維度評分最不穩定。
- 創意度差異相對最小(-11.43),兩模型在主觀評估上分歧較少。
- 所有維度 Claude 均系統性低於 Gemini,顯示 Claude 整體評分標準更為嚴格。
⭐特色專案分析
- exemplary_readme 與 personal_voice 並列最常見標籤(各約 74%),顯示優秀作業普遍具備清晰文件與個人風格。
- technical_depth(65%)與 advanced_toolchain(59%)也相當普遍,反映學生技術能力整體良好。
- interactive_output(17%)與 exceptional_design(4%)較為稀少,是進階挑戰的方向。
✅ 特色專案共同特徵
- README 文件結構完整,包含安裝步驟、使用說明與範例輸出
- 具備鮮明的個人寫作風格與主題選擇
- Markdown 語法使用多樣,包含表格、程式碼區塊、圖片等
- 工具鏈設置完整,能正確生成輸出檔案
- 展現對 Markdown 渲染工具的深入理解
💡 進階特色(稀有標籤)
- interactive_output(52 份):整合互動式元素,如動態圖表或可執行程式碼
- exceptional_design(12 份):視覺設計出色,排版美觀,超越基本要求
- 這兩類標籤代表作業中的頂尖水準,值得作為範例分享
⚠️常見問題與建議
-
output_file_valid(100 人)
輸出檔案無效或格式錯誤,是最主要的失敗原因。可能原因:工具未正確執行、輸出路徑錯誤、檔案損毀。 -
content_md(99 人)
Markdown 內容不符合要求,可能缺少必要的語法元素或內容過於簡短。 -
output_dir(96 人)
輸出目錄結構不正確,未按照作業規範建立目錄。 -
readme_md(2 人)
README 檔案缺失,僅 2 人有此問題,屬於少數情況。
❌ 技術層面問題
- 工具鏈設置不完整,缺少必要的轉換工具(如 Pandoc、mkdocs 等)
- 輸出目錄結構不符合規範,檔案路徑錯誤
- Markdown 語法使用單一,缺乏表格、程式碼區塊、圖片等豐富元素
- README 缺乏可重現的操作步驟,他人無法依照說明重現結果
⚠️ 內容層面問題
- 創意度不足,主題選擇過於普通或缺乏個人特色
- README 說明過於簡略,缺少環境需求、安裝步驟等關鍵資訊
- Markdown 內容深度不足,未展現對工具的深入理解
- 缺乏個人寫作風格,內容模板化
📝 Markdown 豐富度
- 使用至少 5 種以上 Markdown 語法元素
- 加入表格、程式碼區塊(含語法高亮)
- 適當使用圖片、連結、引用區塊
- 善用標題層級建立文件結構
⚙️ 工具完整度
- 確認工具鏈能完整執行並生成輸出
- 測試輸出目錄結構是否符合規範
- 記錄所有使用的工具版本
- 提供 Makefile 或腳本自動化流程
📖 README 可重現性
- 列出完整的環境需求(OS、工具版本)
- 提供逐步安裝與執行指令
- 加入預期輸出的截圖或範例
- 說明常見錯誤的排除方法
💡 創意度
- 選擇具個人特色的主題,避免過於通用
- 加入個人觀點與反思
- 嘗試互動式輸出(如 Jupyter、Reveal.js)
- 在視覺設計上投入更多心思
💡教學回饋建議
-
整體表現良好
85% 通過率、平均分 79 分,顯示大多數學生能掌握作業基本要求。 -
特色專案比例高
52.5% 的通過學生獲得特色標記,顯示課程激發了學生的創作動力。 -
工具鏈是主要障礙
104 名未通過學生中,96% 以上有輸出目錄或檔案問題,工具設置是最大挑戰。 -
創意度有提升空間
創意度是四維度中平均分最低的,且 exceptional_design 標籤僅 12 份,視覺設計能力待加強。
-
模型評分差異顯著
34.6% 的作業需人工複審,Claude 系統性低於 Gemini 約 8.72 分,建議檢視評分 Prompt 設計。 -
Markdown 豐富度差異最大
兩模型在此維度差異達 16.74 分,評分標準需進一步統一。 -
正規化效果良好
最終分數平均 79.0、標準差 5.95,與目標(79, 6)高度吻合。
工具鏈教學強化
建議在課程初期增加工具鏈設置的實作練習課,提供標準化的環境設置腳本,並建立常見錯誤的 FAQ 文件。可考慮提供 Docker 容器或 GitHub Codespaces 環境,降低環境設置門檻。
創意度培養
分享歷屆優秀作業範例(匿名),特別是獲得 exceptional_design 與 interactive_output 標籤的作品。舉辦作業展示會,讓學生互相學習。提供創意主題靈感清單,鼓勵跨領域應用。
README 撰寫指導
提供 README 撰寫模板與評分標準說明,強調可重現性的重要性。可安排同儕互評環節,讓學生嘗試依照他人 README 重現結果,從中體會文件品質的重要性。
AI 評分系統優化
建議統一 Claude 與 Gemini 的評分 Prompt,特別針對 Markdown 豐富度維度。可考慮增加評分標準的具體範例,減少模型間的主觀差異。人工複審比例(34.6%)偏高,可調整差異門檻或改善 Prompt。
早期預警機制
對於工具鏈設置,建議在截止日前一週提供自動化檢查工具,讓學生能提前發現問題。可設置中期檢查點,對尚未完成基本設置的學生提供額外輔導。
分層教學策略
針對不同程度學生設計分層學習路徑:基礎組專注工具鏈設置與基本 Markdown;進階組挑戰互動式輸出與視覺設計。特色專案可作為加分項目,激勵學生超越基本要求。
| 優先級 | 改善項目 | 影響範圍 | 預期效益 | 難度 |
|---|---|---|---|---|
| 🔴 P1 | 工具鏈設置輔助文件與環境腳本 | 104 名未通過學生 | 降低門檻失敗率至 <5% | 低 |
| 🔴 P1 | 統一 AI 評分 Prompt(Markdown 豐富度) | 204 名複審學生 | 降低人工複審比例 | 中 |
| 🟠 P2 | README 撰寫模板與範例 | 全體學生 | 提升可重現性分數 | 低 |
| 🟠 P2 | 創意度評分標準說明與範例 | 全體學生 | 提升創意度平均分 | 中 |
| 🟡 P3 | 優秀作業匿名展示與分享 | 全體學生 | 激勵學習動機 | 低 |
| 🟡 P3 | 互動式輸出教學資源 | 進階學生 | 增加 interactive_output 標籤數 | 高 |
🔎 抽檢觀察筆記(Sampling Review Notes)
以下為教學團隊透過 Claude Sonnet 4.6 對 50 份隨機抽樣作品進行人工抽檢後,彙整的評分系統觀察與改進建議。 本節旨在讓師生共同理解全體分布特性,所有個人識別資訊已移除。
排序合理性
50 份樣本的整體排序大致合理,但存在兩個系統性問題:
- 部分作品的三個技術維度高分過度補償了創意度差距,導致加權總分高於創意度更突出的作品。例如某作品加權總分 94.8,但創意度僅 90.0,排名卻高於創意度 93.5 / 91.0 的同級作品。
- 自行開發 CLI 工具的工程創新型作品,因 Markdown Richness 維度略低(如 91.5)而被壓制至 93 分段,其工程深度未獲充分反映。
分數級距過密
90–96 分段(A tier)的分布過於密集,約 15 份作品擠在 6 分範圍內,導致頂尖作品與中上作品的差距不夠顯著。
改進建議:未來考慮加大創意度權重,或對「工具鏈自主開發」設立額外加分機制,以拉開級距。
創意度一致性
整體一致性良好——高創意度分數(91–93.5)對應更原創的主題選擇(如火影世界觀、RPG 履歷、公鯊小企劃、mark2slide 工具開發),低創意度分數(71–77.5)對應套模板或內容空洞的作品。
唯一例外:某作品創意度 91.5 但加權總分僅 88.8,主要因 Tool Completeness(86.0)偏低而被拉低——此懲罰被判定為合理。
特色標記一致性
creative_topic 標記被過度使用於「個人履歷」主題——而個人履歷是樣本中最常見的主題類型(估計佔 40%+),不應被視為「創意主題」。
改進建議:將 creative_topic 保留給真正稀缺的主題選擇(如火影世界觀、RPG 履歷、公鯊小企劃、手搖飲技術規格書、寵物照顧指南等),以提升標記的鑑別力。
底部分段合理性
底部三份作品(49.8 / 59.5 / 65.1 分)的低分有充分依據——工具鏈嚴重不完整、內容空洞。排序合理,無需調整。
exemplary_readme 標記通膨
exemplary_readme 標記在高分段(90+)幾乎普遍存在,失去鑑別力。
改進建議:未來設立更嚴格的標準,區分「README 完整」與「README 真正示範性」,避免標記通膨。
📌 總結
此次 AI 輔助評分系統的整體表現良好,排序與人工判斷大致吻合。主要改進方向集中在:級距拉開(加大創意度權重或設立額外加分)、標記校準(收緊 creative_topic 與 exemplary_readme 的認定標準),以及工程創新加分(對自主開發工具鏈的作品給予額外肯定)。這些觀察將作為 HW2 評分系統的改進依據。
⚖️ 校準與正規化流程(Calibration & Normalization)
本次作業評分經過四階段流水線處理。Stage 1–2 為逐份獨立評分,Stage 3–4 為跨學生校準與正規化。 以下說明 Stage 3(Anchor Calibration)與 Stage 4(Normalization)的完整方法論,供師生理解最終分數的產生過程。
Stage 3:Anchor Calibration(錨點校準)
⚠️ 為什麼需要校準?
Stage 2 的評分是「逐份獨立」的——每位學生的作業獨立送出 AI 模型,模型無法跨學生比較。這會導致三個問題:
量表漂移 Scale Drift
同一份作業在第 1 份評分時可能拿 80 分,到第 500 份時因模型的隱性量表偏移而拿 75 分
個案失準
某些作業可能因措辭風格或主題冷門而被系統性低估或高估
創意度主觀性
creativity 維度最容易在不同 prompt 間出現不一致判斷
📋 錨點抽樣策略
從全部評分中抽取約 50 份代表性樣本,讓 AI 做跨學生比較校準:
| 層級 | 抽取數 | 來源 |
|---|---|---|
| Top 10% | 8 | 加權總分最高的前 10% |
| P75(70–80%) | 8 | 第 70–80 百分位 |
| Median(45–55%) | 10 | 第 45–55 百分位 |
| P25(20–30%) | 8 | 第 20–30 百分位 |
| Bottom 10% | 8 | 加權總分最低的 10% |
| Distinguished | 8 | 被標記特色的專案 |
🔄 校準流程
抽取 ~50 份錨點
載入 content.md + README.md + 原始分數
組合為單一大型 prompt(1M context)
AI 回傳調整建議 + 等級邊界 + 標記覆審
錨點直接套用調整值
非錨點依 tier 平均調整值套用
🏗️ 兩層傳播機制
校準調整分為「直接調整」與「等級傳播」兩層,確保所有學生都受益於校準結果:
錨點(直接調整)
AI 針對每位錨點建議 suggested_adjustment(如 +3 或 -5),直接加到原始分數
非錨點(等級傳播)
AI 定義 A/B/C/D 四個 tier 的邊界,程式計算每個 tier 中錨點的平均調整值,然後套用到該 tier 所有非錨點學生
💡 設計原理 FAQ
為什麼用 50 份錨點而非全部?
591 份 ×(content.md + README.md)遠超 Claude 的 context window。50 份 stratified sample 覆蓋所有分數帶,足以偵測系統性偏差。錨點包含 6 個分層(Top / P75 / Median / P25 / Bottom / Distinguished),確保 AI 能看見完整的分數光譜。
為什麼同時送原始分數和原文?
AI 可以交叉驗證:「這份拿 90 分的作業,真的比那份拿 85 分的好嗎?」同時可偵測 Stage 2 的漏判(如某學生使用了 Mermaid 圖但沒被計分),並審核 creativity 評分理由是否合理一致。
特色標記覆審(Distinction Override)是什麼?
AI 可建議新增(add)Stage 2 漏標的優秀作品,或移除(remove)Stage 2 誤標的一般作品。確保最終的特色專案清單經過跨學生比較驗證。
Stage 4:Normalization(分數正規化)
將校準後的分數正規化到目標分佈,確保最終成績符合教學期望的分數範圍與分佈形態。
📐 正規化步驟
取出所有通過門檻學生的 calibrated_weighted_total
Rank-based Normal Transformation
映射到目標分佈
Clip 到 [score_min, score_max](預設 60–95)
四捨五入為整數 → 最終成績
🧠 為什麼使用 Rank-based Normal Transformation?
此方法先將原始分數轉為排名,再映射到標準常態分佈,最後拉伸到目標平均與標準差。優點是:(1) 不受原始分數分佈形狀影響(即使 AI 評分偏態集中也能拉開);(2) 保留排序——原始排名不會因轉換而改變;(3) 最終分數近似常態分佈,符合教學成績的慣例期望。
📌 完整流水線總結