產品開發

大語言模型對軟體開發的影響

gipi

30 Aug 2025 — 8 min read

近期閱讀了一份文件，內容是關於大語言模型對軟體開發工作的影響，文件的連結在這：Assessing and Advancing Benchmarks for Evaluating Large Language Models in Software Engineering Tasks

這份文件聚焦於大型語言模型(LLMs)應用於軟體工程(SE)領域的效能評估。這是個有趣的題目，所謂的效能，簡單的說就是能直接在該工作任務中大幅增進效能的比例。

大家都知道現在的 AI 寫 code 已經不是什麼大不了的事，但透過 vibe coding 寫出來的 code 真的可以用嗎？符合需求嗎？品質可以嗎？能被維護嗎？

關於這些問題，我們要如何衡量 AI 的有效性呢？目前的答案是透過 Benchmark(基準)。

舉例來說，之前有的 benchmark 叫 SWE-bench，它使用了真實 GitHub issue 與 PR，測試模型是否能修正程式庫內的 bug。根據能修正多少來為模型評分。

或者是 HumanEval，是由 164 個 Python 程式任務組成，每個任務都附帶測試案例。評估方式以 Pass@k(程式通過測試案例的比例)來衡量模型的解題能力。

簡單說，基準是為了幫助我們判斷這個 LLM 在特定任務上的解題能力或成熟度。而過去大家熟知的研究大多針對程式碼生成或測試，但這份研究報告則覆蓋了需求、程式碼生成、測試、維護與品質管理等面向。

報告中回顧過去幾年發布的 291 個相關基準，算是具有一定程度的代表性。

下圖，是這份研究的架構概覽：

Requirements & Design (需求與設計)需求蒐集 (4)、分析 (10)、規格與驗證 (9)、管理 (2)合計 25 個基準。
Coding Assistant (程式輔助)代碼生成與推薦 (102)、總結 (11)、翻譯 (13)、推理 (3)合計 124 個基準(這個數字加總似乎有錯)，數量最多。
Software Testing (軟體測試)測試案例生成 (14)、斷言生成 (1)、GUI 測試 (2)、測試自動化 (4)、測試預測 (2)、測試修復 (2)合計 25 個基準。
AIOps (智慧化維運)日誌生成 (4)、日誌解析 (2)僅 6 個基準。
Maintenance (維護)程式碼審查 (7)、Clone 偵測 (5)、重構 (1)合計 13 個基準。
Quality Management (品質管理)缺陷預測 (5)、錯誤定位 (20)、錯誤修復 (12)、漏洞偵測 (62)、漏洞修復 (18)合計 111 個基準，僅次於程式輔助。

基準的數量，某種程度可以說是該工作任務由 AI 完成的成熟度。所以從上方的數字看來，程式碼撰寫、測試、修 bug是目前 AI 能做得最好的項目。而需求、維護跟維運則做得相對較差。

簡單的說，脫離了程式碼，來到商業需求層面的議題，AI 能參考的數據源較少，較難給出符合需要成品。程式碼可以相對容易在網路上取得，Github、Stackoverflow 上都有許多的程式碼。

但 BRD、PRD、MRD、架構圖、佈署圖等需求文件跟架構文件，通常屬於商業機密，不太可能在網路上直接公開。這部分便是所謂的 domain know-how 跟 business know-how，我相信即便 AI 持續發展，要能完全替代人類去做這方面的任務，還是有很長的一段路要走。

而這也是未來軟體工程師跟 PM 相關職務能直接區別於 AI 的重要路線。

需求收集基準

進一步看看需求收集的基準，發現這些基準的代表性相對薄弱。例如 NFR-Review，主要收集了 iBooks (iOS) 與 WhatsApp (Android) 的使用者評論，隨機挑選 4,000 筆，最後整理出 1,278 筆需求作為基準。

而且重點著重於非功能性需求(Non-Functional Requirements, NFR)，如可靠性、可用性、效能、安全性。非功能性需求通常是相對泛用的，跟 domain know-how 的綁定程度相對較低。或許具有一定程度的可參考性。

或者 Habib et al.，它是從 10 個線上需求資料集中篩選出 242 條高品質需求。所謂的高品質指的是泛用的需求，應該也會涵蓋許多非功能性需求，不過我沒找到這 242 條需求的清單，所以不太肯定它的範圍到底涵蓋到哪。

不過它有特別提到所有的需求都要符合 ISO 29148 標準，這是一套軟體工程標準，主要目的是確保需求可理解、可追溯、可驗證，並減少軟體與系統專案中的歧義與錯誤。

以下請 AI 幫忙整理 ISO 29148 標準。

這套標準主要規範「什麼是好需求」以及「如何撰寫需求文件」，核心分成三大區塊：

1. 需求的特性（Characteristics of good requirements）

一個需求應該是：

正確 (Correct)：符合系統/用戶需求。
無歧義 (Unambiguous)：單一解讀，不容誤會。
完整 (Complete)：涵蓋必要條件。
一致 (Consistent)：不與其他需求衝突。
可驗證 (Verifiable)：能透過測試、檢查或分析來確認。
可行 (Feasible)：能在技術、時間、成本內實現。
必要 (Necessary)：每個需求都應支援業務目標。
有追溯性 (Traceable)：能追溯到來源（如用戶需求或設計決策）。

2. 需求種類

功能性需求 (Functional Requirements, FRs)
描述系統必須做什麼，例如「系統應允許使用者登入並查詢餘額」。
非功能性需求 (Non-Functional Requirements, NFRs)
描述系統品質或限制，例如「系統應在 2 秒內回應查詢」、「系統必須符合 GDPR」。

3. 需求規格文件（SRS, Software Requirements Specification）

ISO 29148 提供 需求文件的範本結構，包含：

簡介與背景
系統總覽與目標
功能需求
非功能需求（效能、安全性、可靠性、可維護性等）
限制與假設
驗證與驗收準則

而為了確保每一個需求都能符合這樣的標準，Habib et al. 的作者還撰寫了另外一份研究報告 ReqBrain: Task-Specific Instruction Tuning of LLMs for AI-Assisted Requirements Generation。

在這研究中，它採用了 AI 負責撰寫符合 ISO 29148 標準的文件，並由人類進行分析與驗證的方式來進行。

而 AI 生成的文件是否符合 ISO 29148 的標準，則由三個關鍵任務來判讀：如何

How-to? INST教模型如何用 ISO 29148 語法撰寫完整需求。例如：指令：寫一條符合 ISO 29148 的需求，功能是讓員工能列印會員卡。完成：系統應允許員工透過 POS 系統列印姓名與會員編號（含條碼）。
RE-types INST教模型辨識與生成不同類型需求（功能性 vs 非功能性，如可用性、安全性）。例如：指令：給我一條關於「可用性」的需求。完成：顧客應能在 3 分鐘內完成電影購買與播放。
Missing INST模擬「需求清單不完整」的情境，讓模型補充缺失需求。例如：指令：已有部分需求（瀏覽功能、儲存功能），請補齊其他需求。完成：補充「顯示功能」、「儲存追蹤功能」等缺失項目。

從這份報告的架構，我大致上能理解大語言模型在需求收集這個任務上的基準的表現。現階段大致只能處理通用性需求，但無法深入處理具備特殊商業判斷的需求。

具備商業思維(business know-how)與領域知識(domain know-how)，且能從架構設計上思考的軟體工程師或 PM。即便面對 AI 的浪潮，可被取代性還是相對低的。

如果你覺得我內容寫得還不錯，歡迎訂閱我的電子報，我每雙週會發送一封電子報到你的信箱。訂閱連結在這，過往的電子報也在這：Gipi電子報

也鼓勵你可以將我的電子報分享給你認為有需要的朋友們，也許你的舉手之勞，將會改變另一個人的思維與習慣。

低邊界組織

還記得許多年前曾讀過一本書叫《無邊界組織》，這本書是由奇異公司前執行長傑克·威爾許（Jack Welch）提出，旨在打破企業內部的垂直與水平隔閡，以及公司與外部供應商、顧客間的藩籬，以促進靈活性、創新和知識流動。當年讀這本書時覺得這概念很好，但我也知道奇異本質上仍是一個高度強勢、績效導向、中心權力清楚的大型企業。無邊界並不等於弱化管理，反而是在強烈目標與績效要求下，移除妨礙執行的障礙。所以我認為他當時提出這個概念時，更多的應該是對內的一種政令宣達 - 你們要好好合作，你們不要樹立穀倉。思考的起源最近因 AI 引入組織內，讓我對企業的組織分工與架構設計有了許多思考。近幾個月陸續有幾個人問我：「你覺得 AI 時代的組織架構會如何演進？會變得更扁平嗎？」對於組織架構，我一直有個核心概念：「組織架構應該服務於目標。」(關於組織架構設計，可以參考：公司部門組織架構有哪些？四種常見的組織架構與優缺點) 組織架構，不是最重要的問題，優先思考的永遠是目標。除了組織架構外，近幾年最常被談論的問題就是「工程師要被 AI 取代了」、「AI

2026 年的第二次深度復盤

距離上一次的復盤也過去將近兩個月了，過去兩個月我一樣做了許多事，但我的工作重點確實與之前不大相同。二月份起，我花了大量的時間透過 AI 做了許多東西，發現 AI 的無窮可能，也讓我重拾對工作的深度熱情。而六月份則是在熱情稍稍消退，回歸客觀思考的一個過渡期。四月份，我正式接任方圓策略長一職，把自己的角色放在思考三五年以上的策略。雖然還在適應中，但我還是有蠻多收穫的。很多艱難的決策是真的需要勇氣，可當經營階層願意支持時，策略就走得很踏實。五六月份，我投入在方圓的時間超過三百小時，這讓我反思真要做到影響一家公司的整體策略，我得花上多少時間才夠。這個問題讓我對自己往後的工作方式有了新的啟發。六月份，我跟一家合作很久的企業主提案，取消預計要上的年度課程，而是回到原先授課預計要解決的問題思考。我建議我們直接把課程改成系統顧問案，因為他們遭遇的問題其實完全可以透過系統來解決。這幾個月是真的比過去一年都忙碌，但也很充實。 AI 改變了許多事，但也很多沒改變的 AI 改變了我做事的方式，因為他讓效率提升了，也讓很多問題的解決方案變多了；AI 也改變了我思考的方式，因為「做」變得

企業導入 AI，我的六個關鍵思考

在企業內推動 AI 也有半年左右的時光了，我覺得有幾個企業推動 AI 的經驗可以跟大家分享。幫高階主管換上 AI 腦我在五月初寫過一篇文章《AI 在商業決策層面給我帶來的三層改變》。很多老闆都在談 AI 的重要性，可他們多數的 AI 知識都是「聽來的」，而非親身經歷。一個對 AI 沒有足夠了解的主管，是很難體會 AI 真正的強大，以及 AI 可能具有的限制。當高階主管處於這種狀態，公司的各種決策很難進入 AI 時代。他們的習慣用語會是：「這不是用 AI 做一下就好了。」「我朋友跟我說，這個 AI 就能搞定了。」「我昨天在網路上看到人家說，這東西 AI 五分鐘做出來。」「我看新聞，某某公司導入 AI 後砍了幾百人。」高階對新科技的一知半解，

[徵才]方圓國際誠徵兩個新職務

今年四月份，我加入了方圓國際擔任策略長，方圓是一家茶飲連鎖公司，旗下有兩個主要品牌「吃茶三千」與「喫茶小舖」。吃茶三千在海外 30 多的城市有約 130 家門市，喫茶小舖在台灣則約有 60 家門市。我從去年底開始擔任方圓的顧問，主要協助梳理公司的管理制度、流程與阻礙成長的問題。四月份我轉任策略長，過去這一個多月，我除了 AI 的引入與建置外，我也花了大量的時間重新構思公司的整體策略。我們進行了「未來十年不變的事」的策略探討，最終設定了十年戰略方向，三年目標，以及 2026 年的關鍵任務。透過這樣深度的策略思考，我們也藉這個機會盤點了公司目前的人才缺口。以下有兩個很關鍵的角色是我迫切在找尋的。如果你覺得自己或身邊的人很適合加入方圓，請自薦或推薦給我，謝謝。歡迎將履歷投遞到：gipi@teashop168.com.tw 門市體驗經理(Store Experience Manager) 門市是接觸終端消費者的最後一哩路，也是品牌傳遞價值的關鍵接觸點。我們在全球因應不同的市場有不同的店型設計，