大語言模型對軟體開發的影響

大語言模型對軟體開發的影響

近期閱讀了一份文件,內容是關於大語言模型對軟體開發工作的影響,文件的連結在這:Assessing and Advancing Benchmarks for Evaluating Large Language Models in Software Engineering Tasks

這份文件聚焦於大型語言模型(LLMs)應用於軟體工程(SE)領域的效能評估。這是個有趣的題目,所謂的效能,簡單的說就是能直接在該工作任務中大幅增進效能的比例。

大家都知道現在的 AI 寫 code 已經不是什麼大不了的事,但透過 vibe coding 寫出來的 code 真的可以用嗎?符合需求嗎?品質可以嗎?能被維護嗎?

關於這些問題,我們要如何衡量 AI 的有效性呢?目前的答案是透過 Benchmark(基準)。

舉例來說,之前有的 benchmark 叫 SWE-bench,它使用了真實 GitHub issue 與 PR,測試模型是否能修正程式庫內的 bug。根據能修正多少來為模型評分。

或者是 HumanEval,是由 164 個 Python 程式任務組成,每個任務都附帶測試案例。評估方式以 Pass@k(程式通過測試案例的比例)來衡量模型的解題能力。

簡單說,基準是為了幫助我們判斷這個 LLM 在特定任務上的解題能力或成熟度。而過去大家熟知的研究大多針對程式碼生成或測試,但這份研究報告則覆蓋了需求、程式碼生成、測試、維護與品質管理等面向。

報告中回顧過去幾年發布的 291 個相關基準,算是具有一定程度的代表性。

下圖,是這份研究的架構概覽:

  • Requirements & Design (需求與設計)需求蒐集 (4)分析 (10)規格與驗證 (9)管理 (2)合計 25 個基準。
  • Coding Assistant (程式輔助)代碼生成與推薦 (102)總結 (11)翻譯 (13)推理 (3)合計 124 個基準(這個數字加總似乎有錯),數量最多。
  • Software Testing (軟體測試)測試案例生成 (14)斷言生成 (1)GUI 測試 (2)測試自動化 (4)測試預測 (2)測試修復 (2)合計 25 個基準。
  • AIOps (智慧化維運)日誌生成 (4)日誌解析 (2)僅 6 個基準。
  • Maintenance (維護)程式碼審查 (7)Clone 偵測 (5)重構 (1)合計 13 個基準。
  • Quality Management (品質管理)缺陷預測 (5)錯誤定位 (20)錯誤修復 (12)漏洞偵測 (62)漏洞修復 (18)合計 111 個基準,僅次於程式輔助。

基準的數量,某種程度可以說是該工作任務由 AI 完成的成熟度。所以從上方的數字看來,程式碼撰寫、測試、修 bug是目前 AI 能做得最好的項目。而需求、維護跟維運則做得相對較差。

簡單的說,脫離了程式碼,來到商業需求層面的議題,AI 能參考的數據源較少,較難給出符合需要成品。程式碼可以相對容易在網路上取得,Github、Stackoverflow 上都有許多的程式碼。

但 BRD、PRD、MRD、架構圖、佈署圖等需求文件跟架構文件,通常屬於商業機密,不太可能在網路上直接公開。這部分便是所謂的 domain know-how 跟 business know-how,我相信即便 AI 持續發展,要能完全替代人類去做這方面的任務,還是有很長的一段路要走。

而這也是未來軟體工程師跟 PM 相關職務能直接區別於 AI 的重要路線


需求收集基準

進一步看看需求收集的基準,發現這些基準的代表性相對薄弱。例如 NFR-Review,主要收集了 iBooks (iOS) 與 WhatsApp (Android) 的使用者評論,隨機挑選 4,000 筆,最後整理出 1,278 筆需求作為基準。

而且重點著重於非功能性需求(Non-Functional Requirements, NFR),如可靠性、可用性、效能、安全性。非功能性需求通常是相對泛用的,跟 domain know-how 的綁定程度相對較低。或許具有一定程度的可參考性。

或者 Habib et al.,它是從 10 個線上需求資料集中篩選出 242 條高品質需求。所謂的高品質指的是泛用的需求,應該也會涵蓋許多非功能性需求,不過我沒找到這 242 條需求的清單,所以不太肯定它的範圍到底涵蓋到哪。

不過它有特別提到所有的需求都要符合 ISO 29148 標準,這是一套軟體工程標準,主要目的是確保需求可理解、可追溯、可驗證,並減少軟體與系統專案中的歧義與錯誤。

以下請 AI 幫忙整理 ISO 29148 標準。

這套標準主要規範「什麼是好需求」以及「如何撰寫需求文件」,核心分成三大區塊:

1. 需求的特性(Characteristics of good requirements)

一個需求應該是:

  • 正確 (Correct):符合系統/用戶需求。
  • 無歧義 (Unambiguous):單一解讀,不容誤會。
  • 完整 (Complete):涵蓋必要條件。
  • 一致 (Consistent):不與其他需求衝突。
  • 可驗證 (Verifiable):能透過測試、檢查或分析來確認。
  • 可行 (Feasible):能在技術、時間、成本內實現。
  • 必要 (Necessary):每個需求都應支援業務目標。
  • 有追溯性 (Traceable):能追溯到來源(如用戶需求或設計決策)。

2. 需求種類

  • 功能性需求 (Functional Requirements, FRs)
    描述系統必須做什麼,例如「系統應允許使用者登入並查詢餘額」。
  • 非功能性需求 (Non-Functional Requirements, NFRs)
    描述系統品質或限制,例如「系統應在 2 秒內回應查詢」、「系統必須符合 GDPR」。

3. 需求規格文件(SRS, Software Requirements Specification)

ISO 29148 提供 需求文件的範本結構,包含:

  1. 簡介與背景
  2. 系統總覽與目標
  3. 功能需求
  4. 非功能需求(效能、安全性、可靠性、可維護性等)
  5. 限制與假設
  6. 驗證與驗收準則

而為了確保每一個需求都能符合這樣的標準,Habib et al. 的作者還撰寫了另外一份研究報告 ReqBrain: Task-Specific Instruction Tuning of LLMs for AI-Assisted Requirements Generation

在這研究中,它採用了 AI 負責撰寫符合 ISO 29148 標準的文件,並由人類進行分析與驗證的方式來進行。

而 AI 生成的文件是否符合 ISO 29148 的標準,則由三個關鍵任務來判讀:如何

  • How-to? INST教模型如何用 ISO 29148 語法撰寫完整需求。例如:指令:寫一條符合 ISO 29148 的需求,功能是讓員工能列印會員卡。完成:系統應允許員工透過 POS 系統列印姓名與會員編號(含條碼)。
  • RE-types INST教模型辨識與生成不同類型需求(功能性 vs 非功能性,如可用性、安全性)。例如:指令:給我一條關於「可用性」的需求。完成:顧客應能在 3 分鐘內完成電影購買與播放。
  • Missing INST模擬「需求清單不完整」的情境,讓模型補充缺失需求。例如:指令:已有部分需求(瀏覽功能、儲存功能),請補齊其他需求。完成:補充「顯示功能」、「儲存追蹤功能」等缺失項目。

從這份報告的架構,我大致上能理解大語言模型在需求收集這個任務上的基準的表現。現階段大致只能處理通用性需求,但無法深入處理具備特殊商業判斷的需求


具備商業思維(business know-how)與領域知識(domain know-how),且能從架構設計上思考的軟體工程師或 PM。即便面對 AI 的浪潮,可被取代性還是相對低的。

如果你覺得我內容寫得還不錯,歡迎訂閱我的電子報,我每雙週會發送一封電子報到你的信箱。訂閱連結在這,過往的電子報也在這:Gipi電子報

也鼓勵你可以將我的電子報分享給你認為有需要的朋友們,也許你的舉手之勞,將會改變另一個人的思維與習慣。

Read more

2026 年第一次深度復盤

2026 年第一次深度復盤

今天提早結束今天的顧問行程,中午回到住宿的飯店泡了個熱水澡,想著到底要休息還是繼續工作。但想了想,或許可以針對最近的一些想法跟經歷做一些復盤與總結。這篇文章內容比較雜一些,但都是我近期比較重要的一些想法。 重新燃起的工作熱忱 我的工作狂性格其實已經沉潛了好多年,我一直以為我對工作已經不像年輕時那麼有熱忱。沒想到工作狂性格只是悄悄地躲了起來,等待有一天再遇到讓人熱血沸騰的時機。 燃起我工作熱情的事主要有兩件,一件是方圓國際的策略長工作,另一件則是與 AI 有關的「Growth OS」計畫。 方圓的工作有一定的機密性我就不多說了,往後能揭露的內容會陸續讓大家知道,但我可以說這應該是我接觸迄今合作上最深入的案子,我覺得很開心。至於「Growth OS」是什麼?我下面會有獨立的段落跟大家說明。 但我可以先跟大家分享為什麼這兩件事會重新燃起我的工作熱忱。 我個人的工作熱忱主要來自幾個地方: * 有挑戰,這件事難不難,能否燃起我的挑戰慾望與好奇心。 * 能自我實現,我總有一些放在內心很想做的事,但可能是時機不到,又或者沒有碰到合適的場合。 * 能按自己價值觀來行事,這件事在我

By gipi
近期 AI 寫 Code 的一些想法

近期 AI 寫 Code 的一些想法

之前用 AI 寫程式,比較 free style,簡單說,就是功能能運作就好,反正就解決單點問題,就算是個商業應用,也大多設計成可以離線使用,架構很簡單。 但最近為了要完成我 Growth OS 的野望,我又回到以前工程師年代,會很在意目錄架構、資料結構、資料流、權限控制,甚至也會思考更多關於擴展性、多租戶、系統邊界設計的問題。 也因為有較深入的思考,對於 AI 參與開發這件事,我有了多一點的體悟。 Rule-baesd 模式 從前的程式開發大多是建立在有明確規格之後,演算法就像數學公式一樣,輸入什麼樣的參數,往往就能得到一個可預期的結果。 簡單的說,就是「確定性」,所以以前的測試根據的是輸入 A/B,是否得到 C 結果。 直到現在,如果我們對一個程式的執行結果,最主要看的是「確定性」,也就是執行一百次都要得到可預期的結果。那最後或許還是只有清楚的

By gipi
自媒體困境,我的思考

自媒體困境,我的思考

昨天在 Facebook 上提到長期經營自媒體的困難,從 2006 年開始寫文章以來,迄今剛好 20 年,以內容產製來說,我應該也算是高產,中間也遭遇了一些挑戰。 不過自媒體一直都是一種放大器,而非我的主要收入源。 早期,我有一份正職工作,所以自媒體只是我用來分享經驗、與人連結、獲得影響力的方式之一。 中期,我成為自由工作者,自媒體是我創造營收的漏斗上層,讓我有穩定的案源,也讓我賣課程、推書、辦活動時可以順順的完成。 現在,自媒體算是我生活中的一種調劑,我沒有設定太明確的流量目標或轉化目標,比較像是隨興而做,暫時沒有特別目的。至於未來會不會改變不好說,但現階段就是這個樣子。 從影響力走到變現,看起來是兩種不同路徑,但對我來說其實我一直都把關鍵放在「影響深度」以及「影響對象」兩件事情上。 所謂的「影響深度」,指的是我能讓多少人採取行動,而且會願意為我所說的事情付出一定的代價,這個代價包含錢、時間、習慣的改變。所以我從文章、影片、營隊課程、

By gipi
年度策略會議的幾點提醒

年度策略會議的幾點提醒

最近幾次的會議,因為大家都在談年度策略、OKR 跟關鍵任務,以下是一些我會特別提醒的地方,也供大家做參考。 如果只有一個目標要追求,那是什麼? 很多時候我們會想著要同時提高營收,提高利潤,有時兩者不容易兼顧,如果非得做個選擇,那你會選哪一個?同樣的選擇也會發生在要流量還是要轉化,要品質還是要速度。多數時候我們都會得到一個兩者都重要的結論,但兼顧,往往就等於要同時完成兩件事。策略的重點之一就是要做出選擇,不願意選擇,不願意捨棄,不願意定義優先順序,那策略其實也等於白做了。 目標必須被進一步釐清,所謂的清晰往往與數字的組成有關 當我們說目標是兩億台幣的營收,可當我細部問:「有沒有限定產品別?」、「有沒有限定銷售區域?」、「除了 B2C,能做 B2B 嗎?」這時往往會聽到許多的回應,包含 「新產品要一定占比」,我會問「占比多少?」 「希望能擴展到海外去」,我會問「哪個區域或國別?」、「占比多少?」 「那好像不是我們過去的商模」,我會問「那可以還不行?」 當這些問題被逐一回答後,所謂的「營收兩億」的定義才算被釐清了。

By gipi