最懂台灣的AI是「它」?最新評測出爐、台灣價值觀獲滿分
發布日期:115/05/04
〔記者邱巧貞/台北報導〕隨著生成式AI席捲全球,如何確保AI能夠精準理解在地文化與法規,已成為科技發展的核心課題。數位發展部「AI 產品與系統評測中心」(AIEC)於 5 月 1 日公布最新一波國內外開源語言模型評測結果,透過「臺灣價值觀」、「高中學測國文」與「高中學測社會」三項與臺灣高度相關的指標,全面檢視當前AI模型在繁體中文理解、在地社會文化脈絡,以及本土知識掌握上的實際表現。
此次評測中,亞太智能機器(APMIC)成為首家主動同意公開測試數據的國內業者,象徵臺灣AI產業正從過去強調功能與效能,逐步邁向更重視透明性、可信任與可驗證的發展階段。
根據官網同步釋出的最新測試資料顯示,APMIC的ACE-1模型在「台灣價值觀」指標上獲得了100%的滿分成績,且在學測國文(83.78%)與社會科目(71.57%)表現上,也展現出足以與國際大模型比肩的優勢。
此外,根據AIEC官網資料(https://www.aiec.org.tw/web/guest),在小模型(13B 以下)方面,序號46、由國科會主導開發的TAIDE (Gemma-3-TAIDE-12 b) 表現優異,台灣價值觀高達84%,且學測成績國文(54.49%)、社會(58.78%)在同體量模型中表現亮眼。
GOOGLE的Gemma-4、OpenAI的GPT-5-nano也都是小模型中的學霸,國文與社會均有突破60-70%的表現。
而中國旗下如阿里巴巴的Qwen、 智譜AI的GLM等,在學科測驗上分數亮眼(部分突破70%),但台灣價值觀多數落在40-60%之間,反映出語料庫來源的差異。
在大模型 (13B 以上)部分,Gemini 3-Pro與OpenAI GPT-5學科測驗幾乎有突破80-90%的表現,台灣價值觀也穩定在80-90% 之間。
其中,序號44的ACE-1-24B-2604 (亞太智能機器人APMIC) 在「台灣價值觀」拿到了100%,其學測國文分數 (83.78%) 甚至超越了許多規模大其數倍的模型。
此外,中國開發的DeepSeek與Qwen等在學科表現上亮眼,甚至有出現80-90%的水準,但台灣價值觀指標平均來說則低於美系或台系模型。有趣的是,xAI (Grok-3)展現了極高的台灣價值觀 (92%),但社會學科的分數相對較低。
數產署指出,近年來,包括Anthropic、Google Gemini與OpenAI旗下的ChatGPT等國際主流大型語言模型展現出強大能力,從寫作、翻譯到知識問答皆令人驚豔。然而,一旦問題涉及臺灣制度、教育內容、法律規範或社會文化情境時,模型仍可能出現「答得很好,但不一定適合臺灣」的情況。
數產署表示,AIEC推動在地化評測的目的,就是讓社會各界更清楚掌握AI模型在臺灣情境中的真實表現,透過評測結果,開發者能精準找出模型需補強之處,企業與使用者也能在選擇AI產品時擁有更具體的依據。
AIEC自114年10月起持續發布語言模型基準評測成果,至今已完成131個模型測試。數據顯示,語言能力並不等同於在地理解能力,「會說中文」並不代表「真正懂臺灣」,臺灣所需要的,不只是更聰明的AI,更是能理解在地需求、回應在地情境的AI系統。
數產署進一步表示,亞太智能機器率先公開評測成果,意味著國內業者已逐漸將第三方評測納入產品發展的重要環節。此舉不僅提升使用者對模型能力的理解,也有助企業在商務合作、政府採購及國際市場中建立更高的信任度。官方亦鼓勵更多模型開發商、系統整合商與AI服務業者參與送測並公開結果,形成正向循環,讓優秀模型不只是被宣稱,而是經過驗證,將進一步強化競爭力與國際信賴度。
資料來源:自由時報