最懂台灣的AI是「它」？最新評測出爐、台灣價值觀獲滿分 (晶創臺灣推動辦公室-新聞消息)

新聞消息

Facebook分享 line分享 twitter分享

:::

最懂台灣的AI是「它」？最新評測出爐、台灣價值觀獲滿分

發布日期：115/05/04

〔記者邱巧貞／台北報導〕隨著生成式AI席捲全球，如何確保AI能夠精準理解在地文化與法規，已成為科技發展的核心課題。數位發展部「AI 產品與系統評測中心」（AIEC）於 5 月 1 日公布最新一波國內外開源語言模型評測結果，透過「臺灣價值觀」、「高中學測國文」與「高中學測社會」三項與臺灣高度相關的指標，全面檢視當前AI模型在繁體中文理解、在地社會文化脈絡，以及本土知識掌握上的實際表現。

此次評測中，亞太智能機器（APMIC）成為首家主動同意公開測試數據的國內業者，象徵臺灣AI產業正從過去強調功能與效能，逐步邁向更重視透明性、可信任與可驗證的發展階段。

根據官網同步釋出的最新測試資料顯示，APMIC的ACE-1模型在「台灣價值觀」指標上獲得了100%的滿分成績，且在學測國文（83.78%）與社會科目（71.57%）表現上，也展現出足以與國際大模型比肩的優勢。

此外，根據AIEC官網資料（https://www.aiec.org.tw/web/guest），在小模型（13B 以下）方面，序號46、由國科會主導開發的TAIDE （Gemma-3-TAIDE-12 b）表現優異，台灣價值觀高達84%，且學測成績國文（54.49%）、社會（58.78%）在同體量模型中表現亮眼。

GOOGLE的Gemma-4、OpenAI的GPT-5-nano也都是小模型中的學霸，國文與社會均有突破60-70%的表現。

而中國旗下如阿里巴巴的Qwen、智譜AI的GLM等，在學科測驗上分數亮眼（部分突破70%），但台灣價值觀多數落在40-60%之間，反映出語料庫來源的差異。

在大模型（13B 以上）部分，Gemini 3-Pro與OpenAI GPT-5學科測驗幾乎有突破80-90%的表現，台灣價值觀也穩定在80-90% 之間。

其中，序號44的ACE-1-24B-2604 （亞太智能機器人APMIC）在「台灣價值觀」拿到了100%，其學測國文分數（83.78%）甚至超越了許多規模大其數倍的模型。

此外，中國開發的DeepSeek與Qwen等在學科表現上亮眼，甚至有出現80-90%的水準，但台灣價值觀指標平均來說則低於美系或台系模型。有趣的是，xAI （Grok-3）展現了極高的台灣價值觀（92%），但社會學科的分數相對較低。

數產署指出，近年來，包括Anthropic、Google Gemini與OpenAI旗下的ChatGPT等國際主流大型語言模型展現出強大能力，從寫作、翻譯到知識問答皆令人驚豔。然而，一旦問題涉及臺灣制度、教育內容、法律規範或社會文化情境時，模型仍可能出現「答得很好，但不一定適合臺灣」的情況。

數產署表示，AIEC推動在地化評測的目的，就是讓社會各界更清楚掌握AI模型在臺灣情境中的真實表現，透過評測結果，開發者能精準找出模型需補強之處，企業與使用者也能在選擇AI產品時擁有更具體的依據。

AIEC自114年10月起持續發布語言模型基準評測成果，至今已完成131個模型測試。數據顯示，語言能力並不等同於在地理解能力，「會說中文」並不代表「真正懂臺灣」，臺灣所需要的，不只是更聰明的AI，更是能理解在地需求、回應在地情境的AI系統。

數產署進一步表示，亞太智能機器率先公開評測成果，意味著國內業者已逐漸將第三方評測納入產品發展的重要環節。此舉不僅提升使用者對模型能力的理解，也有助企業在商務合作、政府採購及國際市場中建立更高的信任度。官方亦鼓勵更多模型開發商、系統整合商與AI服務業者參與送測並公開結果，形成正向循環，讓優秀模型不只是被宣稱，而是經過驗證，將進一步強化競爭力與國際信賴度。

資料來源：自由時報

相關連結

最懂台灣的AI是「它」？最新評測出爐、台灣價值觀獲滿分