數發部「台灣主權AI語料庫」Beta版上線,首波釋出6億組Token規模正體中文資料
為了避免台灣開發的AI模型滿口「京片子」,或是缺乏在地文化認知,數位發展部 (MODA)稍早宣布推出「台灣主權AI語料庫」 (Taiwan Sovereign AI Corpus)Beta版。 首波集結了文化部、教育部、客委會、原民會、交通部等超過200個政府機關,釋出逾2000筆資料集,總計約6億組Tokens規模的高品質正體中文數據,涵蓋文化藝術、地理、語言、醫療與交通等......

