“萬卷·絲路”:引領 AI 助力“一帶一路”共建
隨著共建“一帶一路”進入高質量發展新階段,科技創新與合作日益發揮關鍵作用。上海人工智能實驗室(上海 AI 實驗室)攜手大模型語料數據聯盟成員,共同發布了“萬卷·絲路”多語言預訓練語料庫,以高質量數據支撐多語言大模型訓練,助力“一帶一路”高質量共建。
打造多語言數據寶庫
作為多語言大模型訓練的基礎,高質量語料至關重要。上海 AI 實驗室通過研發先進數據智能技術,采集了多個國家地區的網絡公開信息、文獻、專利等資料,構建了規模龐大的“萬卷·絲路”語料庫。
首期開源的語料庫包含泰語、俄語、阿拉伯語、韓語和越南語五個子集,每個子集的數據規模均超過 150GB。基于“書生·浦語”智能標簽分類體系,語料子集細分為 7 個大類和 32 個小類,涵蓋歷史、政治、文化、房產、購物、天氣、餐飲、百科、專業知識等內容,充分反映語言所在地特征,滿足不同研究領域的個性化需求。
保障數據高標準與高質量
語料庫質量是人工智能應用能力的關鍵。上海 AI 實驗室通過專家人工標注,建立了包含七個維度的文本數據質量評估體系,從完整性、有效性、可理解性、流暢性、相關性、相似性和安全性等方面保障數據的質量。
利用大語言模型數據質量評估開源工具 Dingo,上海 AI 實驗室對“萬卷·絲路”的數據質量進行了多維度評估。結果表明,五個子集均獲得優異的綜合評分,為多語言大模型訓練提供了可靠的數據支撐。
引領 AI 助力“一帶一路”共建
“萬卷·絲路”語料庫的開源,將有效推動多語言大模型的研發和應用,賦能“一帶一路”沿線國家的科技發展、文化交流和經濟合作。
例如,在語言學習領域,基于“萬卷·絲路”訓練的多語言大模型可以提供高效的翻譯、語法糾錯和語言教學服務,促進沿線國家人民的語言交流。
在跨文化交流領域,大模型可以幫助消除語言障礙,促進不同國家和地區之間的人文交流和文化理解。
在經濟合作領域,大模型可以應用于國際貿易、金融投資和物流運輸等場景,提升跨境合作的效率和精準性。
大模型語料數據聯盟由上海人工智能實驗室牽頭發起,成員包括中央廣播電視總臺、人民網、國家氣象中心、中國科學技術信息研究所、上海報業集團和上海文廣集團等 10 家單位。
聯盟成員將協同創新,共同建設“萬卷·絲路”語料庫,提供更多高質量的多語言數據,賦能多語言大模型研發和“一帶一路”共建,攜手共創科技創新驅動的合作共贏新局面。