<sub id="zgbbs"></sub>

    <sub id="zgbbs"><address id="zgbbs"></address></sub>
    <form id="zgbbs"><th id="zgbbs"><big id="zgbbs"></big></th></form>

    <form id="zgbbs"><legend id="zgbbs"></legend></form>

  1. <strike id="zgbbs"><pre id="zgbbs"></pre></strike>

    “萬卷·絲路”引領AI 助力“一帶一路”共建

       2025-01-10 60墨韻吧
    導讀

    “萬卷·絲路”:引領 AI 助力“一帶一路”共建隨著共建“一帶一路”進入高質量發展新階段,科技創新與合作日益發揮關鍵作用。上海人工智能實驗室(上海 AI 實驗室)攜手大模型語料數據聯盟成員,共同發布了“萬卷·絲路”多語言預訓練語料庫,以高質量數據支撐多語言大模型訓練,助力“一帶一路”高質量共建。打造多語言數

    “萬卷·絲路”:引領 AI 助力“一帶一路”共建

    隨著共建“一帶一路”進入高質量發展新階段,科技創新與合作日益發揮關鍵作用。上海人工智能實驗室(上海 AI 實驗室)攜手大模型語料數據聯盟成員,共同發布了“萬卷·絲路”多語言預訓練語料庫,以高質量數據支撐多語言大模型訓練,助力“一帶一路”高質量共建。

    打造多語言數據寶庫

    作為多語言大模型訓練的基礎,高質量語料至關重要。上海 AI 實驗室通過研發先進數據智能技術,采集了多個國家地區的網絡公開信息、文獻、專利等資料,構建了規模龐大的“萬卷·絲路”語料庫。

    首期開源的語料庫包含泰語、俄語、阿拉伯語、韓語和越南語五個子集,每個子集的數據規模均超過 150GB。基于“書生·浦語”智能標簽分類體系,語料子集細分為 7 個大類和 32 個小類,涵蓋歷史、政治、文化、房產、購物、天氣、餐飲、百科、專業知識等內容,充分反映語言所在地特征,滿足不同研究領域的個性化需求。

    保障數據高標準與高質量

    語料庫質量是人工智能應用能力的關鍵。上海 AI 實驗室通過專家人工標注,建立了包含七個維度的文本數據質量評估體系,從完整性、有效性、可理解性、流暢性、相關性、相似性和安全性等方面保障數據的質量。

    利用大語言模型數據質量評估開源工具 Dingo,上海 AI 實驗室對“萬卷·絲路”的數據質量進行了多維度評估。結果表明,五個子集均獲得優異的綜合評分,為多語言大模型訓練提供了可靠的數據支撐。

    引領 AI 助力“一帶一路”共建

    “萬卷·絲路”語料庫的開源,將有效推動多語言大模型的研發和應用,賦能“一帶一路”沿線國家的科技發展、文化交流和經濟合作。

    例如,在語言學習領域,基于“萬卷·絲路”訓練的多語言大模型可以提供高效的翻譯、語法糾錯和語言教學服務,促進沿線國家人民的語言交流。

    在跨文化交流領域,大模型可以幫助消除語言障礙,促進不同國家和地區之間的人文交流和文化理解。

    在經濟合作領域,大模型可以應用于國際貿易、金融投資和物流運輸等場景,提升跨境合作的效率和精準性。

    大模型語料數據聯盟由上海人工智能實驗室牽頭發起,成員包括中央廣播電視總臺、人民網、國家氣象中心、中國科學技術信息研究所、上海報業集團和上海文廣集團等 10 家單位。

    聯盟成員將協同創新,共同建設“萬卷·絲路”語料庫,提供更多高質量的多語言數據,賦能多語言大模型研發和“一帶一路”共建,攜手共創科技創新驅動的合作共贏新局面。

     
    收藏 0打賞 0評論 0
    免責聲明
    本文為原創作品,作者: 。歡迎轉載,轉載請注明原文出處:http://www.26333com.com/news/show-4561.html 。本文僅代表作者個人觀點,本站未對其內容進行核實,請讀者僅做參考,如若文中涉及有違公德、觸犯法律的內容,一經發現,立即刪除,作者需自行承擔相應責任。涉及到版權或其他問題,請及時聯系我們。
     
    更多>同類資訊

    返回
    頂部

    精品国产污网站在线观看15