<sub id="zgbbs"></sub>

<sub id="zgbbs"><address id="zgbbs"></address></sub>

<form id="zgbbs"><th id="zgbbs"><big id="zgbbs"></big></th></form>

<form id="zgbbs"><legend id="zgbbs"></legend></form>

<strike id="zgbbs"><pre id="zgbbs"></pre></strike>

首頁 > 資訊 > 廣告傳媒設計 > 廣告傳媒

“萬卷·絲路”助力AI賦能“一帶一路”

2025-01-13 50 墨韻吧

導讀

“萬卷·絲路”助力人工智能賦能“一帶一路”1月9日，上海人工智能實驗室（上海AI實驗室）聯合大模型語料數據聯盟成員發布了“萬卷·絲路”多語言預訓練語料庫，為多語言大模型訓練提供高質量數據支撐，助力人工智能賦能高質量共建“一帶一路”。隨著共建“一帶一路”進入高質量發展新階段，科技創新與合作將發揮更關鍵的作

“萬卷·絲路”助力人工智能賦能“一帶一路”

1月9日，上海人工智能實驗室（上海AI實驗室）聯合大模型語料數據聯盟成員發布了“萬卷·絲路”多語言預訓練語料庫，為多語言大模型訓練提供高質量數據支撐，助力人工智能賦能高質量共建“一帶一路”。

隨著共建“一帶一路”進入高質量發展新階段，科技創新與合作將發揮更關鍵的作用。上海AI實驗室通過研發先進數據智能技術，提供多語言語料庫等舉措，探索以人工智能賦能高質量共建“一帶一路”。

“萬卷·絲路”：多語言大規模語料庫

“萬卷·絲路”首期開源了包含泰、俄、阿、韓、越等五個語種的語料，總規模超1.2TB（單語種均超過150GB），Token總數超過300B，涵蓋使用上述語種國家地區的生活、百科、文化、新聞等七大領域數據。

數據是人工智能重要的基礎設施，數據質量是決定人工智能應用能力的關鍵因素之一。作為綜合性文本語料庫，“萬卷·絲路”采集了多個國家地區的網絡公開信息、文獻、專利等資料，數據總規模超1.2TB，Token總數超過300B，處于國際領先水平。首期開源的語料庫主要由泰語、俄語、阿拉伯語、韓語和越南語5個子集構成，每個子集的數據規模均超過150GB。

基于“書生·浦語”智能標簽分類體系，研究團隊將每個語料子集細分為7個大類和32個小類，覆蓋歷史、政治、文化、房產、購物、天氣、餐飲、百科、專業知識等多類具有語言所在地特征內容，便于研究者根據具體需求檢索數據，并可適應不同研究領域多樣化需求。

數據質量評估：確保高標準高質量

“萬卷·絲路”語料庫通過專家人工標注，確立了包含七個維度的文本數據質量評估體系，從完整性、有效性、可理解性、流暢性、相關性、相似性和安全性等方面保障數據的高標準與高質量。

通過使用基于大語言模型的數據質量評估開源工具——Dingo，研究團隊從多維度對“萬卷·絲路”的數據質量進行了全面評估。結果表明，其五個子集均獲得優異的綜合評分。

賦能人工智能應用與“一帶一路”建設

高質量的多語言語料庫為人工智能模型訓練和應用提供了有力支撐，助力人工智能賦能“一帶一路”建設。

推動多語言大模型訓練：“萬卷·絲路”為多語言大模型訓練提供了高質量的數據源，使得模型能夠學習不同語言的語法、語義和文化語境，提升模型在多語言翻譯、跨語言檢索、跨語言生成等任務中的性能。

促進文化交流與文明互鑒：“萬卷·絲路”涵蓋了不同國家和地區的多元文化內容，為研究者和開發者了解不同文化、促進文化交流和文明互鑒提供了豐富的資源。

支持跨境貿易與合作：“萬卷·絲路”為跨境貿易和合作提供了語言輔助，助力企業和個人跨越語言障礙，促進經濟交流和合作。

助力教育和科研：“萬卷·絲路”為多語言教育和科研提供基礎數據支撐，促進跨語言學習、語言學研究和文化比較等領域的創新。

上海AI實驗室表示，未來將持續建設“萬卷·絲路”語料庫，不斷擴展語種覆蓋范圍和數據規模，為人工智能賦能“一帶一路”建設提供更強有力的支撐。

大模型語料數據聯盟：協同創新共建“一帶一路”

大模型語料數據聯盟由上海人工智能實驗室聯合中央廣播電視總臺、人民網、國家氣象中心、中國科學技術信息研究所、上海報業集團、上海文廣集團等10家單位聯合發起。

聯盟致力于構建多語言大模型語料生態，打造開放共享的語料資源平臺，推動大模型訓練和應用創新，助力人工智能賦能“一帶一路”高質量發展。

點贊 0收藏 0打賞 0評論 0

免責聲明

?: 本文為原創作品，作者: 。歡迎轉載，轉載請注明原文出處：http://www.26333com.com/news/show-4861.html 。本文僅代表作者個人觀點，本站未對其內容進行核實，請讀者僅做參考，如若文中涉及有違公德、觸犯法律的內容，一經發現，立即刪除，作者需自行承擔相應責任。涉及到版權或其他問題，請及時聯系我們。

更多>同類資訊

推薦資訊

公司推薦

返回
頂部

精品国产污网站在线观看15