發(fā)布時間:2026-06-10
瀏覽次數(shù):2次
6月8日,國家數(shù)據(jù)局關(guān)于印發(fā)《關(guān)于推進行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)行動的實施方案》的通知(國數(shù)科基〔2026〕25號)。
其中明確,聚焦行業(yè)領(lǐng)域推進高質(zhì)量數(shù)據(jù)集建設(shè)。聚焦科學研究、工業(yè)制造、農(nóng)業(yè)農(nóng)村、智慧能源、交通運輸、金融服務(wù)、醫(yī)療衛(wèi)生、教育教學、電子商務(wù)、人力資源、文化旅游、應急管理、氣象服務(wù)、綠色低碳、公共安全、城市治理、住房建設(shè)、自然資源、社會信用等重點領(lǐng)域,以及低空經(jīng)濟、具身智能、智能駕駛、智慧海洋、生物制造等創(chuàng)新領(lǐng)域,加快推進行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)。
原文如下:
國家數(shù)據(jù)局關(guān)于印發(fā)《關(guān)于推進行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)行動的實施方案》的通知
國數(shù)科基〔2026〕25號
各省、自治區(qū)、直轄市及新疆生產(chǎn)建設(shè)兵團數(shù)據(jù)管理部門:
現(xiàn)將《關(guān)于推進行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)行動的實施方案》印發(fā)給你們,請認真組織實施,加快推進相關(guān)工作。
國家數(shù)據(jù)局
2026年6月3日
關(guān)于推進行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)行動的實施方案
行業(yè)高質(zhì)量數(shù)據(jù)集是經(jīng)過采集、加工等數(shù)據(jù)處理,可直接用于開發(fā)和訓練人工智能模型,能有效提升模型性能的行業(yè)數(shù)據(jù)的集合,包含行業(yè)通識和行業(yè)專識數(shù)據(jù)集。行業(yè)高質(zhì)量數(shù)據(jù)集是推動“人工智能+”賦能千行百業(yè)、實現(xiàn)產(chǎn)業(yè)落地的基礎(chǔ)性、關(guān)鍵性資源。為落實國民經(jīng)濟和社會發(fā)展“十五五”規(guī)劃《綱要》,深入實施“人工智能+”行動,推動行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)推廣與“人工智能+”同頻共振、互促共進,強化數(shù)據(jù)賦能人工智能創(chuàng)新發(fā)展,制定本方案。
一、總體要求
以習近平新時代中國特色社會主義思想為指導,深入貫徹黨的二十大和二十屆歷次全會精神,全面落實“人工智能+”行動,主動順應人工智能發(fā)展范式躍遷,按照“需求牽引、急用先行、應用驗證、安全保障”原則,聚焦國民經(jīng)濟發(fā)展重點行業(yè)和戰(zhàn)略性新興產(chǎn)業(yè),圍繞行業(yè)高質(zhì)量數(shù)據(jù)集供給、流通、應用等關(guān)鍵環(huán)節(jié),部署強基擴容、標注攻堅、提質(zhì)增效、應用賦能、管理服務(wù)、價值釋放六個專項行動,形成“場景牽引數(shù)據(jù)、數(shù)據(jù)驅(qū)動模型、模型賦能應用、應用創(chuàng)造價值”的“數(shù)據(jù)飛輪”,加快構(gòu)建數(shù)據(jù)要素與人工智能協(xié)同演進的共生生態(tài)。
到2028年底,建成一批覆蓋重點領(lǐng)域、經(jīng)過應用驗證的行業(yè)高質(zhì)量數(shù)據(jù)集,打造一批數(shù)據(jù)驅(qū)動人工智能創(chuàng)新發(fā)展的典型應用場景,培育一批具備領(lǐng)先優(yōu)勢的創(chuàng)新型數(shù)據(jù)企業(yè)和專業(yè)人才,形成一批行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)工具和標準。數(shù)據(jù)從供給到價值釋放的良性循環(huán)基本形成,數(shù)據(jù)賦能人工智能創(chuàng)新發(fā)展的作用更加凸顯,數(shù)據(jù)產(chǎn)業(yè)與人工智能深度融合,持續(xù)催生智能經(jīng)濟新增長點。
二、實施強基擴容行動
順應人工智能加速向行業(yè)滲透,從對話向多模態(tài)生成、決策執(zhí)行、具身智能、物理交互等范式躍遷的趨勢,拓寬數(shù)據(jù)供給渠道,豐富數(shù)據(jù)供給類型,加快建設(shè)行業(yè)高質(zhì)量數(shù)據(jù)集,為人工智能發(fā)展和應用提供充足“燃料”。
(一)聚焦行業(yè)領(lǐng)域推進高質(zhì)量數(shù)據(jù)集建設(shè)。聚焦科學研究、工業(yè)制造、農(nóng)業(yè)農(nóng)村、智慧能源、交通運輸、金融服務(wù)、醫(yī)療衛(wèi)生、教育教學、電子商務(wù)、人力資源、文化旅游、應急管理、氣象服務(wù)、綠色低碳、公共安全、城市治理、住房建設(shè)、自然資源、社會信用等重點領(lǐng)域,以及低空經(jīng)濟、具身智能、智能駕駛、智慧海洋、生物制造等創(chuàng)新領(lǐng)域,加快推進行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)。
(二)夯實行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)基礎(chǔ)路徑。梳理行業(yè)數(shù)據(jù)資源底數(shù)和應用場景,建立數(shù)據(jù)資源清單和數(shù)據(jù)集需求清單。以應用為牽引,持續(xù)推進行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)先行先試,加快形成一批可復制、可推廣的數(shù)據(jù)驅(qū)動型示范場景。強化鏈主單位牽引帶動作用,支持鏈主單位以聯(lián)合體等形式推動產(chǎn)業(yè)鏈上下游協(xié)同共建和資源整合,持續(xù)擴大行業(yè)高質(zhì)量數(shù)據(jù)集供給規(guī)模,鼓勵鏈主單位面向行業(yè)開放數(shù)據(jù)集并提供數(shù)據(jù)服務(wù),賦能產(chǎn)業(yè)鏈上下游中小企業(yè)。鼓勵高等院校、科研院所、行業(yè)協(xié)會、數(shù)據(jù)流通服務(wù)機構(gòu)、第三方專業(yè)服務(wù)機構(gòu)等各類主體參與行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)。加大公共數(shù)據(jù)資源開發(fā)利用力度,推動公共數(shù)據(jù)與行業(yè)數(shù)據(jù)融合利用,建設(shè)一批高質(zhì)量數(shù)據(jù)集。
(三)面向人工智能應用需求豐富行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)形態(tài)。持續(xù)推進文本、代碼、圖像、音頻、視頻、點云、時序數(shù)據(jù)、科學數(shù)據(jù)等多模態(tài)高質(zhì)量數(shù)據(jù)集建設(shè),賦能人工智能預訓練、指令微調(diào)、強化學習、測評等各階段。加強知識庫、知識圖譜、本體等數(shù)據(jù)集建設(shè),加快復雜任務(wù)規(guī)劃、長程推理、人機交互、決策執(zhí)行等數(shù)據(jù)集建設(shè),賦能智能體等新型智能應用形態(tài)。加快重點場景物理交互、環(huán)境感知、運動控制等真機交互數(shù)據(jù)集建設(shè),積極應用仿真模擬與合成技術(shù)擴大數(shù)據(jù)供給,賦能具身智能發(fā)展。積極面向世界模型等前沿方向,推進數(shù)據(jù)集建設(shè)。
(四)強化與數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)有機聯(lián)動。鼓勵依托國家數(shù)據(jù)基礎(chǔ)設(shè)施,充分運用隱私保護計算、可信數(shù)據(jù)空間等能力,開展數(shù)據(jù)集安全存儲、可信流通、高效應用,推動數(shù)據(jù)集從分散持有向集約化、標準化供給轉(zhuǎn)變。鼓勵探索建設(shè)支撐大規(guī)模、多模態(tài)數(shù)據(jù)集的數(shù)據(jù)基礎(chǔ)設(shè)施存力中心。
三、實施標注攻堅行動
數(shù)據(jù)標注是將知識和經(jīng)驗注入到訓練數(shù)據(jù)的過程,是行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)不可或缺的關(guān)鍵環(huán)節(jié)。引導數(shù)據(jù)標注從“以人為主”向“人機協(xié)同、專家深度參與”的多層次標注模式轉(zhuǎn)變,推動數(shù)據(jù)標注向?qū)I(yè)化、智能化躍升。
(五)推動數(shù)據(jù)標注轉(zhuǎn)型升級。加強數(shù)據(jù)標注領(lǐng)域科技創(chuàng)新,強化自動化工具和平臺的研發(fā)與應用,發(fā)展“模型預標注+人工校準”“人工標注+模型檢驗”“模型預標注+模型檢驗”等智能化標注服務(wù),全面提升數(shù)據(jù)標注水平。發(fā)展專家型數(shù)據(jù)標注服務(wù),建立行業(yè)專家認證機制,推動專家深度參與指令微調(diào)、強化學習等階段所需的專業(yè)知識標注,生產(chǎn)領(lǐng)域知識、邏輯推理等高質(zhì)量數(shù)據(jù)集,提高數(shù)據(jù)集的知識密度與專業(yè)價值。
(六)持續(xù)推動數(shù)據(jù)標注先行先試。指導首批七個承擔數(shù)據(jù)標注先行先試任務(wù)的城市,持續(xù)做強做深數(shù)據(jù)標注產(chǎn)業(yè)。面向創(chuàng)新能力強、發(fā)展基礎(chǔ)好、產(chǎn)業(yè)特色優(yōu)的地區(qū),梯次布局一批數(shù)據(jù)標注創(chuàng)新試驗區(qū)。有序引導具備條件的地區(qū)因地制宜開展試驗區(qū)建設(shè),促進數(shù)據(jù)標注產(chǎn)業(yè)鏈上下游緊密協(xié)同,形成產(chǎn)業(yè)集聚效應。培育一批數(shù)據(jù)標注龍頭企業(yè)、獨角獸企業(yè)、瞪羚企業(yè),壯大數(shù)據(jù)標注產(chǎn)業(yè)。
(七)擴大數(shù)據(jù)標注人才供給。支持有條件的院校增設(shè)數(shù)據(jù)標注相關(guān)課程,依托產(chǎn)教融合、校企協(xié)同等方式,培育具備專業(yè)知識的數(shù)據(jù)標注人才。鼓勵開展數(shù)據(jù)標注職業(yè)技能等級認定,強化繼續(xù)教育與在職培訓,暢通人才發(fā)展通道。完善分層分類人才評價體系,建設(shè)專職與兼職相結(jié)合的專業(yè)標注人才隊伍。鼓勵高校畢業(yè)生等群體參與標注工作,通過靈活就業(yè)、項目協(xié)作、多元崗位供給等方式,擴展就業(yè)渠道。
四、實施提質(zhì)增效行動
推動構(gòu)建符合結(jié)構(gòu)完整性、內(nèi)容多樣性、標注準確性、模型適配性等質(zhì)量標準、滿足人工智能就緒(AI-Ready)的高質(zhì)量數(shù)據(jù)集,降低訓練推理成本,有效提升模型性能。
(八)提升行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)質(zhì)效。加強數(shù)據(jù)清洗、增強、標注、對齊、質(zhì)檢等關(guān)鍵技術(shù)攻關(guān)和全過程自動化工具研發(fā)應用,支撐高效率、高標準構(gòu)建行業(yè)高質(zhì)量數(shù)據(jù)集。針對行業(yè)特定應用場景,鼓勵運用數(shù)據(jù)智能過濾與配比等技術(shù),構(gòu)建更精、更強的高知識密度數(shù)據(jù)集,降低訓練推理成本。發(fā)揮數(shù)據(jù)合成在數(shù)據(jù)集建設(shè)中的積極作用,利用模型、仿真系統(tǒng)等生成的數(shù)據(jù),解決稀缺場景數(shù)據(jù)集構(gòu)造難、真實場景數(shù)據(jù)采集成本高等問題。
(九)推動高質(zhì)量數(shù)據(jù)集標準體系建設(shè)和應用落地。加快推進高質(zhì)量數(shù)據(jù)集格式、類型、標注、質(zhì)量測評等相關(guān)國家標準研制、應用驗證和貫標,健全高質(zhì)量數(shù)據(jù)集標準體系。鼓勵各行業(yè)、各地方與國家標準聯(lián)動,推動重點行業(yè)領(lǐng)域高質(zhì)量數(shù)據(jù)集標準研制。加強在產(chǎn)業(yè)政策、政府采購、招投標中引用相關(guān)標準,引導產(chǎn)業(yè)執(zhí)行高水平標準,用好檢驗檢測等手段推動標準實施,促進高質(zhì)量數(shù)據(jù)集規(guī)范化建設(shè)。
(十)強化高質(zhì)量數(shù)據(jù)集質(zhì)量測評和結(jié)果互認。持續(xù)完善“數(shù)據(jù)質(zhì)量驗證+模型應用反饋”的測評方法,加快建設(shè)覆蓋多行業(yè)、多場景、多模態(tài)的測評數(shù)據(jù)集,有效評估高質(zhì)量數(shù)據(jù)集應用效果。發(fā)起高質(zhì)量數(shù)據(jù)集測評聯(lián)合行動倡議,推動相關(guān)單位按照標準,采用統(tǒng)一測評方案和工具開展測評和封裝工作,實現(xiàn)“一次測評、全國互認”。
五、實施應用賦能行動
堅持行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)與實際應用深度融合,以模引數(shù)、用數(shù)賦模,促進高質(zhì)量數(shù)據(jù)集建設(shè)與“數(shù)據(jù)要素×”“人工智能+”同頻共振,全面賦能產(chǎn)業(yè)數(shù)智化轉(zhuǎn)型。
(十一)打造“數(shù)據(jù)飛輪”應用閉環(huán)。以模型應用牽引數(shù)據(jù)供給、以數(shù)據(jù)賦能模型迭代,推動形成“場景—數(shù)據(jù)—模型”協(xié)同發(fā)展的良性循環(huán)。發(fā)揮“人工智能+”場景牽引作用,推動數(shù)據(jù)供給和場景的精準匹配,以用促建,以實際需求吸引更多數(shù)據(jù)資源匯聚,推動行業(yè)高質(zhì)量數(shù)據(jù)集有效供給和持續(xù)優(yōu)化。結(jié)合“數(shù)據(jù)要素×”行動,深化行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè),以建促用,充分利用模型應用產(chǎn)生的動態(tài)交互數(shù)據(jù)等,驅(qū)動行業(yè)模型能力持續(xù)提升。
(十二)打造行業(yè)應用標桿和典型案例。著力打造集“數(shù)據(jù)集生產(chǎn)加工和流通利用、支撐模型訓練應用”于一體的數(shù)據(jù)賦能工場,打造一批行業(yè)標桿,加速人工智能應用落地。打造一批數(shù)據(jù)賦能智能體解決實際問題的典型案例,推動高質(zhì)量數(shù)據(jù)集規(guī)?;瘧谩?/p>
(十三)繁榮數(shù)據(jù)集協(xié)同發(fā)展生態(tài)。加強統(tǒng)籌協(xié)調(diào),強化部門聯(lián)動,分行業(yè)分領(lǐng)域有序推進高質(zhì)量數(shù)據(jù)集建設(shè)和應用。搭建“政產(chǎn)學研用金”多方交流平臺,形成共建共享、互利共贏的產(chǎn)業(yè)生態(tài),破解“數(shù)據(jù)孤島”“數(shù)據(jù)煙囪”。常態(tài)化舉辦供需對接活動,提升供需匹配效率,促進實質(zhì)性合作落地。組織遴選行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)和應用典型案例,發(fā)揮行業(yè)示范引領(lǐng)作用。支持舉辦行業(yè)高質(zhì)量數(shù)據(jù)集創(chuàng)新賽事活動,以賽促建、以賽促用。深化國際交流合作,建立健全數(shù)據(jù)集跨境安全有序流動機制,推動跨境流動規(guī)則互認,鼓勵行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)主體積極參與全球數(shù)據(jù)生態(tài)建設(shè)。
六、實施管理服務(wù)行動
加強數(shù)據(jù)集管理,完善數(shù)據(jù)倫理和治理機制,推動落實數(shù)據(jù)權(quán)益相關(guān)制度,推進數(shù)據(jù)集建設(shè)體系更加規(guī)范有序。
(十四)構(gòu)建數(shù)據(jù)集全生命周期的管理體系。加強覆蓋數(shù)據(jù)采集、清洗、加工、標注、質(zhì)檢、測評、迭代、審計等全生命周期的數(shù)據(jù)集管理服務(wù)能力建設(shè),依托數(shù)據(jù)基礎(chǔ)設(shè)施,強化隱私保護計算、區(qū)塊鏈等技術(shù)應用,確保數(shù)據(jù)可管、可控、可追溯。建設(shè)“物理分散、邏輯集中”的國家數(shù)據(jù)集管理服務(wù)系統(tǒng),實現(xiàn)數(shù)據(jù)集目錄、供需等信息互聯(lián)互通。支持各地方、行業(yè)依托國家系統(tǒng)設(shè)置專區(qū),支持已有系統(tǒng)與國家系統(tǒng)對接。
(十五)探索面向人工智能發(fā)展的數(shù)據(jù)相關(guān)制度。落實數(shù)據(jù)持有權(quán)、使用權(quán)、經(jīng)營權(quán)三權(quán)分置制度。研究合成數(shù)據(jù)等新情況新問題。兼顧產(chǎn)權(quán)保護與創(chuàng)新發(fā)展需求,完善人工智能訓練階段數(shù)據(jù)使用規(guī)則,推動版權(quán)作品數(shù)據(jù)等有序用于模型訓練,完善數(shù)據(jù)授權(quán)使用機制和收益分配規(guī)則,打造權(quán)責清晰、合規(guī)包容的制度環(huán)境。
(十六)堅持倫理先行與公平普惠。研究探索高質(zhì)量數(shù)據(jù)集倫理道德規(guī)范,堅持有益社會的價值導向,嚴禁非法收集或使用敏感數(shù)據(jù)。防范數(shù)據(jù)集建設(shè)全流程產(chǎn)生數(shù)據(jù)偏見與歧視,充分考慮社會各界多元需求,最大限度確保數(shù)據(jù)集建設(shè)成果惠及全民。
七、實施價值釋放行動
發(fā)揮數(shù)據(jù)集的應用價值,以行業(yè)高質(zhì)量數(shù)據(jù)集賦能人工智能發(fā)展。釋放數(shù)據(jù)要素價值,推動數(shù)據(jù)集商業(yè)化、資產(chǎn)化,培育為數(shù)據(jù)付費的市場共識,探索以詞元(Token)為基礎(chǔ)的價值體系。
(十七)發(fā)揮行業(yè)高質(zhì)量數(shù)據(jù)集的應用價值。建立數(shù)據(jù)集和模型需求對接機制,推動行業(yè)高質(zhì)量數(shù)據(jù)集和模型精準適配,提高模型質(zhì)量和效率,深度賦能行業(yè)發(fā)展。推動行業(yè)高質(zhì)量數(shù)據(jù)集跨行業(yè)、跨領(lǐng)域、跨場景融合利用,鼓勵“以數(shù)換數(shù)”“數(shù)?;Q”“數(shù)據(jù)托管”“數(shù)算一體”等多種應用模式。積極參與開源社區(qū)建設(shè),鼓勵中介機構(gòu)、公益機構(gòu)將基礎(chǔ)性、公益性數(shù)據(jù)集作為公共產(chǎn)品向社會公開,激發(fā)用數(shù)活力。
(十八)創(chuàng)新行業(yè)高質(zhì)量數(shù)據(jù)集商業(yè)模式。完善數(shù)據(jù)集長效運營機制,鼓勵數(shù)據(jù)集在數(shù)據(jù)交易所(中心)等數(shù)據(jù)流通服務(wù)機構(gòu)掛牌交易,發(fā)展“訂閱模式”“商場模式”“定制模式”等多元服務(wù)形態(tài),推動商業(yè)模式從基礎(chǔ)數(shù)據(jù)包銷售向API調(diào)用、模型化解決方案及全棧服務(wù)梯次躍升。探索詞元交易等新型交易模式,構(gòu)建以詞元為基礎(chǔ),可量化、可定價的數(shù)據(jù)價值體系。
(十九)探索行業(yè)高質(zhì)量數(shù)據(jù)集資產(chǎn)化創(chuàng)新路徑。鼓勵有條件的單位率先探索開展數(shù)據(jù)集資產(chǎn)盤點、登記、評估等試點工作,為數(shù)據(jù)資產(chǎn)化積累可復制、可推廣的經(jīng)驗。鼓勵探索數(shù)據(jù)集質(zhì)押融資、作價入股、資產(chǎn)證券化、數(shù)據(jù)信托、數(shù)據(jù)保險等多元資產(chǎn)化創(chuàng)新模式,拓寬數(shù)據(jù)價值轉(zhuǎn)化渠道。
(二十)培育為高質(zhì)量數(shù)據(jù)付費的市場共識。建立健全市場化利益分配機制,確保數(shù)據(jù)供給、加工、流通、應用等各環(huán)節(jié)主體均能獲得市場化價值回報,共享數(shù)據(jù)紅利。鼓勵數(shù)據(jù)需求方通過購買、合作等形式加大投入,充分發(fā)揮政府部門、國有企業(yè)、模型企業(yè)等單位的示范引領(lǐng)作用,推動數(shù)據(jù)采買納入預算編制,率先開展數(shù)據(jù)采購實踐,帶動形成數(shù)據(jù)有償使用市場共識,構(gòu)建健康可持續(xù)的數(shù)據(jù)市場生態(tài)。
八、保障措施
國家數(shù)據(jù)局發(fā)揮統(tǒng)籌協(xié)調(diào)作用,會同有關(guān)部門協(xié)同推進高質(zhì)量數(shù)據(jù)集建設(shè)與應用,構(gòu)建“部門協(xié)同、領(lǐng)域聯(lián)動”的工作格局。各地要落實屬地管理責任,加大組織實施力度,避免一哄而上,防止同質(zhì)化、低水平重復建設(shè),結(jié)合實際制定配套措施,統(tǒng)籌安排數(shù)據(jù)產(chǎn)品和服務(wù)采購經(jīng)費,用于支持行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)。支持各類主體以應用為牽引,積極開展和參與行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)。引導金融機構(gòu)、耐心資本、產(chǎn)業(yè)基金等,加大對行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)的投資力度,鼓勵地方設(shè)立專項資金,探索多元化、多渠道投入機制。鼓勵在依法依規(guī)、風險可控前提下開展創(chuàng)新探索。持續(xù)跟蹤行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)工作,完善監(jiān)測指標,評估建設(shè)和應用成效,階段性總結(jié)經(jīng)驗。強化安全保障,落實數(shù)據(jù)安全相關(guān)法律法規(guī)要求,建立全流程安全治理機制,防范數(shù)據(jù)投毒與污染、數(shù)據(jù)泄露等安全風險,守牢數(shù)據(jù)安全底線。