在线观看免费黄色网址,一区二区视频,亚洲国产综合网,欧美VA免费高清在线观看

建設高質量數據集,讓人工智能更聰明(新視點)

來源:人民網

點擊:1451

A+ A-

所屬頻道:新聞中心

關鍵詞:人工智能 高質量數據集


    什么是高質量數據集?簡單來說,就是高價值、高密度、標準化的數據。


    “數據之于大模型,就像石油之于汽車。原油只有經過一系列復雜的過程煉化成汽油后,才能供汽車使用。同樣,海量原始數據需要經過‘煉化’形成高質量數據集,才能助力大模型精準學習數據特征與規律,有效提升其對不同場景和任務的適應能力。”中國信息通信研究院副院長魏亮告訴記者,數據集的質量影響人工智能的“智商”,近期發布的深度求索系列模型訓練中,大量使用了高質量推理數據集,凸顯了高質量數據的重要性,“大模型與垂直領域深度融合,同樣也需高質量數據集的支撐。”


    建設高質量數據集,有關方面在積極行動。國家數據局等17部門聯合印發的《“數據要素×”三年行動計劃(2024—2026年)》提出,“推動科研機構、龍頭企業等開展行業共性數據資源庫建設,打造高質量人工智能大模型訓練數據集”。第八屆數字中國建設峰會上,國務院國資委發布首批10余個行業、30項央企人工智能行業高質量數據集,涵蓋了電網調度AI負荷預測數據集、核電SPV設備健康診斷、運行異常及故障預測數據集、金融大模型數據集等。


    “隨著基礎模型開源態勢的形成,各方在算力和模型算法層面的差距正在不斷收窄,數據要素價值更加凸顯,已成為人工智能競爭的核心領域。”國務院國資委規劃發展局副局長胡武婕表示,要推動行業高質量數據集加速匯聚共享,為人工智能產業提供充足“養分”,從而持續進行不同場景的訓練優化,推動基礎模型在千行百業落地應用。


    目前,高質量數據集建設還存在不少挑戰。魏亮說,一方面,行業大模型對數據的需求多樣,不同行業部門對模型場景數據的需求各不相同,增加了數據處理和管理的復雜度。另一方面,在行業大模型的實際建設中,對于構建和采買的數據沒有統一衡量標準,不同行業、不同數據源的數據完整性和準確性可能參差不齊,影響了大模型的訓練效果和預測準確性,造成訓練資源浪費。


    4月30日,《高質量數據集建設指南(征求意見稿)》發布。全國數據標準化技術委員會提出,將強化標準引領,分三類建設高質量數據集:一類為“通識數據集”,包含面向社會公眾、無需專業背景即可理解的通用知識,主要用于支撐通用模型落地應用;一類為“行業通識數據集”,包含面向行業從業人員、需要一定專業背景才能理解的行業領域通用知識,主要用于支撐行業模型落地應用;一類為“行業專識數據集”,包含面向特定業務場景相關人員、需要較深的專業背景才能理解的行業領域專業知識,主要用于支撐業務場景模型落地應用。


    國家數據局副局長夏冰表示,數據集的質效提升是人工智能賦能實體經濟的“催化劑”,下一步,國家數據局將構建部際聯通、央地協同的工作機制,推動高質量數據集標準體系研究,促進數據、技術、場景對接,構建多元協同的數據標注產業生態,夯實人工智能發展數據根基。

    (審核編輯: 光光)

    聲明:除特別說明之外,新聞內容及圖片均來自網絡及各大主流媒體。版權歸原作者所有。如認為內容侵權,請聯系我們刪除。

    4层及以上住宅设电梯| 白敬亭 宋轶| 男子发现打工养了7年的女儿非亲生| BLACKPINK未公开的物料| 檀健次当评委了| 4月一起加油| 山姆客服称水果中吃出虫是正常情况| 白敬亭 宋轶| 甲亢哥成都行直播| 姚安娜带华为手机参加活动| 找工作不要限制于招聘app| 乘风2025四公帮唱组队征集| 清明档预售前三名| 梁洁造型师| 日本特大地震若发生或致近30万人死亡| 疑似一种新病毒在俄罗斯蔓延| 缅甸地震已致2056人死亡| 苏新皓今年最后一次更新这种类型的cover| 2025世纪讲坛大湾区与创新科技活动在香港举行 | 站姐愚人节团建预告| 吴柳芳发博过三月三| 特朗普称乌克兰永远无法加入北约| 缅甸地震已致2056人死亡| 李昀锐好标准的体育生下楼梯| 李昀锐好标准的体育生下楼梯| 周雨彤去冰岛了| 霉豆腐是中国人的美食魔法| 郭德纲说我演不过秦霄贤| 河南一枯井发现近百名烈士遗骸| 王者荣耀全新英雄团| IU说雪莉是最漂亮的人| 愚人节站姐团建| 男子发现打工养了7年的女儿非亲生 | 唐艺昕辟谣和张若昀因为追尾认识| 檀健次当评委了| 河南一枯井发现近百名烈士遗骸| 女装啥时候能回归正常审美| 10元盒饭姐喊话浪费顾客一辈子别来 | 雁回时反转| 房琪 彭小苒| by2十六年后再穿出道战衣|