數據標注產業是對數據進行篩選、清洗、分類、注釋、標記和質量檢驗等加工處理的新興產業,其核心任務是對原始數據進行加工,使之成為可用於訓練人工智能大模型的優質原料。
數據標注作為訓練大模型至關重要的一環,直接影響機器學習模型的性能,對支撐人工智能能力水平提升具有重要作用。
數據標注公司為下游的人工智能算法公司提供高質量的四川方言數據集,使得AI能夠通過深度學習,成功跨越理解方言的障礙。
自動駕駛車輛如何識別車道和前方物體?智能家居和AI政務熱線怎麼聽懂四川話?這背后是一個新興產業在為AI發展提供“優質原料”——數據標注。
作為人工智能發展的核心基石之一,數據標注產業將在成都得到大力發展。18日,成都市國家數據標注基地牧山園區在新津經開區舉行開園儀式。現場,成都數據標注產業發展聯盟正式成立,並對成都數據公園“數據要素服務站”、可信數據空間新津節點進行授牌。此外,活動還發布了四川方言高質量數據集、四川方言大模型、四川方言AI+政務服務熱線應用。
國家數據局於2024年5月發布了承擔數據標注基地建設任務的城市名單,成都等7個城市在列。按照成都市工作部署,新津納入“人工智能牽引區+數據標注聚集區”布局。作為成都落實國家數據標注試點城市建設任務的重要載體,成都市國家數據標注基地牧山園區規劃載體面積28萬平方米,自去年8月正式啟動建設以來,已建成7萬平方米,在建10萬平方米將於6月竣工,將圍繞“數據標注+”產業鏈,打造數據產業集群。
何為數據標注?數據標注產業是對數據進行篩選、清洗、分類、注釋、標記和質量檢驗等加工處理的新興產業,其核心任務是對原始數據進行加工,使之成為可用於訓練人工智能大模型的優質原料。數據標注作為訓練大模型至關重要的一環,直接影響機器學習模型的性能,對支撐人工智能能力水平提升具有重要作用。
首批入駐企業——整數智能成都分公司總經理高彤瑤以自動駕駛為例,解釋了數據標注在人工智能產業中所起的作用。“為了讓車輛能自動識別前方的車道星空体育官网登录線、別的車輛和人群,就需要通過數據標注這個環節,將這些信息告訴人工智能模型,以便通過訓練,讓人工智能模型知道該如何識別前方的物體。”高彤瑤說。
現場發布的四川方言大模型也引起廣泛關注。“沒有經過AI數據訓練的人工智能產品,是聽不懂四川方言的”,成都向己科技有限公司CEO譚浩宇介紹,正因為像他們這樣的數據標注公司為下游的人工智能算法公司提供了高質量的四川方言數據集,才使得即時通訊軟件、自動駕駛產品、智能家居產品甚至AI+政務服務熱線都能聽得懂四川話。據了解,該公司已經為包括國內第一大語音商在內的多家知名公司提供了超過5000小時的數據集,使得AI能夠通過深度學習,成功跨越理解方言的障礙。
新津區數據局相關負責人認為,隨著人工智能技術不斷成熟、應用領域持續拓展,數據標注行業將迎來更廣闊的市場空間,尤其是在低空經濟、智慧城市、自動駕駛、智慧醫療等新興科技領域展現出巨大潛力。
據了解,成都市國家數據標注基地牧山園區坐落在地鐵10號線新津站東側。新津以平台化理念運營,在天府數字科技聯創中心打造孵化器,在園區打造高品質產業承載空間,在北京中關村打造城際合作飛地,構建“一中心一園區一飛地”的發展格局。
人民日報社概況關於人民網報社招聘招聘英才廣告服務合作加盟供稿服務數據服務網站聲明網站律師信息保護聯系我們
人 民 網 股 份 有 限 公 司 版 權 所 有 ,未 經 書 面 授 權 禁 止 使 用