摘要:近日,在2025年華為中國合作伙伴大會上,華為攜手景聯文科技發布面向AI數據湖的數據工程聯合解決方案。
近日,在2025年華為中國合作伙伴大會上,華為攜手景聯文科技發布面向AI數據湖的數據工程聯合解決方案。該方案基于端到端高效、可靠、共享、易管理的AI數據湖,旨在將海量多模態數據資源高效轉化成高質量AI算料,為行業智能升級注入充沛的數據動能。
景聯文科技CEO劉云濤
“AI-ready的前提是Data-ready,大模型的好壞取決于數據的好壞。高質量數據集的供給是AI行業化落地的關鍵要素,也是促進數據要素繁榮交易的根基。”景聯文科技CEO劉云濤強調,“精準全面的數據治理能力,結合可靠高效的數據基礎設施,在智能化升級中不可或缺。”
普遍來說,面向AI的數據需要經歷三大環節,即:從海量原始數據提煉為結構化數據集,然后經標注成為語料集,最終構成知識庫、支撐模型訓練及業務應用。在這個過程中,當下正面臨多重挑戰:
● 首先,數據擁有方動力不足:大部分數據持有者缺少便捷安全的數據匯聚托管系統,普遍陷入“不愿、不敢、不會”的困境,數據共享壁壘高筑。
● 其次,語料開發難:原始數據種類多、格式雜、時效高,如文本、圖像、音視頻等多模態原始數據,增加了語料處理的復雜性。同時,行業專用語料往往包含大量特有的垂類知識、表達方式,加劇了精準標注的難度。
● 最后,數據可信流動難:數據作為風險資源,如果在流通中缺少端到端安全管控,則易遭受被篡改、被擴散的風險。此外,區域間數據基礎設施發展程度不均,且兼容性和互操作性不足,導致數據跨域流通效率低下。
景聯文科技與華為強強聯合,依托景聯文科技深耕多年的數據工程能力、以及華為數據存儲行業領先的技術優勢,推出面向AI數據湖的數據工程聯合解決方案:
● 全流程數據工程:景聯文科技Solar Data平臺采用AI Agent理念,與全閃數據湖存儲緊密協同,支持異構數據的高效加工,實現對30+格式的自動或半自動化清洗、解析、預處理、特征提取與初步分析,并基于AI預標注與專業手工標注結合,最終整合為高質量的數據產品,全流程效率提升70%。
● 數據流通與資源調度:通過華為DME(Omni-Dataverse)全局文件系統,結合可信數據空間,實現多源數據無縫歸集,讓全局數據可視、可管、可流,保障數據交換過程的可信、可證、可控。基于華為DCS的統一資源調度,實現Solar Data平臺計算、存儲、網絡等資源的彈性服務與統一管理。并通過ModelEngine AI使能工具鏈框架,實現高效模型編排與應用對接,加速數據集開發進程。
● 先進數據底座:基于華為OceanStor Pacific分布式存儲底座建設統一數據底座,在先進介質、協議互通、負載優化、分布式并行客戶端等領域軟硬協同創新,打造業界領先的高密綠色數據基礎設施,助力海量數據更持久地存儲、更高效地訪問。
華為數據存儲將持續深化與業界伙伴的合作,攜手促進AI時代應用生態的蓬勃壯大,秉持“以數據為中心”的產業理念,發揮數據在數字經濟的核心驅動力作用。
來源:北國網
云南省近日出臺政策,為咖啡產業提供資金支持。該政策面向從事咖啡種植、生產加工及標志管理的企業、合作社...
近日,農業農村部發布新一批非主要農作物品種登記公告,推出特色品種1254個,同時撤銷“仿種子”問題品...
投資家網(www.51baobao.cn)是國內領先的資本與產業創新綜合服務平臺。為活躍于中國市場的VC/PE、上市公司、創業企業、地方政府等提供專業的第三方信息服務,包括行業媒體、智庫服務、會議服務及生態服務。長按右側二維碼添加"投資哥"可與小編深入交流,并可加入微信群參與官方活動,趕快行動吧。