摘要:性能加持下的超融合,才是真正的超融合。選擇YMatrix,一次選型支持所有數據類型,滿足所有復雜分析需求,降低選型和開發運維成本。
10月26日,由北京四維縱橫數據技術有限公司自主研發的超融合數據庫YMatrix 5.0正式發布。
不同于傳統以及專用數據庫產品,YMatrix實現了“一庫多用”,可以支持各類傳統及新興數據場景,廣泛支持多種數據類型,包括關系、時序、GIS、JSON、文本、圖片數據等,也能滿足包括機器學習、高級查詢在內的全場景數據管理和復雜分析需求。
YMatrix創始團隊曾在全球排名Top3的Greenplum工作多年,是分析型數據庫領域少見的世界級完整建制團隊。創始人姚延棟所帶領團隊有大量服務全球500強企業的經驗,對企業級數據庫產品的需求、研發和應用有深刻理解。
從第一行代碼到5.0版本,僅兩年時間,公司已獲得累計近2億元人民幣的4輪融資,股東包括晨山資本、順義產業基金、某頭部云廠商、東方富海、中科創星、清華啟迪等。
此次產品發布會上,YMatrix CEO 與創始人姚延棟分享了超融合數據庫的發展趨勢,以及萬物智聯場景下數據庫的最佳形態。另外,杭州自動化技術研究院院長徐赤、小米智能制造軟件產品部負責人封楊博士、三一重工泵送研究院泵誦云平臺大數據負責人褚鳳天,也參與了此次發布會,分別從工廠數字化、智能制造和工業互聯網、智能設備運維等不同應用場景角度,分享了他們對下一代數據庫的需求和理解。
專用數據庫 vs. 超融合:下一代技術棧的競賽
下一個時代,是萬物智聯和數智化轉型的時代。那么,作為數字基石之一的數據庫應該是什么樣的?
過去20年間,互聯網飛速發展,為了應對不斷升級、升維的數據環境,涌現了很多優秀的產品,或是功能強大,或是性能驚艷,或是易用性極佳。然而,用戶選擇時,功能、性能、易用性似乎構成了一個”不可能三角”,總是需要權衡和取舍。
為了應對新增的需求,用戶不得已的選擇是不斷疊加,先一個個疊加新的專用數據庫產品,再疊加運維不同產品的專業化團隊。最終造成的困境,杭州自動化技術研究院院長徐赤將其總結為“難、混、亂、散”:
每出現一個新需求,就要疊加一個新產品,從選型、試點到驗證,少則一兩個月,多則半年甚至一年,堪比“煉獄”。由于目標混沌、路徑混亂、缺少核心系統,數據總是呈現散亂并難以整合的狀態。
最后導致的直接結果就是“用戶成本高“、”需求難以滿足、痛點永遠存在”。
對此,徐赤在發布會上表示,在過去以專用類產品為主流的市場中,服務商忙著生產孤島、企業忙著購買孤島,工程師們忙著打通孤島,循環往復,永無止境。而且,這樣強行耦合的結構,牽一發動全身,非常不穩定。
YMatrix創始人姚延棟介紹,作為數據庫人,成立團隊的初心,就是想從用戶需求出發,做一款通用性強的產品,而不是和大多同行一樣,開發專用數據庫產品,繼續一個問題接一個問題,只解決當下問題。
據了解,在國際市場上,類似YMatrix這樣具備 “超融合”特性的產品,已經成為了近年的研發趨勢。
海外市場,Snowflake 和 Databricks 曾先后提出 “one data platform”理念;傳統數據庫頭把交椅的Oracle也在走向融合方向;對復雜新興場景需求更加熟悉的時序數據庫大佬 InfluxDB 和 TimescaleDB,也先后啟動了新一代融合型數據庫的研發,對比大廠采取了更為激進的策略。
國內市場中,YMatrix率先提出超融合數據庫概念,在2020年完成了相應產品的研發;目前也有少數創業公司試水,從專用產品出發,研發符合新一代融合理念的產品。
如何定義一款優秀的“超融合”數據庫產品?
首先,回到用戶需求。
小米智能制造軟件產品部負責人封楊博士是這么定義的:以工業互聯網場景為例,其本質是以“數據”為核心要素,企業實現全面連接。企業經營者的核心訴求,是如何最大化利用數據智能,為企業經營帶來看得見的價值。
再向上一層,則是跨過每個企業的微觀需求,在垂直產業或多個產業交叉的維度,構建起全要素、全產業鏈、全價值鏈融合的新制造體系和新產業生態。
為了實現這個目標,需要搭建一個閉環的數據鏈條。在企業內到企業外,從采集、診斷、預測到智能決策,實現全環節覆蓋。依賴優化后的結果,可以更及時、更準確的做商業決策,比如確定一個月后生產什么,需要提前備好多少原材料,技術工藝能怎么調優,等等。
封楊博士介紹,從企業級用戶的角度來看,代表最先進生產力的產品,首先應該是極致簡單的,最好是一個頂N個,能降低企業的財務、人力、學習成本;其次,要好用易用,因為制造場景采集的數據類型五花八門,不同數據類型的交叉分析、應對業務訴求的復雜分析也是層出不窮。
對此,姚延棟進一步解釋,“用戶并不關心什么TP、AP、湖倉、批流,他們想要的就是一個強大的數據庫,能接入所有數據,做得了各種各樣的分析。有數據就可以往里寫,想用的時候隨時用,允許他們把精力放在數據價值上,而不是數據庫上。所以,行業內曾熱烈討論的湖倉之分、批流之分,只會是階段性產物”。
“使用YMatrix,用戶只需要做一次選型,運維一個產品,就可以支持所有數據類型,滿足所有可能的需求。每次新需求出現時,只需要考慮在YMatrix中怎么實現。這大大降低了選型成本和開發運維成本”,姚延棟介紹。
“企業內很難有精通不同產品的通才,所以廠商應該把復雜度處理掉,把簡單應用給到我們用戶,這樣既省錢,又省心省力”,封楊博士表示在應用YMatrix的超融合產品后,相當于實現了“無縫集成”,僅僅需要管理“1個極致輕松的數倉建設團隊+1個極致專注的工業算法團隊”。
三一重工泵送研究院泵誦云平臺大數據負責人褚鳳天表示,“使用高效的產品,可以大量釋放出精力和創造力,讓團隊聚焦工廠運營、設備管理、工藝調優等更有價值的工作”。
“以常見的堵管故障為例,以前總是很難明確堵管的真實原因,現在可以在庫內通過批量的算法,在采集到的工礦數據上,更好的定位原因,提升服務水平,降低客戶投訴率”,褚鳳天介紹,“在嘗試從制造企業向服務型企業升級的過程中,數據能力會是重點之一,直接決定了服務水平和盈利水平” 。
性能突破,是超融合價值放大的必要前提
在數據庫行業,性能似乎是一個永遠有吸引力的話題。
性能數據直觀,誰高誰低,誰強誰弱,一目了然。最近,很多數據庫廠商都開始性能打榜打擂。姚延棟對此表示,“這是好事,說明技術在進步。但是,僅僅在某個場景下實現性能快20%-30%,甚至1倍,是很難贏得客戶的??蛻粜枰氖氰F人三項,甚至是十項全能” 。
“在YMatrix團隊內部,我們關注全場景性能表現,包括寫入能力、時序查詢能力、單表OLAP分析、多表關聯OLAP分析、Machine Learning性能以及 OLTP 能力等諸多方面”,姚延棟介紹,“性能加持下的超融合,才是真正的超融合,才能給用戶提供價值” 。
目前,YMatrix在生產場景下的寫入速度實現了1.52 億數據點/秒。通常一個工廠的數據點大概在10萬點以內,1.52億是該場景規模的1500倍,哪怕是對寫入能力要求最高的時序場景,也可以輕松滿足其高并發、低延遲的寫入需求。
此外,對比時序數據庫獨角獸TimescaleDB,查詢耗時是YMatrix的5.1倍;對比知名OLAP數據庫產品Clickhouse,YMatrix在SSB基礎測試上快27%;對比MPP數據庫主流廠商Greenplum,YMatrix在多表關聯分析場景上實現了數倍的性能提升;對比全球流行的開源大數據平臺Spark,YMatrix在機器學習場景上的性能是其8倍;在Intel實驗室的TPC-B 國際標準測試中,YMatrix主鍵查詢tps高達160萬,數十倍于絕大多數產品。
對于性能優化的重要性,三一重工褚鳳天表示,“最直接的體現就是提高運行速度,我們可以更快速的反應,大大提高了運維團隊的效率”。
姚延棟介紹,此次發布的YMatrix 5.0版本,還包含了多至138項的性能優化,特別是針對寫入和分析等重點領域,進行了深度的指令級優化。
在易用性方面,YMatrix設計了用戶體驗極佳的圖形化installer,只需10分鐘左右就可以完成數據庫集群的搭建。同時,為了降低初學者的學習曲線,YMatrix提供了on boarding功能,用戶可以在3分鐘內體驗一個完整的IoT場景,包括數據寫入和查詢分析。
目前,YMatrix已經獲得了從創業公司到大型企業的認可,其中有超過萬億市值的行業龍頭企業,包括寧德時代、比亞迪等,以及世界500強企業,包括小米、三一重工等。
“后續,YMatrix會在已經存在海量需求的時序場景深耕,嘗試替代傳統數據庫和專用類產品”,創始人姚延棟介紹,“數據量大、指標量多的車聯網、智能制造、智慧能源、智慧城市、智慧園區、智慧醫療等場景會是重要方向。這些場景所產生的業務需求,將最大化體現超融合產品的價值”。
4月16日消息,為提升智能體(AI Agent)與外部工具的配置效率,螞蟻智能體平臺—百寶箱推出了“...
在3月31日舉辦的中關村論壇腦機接口創新發展與應用論壇上,BrainCo強腦科技與北京腦科學與類腦研...
投資家網(www.51baobao.cn)是國內領先的資本與產業創新綜合服務平臺。為活躍于中國市場的VC/PE、上市公司、創業企業、地方政府等提供專業的第三方信息服務,包括行業媒體、智庫服務、會議服務及生態服務。長按右側二維碼添加"投資哥"可與小編深入交流,并可加入微信群參與官方活動,趕快行動吧。