從人工智能到大數據、云計算,新技術的革命無處不在,不僅深刻地改變著我們的日常生活,也成為了產業數字化轉型的必由之路。 目前,中國人工智能核心產業規模超過千億元,全國使用的數據中心機架總數近400萬架,大型以上數據中心超過250個。
在數字浪潮洶涌而來的情況下,轉型中的公司如何識別方向,找到最適合自己的線索和方案?
5月28日,“2021阿里巴巴云峰會”在北京開幕。 此次峰會以“云上創新”為主題,Alibaba云與眾多嘉賓、合作伙伴共同探討公司數字創新的新思路、新戰略、新產品、新方案,實現“云上創新”的全景
在28日下午舉行的“全鏈接數據服務-大數據與ai論壇”分科會上,mobvista )高級算法設計師engineplus產品負責人陳緒應邀演講,邀請嘉賓與云原生數據湖的 介紹了匯量自研開源數據湖框架starlake和新一代“一站式云原生大數據ai平臺”
從數據倉庫到湖倉一體:數據觀察架構的發展
隨著公司業務的迅速擴張,派生數據量面臨爆炸式增長,公司對數據解決解體的訴求越來越迫切。 在這種背景下,企業需要創新技術和計劃來應對數據智能解決的挑戰。
陳緒說,云母語數據觀察架構從以前開始就經歷了數倉、數據湖、以及湖倉一體的演化。
匯量科技高級算法架構師、engineplus產品負責人陳緒發表了演講
以前流傳下來的數據倉庫強調結構化數據,在現在的互聯網APP通信中,會引起建模復雜、流批結構多、結構復雜等一系列問題,以前流傳下來的hive等方案也是云固有的 在這樣的背景下,數據湖應運而生。
數據湖處理了數倉的部分問題,如非結構化數據的解決、流批處理一體化等,并且云上的元數據和對象存儲能力也在不斷地演化和優化。 在oss的支持下,更好地實現了計算和存儲的分離,擴展了數據湖的能力。
因此,數據湖和數據倉庫的功能進一步整合,成為當前的趨勢。
陳緒表示,從業務角度看,理想的湖倉一體以數據湖為“基礎”,具備元數據管理的可擴展性,并優化了目標存儲的訪問性能,進而優化了寬表的實時多流能力,最終實現了分解
starlake :匯量科技自研開源數據湖框架
為了在互聯網業務中實踐數據湖和湖倉一體化,研究開發和開源數據湖框架starlake,實現大數據的實時采集和更新,有效構建湖倉一體化拆解平臺,解決開發者的云和數據解決問題。
據介紹,與開源同類數據湖框架相比,starlake具有以下優勢。
1、支持多級分區和range、hash兩種分區模式,在upsert場景中有明顯的性能提升,能夠支持實時的寬表能力;
2、使用分布式數據庫實現元數據管理,在擴展能力方面進一步提高;
3、比較存儲的專業優化:通過改寫文件分析層與存儲層融合,實現計算和io的并行化
4、并支持寫入時復制和讀取合并模式,支持高并發寫入能力;
5、將元數據、分區規則等進一步降低到計算引擎層,優化連接算子,提高查詢的分解性能。
陳緒認為,在匯率技術上,starlake數據湖框架不是“單兵作戰”,而是作為新一代一站式云原生大數據ai平臺engineplus的一部分,在云原生框架下,為公司服務。
引擎加:新一代一站式云本機大數據ai平臺
在engineplus平臺上,starlake數據湖提供了高效的數據采集、分解和計算的“基礎”,并且無縫對接了自我研究匯款技術的開源機器學習框架mindalpha
engineplus融合創新了大數據、云計算、人工智能等新聞技術,實現了數據采集、數據計算、模型訓練、在線預測的一站式閉環,提高了客戶解決數據的效率和精度 在大規模業務的生產驗證下,engineplus兼具高速訪問、簡單易用、高性能、高穩定性等優勢。
陳緒表示,典型的個性化算法業務場景中存在多個實時流,包括客戶數據流、item數據流、交互數據流、離線數據流等,并稱為starlake數據流
通過與oss提供給數據湖的存儲能力相結合,可以構建實時化的寬表。 在這個過程中,基本上消除了以前流傳的數倉建模和etl過程,然后可以分解,對接bi和ai的計算。
這使業務流程更加敏捷,大大簡化了數據體系結構。 據悉,該框架已在廣告、電子商務、風力發電等場合采用。
在數據湖的場景中,云商產品會去哪里?
作為云的原生數據湖的深顧客,集中技術業務的觀點,共享了starlake數據湖框架的架構實踐。 從架構的角度,對比數據湖的場景,匯率技術希望未來的云廠商在產品功能方面有怎樣的快速發展?
在演講后的圓桌討論環節中,陳緒提出,從網絡業務和云原生架構的角度來看“湖倉一體”的發展,未來將成為應用場景和基礎架構融合的“co-design”趨勢。
陳緒認為,engineplus的數據湖組件starlake需要根據業務場景和云中面向對象的存儲的需求進行新的融合設計,這也是新的“合作設計”; 在湖倉一體化的趨勢中,還可以看到對象存儲和APP層的融合。 例如,最近oss推出的加速器功能很好。 未來,云廠商可以在目標存儲上進一步提高元數據管理、一致性、并發吞吐量等能力,更好地支持各類實時數據觀察場景,在湖上進一步統一數據觀察體系,將是一個非常有意義的趨勢。
陳緒是圓桌會議的一環
隨著新領域的快速發展趨勢,公司期望實現新一代數據智能開發、解放業務生產力,構成更加美麗的“云上創新”全景圖。
相關查詢
溫馨提示:尊敬的[]站點管理員,將本頁鏈接加入您的網站友情鏈接,下次可以快速來到這里更新您的站點信息哦!每天更新您的[“云原生數據湖的探索和實踐:當匯量科技 EnginePlus 團隊來到阿里云峰會”]站點信息,可以排到首頁最前端的位置,讓更多人看到您站點的信息哦。
