„Betamax blues“: „Hudi“ žengia link „taip pat bėgiojo“ būsenos duomenų platformos lenktynėse

Praėjusį mėnesį paskelbdamas savo Polaris katalogą, Snowflake Inc. vykdomasis viceprezidentas Christianas Kleinermanas sakė, kad produktas „išplečia Snowflake įsipareigojimą Apache Iceberg kaip atviram pasirinkimo standartui“.
Tokie teiginiai kelia „Apache Hudi“ šalininkų nerimą. Jie palaiko pageidaujamą atviros lentelės formatą, kurio pavadinimas reiškia Hadoop Upserts, Deletes ir Incrementals, yra pranašesnis už Iceberg ir atvirojo kodo Delta Lake sistemą, kurią sukūrė Databricks Inc. Tačiau atrodo, kad Hudi slenka link „taip pat paleista“ būsenos. Duomenų platformų lenktynės, kylant ledkalniui.
Sukurtas Uber Technologies Inc. ir išleistas į atvirą kodą 2016 m., Hudi buvo pritaikytas, daugiausia nišinėms programoms, daugelio didelių prekės ženklų kompanijų, įskaitant Walmart Inc., General Electric Co. Aviation, Walt Disney Co ir Amazon.com. Inc. transporto paslauga. Tačiau pastaraisiais mėnesiais „Iceberg“ augo ir sulaukė debesų analizės gigantų, tokių kaip „Snowflake Inc.“ ir „Databricks Inc.“, pritarimų, o vis dažniau minimas kaip standartas.
Lakehouse efektas
Priežastis, dėl kurios visa tai svarbu, yra dėl augančio duomenų bazių, analizės variklių, derinančių duomenų ežerų lankstumą ir duomenų saugyklų našumą, populiarumą. Lakehouses gali talpinti įvairesnius duomenis nei sandėliai, įskaitant struktūrizuotus ir nestruktūrizuotus duomenų tipus. Jie naudoja nebrangią, lanksčią saugyklą ir naudoja prekinę aparatinę įrangą, todėl yra ekonomiškesnė alternatyva duomenų saugykloms.
Lentelės formatas yra labai svarbus duomenų ežero architektūrai. Jis užtikrina duomenų nuoseklumą, pagerina užklausų našumą indeksuodamas, saugo duomenis stulpelių formatu, pageidaujamu analitinėms užklausoms, ir užtikrina patikimas ir nuoseklias operacijas. Kuo greičiau atsiras de facto lentelės standartas, tuo greičiau augs duomenų bazės rinka.
Ir tikimasi didelio augimo. „Dremio Corp.“ 2024 m. atliktas „Data Lakehouse“ būklės tyrimas parodė, kad 70 % įmonių teigė, kad per trejus metus daugiau nei pusė jų analizės bus atliekama duomenų bazėje, o 42 % jau perėjo iš debesies duomenų saugyklos į duomenų bazę. dėl ekonomiškumo ir patogumo naudoti.
„Starburst Data Inc.“, parduodanti komercinę atvirojo kodo „Trino“ platinamo užklausų variklio versiją, palaiko „Iceberg“, „Delta Lake“ ir „Hudi“, „tačiau kai mūsų prašoma pateikti rekomendaciją, sakome, kad naudokite „Iceberg“, nes manome, kad tai yra de facto pasirinkimas“, – sakė generalinis direktorius Justinas Borgmanas.
Žvaigždžių patvirtinimai
„Starburst“ balsavo už „Iceberg“ balandį, kai paskelbė apie visiškai valdomą duomenų bazę, pagrįstą šia platforma. Didžiausias „Iceberg“ patvirtinimas praėjusį mėnesį sulaukė „Snowflake“ katalogo „Polaris“ ir „Databricks“ sėkmingo „Tabular Technologies Inc.“ įsigijimo, kurio įkūrėjai pastatė „Iceberg“ dirbdami „Netflix Inc.“. Daugiau nei 1 mlrd. blogai Databricks nori turėti formato standartą.
„Jie tai padarė, nes manau, kad Databricks matė Iceberg pagreitį“, – sakė Borgmanas. „Databricks vis dar yra labai atsidavęs Delta Lake, tačiau tą akimirką, kai konkuruojantis formatas sako, kad palaikome abu, jie tiesiog pritarė ledkalniui, tyčia ar ne.
„Databricks“ vienas iš įkūrėjų ir vyriausiasis technologas Matei Zaharia teigė, kad įsigijimas turėtų būti vertinamas ne kaip „Iceberg“ patvirtinimas, o kaip žingsnis konsolidacijos link. „Tikimės, kad šie formatai suvienodins, todėl tikimės, kad po kelerių metų formatas jums neberūpės“, – sakė jis. Bet kuriuo atveju Hudi liko nuošalyje.
George'as Gilbertas, „SiliconANGLE“ sistemų įmonės „TheCube Research“ duomenų ir dirbtinio intelekto analitikas, teigė, kad Hudi nepateikimas „Snowflake“ ir „Databricks“ kelių žemėlapiuose nėra gera žinia tai bendruomenei.
„Užklausų varikliui bus labai sunku palaikyti ir Iceberg, ir Delta Lake“, – sakė jis. „Jūs kuriate savo variklį remdamiesi tam tikra prielaida, kaip duomenys saugomi. Bus sunku gauti aukščiausios klasės paramą Hudi.
Netriviali migracija
„Tai nebanali užduotis atlikti Iceberg migraciją“, – sakė Starburst vyriausiasis technologijų pareigūnas Dainas Sundstromas interviu „TheCUBE“, „SiliconANGLE“ srautinės žiniasklaidos platformoje.
Tokie lentelių formatai, kaip „Delta Lake“, „Iceberg“ ir „Hudi“, gali apdoroti didelius duomenų kiekius ir gerai veikti su populiariais analizės įrankiais, tokiais kaip „Apache Spark“, „Apache Hive“ ir „Presto/Trino“. Visi trys naudoja „Parquet“ stulpelių saugojimo failo formatą, kuris yra optimizuotas duomenų apdorojimo sistemoms, tokioms kaip „Apache Hadoop“ ir „Apache Spark“.
Delta Lake buvo ankstyvas lyderis, tačiau Iceberg ruošiasi jį užtemti. „Dremio“ tyrime nustatyta, kad 39 % respondentų šiuo metu naudojasi Delta Lake, o 23 % daugiau tikisi, kad per ateinančius dvejus metus gaus paramą. „Apache Iceberg“ buvo priimtas 31 proc., tačiau dar 29 proc. tikisi jį pridėti per ateinančius trejus metus. Hudi buvo tolimas trečdalis su 12,5% įvaikinimo.
Hudi šalininkus žlugdo tai, kad jie mano, kad jų lentelės formatas yra geresnis nei alternatyvos. „Hudi“ funkciškai prilygsta populiaresniems broliams ir seserims, tačiau manoma, kad jis geriau valdo įterpimus ir ištrynimus, palaiko labai efektyvų pakeistų duomenų apdorojimą ir saugo kelias duomenų versijas, kad vartotojai galėtų pateikti užklausą konkrečiu momentu.
„Hudi“ yra ypač populiarus realiojo laiko scenarijuose, o tai priklauso nuo „Uber“ šaknų, apdorojančio milijonus tiesioginių duomenų srautų iš savo vairuotojų parkų visame pasaulyje.
Šviečia realiu laiku
„Hudi šviečia dėl prieauginio duomenų darbo krūvio, kai iš Kafka duomenų srauto ištraukiate kai kurių pakeitimų, kad laipsniškai apdorotumėte ir įrašytumėte į paskesnę lentelę“, – sakė Vinothas Chandaras, Hudi kūrėjas ir bendrovės vykdomasis direktorius. „Onehouse Inc.“, kuri sukuria atvirų duomenų „Lakehouse“ platformą. „Jis gali indeksuoti įrašus labai dideliu mastu. Tai leidžia valdyti lentelę neblokuojant rašymo. Tai taip pat vienintelis saugojimo formatas, palaikantis laipsniškus pakeitimus, todėl galite tiksliai pasakyti, kokie įrašai pasikeitė tam tikru momentu.
„Uber“ negalėjo sau leisti laukti lėtų lentelės perskaičiavimo procesų, reikalingų naujiems duomenims pritaikyti, todėl „Hudi“ buvo sukurtas taip, kad būtų nuolat tobulinama schema arba duomenų saugojimo duomenų bazėje planas be rankinio įsikišimo ar apdorojimo sustabdymo.
Ant popieriaus Hudi ir Iceberg atrodo beveik identiški. „Starburst“ neseniai paskelbė šių dviejų palyginimą, įskaitant lentelę, kurioje rodomas beveik funkcijų lygumas. Gilbertas sakė, kad „Iceberg“ yra linkęs naudoti daug užklausų, pavyzdžiui, duomenų analizę, o „Hudi“ laikomas pranašesniu apdorojant operacijas.
„Hudi buvo sukurtas duomenims gauti beveik realiuoju laiku, o kiti nėra tokie geri“, – sakė jis. „Jie yra labiau optimizuoti užklausų našumui, skaitymui nei rašymui.”
Jis pažymėjo, kad tai natūralus „Iceberg“ pranašumas, nes duomenų ežerai dažniau naudojami užklausoms, o ne operacijoms.
Dabartinis Hudi trečiosios vietos statusas „daugiausia susijęs su jo architektūra, kuri, iš pirmo žvilgsnio, nėra tokia intuityvi kaip kitos“, – sakė „Dremio“ vyresnysis technologijų evangelistas Alexas Mercedas. „Tačiau didelis dalykas, kurį „Iceberg“ turi Hudi ir deltos atžvilgiu, yra jo ekosistema – ne tik įrankiai, nuskaitantys ar rašantys formatą, bet ir sprendimai, skirti bendram ežero valdymui.
Tai apima sklandų integravimą su atvirojo kodo analitinėmis sistemomis, tokiomis kaip „Spark“, „Trino“, „PrestoDB“, „Flink“ ir „Hive“, taip pat vis daugiau metaduomenų valdymo ir valdymo įrankių.
Ekosistemos pranašumas
Sukurti ekosistemą buvo vienas iš pirminių tikslų, sakė Ryanas Blue, „Databricks“ techninio personalo narys ir „Iceberg“ kūrėjas, kai dirbo „Netflix“. „Techniškai tai geras formatas, bet juo taip pat visi pasitiki ir naudos“, – sakė jis interviu „TheCUBE“. „Manau, kad tai tikriausiai yra didžiausia priežastis jį naudoti.”
„Hudi“ nėra tingus, kai nori užkariauti kūrėjų meilę, „Onehouse“ tinklaraštyje Chandaras rašė išsamiai paaiškindamas Hudi pranašumus. Jis pažymėjo, kad Hudi užregistravo daugiau nei 25 000 Github sąveikų per pastaruosius 12 mėnesių, bendradarbiavo iš 50 įmonių ir turi aukštesnį vidutinį „žvaigždutės“ arba palankumo įvertinimą nei „Iceberg“, remiantis „Redpoint Ventures LLC“ OSS indeksu ir prietaisų skydeliu.
Tačiau kūrėjo patvirtinimas ir rinkos dalis ne visada koreliuoja. „Nemanau, kad nė vienas iš jų gerokai pranoksta kitus. Manau, kad tikroji problema kyla dėl įvaikinimo“, – sakė „Starburst“ Borgmanas. „Aiškiai atrodo, kad ledkalnis yra žmonių pasirinkimas.
„XTable“ projektas, šiuo metu inkubuojamas „Apache“ ekosistemoje, yra galimas suderinamumo problemų sprendimas. „Iš esmės siekiama, kad visos lentelės atrodytų vienodai iš sąsajos API lygio“, – sakė Borgmanas. Tačiau integravimo sluoksniai dažnai sukelia našumą, o XTable yra palyginti naujas produktas, kuris dar nepalaiko kai kurių lentelių tipų ar sinchronizuotų laiko žymų.
„Projektai, tokie kaip Apache XTable, palengvina kelių formatų naudojimą, bet vis tiek sakyčiau, kad Iceberg yra numatytasis formatas daugeliu atvejų, kai Hudi naudojamas srautiniam perdavimui“, – sakė Dremio's Merced.
Gilbertas buvo baisesnis. Hudi, sakė jis, „bus niša“.
Vaizdas: Pixabay
Jūsų balsas už paramą mums yra svarbus ir padeda mums išlaikyti turinį NEMOKAMĄ.
Vienu spustelėjimu toliau palaikome mūsų misiją teikti nemokamą, išsamų ir aktualų turinį.
Prisijunkite prie mūsų bendruomenės „YouTube“.
Prisijunkite prie bendruomenės, kurią sudaro daugiau nei 15 000 #CubeAlumni ekspertų, įskaitant Amazon.com generalinį direktorių Andy Jassy, „Dell Technologies“ įkūrėją ir generalinį direktorių Michaelą Delą, „Intel“ generalinį direktorių Patą Gelsingerį ir daugybę kitų šviesuolių bei ekspertų.
AČIŪ