ODPi runtime spec syftar till att defragmentera Hadoop

Open Data Platform Initiative (ODPi) har meddelat sin första Runtime specifikation och tillhörande testsvit för Hadoop. Syftar till att skapa en universell spec för de centrala delarna i en Hadoop fördelning, i syfte att standardisera, minska fragmenteringen och maximera kompatibiliteten gör ODPi Runtime sin debut idag efter mycket fanfar, gå tillbaka mer än ett år.

Härstammar från Apache Hadoop 2.7, runtime specifikation funktioner HDFS, garn och MapReduce komponenter och är en del av den gemensamma referensplattform ODPi kärnan.

Initial kontroverser, när det började, det ODPi var något hindras av en konspirationsteori – att organisationen var ett fordon för Hortonworks (en dominerande grundarna, tillsammans med Pivotal) att standardisera Hadoop runt sin egen distribution, den Hortonworks Data Platform (HDP ). ODP var i själva verket bygger på kärnan i HDP (och endast en bokstav bort från det), och ingår även Apache Ambari som, även om en Apache open source-projekt, var och är ändå Hortonworks “teknik, och inte används av Cloudera eller MapR.

Kanske förutsägbart, följde några meningsskiljaktigheter. Mike Olson av Cloudera bloggat om företagets motstånd mot ODPi (dåvarande ODP) och kände att det visade förakt för Apache Software Foundations styrning av Hadoop projektet. MapR var likaså unenthused. IBM och SAS, under tiden, har gått med i konsortiet, som gjorde Altiscale och olika andra företag, inklusive CapGemini.

Evolution, men vissa positiva förändringar kom, inklusive branding (ODP är nu känd som ODPi), styrning (projektet flyttas inom ramen för Linux Foundation) och ledarskap (Hortonworks tog en mer undanskymd roll, och flera andra företag – där finns totalt mer än 25 nu – tecknades den).

Och nu när Runtime spec släpps vi reda på att ODPi klokt beslutat att definiera Ambari som icke-kärn – “. Operations Specification” inklusive det i stället i ett kompletterande Det är en smart, samförstånd flytta. Förmodligen skulle det ha varit en del av ODPi ursprungliga razzia – men åtminstone är det där nu.

Varför det är viktigt, Hadoop distributioner har många komponenter, var och en med en lång frisättning historia, vilket leder till ett stort antal permutationer. Det skapar kostnader och långa testcykler för ISV vill garantera kompatibilitet. Och om det är svårt för ISV: er som är specialiserade på Hadoop utrymme, föreställa sig hur de fattiga kunderna känner.

Decennier sedan, var UNIX ett populärt operativsystem, i strid med DOS och Windows för dominans i vad vi har kommit att kalla företaget. Men antalet Unix-varianter var stor, och den resulterande kund förvirring skada till operativsystemet. Medan Hadoop ekosystem är annorlunda, dess deltagare måste vara vaksamma för att undvika ett liknande öde.

Jag är inte beredd att satsa pengar som Cloudera, MapR och Amazon kommer att överväga att göra sina distributioner ODPi-kompatibel. Men jag är villig att satsa på att om de gjorde det skulle de stora uppgifter industrin hjälpas.

Linkedin avslöjar sin nya blogging plattform

Är detta en ålder av Big OLAP?

DataRobot syftar till att automatisera lågt hängande frukt uppgifter vetenskap

MapR grundare John Schroeder steg ner, COO för att ersätta

Socialt företagande, Linkedin avslöjar sin nya blogging plattform, stora datamängder, är detta en ålder av Big OLAP,? Big Data Analytics, DataRobot syftar till att automatisera lågt hängande frukt uppgifter vetenskap, stora datamängder, MapR grundare John Schroeder steg ner, COO för att ersätta