?Hortonworksの創設者:Ambari 2.0はHadoop 2.0と同じくらい大きな契約です

Hortonworksの共同設立者Arun Murthy:Hadoopではデータガバナンスが完全には解決されていませんでした。

Hadoopの会社Hortonworksは忙しかった。 12月のIPOと、Pivo​​talやIBMなどのOpen Data Platformの作成という論争の後、ちょうど新しい買収を発表し、AtlasセキュリティプロジェクトをApache Software Foundationに提出しました。

しかしHartonworksの共同設立者でArun Murthyは、Yahooの初期の時代からマイルストーンのYARNリソース管理層の後ろにいるHadoopに関わっており、Ambariの新バージョンを特に挙げている。

「現時点でAmbariは最も包括的なオープンソース管理ツールなので、2.0は本当に大きな問題であり、YARNとHadoop 2.0がAmbareにとって大きなメリットだ」とMurthy氏は語った。

「これは事実上のオープンソース管理プラットフォームになりつつあり、明らかに最も広く採用されており、Hadoop向けに作られていますが、Hadoopに限られていません」

Murthyがエンタープライズユーザーの鍵としているAmbariの新機能の1つは、クラスタ全体をシャットダウンせずにソフトウェアを更新できるローリングアップグレードです。

「2.0では、MapReduceアプリケーションの実行を継続しながら、ソフトウェアのインプレースアップグレードを行うことができます。違いはありません」とMurthy氏は述べています。

率直に言って、それは大量の工学であり、私たちは顧客から隠れています。アンバリの観点からは、単に「ボタンをクリックする」ことです。しかし、重要なことは、HDFS、YARN、HBase、Oozie、Pig、Hiveといった基礎プロジェクトのすべての作業でした。すべての20個のプロジェクトは、ソフトウェアをアップグレードするときにシームレスな体験を提供できるように修正する必要がありました。

「YARNとHDFSでこれを行うだけでは不十分でした。なぜなら、あなたのMapReduceジョブがHBaseやHiveメタストアで何かにアクセスしている可能性があるからです。

Ambari 2.0で重要なネットワーク認証プロトコルKerberosなどのセキュリティ設定プロセスを自動化することに加えて、GangliaとNagiosを置き換える新しいHadoopメトリクスと監視システムがあります。

Hadoopを監視することは大きなデータの問題であるため、「Hadoopを使用して自分自身を監視してみてはいかがですか」と言いました。アンバリが自動的にあなたのために管理するHBaseクラスタに追加する」とMurthy氏は語る。

最近のPivotalによるOpen Data Platformの発表は、Hadoopの社長、Herb Cunitz氏によると、Hadoop市場における変化を伝える兆候であるとの見通しを示している。

プラットフォームには、指標コレクションを限定するものは何もありません。 2年または20年間の測定基準が必要かどうかを選択できます。私たちは本当に気にしません。あなたが望むか、または余裕があるかのように、あなたは選択をします。

その他の新しいAmbariの機能には、Hadoopが導入されているハードウェア、ソフトウェア、環境を分析し、適切な設定を自動的に識別する自動セットアップが含まれます。

SQL-on-HadoopクエリエンジンHiveとTezフレームワークのカスタムビューもあり、ユーザーはSQLクエリを分析してそのパフォーマンス特性を理解できます。

CouchbaseはHortonworks Hadoopと単一の分析とトランザクションデータストアを結びつける; Databricks CEO:なぜApache Spark上で多くの企業が起きるかMySQL:Perconaは大きなデータセット用のTokuDBストレージエンジンを接続し、ClouderaはHadoop開発者Cask、MesosphereとMapRリンクTeradata社は大規模なデータアプリケーションを展開し、Loomを更新、MapR CEOはHadoop、2015年のIPO可能性を語る、TeradataはアーカイブアプリメーカーRainStorを買収、Hortonworksは認証プログラムを拡大し、企業を加速するHadoopの採用:ActianはSPARQL Cityのグラフ解析エンジンをその兵器に追加し、Splice MachineのHadoopデータベースのSQLは一般公開される

ビッグデータ分析、Big Data Analytics、DataRobotはデータサイエンスの欠点を自動化することを目指している、Big Data Analytics、MapR創設者のJohn Schroederが辞任し、交換するCOO

「私たちは素晴らしいUIを持っています。ここでは、セルフサービスのデバッグを行うことができる素晴らしいビジュアルペインがあります。過去にHiveクエリを作成する必要があったとき、Hiveを実際にデバッグする方法を理解していた人、 “Murthyは言った。

「Ambariにすべての機能を組み込むことで、私たちの目標(そして多くのステップでそこに到達する)は、ユーザーがクエリが高速または低速である理由を理解できるようにすることができるようになりました。 Ambariが成熟していることを反映しています。これらの機能をすべて備えていないので、使いやすさとデバッグ能力に焦点を当てています。

先週BrainBreakテクノロジーを導入したSequenceIQを取得したAmbariは、Hadoopクラスタインスタンスのスタック、コンポーネントレイアウト、および設定を指定するBlueprints機能を使用しています。 Cloudbreakを使用すると、Hadoopクラスタの複数のインスタンスとバージョンをクラウド、Dockerコンテナ、またはベアメタルで実行できます。

「Hadoopは複雑になっていると理解していますが、20種類のコンポーネントがありますが、多くの場合、複雑さはほとんどありません。IoT [Internet of Things]ではStormとKafkaがほしいと思っています。 HiveとMicroStrategyがほしいと思うかもしれません」とMurthy氏は言います。

Hadoopと大きなデータの詳細

AmbariがBlueprintで行うことは、あなたがBlueprintを定義できることです。必要なコンポーネントの定義であるIoT Blueprint、analytics Blueprint、data-science Blueprintを考えてみましょう。あなたが望むものを選ぶことができますが、変更することができる既製の青写真を与えることは明らかです。

クラウドのPivotalは、Open Data Platform Hadoopイニシアチブの蓋を持ち上げるとともに、Hortonworksとの関係を強化し、コアのビッグデータ技術をオープンソース化しています。

クールな部分は、今あなたがこれらの青写真を持っていることです、Cloudbreakを使用してクラウドに展開することができます。クラウドに展開することも、内部のOpenStackクラスタに展開することもできます。これにより、アプリケーションの複雑さを非常に簡単に管理することができます。

彼は、今日多くの人々が1つの雲を選択しているが、将来は複数の雲が一般的であると付け加えた。

「これであなたは本当に気にしません。AzureでIoTをやってください。データサイエンスをGoogleでやってください。本当に問題ではありません。

Blueprints機能は、Hadoopスタックの特定の部分を他のコンポーネントに置き換えることができ、スタックのその部分のカスタマイズされたビューを提供します。

Hortonworksは、アンバリで多くの作業が行われている一方で、SAPや他の多くの企業(Aetna、JPMorgan Chase、Merck、SAS、Schlumberger、Target)にも関与しています。最終的にHadoopの最下層にHDFSとYARNが存在することが予想されます。

周辺のセキュリティのためのKnox、中央のセキュリティポリシーのレンジャー、データライフサイクル管理のためのFalconといった多くの既存のApacheプロジェクトと組み合わされます。 Atlasが登場する場所は、Hadoopのメタデータの管理です。

たとえば、データガバナンスの監査側で使用して、企業が特定のデータに触れたのは誰かを特定することができますが、セキュリティポリシーと連動して機能します。

「データ管理全体、データガバナンスは解決されていないHadoopの一部ですが、スタックの最下位レベルのプラットフォームの中核に欠けているのは、メタデータに焦点を当てたものでした」とMurthy氏は言います。

「これにはタグのようなものも含まれているので、テーブルや列に機密情報としてタグを付けることができるようにしたかった。タグを付けるとすぐに特定のセキュリティポリシーを適用する必要がある」

データアーキテクチャーに関しては、通常の企業が豊富なリソースを持つWebジャイアントをエミュレートできるようになることはまずありません。 Neo TechnologyのEmil Eifrem最高経営責任者(CEO)は、このような可能性は、あなたが思っている以上に近い可能性があると述べている。

Atlasプロジェクトでは、データ資産のロールベースのアクセスポリシーの設定だけでなく、データの属性に関するロールベースのアクセスポリシーの設定についても説明しています。この機能により、たとえば、個人識別可能な情報(米国のプライバシー規則に基づくPII)としてタグ付けされたすべてのデータには、それが通過した場合でもポリシーによってアクセスが制限されます。

「自動的に、誰が何をデータにするのかにかかわらず、ポリシーはすべて継承されます。タグが継承されるのと同じ方法で、ポリシーは継承されます」とMurthy氏は言います。

「MapReduceプログラムやSparkを書く人、Hiveを使ってSQLを使う人は、新しいデータセットを生成するときにそれらのタグを継承する必要があります」

たとえば、2つの列(そのうちの1つにPIIデータが含まれている)が結合されている場合、出力は、データ資産の系統と呼ばれるPIIの影響を受けると自動的にタグ付けされます。

また、データセットを生成するために使用されたSQLクエリを知りたい場合は、プロセスに戻ってプロセスを変更したり、別のSQLクエリを作成する必要があるかもしれません。特定のコード行からの暴露を理解することができます」と彼は述べています。

Murthyにとって、Atlasプロジェクトに携わる企業の混在は、Hadoopのオープンソースコミュニティの幅広い可能性への潜在的な影響として、珍しいことです。

「AetnaやMerckやSAPとのコラボレーションの価値は、Hadoopの考え方をより主流にすることができるということです。それらを使って作業することで、その痛みのポイントを直接理解し、Hadoopプラットフォーム、特にデータガバナンスとデータ管理 “と述べた。

「興味深いのは、主流の企業がオープンソースソフトウェアを快適に利用できるだけでなく、今や彼らがそれに貢献することが快適であることを示していることです。

Murthy氏は、これはまさにプロプライエタリベンダと仕事をしていたビジネスのタイプで、要件を満たしてから2年後に問題の解決につながる可能性のあるソフトウェアを見ていると考えています。

現在、Atlasイニシアチブと協力して、彼らはコードの専門知識を提供してロードマップに直接影響を与えることができます。それは大きな変化だ」と語った。「コミュニティが大きくなればなるほど、ファンネルが大きくなり、スピードも上がる。

Murthyは、SparkのNFLabsからiPythonのようなZeppelinのWebベースのノートブックインターフェースを指しています。コミュニティの進歩の一例です。

“あなたがデータ科学者であれば、これはあなたがスクリプトを見ていない高められたユーザーインターフェイスを提供します.SQLクエリでは、列グラフや円グラフが必要な場合があります。本当にクールなデータサイエンスをやっているかもしれないし、ノートブックを共有して共同で編集したいと思っています」と彼は言いました。

イノベーションはどこからでももたらされ、生態系の担い手としての対応は、起こっているイノベーションの最高のものを選別して導入することです」

LinkedInが新しいブログプラットフォームを発表

これはBig OLAPの時代ですか?

DataRobotは、データサイエンスの果実の低さを自動化することを目指しています

MapRの創設者John Schroederが辞任し、COOが辞任