Karmasphere soll Nutzung von Hadoop/MapReduce vereinfachen

Dienstag, 17. August 2010

Hier ist ein interessantes Unternehmen, interessant für alle, die jetzt oder künftig mit sehr großen Datenmengen umgehen müssen: Das US-Unternehmen Karmasphere bietet eine Analytics Software, mit der sich Anwendungen für Hadoop/MapReduce leichter als bisher entwickeln, testen und überwachen lassen.

"Karmasphere is a business analytics software company bringing Apache Hadoop power to the desktop. Karmasphere enables companies to unlock the competitive advantages within their large datasets by providing a class of client-side software."

Kostenloser Download einer Demoversion

Die Software kann als Demo-Version genutzt werden. Was die Lösung am Ende kosten soll, geht aus der Website von Karmasphere leider nicht hervor, dazu muss man mit der Firma in Kontakt treten. Aktuell scheint der Marktaufbau im Vordergrund zu stehen.

Das Tool ist auch für die Entwicklung von Anwendungen auf der Amazon Elastic Cloud geeignet.

Wenn man Kundenkommentaren auf der Website glauben darf, verkürzt sich die Entwicklungszeit einer Cloud-Computing-Anwendung von ein bis zwei Wochen auf wenige Stunden.

Die Software selbst läuft auf Windows, Mac OS und Linux. Mit Hilfe von Karmasphere können auch Tests auf dem eigenen Desktop gefahren werden, ohne dass man dafür zuerst einen Computer-Cluster einrichten muss. Das eröffnet einige Möglichkeiten, das ein oder andere größere Datenset testweise zu betrachten.

Der Chart (aus einer Karmasphere-Präsentation) bietet eine Übersicht über die wesentlichen Einsatzbereiche:
karmasphere_benfits.jpg

Das Unternehmen hat im Frühjahr 2010 fünf Millionen US-Dollar von zwei Risikogeldgebern erhalten. Sitz ist in Los Gatos in Kalifornien. Zu den Gründern zählen zwei Unternehmer, die offenbar mit dem Aufbau und dem Verkauf neuer Firmen bereits erfolgreich waren.

Links:
Da wir die Software bisher nicht selbst getestet haben, hier erst einmal einige Links mit weiteren Informationen.

Website Karmasphere

Business Wire (Pressemitteilung): Karmasphere Secures $5 Million to Commercialize Software for Big Data Analysis (8. April 2010)

Wall Street Journal: Karmasphere: Helping to Tame a Tool Called Hadoop (8. April 2010)

NoSQL: Blog bietet Informationen für Entwickler

Freitag, 13. August 2010

Gerade gefunden über Nat Torkington bei O'Reilly: Alex Popescu schreibt und sammelt Nachrichten aus dem "Big Data"-Kontext. Interessant vor allem für Entwickler, weil hier viele technische Details diskutiert werden - zum Beispiel der Nutzungsstatus von Cassandra bei Digg, Facebook, etc.

nosql-magazine.jpg

Das englischsprachige Angebot ist daher eine gute Ressource für alle, die mit dem ein oder anderen Baustein im NoSQL-Bereich arbeiten. Diskutiert werden zum Beispiel folgende Themen. (Anmerkung: Hier jeweils mit Link zur Hauptseite bzw. Wikipedia hinterlegt, damit für Neueinsteiger eine Orientierung möglich ist)

  • Hadoop
  • MongoDB
  • Cassandra
  • CouchDB
  • Redis
  • HBase
  • Riak
  • MapReduce
  • Neo4j
  • Links:
    My NoSQL (Alex Popescu)

    Bei Interesse siehe auch diesen etwas älteren Beitrag zum Thema NoSQL bei DailyData.

    Verpasste Chancen bei Yahoo

    Freitag, 13. August 2010

    Wer sich noch erinnern kann: Es gab eine Zeit, in der Yahoo eines der wichtigsten Internet-Unternehmen war. Das Unternehmen jede Mengen Möglichkeiten, um die Trends der Zukunft zu gestalten. Stattdessen erlebt der Internet-Pionier bereits Jahren Neustrukturierung nach Neustrukturierung.

    Paul Graham hat dazu einen sehr interessanten Text veröffentlicht, in den eigene Erfahrungen einfließen. Titel: "What happened to Yahoo". Graham hatte bereis 1995 sein damaliges Unternehmen Viaweb an Yahoo gekauft, daraus wurde später Yahoo Stores.

    Falsches Selbstverständnis

    In der Rückschau sieht Graham den wesentlichen Fehler in einem falschen Selbstverständnis des Unternehmens. Yahoo war erfolgreich, weil die Gründer rascher und besser lernten, mit der HTML/WWW-Technologie umzugehen. Die Wurzeln lagen also in der Fähigkeit zur Programmierung von Code. Yahoo selbst sah sich aber eher als Medienunternehmen, mit einem Portal aus Inhalten und Werbebannern.

    "The worst consequence of trying to be a media company was that they didn't take programming seriously enough. Microsoft (back in the day), Google, and Facebook have all had hacker-centric cultures. But Yahoo treated programming as a commodity. At Yahoo, user-facing software was controlled by product managers and designers. The job of programmers was just to take the work of the product managers and designers the final step, by translating it into code."

    Beim Aufstieg von Google nur aus Zuschauer dabei

    Eine der Folgen war, dass Yahoo dem Aufstieg von Google nur zusah, statt eine schlüssige Strategie zu entwickeln. Das, so Graham, fing schon an der Basis an, bei der Frage, welche Mitarbeitergruppe eigentlich die größte Bedeutung für das Unternehmen hat.

    "One obvious result of this practice was that when Yahoo built things, they often weren't very good. But that wasn't the worst problem. The worst problem was that they hired bad programmers. Microsoft (back in the day), Google, and Facebook have all been obsessed with hiring the best programmers. Yahoo wasn't. They preferred good programmers to bad ones, but they didn't have the kind of single-minded, almost obnoxiously elitist focus on hiring the smartest people that the big winners have had. And when you consider how much competition there was for programmers when they were hiring, during the Bubble, it's not surprising that the quality of their programmers was uneven."

    Die Schlussfolgerung ist auch für andere Unternehmen interessant, zumindest für all jene, deren künftige Marktposition von Technologie beeinflusst wird. Und das sind eine ganze Menge.

    "In technology, once you have bad programmers, you're doomed. I can't think of an instance where a company has sunk into technical mediocrity and recovered. Good programmers want to work with other good programmers. So once the quality of programmers at your company starts to drop, you enter a death spiral from which there is no recovery."

    Link:
    What Happened to Yahoo

    IDC: Prognose zu Umsätzen "Software as a Service"

    Dienstag, 10. August 2010

    Die Umsätze mit Lizenzen gehen runter, die Zahl der Angebote für Software, die man über einen bestimmten Zeitraum mietet, soll hingegen steigen. Das ist die Essenz einer neuen Studie des Marktforschers IDC. Die Prognose bis 2014 lautet, dass sich der Markt für Mietsoftware deutlich vergrößern wird. Allerdings zu Ungunsten der bisher von vielen großen Anbietern favorisierten Lizenz-Modelle:

    A new IDC study shows that the Software as a Service (SaaS) market had worldwide revenues of $13.1 billion in 2009. IDC forecasts the market to reach $40.5 billion by 2014, representing a compound annual growth rate of 25.3%.

    Das klingt erst einmal ganz gut (für die Anbieter). In einem späteren Absatz zeigt sich aber auch, dass der Wandel nicht nur Umsatzzuwächse, sondern auch eine Verlagerung bisheriger Budgets erzeugen kann.

    The traditional license is on the way out, IDC adds. Traditional packaged software and perpetual license revenue are in decline and IDC predicts that a software industry shift toward subscription models will result in a nearly $7 billion decline in worldwide license revenue in 2010. As a result, a permanent change in software licensing regime will occur.

    Wer sich für neue Modelle interessiert, die vor allem für kleinere Softwareanbieter funktionieren, der kann die kleine Serie "Bootstraped, profitable and proud" bei "37 Signals" aufrufen. Hier werden - weitgehend ohne Hype - Geschichten über funktionierende Angebote eher kleiner Firmen erzählt, die es mit eigenen Modellen zur Profitabilität gebracht haben. Meist ohne Fremd- oder Risikokapital. Anregend - siehe Links unten.

    Link:
    IDC: very soon, a third of all software delivered via cloud | ZDNet (9.8.2010)
    37 Signals: Portrait "Campaign Monitor"
    Weitere Firmenportraits

    Eureqa: Analysetool sucht nach Formeln

    Montag, 09. August 2010

    In den Daten steckt die Antwort, aber welche? Bei vielen Datenbeständen wäre es interessant, eine offene Frage zu stellen: In welchem Zusammenhang stehen diese Daten? Das wäre ein klarer Gegensatz zum verbreiteten Ansatz vor allem nach erwarteten Antworten zu suchen.

    Die Cornell University hat mit "Eureqa" bereits 2009 eine Anwendung veröffentlicht, die in Datenbeständen nach Formeln sucht, mit denen sich die Datenergebnisse erklären können. Im Grunde wird getestet, ob die Verteilung der vorhandenen Daten mit irgend einer bekannten Formel erklärt werden kann. Das Programm kann nicht alles, gilt aber unter Forscher als interessanter Ansatz. Ein beispielhafter Anwendungsbereich ist die Biologie bzw. das Verhalten von Populationen mit multiplen Einflussfaktoren.

    "Eureqa is a software tool for detecting equations and hidden mathematical relationships in your data. Its primary goal is to identify the simplest mathematical formulas which could describe the underlying mechanisms that produced the data. Eurequa is free to download and use."

    Hier ist das Video. In einem Artikel bei "Wired" werden allerdings auch noch einige Unzulänglichkeiten und Grenzen des Tools erklärt (siehe Link unten):

    Links:
    http://ccsl.mae.cornell.edu/eureqa
    Wired: Download your own robot scientist (3. Dezember 2009)

    Amazon Web Services: Analysten prognostizieren stark steigende Umsätze

    Dienstag, 03. August 2010

    Das als Online-Buchhändler gestartete Unternehmen Amazon ist längst ein Kaufhaus für fast alles. Daraus entstand viel Erfahrung im Umgang mit dynamischen IT-Systemen, dieses Know-how bietet Amazon mit seinen Web Services erfolgreich am Markt an. Bisher hat Amazon keine Zahlen für diesen Bereich veröffentlicht, angesichts der großen Popularität stellt sich die Frage, ob und wie viel das Unternehmen mit diesen Services eigentlich verdient.

    Die Antwort steht heute bei GigaOm: Aus dem bisherigen Nebengeschäft könnte innerhalb der nächsten drei Jahre eine solide Ertragssäule werden, so zumindest die Prognose von zwei Analysten der Bank UBS. Sie glauben, dass Amazon die Umsätze von 500 Millionen Dollar in diesem Jahr auf 2,54 Milliarden verfünffachen kann. Da der Vertrieb ohne eine Verkaufsorganisation weitgehend über das Web abläuft, sind die Gewinnprognosen recht rosig.

    "Today, UBS Investment Research analysts Brian Pitz and Brian Fitzgerald released a report which puts revenue numbers against Amazon’s web services. The duo estimate that in 2010, AWS will generated about $500 million in revenues and will grow this to $750 million by 2011. By 2014, it would bring in close to $2.54 billion in revenues."

    Link:
    How Big is Amazon’s Cloud Computing Business? Find Out

    Wie Menschen mit Fakten umgehen und was das für Datenvisualisierung bedeutet

    Freitag, 23. Juli 2010

    Es ist ein Rätsel. Trotz vieler Sicherungssysteme und Kontrollen entstehen in großen Organisationen und in der Gesellschaft immer wieder Situationen, die ins Desaster führen, sich aber scheinbar nicht verhindern lassen.

    "New Economy", Subprime-Krise und auch diverse Unternehmenspleiten sind gute Beispiele dafür. Trotz vieler Systeme und Mechanismen, die uns mit Informationen versorgen, kommen wir immer wieder zu den falschen Schlüssen - bis zu dem Punkt an dem sich die Katastrophe nicht mehr verhindern lässt. Wie kann das sein?

    Die US-Zeitung "Boston Globe" hat einen Artikel veröffentlicht, der die Frage teilweise beantwortet: "How Facts backfire" berichtet über Erkenntnisse von Forschern, die untersucht haben, wie sich Menschen verhalten, wenn ihnen Fakten präsentiert wird. Verkürzt: Diejenigen, deren Annahmen durch die Fakten klar widerlegt werden, tendieren dazu die falsche Einschätzung eher zu verstärken anstatt sie zu ändern. (weiterlesen…)

    Lustige Geschichte: Der Dieb, der das falsche iPhone klaute

    Donnerstag, 22. Juli 2010

    Ein Zeitungsbericht aus San Francisco. Hat zwar nur am Rande mit Daten zu tun, aber allemal mit Technologie. Hier ist die ganze Story, bei der man an verschiedenen Stellen laut auflachen muss: Crime Scene : San Francisco's unluckiest thief

    Flipboard: Wie macht man aus Daten und Feeds ein spannendes Magazin?

    Donnerstag, 22. Juli 2010

    Der US-Blogger Robert Scoble ist begeistert über eine neue App, die für das iPad verfügbar ist: Flipboard ist ein "personalisiertes soziales Magazin". Das Ganze funktioniert wie bei einem RSS-Reader, wird aber anders als bisher visuell sehr schön dargestellt.

    Die Inhalte werden zuvor vom Freundeskreis und favorisierten Autoren gefiltert, die App greift auf RSS, Twitter, Facebook zu und stellt über die Links der eine ständig neue Auswahl interessanter Inhalte zusammen. Das ist nicht nur Spielerei, Heavy User wie Robert Scoble sehen auch ganz praktische Vorteile sehr große Mengen an Content zu durchforsten.

    Hier ist ein Video, in dem Flipboard präsentiert wird. Sehr schön. So bitte weiter.

    flipboard_screenshot.jpg

    Interessant ist, dass dieses Tool mehr ist als eine visuelle Spielerei. Das kann man an der Reaktion eines "Heavy Users" wie Robert Scoble ablesen. Zitat aus einem (von mehreren) Artikeln über das Tool: "Scobleizer":

    "… I’m always looking to be more productive. Yes, I’ve tried Pulse and I’ve tried lots of other readers (I was one of the first to use NewsGator and Google Reader). But nothing is as productive — for me — as Flipboard is. I actually measured this. I got about 30% more favorites done in a day using Flipboard than I got done in the same amount of time with a streaming reader. And using Flipboard is 10x more fun!"

    Scoble lobt vor allem den clever konstruierten Algorithmus, der Flipboard antreibt: Bestimmte Beiträge werden größer dargestellt, das gibt der Nachrichtenpräsentation mehr Struktur:

    "Now, what’s missing in, say, Seesmic or Tweetdeck? That’s right. Any kind of editorial weighting to the headlines and photos are totally missing. Entry points are gone. Not all tweets are the same. One about Apple’s financial results SHOULD be bigger and more important than one about what I had for lunch today. In Flipboard, which isn’t always perfect because it’s done by algorithms, there is weight and photos and an attractive design."

    Nachtrag: Viele positive Artikel über Flipboard haben jetzt erst einmal den Server der kleinen Firma einknicken lassen.

    Links:
    Flipboard.com

    Heiter, nicht wolkig: OpenStack bietet Cloud Computing als Open Source Software

    Montag, 19. Juli 2010

    Cloud Computing ist ein vieldiskutiertes Konzept. Die Grundidee lautet, Daten in einer flexiblen "Wolke" zu speichern. Das bietet Kostenvorteile und einige neue Möglichkeiten, insbesondere wenn sehr große Datenmengen verwaltet oder bereit gestellt werden sollen.

    Das Konzept hat aber auch Nachteile, die meisten davon wurden in dem weitsichtigen Whitepaper "Above the clouds" formuliert.
    Einer der Kritikpunkte am gesamten Konzept: "Data lock in". Gemeint war, dass nach der Entscheidung für einen Anbieter eine Migration eigener Daten sehr schwierig sein könnte.

    Dieses Problem ist jetzt seiner Lösung ein gutes Stück näher gerückt: Der US-Webhoster Rackspace gab bekannt, die Software für die selbst entwickelte Computing Cloud als Open Source Software bereit zu stellen. Das bedeutet: Unternehmen können jetzt eine eigene Cloud aufbauen, lediglich die Hardware wird angemietet (oder auch selbst betrieben). Wer mag und die entsprechenden Kenntnisse hat, kann auch selbst als Cloud Betreiber auftreten.

    Standardisierung im Cloud Computing

    Nach den Berichten in US-Technologie Blogs wie zum Beispiel "TechCrunch" zu urteilen, wird der Schritt auch von Wettbewerbern in diesem Markt begrüßt: Eine Open Source Basis für die Clouds der Zukunft kann zu höherer Flexibilität führen und damit insgesamt die Nachfrage weiter ankurbeln. Als erste Referenz kann das Projekt bereits die Beteiligung der NASA vermelden. Die Regierungsorganisation steuert Software aus der NASA Nebula Cloud Plattform bei.

    Zitat aus einem Bericht bei TechCrunch:

    "RackSpace says they want to drive interoperability in cloud services to avoid vendor lock-in, and help create industry standards. More than 25 companies have shown interest in the project, says RackSpace, or are actively working on the code. They include AMD, Citrix, Cloud.com, Cloudkick, CloudSwitch, Dell, enStratus, FathomDB, Limelight, Nicira, NTT DATA, Opscode, Peer 1, Puppet Labs, RightScale, Riptano, Scalr, Sonian, Spiceworks and Zuora."

    Flexible Lizenz mit vielen Freiräumen

    Der Code wird unter der Apache 2 Lizenz veröffentlicht, die Nutzern relativ große Freiräume bietet: Erlaubt sind die Restribution des Codes, aber auch der Aufbau proprietärer Software auf Basis des Open Source Codes und die Distribution dieser Eigenschöpfungen mit relativ wenigen Restriktionen (wiederum aus "TechCrunch")

    Eine Beschreibung des Projekts und seiner Ziele findet sich unter der Adresse: OpenStack.org

    Hier die wichtigsten Beschreibungen und Anwendungsziele:

    OpenStack: The 5-minute Overview
    What the software does: The goal of OpenStack is to allow any organization to create and offer cloud computing capabilities using open source software running on standard hardware. OpenStack Compute is software for automatically creating and managing large groups of virtual private servers. OpenStack Storage is software for creating redundant, scalable object storage using clusters of commodity servers to store terabytes or even petabytes of data.

    Why open matters: All of the code for OpenStack is freely available under the Apache 2.0 license. Anyone can run it, build on it, or submit changes back to the project. We strongly believe that an open development model is the only way to foster badly-needed cloud standards, remove the fear of proprietary lock-in for cloud customers, and create a large ecosystem that spans cloud providers.

    Who it's for: Institutions and service providers with physical hardware that they'd like to use for large-scale cloud deployments. (Additionally, companies who have specific requirements that prevent them from running in a public cloud.)

    How it's being used today: Organizations like Rackspace Hosting and NASA are using OpenStack technologies to manage tens of thousands of compute instances and petabytes of storage.

    Timeline: Openstack was announced July 19th, 2010. While many components of OpenStack have been used in production for years, we are in the very early stages of our efforts to offer these technologies broadly as open source software. Early code is now available on LaunchPad, with an inital release for OpenStack Storage expected in mid-September and an initial release for OpenStack Compute expected in mid-October.

    Links:
    TechCrunch: OpenStack.org: RackSpace Open Sources Their Cloud Services Platform, And Gets NASA On Board (18.07.2010)

    ZD Net: "Rackspace bringt Open-Source-Cloud "Open Stack" (19.07.2010)

    Golem.de: Freie Cloud-Plattform von Rackspace und der Nasa (19.07.2010)