Etiqueta: Hadoop

Hitachi lanza una plataforma para Big Data basada en Pentaho

El nuevo dispositivo está preconfigurado y simplifica la implementación, operaciones y el escalado de los proyectos empresariales de Big Data.

Hitachi Data Systems Corporation (HDS), ha puesto en el mercado una nueva generación para Big Data de Hitachi Scale- Out Platform (HSP), el nuevo producto de la marca cuenta con integración nativa con la plataforma empresarial Pentaho. El pasado año, Hitachi se hizo con la compañía para impulsar su negocio IoT. De este modo, pretende ofrecer una plataforma preconfigurada que ayude a las organizaciones a obtener valor de las enormes cantidades de datos que se generan con las tecnologías de la información, la tecnología operativa, el Internet de las Cosas y los datos generados automáticamente en sus entornos.

HSP brinda una solución con ampliación horizontal e hiperconvergencia que combina capacidades de computación, almacenamiento y virtualización. El nuevo dispositivo pretende derribar las barreras de desconfianza de muchos usuarios a través de una arquitectura definida por software para centralizar y permitir un almacenamiento además de procesamiento sencillo de grandes conjuntos de datos.

El diseño de ampliación horizontal de HSP proporciona una infraestructura simplificada, escalable y preparada para el uso empresarial de Big Data. También incluye una interfaz de usuario centralizada para automatizar la implementación y la gestión de entornos virtuales para marcos destacados de Big Data de código abierto, incluido Apache Hadoop, Apache Spark y paquetes comerciales como Hortonworks Data Platform.

“Muchas empresas no cuentan a nivel interno con conocimientos especializados para realizar análisis de Big Data a escala con fuentes de datos complejos en entornos de producción. La mayoría desea evitar los inconvenientes de experimentar con tecnologías en ciernes y buscan una vía clara para obtener valor real de sus datos sin riesgos ni necesidades”, ha asegurado Nik Rouda, analista sénior de Enterprise Strategy Group. “Es por ello que a los clientes empresariales les interesa beneficiarse de sistemas configurados que superan las principales barreras de adopción al reducir el tiempo de obtención de información y valor, lo que acelera la transformación digital”.

-M. Moreno

 

Gratis las herramientas de programación para Microsoft R Server

Microsoft está ofreciendo a desarrolladores y estudiantes herramientas gratuitas para su plataforma de analítica de datos Microsoft R Server. En el blog de la empresa, Machine Learning, el vicepresidente de Microsoft, Joseph Sirosh anunció el nuevo R Server enfocado en los desarrolladores. El software dará una oportunidad a los desarrolladores de probar gratuitamente una versión de empresa del popular lenguaje de análisis de datos antes de comenzar su producción comercial.

El lanzamiento viene acompañado del cambio de nombre de Revolution R Enterprise, que a partir de ahora se llamará Microsoft R Server; es el resultado natural de la adquisición por parte de Microsoft de Revolution Analytics el año pasado.

El servidor del software puede usarse para analizar una gran cantidad de datos en sistemas Linux, Hadoop y Tetradata. Esta edición de desarrollo contiene todas las funciones de su “primo”, pero solo se puede utilizar con fines comerciales. El principal beneficio de utilizar la nueva plataforma de datos de Microsoft es que viene acompañado de un compromiso de mantenimiento para las empresas que lo necesiten; además, viene acompañado de otras mejoras como la habilidad de procesar más información por partes o en paralelo.

 

Quiénes se benefician

Aparte de los desarrolladores, muchos de los profesores y estudiantes que forman parte del programa DreamSpark de Microsoft podrán descargarse también el servidor de forma gratuita; el Servidor R también dará el salto a la plataforma Cloud de la compañía, conocido como Azure, como máquina de soporte virtual. De esta manera los desarrolladores podrán emplearlo en la empresa sin tener que realizar muchos cambios.

Toda esta estrategia es el resultado de las ambiciones de Micrsoft de continuar impulsando el negocio hacia las herramientas del Big Data, la inteligencia artificial y los análisis predictivos. La compañía lleva años invirtiendo en ayudar a las compañías a sacar mayor provecho de la información que tienen; su fin no es otro que el Big Data ayude a los negocios a desarrollar su éxito.

 

-Redacción.

Microsoft despliega una plataforma de análisis de big data basado en R

El gigante de Redmond presenta esta nueva incorporación, Microsoft enfatiza su apoyo a Linux a través de una de las plataformas más empleadas en estadística: R. “El sistema se similar a un sofisticado Cobol orientado a desarrolladores refinados”, señala un analista.

Esta semana, Microsoft ha dado un paso más en la estrategia iniciada el año pasado cuando adquirió Revolution Analytics, con la presentación de una avanzada plataforma de analítica de datos basada en su propio lenguaje de programación denominado R.

Así, Microsoft R Server, es como se denomina esta plataforma de analítica de datos, trabaja con software basado en Windows, Linux, Hadoop y Teradata, y puede encontrarse en la red de la compañía Microsoft Developer Network, y a través del programa de educación de Microsoft, DreamSpark.

El pasado mes de abril Microsoft completó la adquisición de Revolution Analytics, proveedor del producto Revolution R Enterprise (RRE), el cual está basado en R Server. Aunque Microsoft ha renombrado el software R Server en las versiones para Linux, Hadoop y Teradata, conserva el nombre RRE en las versiones de Windows. El sistema Microsoft R Open, considerado por la compañía como una versión avanzada de R, se considera elemento prerrequisito para la instalación tanto de R Server 2016 como de RRE para Windows 2016.

La plataforma R Server soportará una gran variedad de sistemas estadísticos de big data, modelización predictiva y capacidades de aprendizaje automático, todos ellos compatibles con el lenguaje de programación R, afirmaba un experto en sistemas Microsoft desde su blog; al tiempo que añadía que los usuarios podrán desarrollar aplicaciones R de alto rendimiento y disponibilidad, explorar arquitecturas paralelas, desarrollar modelos y establecer escalados de predicciones.

-Marga Verdú

 

Big data: Cambiando el panorama de la base de datos

Cuando se menciona la palabra “base de datos”, la mayoría de la gente piensa en los venerables IRDBMS que han dominado durante más de 30 años. Ese panorama, sin embargo, podría cambiar próximamente.

Dado el nacimiento de nuevos competidores interesados por un pedazo de este mercado empresarial clave, y si bien sus enfoques son diversos, la mayoría comparte una cosa en común: un enfoque agudo en big data.

Gran parte de lo que está impulsando esta nueva proliferación de alternativas es lo que se conoce comúnmente como las “tres de V” subyacente en big data: volumen, velocidad y variedad.

En esencia, los datos de hoy están llegando a nosotros de forma más rápida, y en mayor volumen que nunca además destacar que son más diversos. En otras palabras, es un nuevo mundo de datos y los sistemas de gestión de bases de datos relacionales tradicionales no fueron realmente diseñados para ello.

“Básicamente, no pueden escalar a big data, o a datos rápidos y diversos”, señala Gregory Piatetsky-Shapiro, presidente de KDnuggets, una consultora de análisis y datos científicos.

Big-Data-tres-v

Eso es lo que Harte Hanks encontró recientemente. Hasta el 2013 más o menos, la agencia de servicios de marketing estaba usando una combinación de diferentes bases de datos incluyendo Microsoft SQL Server y Oracle Real Application Clusters (RAC).

“Notamos que, con el crecimiento de los datos en el tiempo, nuestros sistemas no podían procesar la información lo suficientemente rápido”, anota Sean Iannuzzi, director de tecnología y desarrollo de la compañía. “Si continúa comprando servidores, solo puede seguir hacia adelante por el momento. Queríamos asegurarnos de que teníamos una plataforma que podría escalar hacia el exterior”.

Minimizar las interrupciones fue un objetivo clave, anota Iannuzzi, por lo que “no podíamos cambiarnos a Hadoop”.

En su lugar, optó por Splice Machine, que esencialmente coloca una base de datos SQL completa en la parte superior de la popular plataforma de big data de Hadoop, y permite que las aplicaciones existentes se conecten con ella, comenta.

Harte Hanks se encuentra ahora en las primeras etapas de implementación, pero ya está viendo los beneficios, añade Iannuzzi, incluyendo la mejora de la tolerancia a fallas, alta disponibilidad, redundancia, estabilidad y “mejoras de rendimiento en general”.

Hay una especie de tormenta perfecta impulsando la aparición de nuevas tecnologías de bases de datos, indica Carl Olofson, vicepresidente de investigación de IDC.

En primer lugar, “el equipo que estamos utilizando es capaz de manejar grandes colecciones de datos con mayor flexibilidad y más rápido que en el pasado”, señala Olofson.

En los viejos tiempos, tales colecciones “prácticamente tuvieron que ser puestas en discos”, y los datos tuvieron que ser estructurados de una manera particular, explica.

Ahora hay 64 bits de direccionamiento, por lo que es posible crear espacios más grandes de memoria, así como redes mucho más rápidas y la capacidad de afinar varios equipos juntos para que actúen como grandes bases de datos individuales.

“Esas cosas han abierto posibilidades que no estaban disponibles antes”, agrega Olofson.

Las cargas de trabajo, por su parte, también han cambiado. Mientras que hace 10 años los sitios web eran en gran parte estáticos; hoy en día tenemos entornos de servicios web en vivo y experiencias de compras interactivas. Eso, a su vez, exige nuevos niveles de escalabilidad, indica el ejecutivo.

Las empresas también están utilizando los datos de nuevas formas. Mientras que tradicionalmente la mayor parte de nuestra atención se centraba en el procesamiento de transacciones -grabar cuánto vendimos, por ejemplo, y almacenar los datos en el lugar para que puedan ser analizados- hoy estamos haciendo mucho más.

La administración del estado de la aplicación es un ejemplo.

Digamos que está jugando un juego en línea. La tecnología debe registrar cada sesión que tiene con el sistema y conectarlas entre sí para presentar una experiencia continua, incluso si cambia de dispositivo, o los diversos movimientos que realice, son procesados por diferentes servidores, explica Olofson.

Esos datos se deben hacer persistente para que las empresas puedan analizar preguntas como “¿por qué nadie cruza la sala de cristal”, por ejemplo. En un contexto de compras en línea, una contraparte podría ser ¿por qué más personas no están comprando una determinada marca de zapato, después de hacer clic en las opciones de color?

“Antes no estábamos tratando de resolver esos problemas, o -si lo estábamos- tratábamos de sacarlos de una caja en la que no cabían”, indica Olofson.

hadoop-big-data-elephant_in_words

Podemos resaltar que Hadoop es un peso pesado entre los nuevos contendientes de hoy. Aunque no es una base de datos en sí, ha crecido para llenar un papel clave para las empresas que abordan big data. Esencialmente, Hadoop es una plataforma centrada en los datos para ejecutar aplicaciones altamente “paralelizadas”, y es muy escalable.

Al permitir que las empresas escalen “fuera” en forma distribuida en lugar de escalar “arriba” a través de costosos servidores adicionales, “es posible reunir una colección grande de datos y luego ver lo que tiene, de una forma barata”, señala Olofson.

Entre otras nuevas alternativas RDBMS está la familia de ofertas NoSQL, incluyendo MongoDB -actualmente el cuarto sistema de gestión de base de datos más popular, según DB-Motores- y MarkLogic.

“Relacional ha sido una gran tecnología durante 30 años, pero fue construida en una época diferente con diferentes limitaciones tecnológicas y diferentes necesidades del mercado”, señala Joe Pasqua, vicepresidente ejecutivo de productos MarkLogic.

Big data no es homogéneo, añade, sin embargo, en muchas de las tecnologías tradicionales, sigue siendo un requisito fundamental.

“Imagine que el único programa que tenía en su computadora portátil era Excel”, comenta Pasqua. “Imagine que desea hacer un seguimiento de la red de amigos -o está escribiendo un contrato: Eso no encaja en filas y columnas”.

Combinar los conjuntos de datos puede ser particularmente difícil.

“Relacional dice que antes de juntar todos esos conjuntos de datos, tiene que decidir cómo va a alinear todas las columnas”, añade. “Podemos tomar cualquier formato o estructura y comenzar a usarla de inmediato”.

Las bases de datos NoSQL no utilizan un modelo de datos relacional, y por lo general no tienen interfaz SQL. Mientras que muchas tiendas NoSQL comprometen la coherencia en favor de la velocidad y otros factores, MarkLogic lanza su propia oferta como una opción más consistente a medida de las empresas.

Hay un crecimiento considerable para el mercado NoSQL, según Market Research Media, pero no todo el mundo piensa que sea el enfoque correcto -por lo menos, no en todos los casos.

Los sistemas NoSQL “resuelven muchos problemas con su arquitectura escalable, pero sacaron SQL”, comenta Monte Zweben, CEO de Splice Machine. Eso, a su vez, plantea un problema para el código existente.

Splice Machine es un ejemplo de una clase diferente de alternativas conocidas como NewSQL -otra categoría que espera un fuerte crecimiento en los próximos años.

“Nuestra filosofía es mantener SQL, pero agregando la arquitectura escalable”, añade Zweben. “Es hora de algo nuevo, pero estamos tratando de hacerlo de tal modo que la gente no tenga que volver a escribir sus cosas”.

Deep Information Sciences también ha optado por seguir con SQL, pero aún necesita un nuevo enfoque.

La base de datos DeepSQL de la compañía utiliza la misma interfaz de programación de aplicaciones (API) y el modelo relacional de MySQL, lo que significa que no se requieren cambios en las aplicaciones con el fin de usarla. Pero aborda los datos de una manera diferente, utilizando el aprendizaje automático.

DeepSQL puede adaptarse automáticamente a huéspedes físicos, virtuales o en la nube utilizando cualquier combinación de carga de trabajo, según la compañía, eliminando así la necesidad de una optimización de bases de datos manual.

Entre los resultados está un considerable incremento del rendimiento, así como la capacidad de escalar “en los cientos de miles de millones de filas”, señala Chad Jones, director de estrategia de la compañía.

Un enfoque completamente diferente viene de Algebraix Data, que dice que ha desarrollado la primera fundación de verdad matemática para los datos.

Mientras que el hardware se modela matemáticamente antes de que sea construido, ese no es el caso con el software, señala el CEO de Algebraix, Carlos Silver.

“El software, y en especial los datos, nunca se han construido sobre una base matemática”, añade. “EL software ha sido en gran parte una cuestión de lingüística.”

Tras cinco años de investigación y desarrollo, Algebraix ha creado lo que llama una “álgebra de los datos” que se nutre de la teoría matemática de “un lenguaje universal de los datos”, agrega Silver.

“El pequeño y sucio secreto de big data es que los datos todavía se asientan en pequeños silos que no encajan con otros datos”, explica Silver. “Hemos demostrado que todo se puede representar matemáticamente, por lo que todo se integra”.

Equipado con una plataforma construida sobre ese fundamento, Algebraix ahora ofrece analíticas como un servicio para las empresas comerciales. La mejora del rendimiento, la capacidad y la velocidad están entre los beneficios que promete Algebraix.

El tiempo dirá qué nuevos contendientes tienen éxito y cuáles no, pero mientras tanto, los líderes de toda la vida, como Oracle, no están precisamente de pie.

“El software es una industria muy a la moda”, señala Andrew Mendelsohn, vicepresidente ejecutivo de Oracle Database Server Technologies. “Las cosas a menudo van de lo popular a lo impopular, y vuelven a lo popular otra vez”.

Muchos de los emprendimientos actuales están “trayendo de vuelta el mismo equipo viejo con un poco de pintura encima”, señala. “Es una nueva generación de niños que salen de la escuela y reinventan las cosas”.

SQL es “el único lenguaje que permite a los analistas de negocio hacer preguntas y obtener respuestas, sin la necesidad de tener que ser programadores”, anota Mendelsohn. “El gran mercado será siempre relacional”.

código-sql

En cuanto a los nuevos tipos de datos, los productos de base de datos relacionales evolucionaron para apoyar nuevamente los datos no estructurados en la década de 1990, anota. En el 2013, la base de datos del mismo nombre de Oracle, ha añadido soporte para JSON (JavaScript Object Notation) en la versión 12c.

En lugar de necesitar un tipo diferente de base de datos, es más un cambio en el modelo de negocio que impulsa el cambio en la industria, agrega Mendelsohn.

“La nube es el lugar a donde todo el mundo va, y va a alterar estos pequeños muchachos”, indica. “Los grandes ya están todos en la nube, así que ¿dónde habrá espacio para estos pequeños?

“¿Irán a la nube de Amazon y competirán con Amazon?” añade. “Eso va a ser difícil”.

Oracle tiene “el más amplio espectro de servicios en la nube”, anota Mendelsohn. “Nos sentimos bien sobre dónde estamos posicionados en la actualidad”.

Rick Greenwald, director de investigación de Gartner, se inclina a tomar un punto de vista similar.

“Las alternativas más nuevas no son tan completamente funcionales y robustas como las IRDBMSes tradicionales”, indica Greenwald. “Algunos casos de uso se pueden abordar con los nuevos contendientes, pero no todos, y menos con una tecnología”.

De cara al futuro, Greenwald espera que los proveedores tradicionales de IRDBMS sientan cada vez mayor presión sobre los precios, y le añadan nuevas funcionalidades a sus productos. “Algunos traerán nuevos contendientes libremente a su ecosistema global de gestión de datos”, anota.

Sobre a los nuevos talentos, unos pocos sobrevivirán, predijo, pero “muchos serán o bien adquiridos o se quedarán sin financiación”.

“Las nuevas tecnologías de hoy en día no representan el final de las IRDBMS tradicionales, que están evolucionando rápidamente”, agrega Olofson de IDC. “IRDBMS es necesario para los datos bien definidos, siempre habrá un papel para eso”.

Pero también habrá un papel para algunos de los contendientes más nuevos, añade, sobre todo porque la Internet de las cosas y las tecnologías emergentes, como el módulo de memoria no volátil dual en línea (NVDIMM, por sus siglas en inglés) se afianzarán.

Finalmente, habrá numerosos problemas que requieren numerosas soluciones, añade Olofson. “Hay muchas cosas interesantes para todos”.

-Katherine Noyes, IDG News Service

Aspectos que debe tener en cuenta de Hadoop y Apache Spark

Dentro de la industria, se les considera como competidores en big data, actualmente gozan de una aceptación creciente entre la comunidad “open source”, afirman que prefieren verlos trabajando en conjunto.

Hablar de big data significa, en muchas ocasiones, hacer referencia a Hadoop o Apache Spark. Cinco aspectos fundamentales sobresalen en el momento de hacer comparaciones entre uno y otro.

  1. Realizan trabajos distintos. Aunque tanto Hadoop como Apache Spark son infraestructuras de big data, realizan tareas para diferentes propósitos. El primero es esencialmente una infraestructura de datos distribuida (asignando colecciones masivas de datos a través de múltiples nodos dentro de cluster de servidores), al tiempo que indexa y mantiene un seguimiento de los datos preparándolos para procesos de analítica. Mientras que Spark no realiza funciones de distribución de almacenamiento, sino que es una herramienta de procesamiento de datos que opera en las colecciones de datos distribuidas.
  2. Son aplicaciones independientes; por lo que una puede operar perfectamente sin necesidad de disponer de la otra. Hadoop incluye un componente de almacenamiento, llamado MapReduce, por lo que no es necesario emplear Spark para realizar las tareas de procesamiento. Spark, sin embargo, no incluye un fichero de gestión del sistema por lo que necesita la integración de uno de ellos; si no es HDFS, se necesitaría otra plataforma de datos basada en cloud.
  3. Spark ejecuta con mayor velocidad, con respecto a MapReduce, gracias al procesamiento de datos. Mientras que MapReduce opera paso a paso, Spark opera simultáneamente en todo el conjunto de los datos. Spark puede llegar a ser 10 veces más rápido que MapReduce en procesos batch, y puede ser 100 más rápido en funciones de analítica en memoria interna.
  4. Es probable que no todos necesiten la velocidad de Spark. El estilo de procesamiento de MapReduce puede satisfacer las necesidades relacionadas con operaciones de reporting, dado que los requerimientos son más estáticos a la hora de obtener un procesamiento en modo batch. Pero si el usuario necesita realizar el tipo de streaming o analítica de datos que realizan los sensores en una cadena de producción o disponer de aplicaciones que requieren múltiples operaciones, entonces la elección ha de ser Spark; el cual incluye campañas de marketing en tiempo real, recomendaciones a productos online, analítica para funciones de ciberseguridad y monitoreo de la carga de las máquinas.
  5. Distintos en recuperación de fallos, pero igualmente buenos. Hadoop es resistente de modo natural a errores y fallos del sistema ya que los datos se escriben en el disco tras cada operación; pero Spark dispone de una resistencia similar pero mantiene los datos en objetos que son almacenados en la zona de distribución de datasets, los cuales permanecen distribuidos por todo el cluster de datos.

-Marga Verdú

El IoT y la empresa basada en datos

Bucear ante un gran flujo de datos, esta es la sensación que tendrá en el mundo de la Internet de las cosas (IoT) donde todo, desde los sistemas de calefacción, la fabricación de sistemas de control, las etiquetas RFID, los cuales recogen datos; y si está en una empresa los datos están por llegar, si es que ya no están allí.

La implementación de estas nuevas estrategias pueden ser buenas y malas. Bueno porque en esos datos está encerrada información que puede mejorar la eficiencia de su empresa, hacer que trabaje de una forma más inteligente, encontrar nuevas fuentes de ingresos y más. Y es malo porque pocas empresas se preparan para la inundación de datos entrantes.

Para ayudarle a manejar y diseñar la mejor estrategia, hemos buscado el asesoramiento de profesionales de IoT, de primera instancia Intel, que está metida de lleno en el IoT; y varias empresas que se especializan en ayudar a que las empresas hagan frente a los problemas de big data generados por la IoT.

Este artículo ofrece una mirada en profundidad al problema y posibles soluciones además encontrará:

Una mirada al problema

Antes de llegar al asesoramiento de los profesionales, vamos a revisar brevemente el problema. Datameer, que vende una plataforma de análisis de big data, dice que para el 2019 habrá 35 millones de dispositivos conectados a Internet. Unos 40 mil exabytes de datos serán generados por sensores que se construirán en los dispositivos conectados a Internet.

¿De qué tipos de datos estamos hablando? Podría ser cualquier cosa. Por ejemplo, las empresas encargadas de la fabricación utilizan sensores para comprobar sus equipos, para asegurarse de que todo funciona sin problemas, y mejorar el proceso de fabricación. Los minoristas pueden utilizarlos para mejorar el seguimiento de las ventas y unir información para la cadena de suministro. Los aparatos cotidianos también recogerán datos.

Así que no es sorprendente que una encuesta conjunta de Accenture y GE, haya encontrado que big data es la principal preocupación para las empresas. Dado a que el 88% de los ejecutivos encuestados dijeron que era una de sus tres principales prioridades, y el 82% dijo que construirían o añadirían a su plataforma de big data existente o sus capacidades de análisis en los próximos tres años.

La visión a largo plazo de GE

GE es una de las pioneras en IoT y big data, tanto en el uso de la tecnología en sus propios negocios, como en la prestación de servicios para las empresas que quieren aprovechar los datos de la IoT. GE está en muchas empresas, desde la aviación a la gestión de energía, salud, petróleo y gas, transporte y mucho más, con fábricas repartidas por todo el mundo, por lo que ha tenido que enfrentar la avalancha de datos IoT antes de todas las demás empresas. Sobre la base de sus experiencias, vende productos y servicios para la IoT y datos, sobre todo en su división Intelligent Platform.

Rich Carpenter, arquitecto ejecutivo principal de software de GE Intelligent Platforms Software dice que el primer reto para la mayoría de las empresas que quieren hacer uso de la inundación de datos IoT es reunir los datos, donde señala que es una tarea más difícil de lo que se piensa.

“En nuestro propio negocio nos enfrentamos mucho a este problema”, señala. “Tenemos 400 fábricas a nivel mundial y una cantidad sorprendentemente grande de ese equipo no está conectado, ya que se instaló antes de que Internet se hiciera popular”.

Él anota que GE divide sus equipos en tres categorías: equipos completamente desconectados; equipos que se pueden conectar, pero necesitan trabajo para completar la conexión; y equipos que ya están conectados o que se pueden conectar fácilmente. GE luego diseña estrategias de recopilación de datos para cada tipo.

Pero recopilar datos de los dispositivos IoT no es suficiente. Los datos IoT pueden venir en muchos formatos diferentes, que podrían no ser compatibles entre sí o con el software de análisis de datos.

En los entornos industriales, GE instala aparatos de recolección de datos que se llaman agentes de campo, que tienen conexiones autenticadas seguras a una nube pública o privada para que almacenen datos. No solo los dispositivos envían los datos de forma segura, sino que también determinan qué tipos de datos recogerán, qué protocolos utilizarán para hacerlo, y cómo deben almacenarlos.

Una vez recolectados los datos, las empresas tienen que darle sentido y analizarla para encontrar información útil. Eso es bastante difícil. Aún más difícil es tomar esa información y luego usarla para hacer cambios en la forma en que una empresa trabaja, como hacer que una planta de fabricación sea más eficiente.

Carpenter advierte que muchas empresas se atascan en esta fase. Él tiene algunos consejos de cómo solucionar eso.

“Algunas empresas empiezan por escoger una planta de fabricación, y tratar de hacer que la recolección de datos y el análisis sean perfectos antes de continuar. Pero resolver todos los problemas, incluso en una misma planta, puede tardar una eternidad. Hemos aprendido que la solución más prescrita funciona. Consiga 70% del camino en una planta, y luego escale ese valor en toda su empresa. Eso le trae mucho más valor, mucho más rápido”.

Carpenter también dice que prácticamente todo tipo de empresa eventualmente tendrá que tomar en cuenta los datos de IoT y convertirse en una empresa basada en datos.

“Esto no es solo para los fabricantes o empresas que ya saben que necesitan para entrar en la IoT”, comenta el ejecutivo. “Todas las empresas lo necesitan, ya sea para el mantenimiento de la gestión de activos, ERP, cadena de suministro, o ayudar a que una fuerza de trabajo móvil sea más eficiente”.

Intel aconseja: Primero fíjese en los objetivos del negocio

Vin Sharma, director de la estrategia de Intel para Big Data Analytics, Data Center Group, está de acuerdo con Carpenter en que casi cualquier empresa tendrá que hacer uso de los datos de la IoT.

“Agricultura, manufactura, asistencia sanitaria, hay razones obvias por las que todos esos sectores quieren y necesitan los datos de la IoT”, señala. “Pero nuestra expectativa indica que cada organización tendrá que hacer uso de todos los datos disponibles, lo que significa datos de la IoT. Estoy luchando por imaginar una industria que no necesite este tipo de información. Los minoristas, por ejemplo, pueden obtener una gran cantidad de valor mediante el control de su inventario de bienes con etiquetas RFID y balizas. En última instancia, el objetivo para muchas empresas será obtener una vista de 360 grados de sus clientes, ya sea un paciente en la industria de la salud, un agricultor en la industria agrícola, o un consumidor en la industria minorista”.

Sharma añade que tal vez el error más grande que las empresas cometen con los datos de la IoT no tiene nada que ver con la tecnología, sino con la comprensión de sus propios objetivos de negocio.

“Un problema común es que las empresas no tienen una definición muy clara de sus objetivos de negocio antes de comenzar, ni del problema de análisis que quieren resolver”, comenta. “Hay una nebulosidad, y eso se traduce en largas demoras para el despliegue. Pero con las empresas que tienen una idea muy nítida y clara de lo que quieren lograr, las cosas tienden a moverse muy rápidamente”.

Sharma destaca el uso de la industria del vestido como un ejemplo de la importancia de definir claramente el problema de la empresa, antes de embarcarse en cualquier proyecto de IoT.

“Digamos que la exactitud del inventario en mis tiendas no está donde yo quiero que esté”, señala. “Eso me obliga a hacer liquidaciones de ropa, lo cual genera gasto y reduce el margen. Y esto se refleja en la cadena de suministro. Así que sé que esa mejora de la exactitud de mi inventario en la tienda va a mejorar mi rentabilidad. Eso me da una definición muy clara del problema que quiero resolver”.

Con ese objetivo en mente, la empresa puede diseñar un sistema para obtener datos más granulares y precisos sobre su inventario de bienes en las tiendas; por ejemplo, mediante el uso de redes de sensores RFID.

La segunda cuestión importante, agrega, es que el alcance de los proyectos de IoT con el que se comprometen las empresas, por mencionar un ejemplo, son demasiado grandes y se vuelven difíciles de manejar y muy difíciles de implementar y administrar.

Vemos que muchas empresas tienen éxito cuando se forjan un ámbito medido muy específico por primera vez como una prueba de concepto, y luego como un pequeño piloto. Después de eso, pueden escalarlo tanto horizontal como verticalmente a través de sus negocios”.

Señala nuevamente el ejemplo de la ropa sobre la necesidad de tener una visión más precisa del inventario. Él sugiere hacer primero un piloto en una sola tienda, en un solo lugar; y trabajar todos los temas ahí. Después de eso, añade, pueden extenderlo a la totalidad de sus 300 tiendas y, a continuación, añadir tipos adicionales de recopilación de datos para la implementación.

El uso de plataformas de Hadoop basados en la nube

Incluso las empresas que tienen una definición clara acerca de los problemas del negocio que quieren resolver no podrán hacer uso de los datos de la IoT a menos que tengan la plataforma de análisis para manejarlos. Cada vez más, Apache Hadoop, está siendo reconocida como una plataforma de primer nivel para eso. La razón: ofrece almacenamiento y procesamiento distribuido de grandes conjuntos de datos mediante el uso de clusters de computadoras que se pueden construir a partir de hardware de bajo costo.

Tenga en cuenta que Hadoop no es fácil de implementar, y está más allá de los conocimientos técnicos de muchas empresas. Además, muchas empresas no quieren construir las plataformas masivas que el flujo de datos de la IoT puede requerir. Así que han surgido una serie de empresas que ofrecen plataformas Hadoop end to end basadas en la nube, construidas para el manejo de grandes volúmenes de datos, incluidos los datos de la IoT. De esta manera, las empresas pueden centrarse en el análisis de datos, en lugar de discutir sobre la construcción, implementación y administración de una plataforma completa.

Datameer ofrece una de esas plataformas. Datameer primero construyó su plataforma en el 2009, y Andrew Brust, director senior de marketing de producto técnico y evangelización de la compañía, advierte a las empresas de que no se queden atrapadas en la corriente de popularidad de IoT.

“En este momento, la IoT se encuentra en el mejor momento de su ciclo de popularidad, por lo que los problemas de datos a los que se enfrentan las empresas suenan como algo totalmente nuevo. Pero en el fondo, no es realmente un borrón y cuenta nueva. De lo que estamos hablando en general, es de la transmisión de datos y análisis. La principal diferencia es que ahora hay muchas más cosas de las que podemos recopilar datos, y una mayor frecuencia en su recolección”.

Uno de los mayores problemas con los datos de la IoT, señala, es que se trata de muchos dispositivos diferentes utilizando diversos protocolos y estándares de datos que no son necesariamente compatibles entre sí. En algunos casos los datos están altamente estructurados, y en otros casos, no.

“El mayor consejo que puedo dar a la gente es que busque tecnología y herramientas que les permitan crear una capa de abstracción en la cima de todos los datos de la IoT. De esa manera, cuando llegue a diferentes tipos de datos, todavía será capaz de manejar la situación, debido a que la plataforma será capaz de manejar las nuevas normas a medida que ingresan. Y busque un producto que pueda integrar los datos de tantas fuentes diferentes como sea posible”.

Por su parte Brust también señala que es importante contratar a las personas adecuadas con las habilidades analíticas adecuadas. Los científicos de datos son escasos, reconoce, pero él cree que no es necesario contratar a personas con ese título de trabajo.

“La idea del científico de datos tiene mucho de mística a su alrededor, así que no debería pensar que necesita contratar a alguien con esas habilidades”, añade. “Si tiene buenos técnicos que son expertos en el almacenamiento de datos y el trabajo de TI, puede proporcionarles la formación y la experiencia que necesitan para hacer el trabajo. No solo tendrá los recursos adecuados, sino que al ofrecer esa oportunidad para el personal de su empresa, tendrá mucha mejor retención”.

Altiscale también ofrece una plataforma basada en la nube Hadoop. Mike Maciag, director de operaciones de Altiscale, cree que trabajar con datos IoT es significativamente diferente que trabajar con big data en el pasado.

“En muchos casos, los datos de la IoT es la suma de muchas piezas de pequeños datos hasta volverse datos gigantescos”, señala. “Hay una corriente constante que se convierte en cientos de terabytes y luego petabytes. Además, a menudo son datos no estructurados, por lo que pueden necesitar mucha manipulación antes de ser útiles. Lo que también es único es que gran parte de los datos nacen en la nube y vienen desde ella hacia usted”.

Él anota que esto, de alguna manera cambia la forma en que las empresas tienen que pensar acerca de los datos. En el pasado, señala, las empresas solían extraer los datos, transformarlos y, a continuación, los cargaban en una base de datos. Con la IoT, continúa, “Eso ha cambiado a extraerlos, cargarlos, y luego transformarlos”.

Debido a eso, él recomienda, “asegúrese de almacenar todos los datos entrantes, y no los tire a la basura, incluso si no sabe aún qué hacer con ellos. Pueden llegar a ser valiosos algún día, cuando su empresa tenga nuevas estrategias y formas de hacer negocios”.

Y eso -nuevas estrategias y nuevas formas de hacer negocios- es la esencia de por qué las empresas necesitan comenzar a desarrollar una estrategia de big data IoT ahora; o bien mejorar la ya existente. Como dice Carpenter de GE, “Es cuestión de competencia. Necesita hacer funcionar su negocio basado en datos reales. Sus competidores lo estarán haciendo. Si no lo hace, quedará rezagado”.

Preston Gralla, ITworld

Google saca de beta dos servicios de análisis de datos en cloud

google-cloudEl lanzamiento de forma pública de dos herramientas para big data de Google, han dejado de estar en beta, con estos productos los añade a su cartera de nube, están enfocados al análisis de datos y al servicio para la gestión de los flujos de datos en tiempo real.

Con estos nuevos servicios se ver como un posible reemplazo de Hadoop, Google Cloud Dataflow proporciona un marco para la fusión de diferentes fuentes de datos dentro de un canal de procesamiento. Google Cloud Pub/Sub es el servicio de la empresa para la gestión de flujos de datos en tiempo real.

Los dos servicios completan la lista de herramientas de análisis de datos en la nube de Google y se unen a Google BigQuery, un servicio comercial para el análisis de grandes cantidad de datos no estructurados.

Estos servicios no necesitan tanto mantenimiento y supervisión destacó Google en su blog oficial, al ser productos comerciales completos, se encuentran ahora plenamente integrados con la Google Cloud Platform, la colección de herramientas de Google para orquestar las operaciones basadas en la nube.

Los clientes han estado utilizando la Google Cloud Platform para tareas como la detección del fraude financiero, el análisis genómico, la gestión de inventarios, el análisis de click-stream y prueba de interacción del usuario.

Dataflow de google, proporciona un modelo de programación unificado para el manejo de diferentes fuentes de datos, incluyendo tanto las fuentes de datos por lotes como las de streaming, eliminando la necesidad de usar software  de extracción, transformación y carga, ETL. También puede servir como una alternativa más rápida para el cálculo de grandes cantidades de datos no estructurados, en comparación con el procesamiento por lotes que realiza Hadoop, señaló Google.

Un ejemplo es Salesforce.com, utiliza Dataflow para aumentar la escala de su servicio de inteligencia de negocios Sales Wave, mientras que la firma de marketing digital Qubit lo utiliza para rastrear las interacciones del cliente en la web en tiempo real.

Google Cloud Pub/Sub puede servir como un sistema de mensajería, ofreciendo una vía para que los sistemas de análisis de datos funcionen desde un flujo de datos nuevos a medida que éstos se generan. se puede tener administración de hasta un millón de mensajes por segundo, a los cuales puede empujar hacia otros servicios de análisis de Google como Dataflow.

Cuando los servicios se encontraban en fase, fueron capaces de entregar más de un billón de mensajes a los usuarios.

Con ello Pub/Sub se encuentra a 0.40 dólares para los primeros 250 millones de mensajes, y sus costos se reducen con el incremento de su uso. El precio de Cloud Dataflow se basa en el número de trabajos, dependiendo del tiempo que requiere para completar una operación y la cantidad de datos que se deben mover.

Google también anunció que soporta distribuciones de Cloudera Hadoop en su nube. Los usuarios pueden ejecutar copias de Cloudera Express y las distribuciones de Cloudera Enterprise Hadoop en Google Cloud Platform.

-Joab Jackson, IDG News Service

Big data representa grandes retos

hadoop-big-data

A medida que trabajo tengo trato con clientes empresariales más grandes, han surgido algunos temas de Hadoop en la empresa. Uno de esos muy comunes que salen a destacar es que la mayoría de las empresas parecen estar tratando de evitar el dolor que experimentaron con el apogeo de JavaEE, SOA, y .Net, así como el terrible momento en que cada departamento tenía que tener su propio sitio.

Hadoop es una solución que muchos están implementando para no caer en lo ocurrido en el pasado, de esta forma muchas empresas tratan de hacerlo con RDBMS o el almacenamiento. Aunque no usaría Hadoop para lo mismo que utiliza RDBMS, Hadoop tiene muchas ventajas sobre RDBMS en términos de manejabilidad. El paradigma de la fila de tiendas RDBMS en una palabra Oracle, tiene límites inseparables de escalabilidad, así que cuando se intenta crear una gran instancia o clúster RAC para servir a todos, no termina sirviendo a ninguno. Con Hadoop, tiene más capacidad para reunir los recursos informáticos y repartirlos.

Las herramientas de gestión e implementación de Hadoop siguen estando lejos de ser perfectas, para desgracia de muchos. A pesar de la mala reputación de Oracle, pude instalarlo a mano en minutos. La instalación de un clúster Hadoop, que no hace más que decir “hola mundo”, tomará por lo menos varias horas. A continuación, cuando inicia el manejo de cientos o miles de nodos, encontrará que las herramientas son un poco escasas.

Las empresas están utilizando herramientas DevOps como Chef, Puppet, y Salt para crear soluciones manejables de Hadoop. Ellas se enfrentan a muchos desafíos en el camino hacia la centralización de Hadoop:

Hadoop no es una cosa: Hadoop es una palabra que usamos para referirnos a “lo que está relacionado con big data” como Spark, MapReduce, Hive, HBase, y así sucesivamente. Hay una gran cantidad de piezas.

Diversas cargas de trabajo: No sólo necesita potencialmente equilibrar una carga de trabajo de Hive contra una carga de Spark, pero algunas cargas de trabajo son más constantes y sostenidas que otras.

Partición: YARN es más o menos una versión clusterwide del planificador de procesos y el sistema de gestión de colas que usted toma por sentado en el sistema operativo de la computadora, teléfono o tableta que está utilizando en este momento. Le puede pedir que haga cosas, y las equilibra contra las otras acciones que está haciendo, y luego distribuye el trabajo de acuerdo a ello. Obviamente, esto es esencial. Pero existe la ley del más fuerte, siendo precisos es usted cuando a menudo determina cuántos recursos obtiene. Además, los trabajos de streaming y trabajos por lotes pueden necesitar diferentes niveles de servicio. Es posible que no tenga más remedio que implementar dos o más clusters de Hadoop, que necesitará administrar por separado. Peor aún, ¿qué sucede cuando las cargas de trabajo son cíclicas?

Prioridades: Aunque su organización puede querer aprovisionar un clúster Spark de mil nodos, esto no significa que tiene el derecho a mil nodos. ¿Puede realmente obtener los recursos que necesita?

Por un lado, muchas organizaciones han desplegado Hadoop con éxito. Por otro lado, si esto huele a la construcción de sus propias PaaS con herramientas DevOps, su capacidad para detectar buen trabajo está funcionando correctamente. Usted no tiene muchas opciones todavía. Las soluciones están llegando, pero ninguna aun resuelve realmente los problemas de despliegue y mantenimiento de Hadoop en una organización grande:

Ambari: Este proyecto Apache es una maravilla y una cosa asombrosa cuando funciona. Cada versión se pone mejor y gestiona más nodos. Pero Ambari no es para aprovisionar más máquinas virtuales y hace un mejor trabajo en el aprovisionamiento que en el reaprovisionamiento o reconfiguración. Ambari probablemente no es una solución a largo plazo para el aprovisionamiento de los grandes entornos con diversas cargas de trabajo.

Slider: Slider permite que las aplicaciones que no son de YARN sean gestionadas por YARN. Muchos proyectos de Hadoop en Apache realmente son controlados o patrocinados por uno de los principales proveedores. En este caso, el patrocinador es Hortonworks, por lo que vale la pena ver la hoja de ruta de Hortonworks en busca de Slider. Una de las novedades más interesantes es la posibilidad de implementar aplicaciones Dockerized a través de YARN en base a su carga de trabajo. Aun no lo he visto en la producción, sin embargo, es muy prometedor.

Kubernetes: Admito ser parcial con kubernetes porque no puedo deletrearlo. Kubernetes es una manera de poner en común los recursos informáticos al estilo Google. Nos acerca un paso más a una sensación PaaS en Hadoop. Puedo ver un futuro potencial cuando se utiliza OpenShift, Kubernetes, Slider, YARN, y Dockerjuntos para gestionar un grupo diverso de recursos. Cloudera contrató a un ejecutivo de Google con esto en su currículum.

Mesos: Mesos tiene cierta superposición con Kubernetes, pero compite directamente con YARN o más exactamente YARN/Slider. La mejor manera de entender la diferencia es que YARN es más como la programación tradicional. Si programa un proceso frentea recursos que YARN tiene a su disposición en el clúster. Mesos tiene una solicitud de aplicación, Mesos hace una oferta, y el proceso puede “rechazar” esa oferta y esperar una mejor, algo así como las citas. Si realmente desea entender esto en detalle, MapR tiene un buen tutorial,  pesar de que posiblemente las conclusiones sean un poco sesgadas. Por último, hay un híbrido YARN/Mesos llamada Myriad. El ciclo como novedad se ha quemado un poco rápido para Mesos.

¿Qué tal si se opta por un proveedor de Hadoop en la nube pública? Hay algunas respuestas a esa pregunta. Por un lado, a una cierta escala, dejará de creer las afirmaciones de que Amazon es más barato que tener su propio equipo interno de TI manteniendo las cosas. Número dos, muchas empresas tienen creencias entre reales e imaginarias, alrededor de la seguridad y la regulación de los datos que les impiden irse a la nube. Tercero, subir grandes conjuntos de datos puede no ser práctico, basado en la cantidad de ancho de banda que puede comprar y el tiempo que se necesita para ser procesados y/o subidos. Finalmente, muchos de los mismos retos que especialmente están alrededor de diversas cargas de trabajo persisten en la nube.

Seguido de que desaparezca la guerra del programador y el tono estridente de las múltiples soluciones en el mercado se atenúe, con el tiempo tendremos eventualmente una solución llave en mano para hacer frente a múltiples cargas de trabajo, servicios diversos y diferentes casos de uso de tal forma que aprovisione los componentes de la infraestructura y servicio en demanda.

Por ahora, debe esperar gran cantidad de notificaciones, comandos y recetas personalizadas. Por ellos las organizaciones que hacen uso a gran escala de esta tecnología simplemente no pueden esperar para comenzar la centralización. El costo de la construcción y el mantenimiento de los clusters dispares sobrepasan el costo de la construcción o el despliegue de tecnología inmadura personalizada.

-Andrew C. Oliver, InfoWorld

Teradata y Hortonworks se unen para la integración de Hadoop en Big Data

hadoop-dataEn el marco del creciente desarrollo de big data en Brasil, Teradata integra Hadoop a su gama de soluciones. Desarrollada por Hortonworks, la herramienta permite a las empresas obtener una visión de grandes cantidades de datos estructurados y no estructurados de forma rápida.

Teradata anunció la ampliación de su cartera de soluciones para big data con la integración de la plataforma Hadoop, desarrollada por Hortonworks. Entre sus diversas herramientas, se destaca especialmente Unified Data Architecture (UDA), una plataforma que, además de realizar acciones de gestión y análisis de big data, demuestra su valor real y dirige, a partir de los insights generados, cómo deben ser desarrolladas las campañas de la empresa.

Teradata busca facilitar el camino hacía la correcta implementación de un proyecto de big data y fortalecer aún más la experiencia en la captura, almacenamiento, gerenciamiento y generación de insights a partir de grandes conjuntos de datos que incluye a Hadoop en su gama de soluciones.

“Las empresas y organismos públicos han otorgado mayor relevancia a los recursos estratégicos de analytics y big data y vemos en este mercado una oportunidad para los proveedores que pueden integrar diferentes tecnologías que orbitan las soluciones big data. En la actualidad, Teradata es una empresa líder y experta en este segmento y posee la capacidad de comercializar e integrar diversas tecnologías, especialmente Hortonworks, lo que nos permite llevar al mercado un nuevo enfoque de Hadoop para las empresas. “afirma Carlos Bokor, Director de Alianzas de Teradata Brasil.

Esta integración forma parte de la orientación de Teradata en las medianas y grandes empresas brasileñas de las más variadas verticales, como: retail, finanzas, seguros, telecomunicaciones y salud, las cuales han madurado sus procesos de análisis de datos y ahora buscan soluciones que, además de capturar y administrar la información, obtengan los conocimientos necesarios para el negocio. El propósito de esta acción, que cuenta con el respaldo de expertos en el tema, es poder brindar soluciones de big data a más empresas. Estas soluciones pueden ser implementadas de acuerdo a las necesidades de las empresas, ya sea on-premise,appliance, plataforma distribuida o SaaS.

“Encontramos en Teradata una compañía de alta especialización y experiencia en el mundo de analytics y big data. Teradata está facultada para comercializar y poner en práctica las soluciones Hadoop de Hortonworks, y de esta forma brinda respaldo corporativo a las empresas que llevan adelante grandes proyectos de big data”- dijo Alejandro Chocolat, Director para América Latina, Hortonworks.

Con esta integración, Teradata aprovecha su alianza a nivel mundial ya existente con Hortonworks y refuerza su posición de empresa one stop shop. Es decir, una compañía completa con soluciones de big data, analyticsy con la capacidad de integrar soluciones en este ecosistema.

 

-Comunicado de Prensa

Microsoft se introduce en mercado NoSQL con nuevo almacén de datos Azure

Azure MicrosoftA manera de introducción en el creciente mercado NoSQL, Microsoft presentó  un almacén de datos a través del servicio de alojamiento de nube Azure.

La base de datos de documentos es adecuada para organizaciones o startups que necesitan un backend para almacenar datos sobre una aplicación móvil o web, de acuerdo con Vibhor Kapoor, gerente de Marketing de Producto de Microsoft Azure, quien presentó el servicio en una entrada de blog.

El servicio Azure DocumentDB, que ahora se encuentra en versión previa (preview), es la primera base de datos de documentos tipo NoSQL de Microsoft. Cabe recordar que Azure también ofrece varias otras bases de datos NoSQL de otros proveedores, como las de MongoDB, MongoLabs, Nodejitsu, Redis y RavenHQ.

Además de proporcionar capacidades básicas de almacenamiento de documentos, el servicio también ofrece procesamiento de queries y semántica de transacciones, dos características que usualmente se encuentran en los sistemas de bases de datos relacionales.

Varias bases de datos NoSQL surgieron en la década pasada para afrontar la necesidad de almacenar y acceder a grandes cantidades de información muy rápidamente, algunas veces en varios servidores. Las bases de datos SQL tradicionales han sido presionadas a incrementar su tamaño a dimensiones que generalmente se requieren para esos trabajos.

Otras iniciativas en torno a la nube

Microsoft también anunció varias otras iniciativas alrededor de su servicio de nube. Está ofreciendo la búsqueda con Bing como servicio que se puede embeber dentro de las aplicaciones de terceros.

El software de base de datos Apache HBase ya se encuentra disponible dentro del servicio Hadoop de Azure. Y Azure ahora ofrece más de 300 imágenes de máquinas virtuales preconfiguradas para toda una gama de tareas.

Joab Jackson, IDG News Service