sábado, 11 de mayo de 2013

Cheered by an ¿old? Whale [BigData]

Hace poco el camarada Xavier Picamal contestó a mi texto La Ballena Voladora  con otro llamado:

BIG, BIG... HURRA!

Desobedeciendo a los tópicos sobre segundas partes, siguió hurgando en la herida con:


Es evidente que mis lineas no merecían semejante reacción  (en realidad tampoco otras), pero a Xavier le a servido como excusa para escribir una pequeña reflexión sobre el tratamiento de datos, analizando los retos a los que nos enfrentamos, aportando y en algún momento sorprendiéndome.

Whale En este caso yo si que empezaré con una critica: mis primeros contactos con el mundo TIC datan del 92, montando redes con cables coaxiales y algún servicio estilo Proxy, incluso un IRC. Seguramente no estamos hablando de los mismo, pero para mi el salto generacional es relativo ;)

Aclarado lo cual, una de las cosas que me parece más interesante sobre el BigData es las reacciones que suscita. Poco a poco me he dado cuenta que esas reacciones vienen dada de la cantidad de retos que hay que abarcar cuando nos enfrentamos a la ballena.




Es por eso que aprovecho cualquier ocasión para concretar, abstraer de modas y tendencias; y aprender de los que saben. En este caso creo Xavier está hablando de 4 de estos retos, que intentaré centrar:
  • BigData supone un CAMBIO. De esto no hay duda, y además no sólo un cambio de estrategia a la hora de analizar datos sino también tecnológico (NoSQL, MapReduce). El cambio provoca rechazo, el cambio se ha de gestionar... el cambio es una oportunidad.
  • Las Preguntas Adecuadas, las tecnologías con el análisis de datos están evolucionando muy rápidamente pero de forma desordenada. Ésto ha generado muchas dudas en el usuario final y cada vez hay más voces clamando: "Si tenéis alguna idea para aprovechar tanta información, por favor, decírmelo!"
  • Integración, lo más importante de este punto es que viene dado por una necesidad. La necesidad de cruzar información de múltiples fuentes par disponer de una visión global o tomar decisiones sin dejar de analizar una parte del problema.
  • Estructura, bases de datos no relacionales, que existen desde hace tanto tiempo como las que si lo son. Yo mismo trabajo en un servicio que trabaja con ellas desde hace más de 20 años. Bases de datos mal nombradas "Documentales" que en realidad se refieren al concepto de documento de lenguajes de programación como JavaScript. Que junto a las Bases de Datos orientadas a Grafos, intentando dar solución a problemas concretos donde las relacionales se han quedado cortas.
En ningún momento se habla de datos grandes, la gran cantidad de información nos ha traído estos retos, pero no es el problema en sí. Xavier tiene perfil de Data Scientist y se nota. Pero la sorpresa más grande fue cuando encuentra una contradicción en mi texto, una contradicción en el uso de un método como el Just in Time cuando "aparentemente" hablaba de lo contrario.

Strong back
He de reconocer que no busqué la contradicción conscientemente, pero cada vez que la analizo tiene más sentido. La "mercadotécnia" de la que habla Xavier nos lleva a creer (a mi el primero) que nos enfrentamos a un gran cetáceo, con el que fracasaremos si intentamos hacerle bailar como una bailarina. Por eso no tenía sentido mi uso de JIT en el artículo.

El problema es que cuando lo escribí yo ya tenía en mente el problema al que BigData ha de dar solución y es un procesamiento de datos ágil, que cuando tengamos la pregunta adecuada (y tan difícil de encontrar) podamos pronunciarla de forma igualmente ágil (hablaba de Lenguaje Natural) y obteniendo un resultado veloz (es ahí donde aparece la visión de un corsé apretado)


La respuesta es evidente, no se trata de marketing ni jugar con metáforas, hay nuevas necesidades y nosotros como profesionales tenemos de intentar buscar respuestas que se adapten a cada caso.

Poco a poco se ve en la visualización de los datos como la respuesta a estos problemas y también poco a poco cosas como la Minería de Datos saldrá del ámbito típicamente Universitario y llegará a nuestro día a día.

Una vez más, gracias Xavier.
 
Imágenes: Whale, Strong back

Creative Commons License
Esta obra está bajo una licencia de Creative Commons.

sábado, 4 de mayo de 2013

BigData Week Barcelona 2013. Parte I: ¿Qué es el BigData?

Hace unos días se celebró en Barcelona la BigData Week


El evento, lejos de centrarse en el BigData, intentó explicar la explosión de datos que estamos sufrido en los últimos años, las oportunidades que ello nos brinda y como abordarlas.

Agradecer a Sebastián Greco su aviso, sin el cual no habría descubierto el evento. Y aclarar que solo pude estar presente un día, el jueves 25 en el que se centraron las sesiones oficiales del evento. Sin duda, una visión muy limitada de la semana.

Durante el jueves asistí a 6 mesas redondas, en las que se dió mucha información, tanta como para 3 artículos en el blog. Así será:
  • Parte I: ¿Qué es el BigData? incluyendo la Introducción, Presentación y la parte más Política (y la que estás leyendo en estos momentos)
  • Parte II: OpenData y PersonalData. Dos de las fuentes de datos más importantes.
  • Parte III: Oportunidades de Negocio e Infraestructuras. ¿Es BigData otra burbuja tecnológica?
Como todos los comentarios bajo mi visión e interpretación. Y lo primero que noté es que había dos objetivos claros:
  • Definir de que estamos hablando: BigData, OpenData, PersonalData ¿cuándo aplica uno o el otro? ¿qué retos suponen? ¿que requisitos tienen?
  • Darle Valor a los datos, escucharas a quien escucharas te quedaba claro que nada de todo esto tiene sentido si no hay un retorno. No podemos vivir los datos por encima de nuestras posibilidades. Quedan lejos las ponencias donde se filosofaba sin objetivo de nuevas tendencias.

Presentación

Buzzword Bingo: Big DataLa BigData Week es una iniciativa organizada simultáneamente en más de 20 países y en Barcelona por media140. Empresa en la que me gustaría destacar a la encargada del evento: Mònica Garriga ... muy presente en twitter e incluso aportando en las mesas redondas.

Si bien se planteó el bien el evento, no se pudo luchar contra su mayor enemigo: el nombre.




Usar el marketing de un término (BigData) puede servir para llegar a cierto publico, pero en este caso se quería ir mucho más lejos: aclarando de que estamos hablando y enfocar el futuro. Estoy seguro de que si hubiera estado en su mano, la gente de media140 habrían escogido otro nombre.

El espíritu del evento se puede resumir en uno de los primeros comentarios del día:

De la primera mesa redonda me gustaría destacar a Carlos Scolari, con su exposición permitió que los asistentes (yo como mínimo), descubriéramos la semiótica y abriéramos la mente . Visualizar un análisis de las relaciones existentes entre los personajes de todas las obras de Shakespeare o descubrir la evolución cromática de los Mangas durante un periodo de tiempo, logró que estuviéramos preparados para cualquier cosa.

¿ cuánto de BIG ha de ser el BigData ?

Big ears
Estar abiertos a nuevas posibilidades es imprescindible para hablar de BigData, pero es necesaria una base. Por eso se intentó definir el término. Uno de los grandes problemas para mi personalmente y que, diría, logré durante el evento:

Se puede empezar a hablar de BigData cuando, con TUS recursos, tienes problemas para procesar TU información



En ocasiones nos limitará el tamaño,  pero si tuviéramos la infraestructura de Google seguro que no tendríamos problemas. Es posible que la sola complejidad de los datos nos impida analizarlos. Pero también, como bien comentó mi estimado Xavier Picamal, el caudal puede ser la frontera.  Aunque el volumen sea pequeño, si tenemos que procesar "al momento" un gran caudal de información, seguramente estaremos traspasando el límite de un análisis tradicional y tengamos que empezar a analizar otro tipo de soluciones.

Claves

Durante la presentación fueron saliendo los temas que para mi son clave cuando hablamos de análisis de datos. Algunos demasiado por encima, pero ahí estaban:
  • Seguridad, ¿de quién son los datos? ¿hemos tomado propiedad de los datos?
  • Legalidad, con el ejemplo de una startup que tardó un año en empezar sólo por los problemas legales
  • Estructura, muy por encima, pero la visualización de datos no deja de ser una solución al problema de una estructura compleja
  • Obtención, ¿ya tenemos los datos? ¿tenemos que recopilarlos? ¿de donde los sacamos?
  • Velocidad, una de las grandes ventajas del BigData :: tomar decisiones rápido... o mejor dicho "sin perder el tiempo" @cscolari

El Fin Último del Análisis de Datos

Big Ass No se planteó así, quizás solo fue por la gran presencia de Administración publica en el evento, quizás por lo llamativo o polémico que puede llegar a ser, pero de lo primero que se habló fue de si es posible medir la opinión de la población en las redes sociales.

Tras la noticia de que Barack Obama creo un equipo de analistas de información para que le asesoraran durante las elecciones a la presidencia, muchos están intentando seguir la idea. A mi la idea me parece un fin último e inalcanzable, ya sólo podremos saber la opinión de alguien, en un instante de tiempo. Y aunque tuviéramos TODA su información, espero sinceramente que jamás tengamos la capacidad para procesarla.

Un tema más filosófico que técnico o de negocio, y que es fácil que se abra cuando se habla de análisis de datos. Evidentemente estos temas quedan reducidos a análisis de redes sociales, y durante la presentación ya se habló del sesgo de selección que suponía usar solo datos de twitter, debido a que sus usuarios tienen un perfil concreto de usuario de nuevas tecnologías.

Es por eso que me sorprendió encontrarme con afirmaciónes tan rotundas viniendo de un político:
Imagenes: Buzzword Bingo: Big Data, Big ears y Big Ass

Creative Commons License
Esta obra está bajo una licencia de Creative Commons.

domingo, 14 de abril de 2013

The Angry Whale [Social + BigData]

A mediados de Enero me surgió la oportunidad de escribir.

Escribir sobre BigData e intentar publicar el texto en algún medio especializado, hasta la fecha solo había escrito para el blog pero algunos de los artículos me los había tomado lo suficientemente en serio como para que no me intimidara publicar en un revista. Aun así, no podía hacer lo mismo de siempre... 

Entonces ¿qué podía cambiar?

Si no escribes pensando en las personas que te van a leer es que escribes para ti mismo y quizás sea mejor no publicarlo, pero esta vez fui un poco más lejos.

No solo busqué una reacción en el lector, sino que intenté provocarlo...




Provocar está de moda, eso nos lo ha enseñado muy bien un tal @ristomejide el cual lo ha llevado al extremo patentando su propio sistema: Annoyomics. Provocar para conseguir una reacción rápida, logrando que la mitad de los que opinen te adoren y la otra mitad te hagan publicidad con su odio (...hacia ti!).

Pero yo ni soy Risto ni soy nadie para ir provocando, por lo que baje el tono de la provocación a tres pequeñas exageraciones, justo cuando describía el NoSQL. Tampoco llego a "las masas", pero en eso tuve suerte y me ayudó (sin querer) un amigo: @FuKuy. El resultado fue el siguiente:

Por lo poco que se, Samuel García (además de ser gallego, la tierra de mis orígenes) lleva algún tiempo trabajando con NoSQL, por lo que sabe de lo que habla. Y a @samuelgmartinez le molestaron dos de mis tres exageraciones: 

"¡Empezamos YA!

Es evidente que cualquier sistema necesita un diseño previo y la implementación sólo dependerá de lo complejo que el sistema sea y los recursos de los que se disponga. La característica de la que hablo en realidad es un error, un error que cometen algunos en el momento de empezar un sistema NoSQL, pensando que se ahorraran el diseño y como han tardado 10 min en montarlo en el portátil, no hay más trabajo que hacer... YA podemos empezar! 

Si contemplamos metodologías ágiles y revisamos el modelo, quizás no sea un error, sino la forma de empezar a trabajar rápido y marcarse varios hitos donde revisar y corregir el modelo; para mi y en definitiva, muy característico de los sistemas NoSQL.

"El FIN del DBA"

Creo que en este punto la exageración era más evidente ¿Un DBA anunciando el FIN del DBA? El primero en darse cuenta fue @CondeBond, pero es que a él nunca se le escapa nada =)
Pero no deja de ser otro error, donde al tener más control sobre el sistema puedes llegar a creer que puedes prescindir del Administrador. Hace poco @OracleAlchemist demostró que vale la pena incluso hacer un cómic sobre el tema: 


Thanks Steve for lending "The Adventures of ACE" for a while...

"Escasez de herramientas"

Este es el último punto, no era ninguna exageración y fue con el que Samuel se tomó más molestias, quizás porque es su pan de cada día. Para aclararlo tengo que decir una cosa: tenía un límite de palabras cuando escribí el artículo.

Y teniendo en cuenta que el objetivo era clarificar ciertos puntos del BigData, siempre en mi humilde opinión y sin entrar en el apartado técnico, me permití dos licencias
  • Generalizar diciendo que Hadoop era un sistema de archivos. Hadoop es diferente, y con la comparación entre una base de datos y un sistema de ficheros quería captar la atención: "Cuidado! ésto es diferente, es necesario profundizar".
  • Imaginar que cuando usaba "herramientas", se pensaría en herramientas de GUI amigable y/o "alto nivel". Y no en el extenso abanico de complementos que tiene Hadoop o el ecosistema NoSQL.
Precisamente creo que crear herramientas de mayor nivel y/o "amigables" es una de las oportunidades del BigData, esperando que algunas empresas creen esa capa que falta y que sea capaz de acercar el BigData a los mercados de consumo IT.

Por cierto, creo que es precisamente a lo que se dedica Samuel =)



PD1: Tengo que decir que no fue la única cosa que cambié en mi forma de escribir, y en cuanto las tenga suficientemente aprendidas espero contarlas aquí...

PD2: Agradecer a Samuel su crítica como experto y decir que ya estoy esperando otra respuesta, de la que también espero aprender mucho:

Creative Commons License
Esta obra está bajo una licencia de Creative Commons.

sábado, 6 de abril de 2013

La Ballena Voladora [BigData]

A finales de Enero, tras varios meses, volvió a aparecer en Twitter la "Fail Whale", dibujo de una ballena voladora que aparece cuando el servicio no funciona y un buen símil de la cantidad de datos que mueve el servicio.

Fue en Febrero de 2010 cuando un ingeniero de Twitter, a raíz de las frecuentes caídas del servicio, anunciaba sus planes de abandonar su Base de Datos SQL tradicional. Se optó por una procedente de Facebook, un sistema NoSQL. Fue un fracaso, pero se aprovechó para montar su infraestructura de análisis.

Infraestructura con la que han logrado dar valor a su servicio (Trending Topics), añadir funcionalidades e incluso recibir ingresos (acuerdos con Google y Bing). Como culminación ofrecerán una asignatura de BigData en la universidad de Berkley.

¿Cómo Enfrentarse a una Ballena?

Surge la "Internet de las cosas", donde casi cualquier equipo eléctrico es capaz de almacenar datos. Ésto, junto a las redes sociales, han logrado poner a disposición de cualquier negocio más información de la que habrían soñado nunca, donde se mezclaran orígenes de datos muy diferentes y en la mayoría de ocasiones sin una estructura clara.

What's Better Than Four Leaping Dolphins? - WHALES!Nos estamos enfrentando a la evolución del Business Inteligence, análisis de datos adaptado al nuevo mercado que nosotros mismos, como usuarios, hemos creado. Un nuevo modelo de Just in Time del procesamiento de datos, donde será necesario ser flexible en las preguntas y veloz en las respuestas.

Apenas podremos hacer previsiones sobre nuestros datos y mucho menos estructurarlos con antelación. Esta será una de las principales características del BigData: la falta de estructura. Lo que provocará que almacenaremos toda información, para que en cuanto aparezca una necesidad, una pregunta, ese gran ser acuático responda y lo haga YA!

Pero antes de empezar a analizar nuestros datos o a pedir una gran piscina para nuestra ballena, será necesario sentarse, respirar profundamente y hacerse una pregunta:

¿Qué le podemos preguntar a una ballena?

No todo el mundo se sentirá cómodo al tener que reaccionar por lo que diga un cetáceo, lo que pondrá a prueba nuestra flexibilidad y gestión del cambio. Llegando incluso a la conclusión de que no todos debemos tener una ballena en el salón.

Una vez contestada podemos analizar las soluciones tecnológicas disponibles. Acostumbran a existir dos entornos de almacenamiento, el productivo (OLTP) y el analítico (OLAP), lo que nos puede llevar a pensar que la mejor opción es unir ambos. De esta forma, analizando los datos en origen, podríamos evitar procesos nocturnos que actualicen y estructuren el entorno analítico, que es en realidad al que preguntamos. En Oracle fueron de los primeros en darse cuenta presentando Exadata, un "exa"-esqueleto para que hasta un cachalote pueda moverse como una bailarina. Pero dada su complejidad y precio, se ha dado pie al resurgir de los sistemas NoSQL.

Características de los sistemas NoSQL:

  • Empezamos YA! sistemas sencillos de implantar y sin necesidad de diseño previo.
  • El FIN del DBA. Al ser sistemas más cercanos al desarrollador, podemos optar por prescindir de esta figura.
  • Escalabilidad, suele ser sencillo añadir nodos a un cluster NoSQL.
  • Precio, no solo por casi todo proyectos de código abierto, sino por el crecimiento a base de "Commodity Servers" (equipos básicos).
  • Velocidad, además de por escalabilidad, por su diseño, distinto al tradicional SQL.
  • No cumplen el estándar ACID para tratamiento de transacciones, lo que podrá suponer un problema de robustez.
  • Hay escasez de herramientas

Destaca un producto, Hadoop, que además de no ser una base de datos, sino un sistema de ficheros, ofrece otras ventajas como la alta disponibilidad. Es la solución que multitud de fabricantes han embebido en sus soluciones de BigData, entre ellos Oracle.

Varados en la Costa
Flying whale...Flying whale...

Se pueden leer muchas críticas, tanto desde el punto de vista técnico, como desde el operativo; quizás sea por eso que veo una gran
futuro a la ballena.
Durante el 2013 quedará claro que en el bigDATA lo relevante son los datos y no el tamaño.

Veremos como realizar preguntas de forma más sencilla, usando el "Lenguaje Natural". Donde el protagonismo lo tiene la pregunta, evitando intermediarios que la manipulen para poder formularla.

Veremos como la tecnología responde con alternativas. Cada vez será más habitual aprovechar discos de estado sólido (más veloces y caros que los normales). Aparecerán más formas de consultar con una interfaz SQL a sistemas NoSQL, aunque no sea la forma más optima, puede ser clave en el proceso de adaptación. Se volverá a hablar de las "in-memory databases" donde todo el procesamiento se realiza en memoria RAM sin consultar los discos duros (SAP-HANA), otra gran solución a gran coste.

Aunque se pueden obtener muchos beneficios al BigData, es quizás en las herramientas donde veo una oportunidad clara. Aunque hay alguna (MapR, Greenplum), existe una clara escasez de interfaces sencillas, sobre todo para que las empresas puedan apreciar a nuestro cachalote o incluso para que desarrolladores puedan pasar horas y horas jugando con él.

Para seguir los viajes de nuestro particular cetáceo, uno de los mejor lugares durante el 2013 será Barcelona, concretamente en el "Gartner Bussines Intelligence & Analitycs Summit" que se celebra en Febrero y en el "Symposium ITexpo 2013" de Noviembre, también de Gartner. En ambos encontraremos BigData como tema destacado.


Es otra revolución, como lo fue la nube, pero no tan ligera...


Imagen: Flying whale...
Imagen: What's Better Than Four Leaping Dolphins? - WHALES!


Creative Commons License
Esta obra está bajo una licencia de Creative Commons.

miércoles, 11 de julio de 2012

Gestión del Cambio, el VCP y el Miedo

Para mi 2012 iba a ser el año de mi vuelta a las comunicaciones, mi vuelta al mundo Cisco... y finalmente, hoy me he certificado en VMware (VCP5) !!
'
changes¿Pero esto no iba de Oracle?

Pues si, pero el medio cambia, aparecen oportunidades y tuya es la decisión de subirte al tren...

Hace 10 años me interesé por un producto, Oracle, no sabía ni lo que era un SGBD ni mucho menos escribir una consulta SQL y seguramente lo cambió todo.

Algún año atrás había iniciado mi andadura en el mundo Cisco y no solo eso, me certifiqué, empezaba una carrera... Pero nunca fue un problema, tener una doble visión (DBA y Networker) siempre me ha ayudado, siempre lo he considerado una fortaleza...

Pues bien, ahora le ha tocado el turno a VMware, un producto con el que he tenido la suerte de lidiar desde muy temprano (2004-2005) pero sin llegar a consolidar conocimientos como ahora. Ha sido una oportunidad, sin llegar a ser azar... pero con una pizca de suerte...

¿Ha sido un sacrificio?... si ¿he dejado cosas sin hacer?... también ¿es complicado explicar como he llegado a estar certificado en Cisco, Oracle y VMware?... quizás... pero quizás el examen de hoy lo cambie todo y en unos años lo cuente aquí mismo.

Hoy todo el mundo se queja de lo que tiene, pide cambios, pide que se salga a la calle...

Fear of the unknown...Nos emborrachamos de consignas y léxico sobre el cambio (creatividad, innovación, I+D, liderazgo...), pero para temas más básicos seguimos siendo muy conservadores.

Para cambiar las cosas primero tenemos que cambiar nosotros, y una vez hayas cambiado (algo que no debe ser nada fácil), estamos en la mejor época para compartir el cambio, hacerlo llegar.

Si no te apetece, simplemente disfruta de él, pero...

... si te apetece compartir tu cambio y el mensaje no logra su cometido, piénsalo, quizás es que era un mensaje solo para ti, o simplemente te hayas equivocado, o puede que solo necesites volver a cambiar...

... sin miedo
.







Imagen: Changes
Imagen: Fear of the unknown...

Creative Commons License
Esta obra está bajo una licencia de Creative Commons.