Opiniones | Opinions | Editoriales | Editorials

En los proyectos de big data, ¿es mejor comprar o construir?

 
Picture of System Administrator
En los proyectos de big data, ¿es mejor comprar o construir?
by System Administrator - Friday, 19 September 2014, 9:56 AM
Colaboradores y Partners

En los proyectos de big data, ¿es mejor comprar o construir?

por Nicole Laskowski
 

Para Stephen Laster, CDO (Chief Digital Officer) en McGraw Hill Education en New York, usar datos para mejorar los resultados del negocio es de suma importancia. Laster lidera un equipo de científicos de datos e ingenieros encargados de crear la estrategia de tecnología educacional y de aprendizaje electrónico en la empresa. En otras palabras, su grupo está encargado de todos los productos de aprendizaje digital en McGraw Hill.

Un aspecto significativo de lo que su equipo construye, es la sofisticada interacción entre el software y el estudiante. En los últimos años, el equipo de Laster ha capturado cuatro mil millones de interacciones de aprendizaje, las cuales no son nada genéricas.

 “Lo que podemos hacer para un estudiante particular, es entender a un nivel microscópico qué conceptos domina y cuáles aún requieren práctica, y consecuentemente llevarlo por un mapa de aprendizaje que le permita dominar conceptos pequeños que lo lleven a un resultado de aprendizaje superior” dijo Laster.

Por esta razón, Laster no es partidario deltérmino Big Data y ve más importancia en grupos pequeños de datos. Para crear aplicaciones personalizadas para los estudiantes, su equipo tiene que analizar datos en vivo, predecir comportamiento y construir algoritmos inteligentes que se refinan y aprenden por sí solos.

Cuando Laster tiene que decidir entre comprar capacidades tecnológicas o desarrollarlas internamente, busca oportunidades de diferenciación en el mercado y se mantiene a la distancia de proyectos que tratan de reinventar la rueda. Por ejemplo, vea su estrategia para un sistema de gestión de bases de datos relacionales; “eso ha sido resuelto, pero a la inversa, desarrollaremos la inteligencia artificial (AI) y los algoritmos para realmente darle vida a este sistema dentro de la empresa”, comentó.

Laster y su equipo empiezan con los resultados de negocio y parten de ahí. “Decidimos primero, ¿qué estamos tratando de lograr para avanzar la docencia y el aprendizaje?”. Luego de esto, él y su equipo diseñan el mapa tecnológico para llegar a la meta.   

 “Una vez que sabemos eso, desarmamos el proceso de implementación en partes pequeñas y revisamos cada parte – ¿Esto ya ha sido solucionado en el mercado? Si existe una solución, la usamos a través de licencias o fuentes abiertas. Si no hay soluciones sólidas disponibles, invertimos en desarrollarlas”, explicó.

Un interfaz para una aplicación “basada en años de investigación académica e investigación por los ingenieros” –como las que encontramos en los espacios educativos LearnSmart, Assesment y Learning in Knowledge– “es en donde pensamos que estamos moviendo el mercado hacia adelante” dijo Laster.

Construir en vez de comprar al nivel de aplicación permite a las compañías diferenciarse dentro de su mercado, haciendo de este un punto clave para la discusión de comprar o construir, según Jonathan Reichental, CIO para la ciudad de Palo Alto. “Si eres un CTO y estas prestando tus servicios en el mercado, usualmente esto implica que los estas construyendo. Si es para consumo interno, como un reporte sobre las finanzas, quizás uses SAP o algún producto de otra compañía para elaborar los reportes.”

Construir aplicaciones para el uso de clientes sólo ayuda a reducir “los escombros que dejamos en la última década por haber construido tantas cosas a las que no se les pudo dar soporte y terminaron fallando”, dijo Reichental.

Comprar soluciones puede brindar ventajas también

A veces comprar es más conveniente para el negocio, o por lo menos así lo ve Johann Schleier-Smith, CTO y cofundador del sitio social Tagged.com en San Francisco. Él y su compañero, Greg Tseng, empezaron el análogo de Facebook hace 10 años –antes del boom del big data. “Las bases de datos que usábamos para nuestro sistema de transacciones online también las usábamos para nuestra analítica” dijo Schleier-Smith.

Hoy en día, el terreno tecnológico es más diverso, repleto de bases de datos NoSQL, plataformas de analítica y la comunidad Apache open source, acotó Schleier-Smith. Esta expansión tuvo un impacto en su forma de desarrollar la arquitectura para el terreno tecnológico en Tagged, una empresa que actualmente reúne 100 billones de eventos de datos cada mes, sumando más de 50 TB a su clúster de petabytes. Sus ingenieros trabajan con tecnología open source como Linux, Apache Kafka, Apache Spark y motores de procesamiento de analítica de datos in-memory

En Tagged, balancean las herramientas open source con tecnologías comerciales de EMC Greenplum y Vertica. Tecnologías de bases de datos como las mencionadas, proporcionan “un alto rendimiento en algunos tipos de consultas –particularmente, consultas interactivas”, dijo Schleier-Smith. “Pensamos que había una ventaja en poseer estas tecnologías y nos pareció lógico comprarlas”.

¿Construir o comprar? ¿Por qué no alquilar?

ContextLogic, otra empresa joven de San Francisco, escogió un camino que no existía hace 10 años. En vez de comprar o construir, los directivos decidieron alquilar el servicio ofrecido por un proveedor de nube para gestionar sus datos de registro.

ContextLogic son los creadores del popular Wish.com, un motor de recomendaciones de compras que cuenta con más de 1 millón de usuarios activos diariamente, de los cuales el 96% interactúa con el sitio desde dispositivos móviles. Un elemento clave del éxito del negocio es la recolección y registro de eventos online –desde impresiones y clicks de usuarios hasta productos que vieron los clientes y luego descartaron– y esta información detalla, entre otras cosas, cómo y cuándo un usuario encontró su camino al carrito de compras del sitio. Todos estos datos –entre 40 y 55 millones de eventos diarios– son registrados para un análisis posterior.

 “La combinación del volumen de datos y su secuencia, hacen los registros muy interesantes” dijo Danny Zhang, líder de operaciones de ingeniera y cofundador de ContextLogic. “Así es como yo veo big data”.

A medida que la empresa creció, también lo hizo el volumen –y la importancia– del registro de datos. “Los registros son esenciales para mí y podría argumentar que son el paso más importante para el análisis de big data” dijo Zhang. Proporcionan una visión clara sobre lo que le gusta y disgusta a los clientes, guiando así los algoritmos por debajo del motor de búsqueda y las decisiones de negocio de ContextLogic. A pesar de que a Zhang le gusta construir todo en casa, debido a que “crecen tan rápido que pronto superan las capacidades de soluciones de muchos proveedores externos”, el cofundador decidió contratar a Treasure Data, un proveedor de servicios de big data que usa Amazon Web Services para habilitar la funcionalidad Hadoop para la gestión de registros. Su razón para hacer esto es sencilla: “Los registros no van a cambiar, no importa qué tan rápido crezcamos; seguiremos haciendo los registros de la misma forma”.

Adicionalmente, Zhang dijo que alquilar servicios de gestión de datos basados en la nube no implica un incremento significativo en costos para ContextLogic. Al eliminar los dolores de cabeza de los registros, los ingenieros tienen más tiempo para el análisis de datos.

 “No estamos esperando que un paracaídas de oro venga y solucione todos nuestros problemas, los problemas siguen, nosotros sólo escogimos a Treasure Data como una de las metodologías para solventar los problemas” dijo Zhang.

ARTÍCULOS
TÉRMINOS DE GLOSARIO RELACIONADOS

Término relacionado de nuestro diccionario de informática en línea.

Link: http://searchdatacenter.techtarget.com_

 

1327 words