La historia de crecimiento de un producto de migración a la nube
Sobre el autor
Ray Sun es CTO de OneProCloud (empresa conjunta de GDS Holdings, NASDAQ: GDS), MVP de Alibaba Cloud en el área de soluciones, cofundador de la Comunidad China de Ceph y AWS Certified DevOps Professional. Ha trabajado anteriormente en destacadas empresas nacionales e internacionales como Yiyang Tongxin, Motorola y Shunlian Software. Inició su trayectoria emprendedora en 2013, dedicándose a la I+D en el ámbito de la nube privada. En 2016, lideró al equipo en el desarrollo del producto de migración nativo en la nube HyperMotion, que ha sido ampliamente adoptado en proyectos para Jiangsu Rural Credit Cooperatives, State Grid Corporation, Haitong Securities y muchos otros. En 2018, organizó con éxito el primer Ceph Summit global y ayudó a múltiples empresas chinas reconocidas a unirse a la Ceph Foundation bajo la Linux Foundation.
Sobre OneProCloud
OneProCloud Information Technology (Shanghai) Co., Ltd., con sede en Shanghái, es un proveedor líder nacional de servicios de tecnología en la nube y arquitectura digital. OneProCloud se dedica a proporcionar a las empresas consultoría en la nube, productos en la nube y servicios en la nube de manera neutral y profesional, con la misión de convertirse en un proveedor de servicios en la nube de confianza para las operaciones de TI empresariales y el desarrollo digital. Guiada por la filosofía de servicios impulsados por productos y tecnología que mejora el valor empresarial, la compañía ofrece continuamente una rica cartera de productos en la nube, soluciones y servicios de consultoría profesional, y colabora con su ecosistema para ayudar a las empresas a acelerar su crecimiento en la era digital.
El equipo central de I+D de OneProCloud se formó en mayo de 2013. De 2013 a 2016, el equipo se centró en el desarrollo de productos de nube privada basados en OpenStack. Después de 2016, el equipo pivotó completamente hacia el desarrollo de un producto de nicho en el mercado de la nube: la migración a la nube. En 2017, completaron la construcción de la plataforma de nube privada y la migración de sistemas de negocio a la nube para un banco comercial rural en Shuyang, un proyecto que ganó el Premio de Logro Tecnológico de Categoría 4 de la Comisión Reguladora Bancaria de China (CBRC) y el Segundo Premio en los 2.os Premios a Casos Destacados de Código Abierto en Cloud Computing. En 2018, completaron la construcción de una plataforma de nube dedicada para Jiangsu Rural Credit Cooperatives y simultáneamente utilizaron su producto de migración en la nube para migrar en bloque más de 1.200 sistemas de negocio a la nube, un proyecto que obtuvo el Premio de Logro Tecnológico de Categoría 2 de la CBRC y el Segundo Premio en los 3.os Premios a Casos Destacados de Código Abierto en Cloud Computing. Ese mismo año, completaron la migración en bloque de casi 20.000 máquinas virtuales VMware en 27 provincias para State Grid Corporation. En 2019, integraron la plataforma de gestión en la nube de Haitong Securities con su producto de migración en la nube: el primer proyecto nacional en integrar un servicio de migración de autoservicio en una plataforma de gestión en la nube. En 2020, completaron la migración en bloque de máquinas virtuales VMware de Qianhai Equity Exchange a Alibaba Cloud.
Cómo todo comenzó con la migración a la nube
A partir de 2011, me dediqué al trabajo de I+D en aplicaciones de OpenStack para nubes privadas empresariales. De 2011 a 2018, la comunidad de código abierto estuvo en su momento más activo, con las empresas volcando su principal energía en optimizar los distintos módulos de OpenStack. En aquella época, los servicios ofrecidos al construir una plataforma de nube privada eran integrales: desde la integración de sistemas, instalación e implementación hasta operaciones, mantenimiento y desarrollo personalizado, básicamente una solución full-stack completa. A veces, incluso cuando los sistemas de negocio que funcionaban sobre la plataforma en la nube tenían problemas, los clientes también acudían a nosotros. Esto representaba un enorme desafío para cualquier empresa de OpenStack que aún estuviera en sus primeras etapas.
En 2016, nos contrataron para construir una nube privada para un banco comercial rural. Tras una extensa validación preliminar, obtuvimos el proyecto a finales de 2016. En aquel momento, además del requisito de construir la propia plataforma en la nube, había otro requisito que servía como criterio de aceptación: migrar sin problemas los sistemas de negocio existentes del cliente, que funcionaban en varias máquinas físicas, a la nueva plataforma en la nube sin interrumpir las operaciones actuales. Finalmente, el hardware antiguo debía someterse a las actualizaciones necesarias antes de ser reincorporado a la nueva plataforma en la nube.
Recordando aquella construcción de la plataforma en la nube, la arquitectura en sí no era compleja: una instalación clásica de OpenStack con almacenamiento de hardware y VLAN. En la implementación real del proyecto, desde la entrega del hardware y la instalación en rack hasta el despliegue completo de la plataforma en la nube, todo el proceso llevó aproximadamente tres semanas. Sin embargo, debido a los requisitos del cliente de migración en caliente y recuperación de recursos, el proyecto terminó durando seis meses completos. Como la ubicación del cliente no estaba en una línea de tren de alta velocidad, nuestros ingenieros que viajaban desde Pekín debían tomar un tren nocturno lento o tomar el tren de alta velocidad hasta Xuzhou y luego transferir a un autobús de larga distancia. De cualquier manera, el viaje llevaba al menos ocho horas. Desde la validación de la solución hasta la implementación final, el equipo completo realizó más de 50 viajes de negocios en total, resultando en costes de implementación extremadamente elevados. Cuando intentamos hacer una revisión de todo el proceso, descubrimos que la parte que más tiempo consumía era resolver los distintos problemas que surgían durante la migración en sí.
Avanzando a través de los contratiempos
Los sistemas de negocio del cliente eran un ejemplo clásico de sistemas heredados obsoletos: funcionando en máquinas físicas con matrices de almacenamiento de hardware, con un pequeño número de entornos virtualizados. Los sistemas operativos eran variados: el más común era SUSE 11, junto con Windows 2003, CentOS y otros. Las bases de datos incluían DB2, Oracle y una pequeña cantidad de MySQL.
Dado que era un sistema bancario, existía una demanda extremadamente fuerte de continuidad del negocio, y se nos impusieron los siguientes requisitos para la migración:
En primer lugar, el control de riesgos. En cualquier sector, la estabilidad y la fiabilidad son las prioridades absolutas, y esto es aún más cierto en el sector financiero, que está vinculado al bienestar de las personas. En la práctica, mover los sistemas de negocio existentes a la nube durante la construcción de una plataforma en la nube típicamente enfrenta la mayor resistencia. La causa raíz es la ausencia de una metodología y un conjunto de herramientas completos y científicos que tranquilicen a los clientes sobre la migración a la nube. Por tanto, durante la migración a la nube, el sistema debía ser verificable y con capacidad de reversión. Antes de la transferencia oficial a la plataforma en la nube, los sistemas de negocio necesitaban ser validados exhaustivamente en la plataforma en la nube; y si algo salía mal después de la transferencia, debía ser posible revertir inmediatamente a los sistemas originales y continuar prestando servicios. El objetivo era minimizar el riesgo durante todo el proceso de migración a la nube.
En segundo lugar, garantizar la continuidad del negocio. Los bancos comerciales rurales difieren de los cuatro grandes bancos estatales o de los bancos comerciales municipales: a menudo tienen una autonomía significativa en su infraestructura de TI y, excepto sus sistemas de transacciones centrales, todos los demás sistemas de negocio funcionan localmente, lo que exige grandes capacidades de operaciones y mantenimiento locales. Durante la migración, la continuidad de los sistemas de negocio locales era crítica: si se interrumpía, el banco simplemente no podía abrir. Además, según las regulaciones pertinentes emitidas por la CBRC: causar que las operaciones comerciales no puedan desarrollarse normalmente durante 30 minutos (inclusive) o más durante el horario de servicio comercial constituye un evento de interrupción operativa grave. Esto significaba que la ventana de transferencia para la migración se limitaba esencialmente al horario nocturno; pero por la noche el banco tendría en marcha programas de entrega de datos y procesamiento por lotes, dejando muy poco tiempo para la migración. Por tanto, se requería un enfoque con un efecto similar a la migración en caliente para satisfacer las necesidades del cliente.
En tercer lugar, minimizar la intervención humana para garantizar la fiabilidad de la migración. Dado que muchos sistemas fueron desarrollados por proveedores externos, algunas aplicaciones eran antiguas y, en algunos casos, los proveedores ya no existían. Minimizar la dependencia de los proveedores de aplicaciones durante la migración era fundamental: acciones como reinstalar o reconfigurar podían inutilizar las aplicaciones. Además, dado que el proceso de migración implicaba muchos pasos complejos, las operaciones manuales excesivas eran muy propensas a errores.
Durante este proceso, tomamos muchos caminos equivocados. Por ejemplo, empezamos con Clonezilla usando un enfoque de migración en frío, que tardaba 24 horas en migrar un solo host. También investigamos diversas herramientas P2V y V2V de código abierto, ninguna de las cuales era adecuada. Para resolver un problema de arranque UEFI, modificamos el código de Nova, solo para descubrir que un servidor se quedó en pantalla negra durante media hora durante el arranque, y por culpa de ese único sistema hicimos cinco viajes de ida y vuelta entre Pekín y el cliente. Todas estas dificultades nos obligaron a detenernos y reflexionar: ¿por qué lo que parecía una migración sencilla acabó siendo el factor clave que afectaba al calendario y al coste del proyecto?
Nacido de los proyectos, crecido a través de los proyectos
Para resolver los problemas encontrados en el campo, probamos todos los enfoques disponibles y finalmente descubrimos que la tecnología de replicación diferencial a nivel de bloque del ámbito de la recuperación ante desastres, combinada con un enfoque nativo de la nube, era la combinación óptima. El uso de la replicación incremental a nivel de bloque de la recuperación ante desastres garantizaba plenamente la continuidad del negocio, mientras que maximizar el uso de las API y los recursos nativos de la nube lograba el efecto de “la distancia más corta entre dos puntos”, garantizando la fiabilidad de la migración, reduciendo en gran medida la incertidumbre introducida por la intervención humana y cumpliendo en última instancia el objetivo primordial del riesgo controlable.
Tras casi dos años de refinamiento durante 2016 y 2017, un producto de migración en caliente orientado a OpenStack tomó forma en su versión inicial. Luego llegó 2018, que trajo otra gran prueba: nos enfrentamos a la migración a gran escala de la plataforma de nube dedicada de Jiangsu Rural Credit Cooperatives. Necesitábamos migrar los sistemas de negocio de las 62 entidades jurídicas de segundo nivel de toda la provincia a la nube. Muy rápidamente, la emoción de ganar la licitación quedó sepultada bajo nuevos desafíos. En nuestros proyectos anteriores, todo el trabajo de migración se realizaba dentro de centros de datos locales donde al menos todas las conexiones de red eran de gigabit. Pero en este proyecto, las conexiones entre el centro provincial y cada entidad jurídica de segundo nivel eran líneas dedicadas de 10 Mbps, y eso en el mejor de los casos, con algunas tan bajas como 2 Mbps. Las líneas dedicadas entre la provincia y las entidades de segundo nivel se usaban principalmente para la distribución de datos desde el centro provincial, por lo que la transferencia de datos para la migración solo podía realizarse durante ventanas de tiempo específicas, sin consumir todo el ancho de banda, para evitar afectar a las operaciones. Sin embargo, el volumen de datos de cada entidad de segundo nivel era enorme, aproximadamente de 30 TB a 50 TB, y depender únicamente de la transferencia por red teóricamente habría llevado más de un año. Por tanto, la transferencia puramente por red quedaba descartada. Necesitábamos un enfoque combinado de hardware y red: el hardware almacenaría el conjunto completo de datos, que se transportaría físicamente al centro provincial, y después de que los datos completos se transfirieran a la nube, la red se usaría para transferir los datos incrementales. Este enfoque seguía logrando el efecto de la migración en caliente, pero la velocidad de migración mejoraba drásticamente.
Tras resolver el desafío de la transferencia de datos a gran escala, nos encontramos inmediatamente con el siguiente problema: ¿qué migrar primero y qué migrar después? Los sistemas de aplicaciones tienen dependencias, por lo que la topología de los sistemas de aplicaciones debía mapearse antes de la migración, y los cambios en las configuraciones de red y las configuraciones de aplicaciones posteriores a la migración debían analizarse con anticipación para garantizar que todo saliera bien. Este proceso es esencialmente lo que en muchas metodologías de migración se denomina fase de investigación y análisis. A través de este proceso, acumulamos nuestros propios métodos de investigación de migración y planes de implementación, que resultaron muy valiosos para nuestros proyectos posteriores. También llegamos a comprender que la migración no es en absoluto un problema que pueda resolverse con una sola herramienta: es un proceso que requiere una consultoría intensiva, y las herramientas de migración solo abordan el último kilómetro.
A partir de principios de 2018, formamos un grupo de expertos en negocio junto con el equipo de Jiangsu Rural Credit Cooperatives y nos adentramos en cada prefectura y ciudad, siguiendo rigurosamente un proceso científico de migración a la nube: investigación, revisión, implementación y transferencia. Desde la recopilación y organización básica de información del sistema, hasta el análisis de dependencias ascendentes y descendentes de los sistemas de negocio, el mapeo de topología y la evaluación integral de seguridad, para luego preparar planes e itinerarios de implementación basados en los resultados de la investigación, asegurando que todos los cambios posteriores a la migración estuvieran documentados con anticipación y que la migración procediera sin problemas. Se utilizaron dispositivos físicos auxiliares para la copia de datos completa, que se transportaron al centro provincial para la transferencia a la nube, y finalmente los datos incrementales y la transferencia del negocio se completaron en el momento apropiado. En la segunda mitad de 2018, un promedio de tres bancos comerciales rurales por semana completaban la migración total a la nube.
Este proyecto fue un gran campo de pruebas para nuestro producto, que superó la prueba de la migración a gran escala. A través de la construcción de la plataforma de nube dedicada y la migración de sistemas de negocio, la solución ahorró a Jiangsu Rural Credit Cooperatives 560 millones de yuan en inversión en TI a lo largo de tres años. A 30 de septiembre de 2018, un total de 54 entidades jurídicas de segundo nivel con más de 1.200 sistemas habían sido migrados. Mientras tanto, la plataforma en la nube creció de sus 15 nodos iniciales a más de 130 nodos, y el almacenamiento creció de 0,2 PB a 3 PB.
De una nube a muchas nubes
En 2019, la filosofía nativa de la nube incorporada en nuestro producto ganaba cada vez más reconocimiento de los clientes, y este alto grado de automatización construido sobre bases nativas de la nube estaba llenando precisamente el vacío en el mercado de la migración a la nube. Algunos proveedores de recuperación ante desastres establecidos incluso comenzaron a tratarnos como competidores en migración, atacándonos en artículos publicitarios, lo que solo demostró el enorme valor que representaba nuestro producto.
Pero apoyar únicamente la migración a una sola nube ya no podía satisfacer la creciente demanda del mercado. Así que en la primera mitad de 2019, nos propusimos dar soporte integral a más plataformas de nube pública y privada. Empezamos con el proveedor de nube pública más grande de China: Alibaba Cloud. Durante la última década, Alibaba Cloud se había convertido en el referente de la industria china de computación en la nube, con una cuota de mercado extremadamente alta y el soporte de API más amplio, ofreciendo el máximo apoyo a los socios. Como Alibaba Cloud y OpenStack difieren en algunos mecanismos, tras casi tres meses de investigación y desarrollo, finalmente logramos la migración en caliente a Alibaba Cloud. A partir de ahí, continuamos ampliando nuestra cobertura de plataformas en la nube, y en aproximadamente cuatro meses adicionales cubrimos la gran mayoría de las plataformas de nube pública, nube dedicada y nube privada nacionales, convirtiéndonos en una verdadera solución de migración multinube.
Construyendo una experiencia de usuario excepcional
La primera impresión que dan muchos productos empresariales es que son profesionales y complejos: se necesitan dos días de formación antes de poder entender siquiera cómo usarlos. El espacio de migración a la nube no es diferente: muchos productos de migración a la nube son simplemente modificaciones ligeras del software de recuperación ante desastres tradicional por parte de los proveedores establecidos, con interfaces complejas y operaciones extremadamente engorrosas. Migrar un único host podría requerir fácilmente entre 15 y 25 pasos como referencia. Así que cuando iteramos sobre nuestro producto, queríamos construir un producto B2B con una mentalidad B2C.
En la etapa inicial, los usuarios solo necesitan configurar la información de origen y destino siguiendo un asistente, y luego pueden entrar en el flujo de trabajo de migración. Destilamos el proceso de migración en tres pasos sencillos: seleccionar hosts, sincronizar datos e iniciar la migración. A través de un flujo de trabajo altamente automatizado y el uso inteligente de las API y los recursos nativos de la nube, incluso un ingeniero de Linux junior puede estar completamente operativo en pocos minutos. Y debido al alto grado de automatización, las ventajas durante la migración en bloque son especialmente pronunciadas.
Nueva interfaz de usuario completa.png

Como siempre habíamos trabajado en el desarrollo de productos de nube privada, había una especie de inercia en el enfoque de nuestro equipo de I+D hacia los productos. Para cumplir con los requisitos de despliegue privado, normalmente necesitábamos empaquetar el soporte de instalación en formato ISO sin dependencias de red. La consecuencia directa era que cuando los usuarios probaban nuestro producto, a menudo tenían que pasar mucho tiempo descargando el soporte de instalación, luego instalándolo, y solo entonces probándolo. Ese proceso de ida y vuelta podía fácilmente desperdiciar un día entero. Esto era especialmente frustrante en el contexto de la migración a la nube pública, y así que en la segunda mitad de 2019 decidimos convertir nuestro producto en una oferta SaaS, para que los usuarios pudieran experimentar el producto más rápidamente en lugar de perder tiempo en la instalación. Debido a las limitaciones de recursos humanos, tanto el equipo de I+D como el equipo de operaciones enfrentaron enormes desafíos. El equipo de I+D tuvo que desarrollar nuevos módulos para satisfacer los requisitos operativos, la multitenencia y otras necesidades SaaS, mientras también rediseñaba el modelo de comunicación original para evitar las comunicaciones bidireccionales. El equipo de implementación tuvo que equilibrar los proyectos privados con las operaciones en línea, lo que exigía una plataforma estable, altamente fiable y fácilmente mantenible, haciendo que la adopción nativa de la nube fuera especialmente crítica. Aprovechamos el servicio de contenedores Kubernetes de Alibaba Cloud y varios componentes nativos de la nube para completar la transformación SaaS, y sin añadir un solo recurso humano, logramos el lanzamiento completo del SaaS a principios de 2020.
Creciendo juntos sobre los hombros de gigantes
A principios de 2019, AWS adquirió la startup israelí de recuperación ante desastres CloudEndure por 250 millones de dólares. Aunque la empresa fue adquirida bajo el paraguas de una empresa de recuperación ante desastres, su negocio principal era proporcionar servicios de migración a AWS. La filosofía de diseño y la experiencia de usuario de nuestro producto eran muy similares a las de CloudEndure, mientras que nuestro producto podía soportar una amplia variedad de proveedores de nube diferentes en China.
La adquisición de CloudEndure por parte de AWS nos dio una enorme confianza y reforzó nuestro compromiso con el camino de los productos de migración nativa en la nube y recuperación ante desastres. Descubrimos que este mercado era esencialmente una pizarra en blanco a nivel nacional. Aunque los proveedores tradicionales de recuperación ante desastres podían resolver los problemas de los proyectos in situ echando personas al asunto, solo una plataforma de migración verdaderamente de autoservicio podría permitir a los usuarios asignar independientemente sus cargas de trabajo en la nube, acelerar el consumo de recursos en la nube y, en última instancia, beneficiar a los proveedores de nube.
Y así tomó forma una idea audaz: ¿podríamos integrar nuestro software de migración como un servicio nativo de la nube dentro de una plataforma de nube pública? Tras varias rondas de deliberación, comenzamos a relacionarnos con Alibaba Cloud. Estoy profundamente agradecido al Dr. Chen Xu de Alibaba Cloud, quien nos abrió la puerta de la colaboración con el equipo de Alibaba Cloud. Después de conectarnos con Alibaba Cloud en 2019, la primera prueba que enfrentamos fue del equipo de ECS de Alibaba Cloud. Tras probar exhaustivamente el producto, nos reunimos con el equipo de socios del ecosistema de Alibaba Cloud y el departamento de inversiones en Hangzhou: una reunión que abrió completamente las puertas de la colaboración entre nosotros y Alibaba Cloud.
A finales de 2019, fui reconocido como MVP de Alibaba Cloud en el área de soluciones, lo que profundizó aún más nuestra cooperación con Alibaba Cloud. A principios de 2020, el mercado de herramientas de aplicaciones en la consola de Alibaba Cloud captó mi atención. Este modo de integración profunda con Alibaba Cloud era un hogar ideal para la migración nativa en la nube y la recuperación ante desastres. A través de una presentación del equipo de operaciones MVP de Alibaba Cloud, nos conectamos con éxito con el equipo del mercado de herramientas de aplicaciones de Alibaba Cloud, y a finales de febrero decidimos listar nuestro producto allí.

El proceso de listado en el mercado de herramientas de aplicaciones de Alibaba Cloud no fue nada fácil. Alibaba Cloud tiene requisitos de seguridad estrictos, y el producto debe pasar una revisión rigurosa por parte del departamento de seguridad de Alibaba Cloud antes de salir en vivo. Para ello, realizamos algunos ajustes arquitectónicos y medidas de refuerzo de seguridad. Tras casi tres meses de esfuerzo, nuestra plataforma salió oficialmente en vivo la noche del 10 de julio de 2020. Una vez listada, la plataforma de migración mantiene una experiencia de usuario completamente consistente con Alibaba Cloud: los usuarios no sienten ninguna fricción al utilizarla.

Poco después, a través del equipo de operaciones MVP, nos conectamos con el equipo de Alibaba Cloud Apsara Stack y comenzamos la integración con la nube dedicada Apsara Stack. A principios de agosto, habíamos logrado plenamente el soporte integral para la migración automatizada a Apsara Stack.
Reflexiones finales
En abril de 2020, el gobierno chino presentó la iniciativa de desarrollo de las “Nuevas Infraestructuras”, con la infraestructura de información a la vanguardia, y la computación en la nube, como base de las nuevas infraestructuras, nunca ha sido más importante. La epidemia a principios de 2020 hizo que toda la sociedad tomara conciencia de la importancia de una “sociedad basada en la nube”. Se puede predecir que la era de la plena adopción de la nube se aproxima.
A través de nuestra colaboración integral con Alibaba Cloud, nuestro producto ha ganado acceso a canales de tráfico de primer nivel, acortando el tiempo necesario para ganarse la confianza de los clientes. De cara al futuro, también construiremos nuestro producto en una oferta de copia de seguridad y recuperación ante desastres nativa de la nube, proporcionando una experiencia de usuario superior a más clientes en la nube. Damos la bienvenida a todas las personas afines a unirse a nuestro equipo, y a los clientes con necesidades de migración a unirse a nuestro grupo de discusión de migración (siga nuestra cuenta oficial de WeChat y responda “support”).
