Aunque los algoritmos de aprendizaje automático han existido durante años, se están descubriendo usos adicionales que se están aplicando en diferentes casos uso todo el tiempo, especialmente cuando se trata de la seguridad en la red y de los datos. A medida que pasan los años, las habilidades y los enfoques sofisticados utilizados por los piratas informáticos aumentan con severidad y frecuencia, y tanto los “sombreros blancos” como los líderes de TI y seguridad de la empresa deben usar todas las herramientas a su disposición para contener la marea de amenazas.
De esta manera, es natural implementar las últimas técnicas y procesos para permitir la protección de los componentes clave de la red y los datos críticos. Recientemente, el aprendizaje automático ha llegado a la vanguardia de los esfuerzos de seguridad de TI, y los investigadores han identificado varias formas exitosas en que las herramientas de aprendizaje automático pueden apoyar la protección general.
Aprendizaje automático: la visión más grande
Antes de examinar detenidamente las formas en que el aprendizaje automático se utiliza para la seguridad de la red, es importante contar con una base de comprensión.
Según lo definido por los investigadores de Trend Micro, el aprendizaje automático es un proceso que se basa en el uso de herramientas tecnológicas especializadas que le permiten a una computadora aprender y utilizar nueva información sin el beneficio de la intervención humana. Los algoritmos robustos e inteligentes permiten que una plataforma computarizada procese y “comprenda” grandes cantidades de información, obteniendo resultados basados en los datos y patrones que se observa en ellos.
“Este sistema analiza estos patrones, los agrupa y en consecuencia hace predicciones“, explicó Trend Micro. “Con el aprendizaje automático tradicional, la computadora aprende a descifrar la información tal como ha sido etiquetada por humanos, por lo tanto, el aprendizaje automático es un programa que aprende de un modelo de conjuntos de datos etiquetados por humanos“.
A medida que el programa de aprendizaje automático repite esta tarea de identificar y categorizar patrones y aprovecharlos para obtener información, también “aprende” cómo completar mejor este objetivo sin la muleta de la guía humana o la programación específica dirigida por el hombre.
Casos de uso en el mundo real
El aprendizaje automático se está poniendo en funcionamiento en diferentes sectores de la industria, lo que permite a las partes interesadas, aprender de los datos procesados y utilizar estos resultados de manera que apoyen su misión.
Netflix, por ejemplo, ha utilizado el aprendizaje automático desde hace varios años para hacer recomendaciones de entretenimiento más personalizadas para los usuarios. De acuerdo con los datos recopilados por Statwolf, la compañía de streaming ahorró aproximadamente $ 1 mil millones con su uso de aprendizaje automático.
El aprendizaje automático también se utiliza para respaldar las capacidades de servicio al cliente, ahorrando tiempo y esfuerzo para los agentes humanos. Gartner predijo que para 2020, la gran mayoría, el 85 % de todas las interacciones de servicio al cliente se habilitarán mediante chatbots asistidos por aprendizaje automático.
Sin embargo, las potentes herramientas de aprendizaje automático no solo respaldan los ahorros en el servicio al cliente: Statwolf observó que alrededor del 12 % del tiempo del personal profesional de marketing se pierde a través de la recopilación de datos. Eso es equivalente a más de cinco horas, o 11 días hábiles en el transcurso de un año. Sin embargo, con la ayuda del aprendizaje automático, este precioso tiempo puede recuperarse y ponerse a buen uso.
Aprendizaje automático en la identificación de amenazas: clasificación del tráfico de red
Sin embargo, uno de los escenarios más grandes que existen actualmente para las herramientas de aprendizaje automático están dentro de la seguridad de TI, que incluye respaldar los esfuerzos para detectar amenazas a la red, los datos confidenciales que se contienen y el acceso a ellos.
Como se señala en la definición de Trend Micro, el aprendizaje automático puede procesar cantidades considerables de datos, resaltar los patrones dentro de esta información y aprovecharlos para obtener predicciones y perspectivas. Este proceso fundamental es adecuado para analizar el tráfico de la red y poder ayudar a identificar el tráfico regular y legítimo (incluida la actividad del usuario) y separarlo del tráfico sospechoso y potencialmente malicioso.
Aprendizaje automático supervisado
Como señaló Trend Micro en el documento de investigación, “Por delante de la curva: una comprensión más profunda de las amenazas de red a través del aprendizaje automático”, este nivel de clasificación de tráfico de red aprovecha el aprendizaje automático supervisado.
En otras palabras, si bien la herramienta de aprendizaje automático puede procesar y extraer información clave de los datos por sí misma, también se orienta en el sentido de que los usuarios humanos la “entrenan” a medida que procesan los datos que se ingresan en el sistema. Este tipo de modelo de aprendizaje automático se mejora a través de datos etiquetados por humanos para respaldar la precisión.
Aprendizaje automático no supervisado
Si bien el aprendizaje automático supervisado descrito anteriormente puede permitir la identificación de amenazas potenciales a través del análisis de datos de acuerdo al flujo de tráfico de red etiquetados por humanos, esta información no está etiquetada de manera inherente. De esta manera, este nivel de aprendizaje automático supervisado requiere un tiempo y esfuerzo considerable para respaldar el proceso, ya que la mayoría de los datos en el mundo real, incluidos los datos del flujo, no están etiquetados.
Sin embargo, el aprendizaje automático no supervisado también se puede utilizar para admitir la detección de amenazas. En este tipo de proceso, los datos sin etiquetar se introducen en la plataforma de aprendizaje automático, que luego se analiza y clasifica a través del agrupamiento de datos.
El beneficio de este tipo de actividad de aprendizaje automático es que requiere menor tiempo y orientación por parte de los usuarios humanos, ya que no es necesario etiquetar los datos antes de procesarlos. Además, los resultados logrados a través del análisis de aprendizaje automático no supervisado de los datos del flujo de tráfico de la red se pueden poner en funcionamiento en tiempo real para identificar el día cero y otras amenazas nuevas.
Identificación de las características del malware a través de la clasificación de cluster
Los investigadores de Trend Micro Technology, Joy Avelino, Jessica Balaqui y Carmi Loren Mora aprovecharon una combinación de aprendizaje automático supervisado y no supervisado, o semi-supervisado, para demostrar cómo se puede aplicar el proceso para identificar amenazas dentro del tráfico de la red. Su objetivo era procesar cantidades significativas de datos de red sin etiquetar para identificar las características clave de las muestras de malware actuales y las posibles relaciones entre ellas.
Los resultados de este estudio fueron esclarecedores. Mediante el uso del aprendizaje automático y los algoritmos específicos de agrupación de datos, incluidos los algoritmos basados en la densidad DBSCAN y HDBSCAN, los investigadores no solo pudieron separar el tráfico de red legítimo de los flujos de datos maliciosos, sino que también pudieron identificar las amenazas en función de sus características analizadas.
“El modelo de agrupación fue capaz de encontrar similitudes en los flujos de red, lo que les permite agruparse“, escribieron Avelino, Balaqui y Mora. “A partir de las múltiples características observadas en cada familia de malware … el modelo de agrupación pudo identificar cuáles constituyen un perfil determinado que se correlaciona entre las muestras similares“.
El programa de aprendizaje automático identificó amenazas bien conocidas de los datos de flujo de tráfico de red sin etiquetar, incluidos los ataques de Rig, Flashpack, Neutrino, Blacole y Angler, y aprovechó un sistema codificado por colores para mostrar e identificar las características individuales de cada uno. De esta manera, las amenazas pueden reconocerse y los atributos superpuestos pueden compararse y analizarse.
“El aprendizaje desempeña un papel clave en el proceso de agrupación exitosa de amenazas de red“, señalaron Avelino, Balaqui y Mora. “El uso del aprendizaje automático para el análisis mejora enormemente la velocidad a la que se organizan los datos y se obtienen las conclusiones“.
Echa un vistazo a la investigación para obtener más información.
Leave a Reply