Aprendizaje automático no supervisado: El futuro de la ciberseguridad

Gabriel Melo

¡La ciberseguridad es como Tom y Jerry! Si bien Tom siempre intenta nuevas formas de atrapar a Jerry, logra escapar de una forma u otra. La mayoría de los equipos de ciberseguridad se encuentran en la posición poco envidiable de Tom, donde pueden probar los métodos que quieran, ¡Jerry siempre escapa e intenta conseguir el queso de formas aún más creativas la próxima vez! Los ciberdelincuentes de hoy se han vuelto aún más peligrosos debido a la variedad de herramientas disponibles en línea, como servidores proxy, redes de bots y scripts automatizados.

 No tienen un solo método para lanzar un ciberataque, y pueden ocultar sus identidades imitando la actividad real del usuario, usando dispositivos de suplantación de identidad, etc. En un juego de tan alto riesgo en el que el ciberdelito cuesta a las empresas alrededor de $ 2 billones Cada año, la Ciberseguridad definitivamente necesita mejorar su desempeño con el aprendizaje automático no supervisado.

Y eso definitivamente está sucediendo en estos días con un aumento en la popularidad del aprendizaje automático no supervisado. Según un estudio de O’Reilly , el uso de aprendizaje automático no supervisado ha aumentado un 172% en 2019. Esto definitivamente se reflejará en el dominio de la ciberseguridad y con más y más empresas que adoptan esta tecnología.

La ciberseguridad en cualquier empresa se centra principalmente en dos facetas diferentes, a saber:

  • Cómo contrarrestar ataques que ya han ocurrido en el sistema o aquellos que son un tipo familiar de ciberataques. ¿Cómo responder ante ellos e implementar medidas preventivas?
  • Cómo contrarrestar ataques que son totalmente nuevos y nunca antes vistos. Cómo identificar estos ataques y cuáles son las soluciones para disiparlos.

Si bien las empresas pueden abordar la primera faceta utilizando métodos tradicionales de ciberseguridad, no existen soluciones que puedan manejar el segundo escenario. Y el segundo escenario se vuelve cada vez más importante mientras los ciberataques evolucionan y se vuelven más impredecibles. Ahí es donde entra en juego el aprendizaje automático no supervisado . Entonces, entendamos el aprendizaje automático y cómo se utilizan diferentes tipos como supervisado, no supervisado y semi supervisado en el contexto de la ciberseguridad.

Tipos de aprendizaje automático en el contexto de la ciberseguridad

 

1. Aprendizaje automático supervisado

El aprendizaje automático supervisado es el método más común en el aprendizaje automático. Para comprender este tipo, imagine un estudiante al que el maestro le debe enseñar todo explícitamente. Este estudiante sería excelente para repetir y usar la información que el maestro ya le ha enseñado, pero no podría aprender nada por sí mismo. 

Desafortunadamente, ese estudiante solo será bueno en ciertas situaciones (¡como un examen!) Pero, en general, sería un estudiante bastante pobre. Ese es el mismo caso con un algoritmo de aprendizaje automático supervisado. Aquí, el algoritmo aprende de un conjunto de datos de entrenamiento donde los datos están etiquetados y hace predicciones sobre nuevos datos basados ​​en ese conjunto de datos.

Ahora, este método estaría bien en general, pero eso no es cierto para un campo dinámico y en constante cambio como la ciberseguridad, donde el aprendizaje automático supervisado no puede mantenerse al día. Después de todo, ¡los piratas informáticos no se limitan a los temas que ha aprendido el algoritmo! Lo que esto significa es que un algoritmo de aprendizaje automático supervisado podría identificar los ciberataques para los que fue entrenado.

Sin embargo, si hay ataques nuevos, el algoritmo fallará por completo. ¡No podrá hacer frente si el examen está fuera del programa de estudios! En ese caso, los ingenieros de aprendizaje automático tendrán que volver a entrenar el algoritmo con las etiquetas de datos en función de los nuevos ataques y, cuando las haya aprendido, es posible que se creen aún más ataques nuevos. Claramente, el algoritmo de aprendizaje automático supervisado sería superado en este sentido.

2. Aprendizaje automático no supervisado

Si un algoritmo de aprendizaje automático supervisado es el alumno al que el profesor le da toda la información con cuchara, entonces el algoritmo de aprendizaje automático no supervisado es el estudiante genial que no necesita mucha instrucción y puede aprender la información por sí mismo. Este estudiante no está restringido por que se le enseñe solo una cosa específica, sino que aprende de lo que se le presente al explorar y comprender la información. Entonces, este estudiante es bueno en muchos tipos de situaciones, ya que puede abordar los problemas cuando surgen. 

Esta es también la situación con un algoritmo de aprendizaje automático no supervisado. Aquí, el algoritmo se deja sin supervisión para encontrar la estructura subyacente en los datos con el fin de aprender más y más sobre la nueva situación.Este algoritmo es mucho más adecuado para la ciberseguridad. Puede manejar muchos tipos de ciberataques sin importar si los ha visto antes o no porque no intenta identificar un ciberataque basándose en lo que ya ha aprendido. Más bien, identifica las anomalías en el sistema que ocurren con un ciberataque. Entonces, esto significa que un algoritmo de aprendizaje automático no supervisado creará una línea de base para su sistema donde todo funciona normalmente. 

Luego, si se produce algún comportamiento sospechoso en el sistema, como un aumento repentino de la transferencia de datos en la red o la transferencia de algún archivo que no suele ocurrir, este tipo de comportamiento se marcará como anormal y un signo de un ciberataque. Por ejemplo, el aprendizaje automático no supervisado es la mejor opción para identificar ciberataques de día cero basados ​​en IoT. Hay muchos dispositivos de IoT conectados a la nube en estos días que se pueden usar para una gran variedad de propósitos, incluidos los ciberataques de día cero. Estos ataques aprovechan cualquier vulnerabilidad que exista en el sistema, por lo que no tienen ningún patrón o contexto establecido. Es por eso que los algoritmos de aprendizaje automático supervisado no identifican estos ataques y el aprendizaje automático no supervisado puede resultar invaluable.

3. Aprendizaje automático semi-supervisado

Como es obvio por el propio nombre, el algoritmo de aprendizaje automático semi-supervisado es el estudiante que aprende tanto de su maestro como de sí mismo. Este tipo de aprendizaje automático representa lo mejor de ambos mundos, donde es una combinación de aprendizaje automático supervisado y no supervisado.

Este algoritmo utiliza una pequeña cantidad de datos etiquetados como el aprendizaje automático supervisado y una mayor cantidad de datos no etiquetados como el aprendizaje automático no supervisado para entrenar los algoritmos. Los datos etiquetados se pueden usar para entrenar parcialmente el algoritmo de aprendizaje automático, y este algoritmo parcialmente entrenado también encuentra información de manera orgánica.

Un algoritmo de aprendizaje automático semi-supervisado bien puede ser la combinación perfecta para la ciberseguridad. Este algoritmo podría usar el aprendizaje no supervisado para identificar cualquier anomalía en el sistema que se produzca con un ciberataque específico y luego etiquetar ese ciberataque como una amenaza que puede identificar mediante el aprendizaje automático supervisado si vuelve a ocurrir en el futuro. 

De esta manera, un algoritmo de aprendizaje automático semi-supervisado incorpora las ventajas de ambos tipos en el sentido de que puede estar constantemente atento a cualquier perturbación y desviación de la norma en el sistema y, al mismo tiempo, tener una disposición para identificar rápidamente los ciberataques que se han producido. ya ocurrió antes y eliminándolos.

Adopción del aprendizaje automático no supervisado en ciberseguridad

Todavía hay algunas dudas en la adopción del aprendizaje automático no supervisado en la industria de la ciberseguridad y con razones válidas. Este tipo de aprendizaje automático se basa totalmente en un rendimiento reaccionario. Dado que los datos no están etiquetados de antemano, el algoritmo de aprendizaje automático no supervisado solo puede reaccionar cuando ocurre el ataque y no puede implementar ningún método proactivo. 

Además, es imposible medir su efectividad frente a un ataque que, comprensiblemente, hace que las industrias duden en invertir su dinero en esta tecnología. Sin embargo, todavía hay mucha publicidad sobre el aprendizaje automático no supervisado en ciberseguridad porque esta tecnología es un paso en la dirección correcta. La inversión en el desarrollo de esto sin duda dará resultados porque el aprendizaje automático no supervisado es de hecho el futuro de la ciberseguridad. 

Si bien los ciberataques se están volviendo cada vez más creativos con diferentes herramientas y tecnologías a su disposición, la ciberdefensa también debe mejorar su juego. Y en esto, el aprendizaje automático no supervisado puede resultar invaluable, ya que puede identificar anomalías en el sistema para señalar múltiples tipos de ciberataques, sin importar cuán avanzados estén.

red padlock on black computer keyboard

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *