El peligro de los datasets filtrados en la Dark Web

Publicado el

La nueva amenaza de los datasets en la Dark Web

En los últimos años, la Dark Web ha evolucionado más allá de la simple venta de accesos y credenciales. Actualmente, se han convertido en un mercado donde los datasets son altamente valorados. Estos datos no son meras cifras; se trata de información crítica como correos corporativos completos, historiales de chat de plataformas como Slack y Teams, documentos internos y registros de soporte técnico.

Más allá de los datos genéricos

Al explorar foros underground, no se encontrarán anuncios que digan explícitamente "dataset para entrenar IA". En cambio, las publicaciones hacen referencia a términos más familiares como "full corporate email dump" o "SQL database leak". Este tipo de información, que antes se consideraba útil solo para fraudes puntuales, ha demostrado ser un recurso extremadamente valioso para aquellos que buscan entrenar modelos de inteligencia artificial.

Un ejemplo claro es el uso de un dump de correos corporativos. Estos datos pueden utilizarse no solo para localizar contraseñas reutilizadas, sino para obtener información sobre la comunicación interna de una organización. Se puede analizar el estilo de redacción, el tono de los mensajes y cómo se gestionan los problemas dentro de los equipos. Esto permite a los atacantes comprender cómo suena un "correo legítimo" y cómo interactúan los empleados.

Casos de uso: el Enron Email Dataset

Recopilaciones históricas como el Enron Email Dataset han sido utilizadas en contextos académicos para estudiar el lenguaje corporativo. Contienen miles de correos reales que reflejan decisiones, tensiones y urgencias dentro de una organización. Este tipo de información, cuando es utilizada por atacantes, puede llevar a campañas de phishing mucho más sofisticadas, donde se citan conversaciones reales y se replican firmas internas.

Reconstrucción organizativa a través de datos filtrados

Además, el uso de datos filtrados permite a los atacantes reconstruir un organigrama funcional de la empresa objetivo. Por ejemplo, el hackeo a Sony Pictures en 2014 no solo expuso información sensible, sino también la estructura interna de la organización. Comprender quién se comunica con quién y cómo fluye la información dentro de la empresa otorga a los atacantes una ventaja significativa.

Empresas de threat intelligence como IBM X-Force y Trend Micro han señalado esta tendencia creciente: el uso de datos filtrados no solo para acceder a sistemas, sino como material para mejorar las técnicas de ingeniería social. La combinación de esta información con herramientas como LLMs sin censura y deepfakes genera un panorama preocupante.

Un problema persistente

El gran problema radica en que la información sensible expuesta no se puede "parchear". Tras una brecha de seguridad, una organización puede resetear credenciales o reforzar controles, pero no puede revertir la exposición de su comunicación interna. Una vez que el lenguaje, el tono y el contexto han sido capturados, no se pueden deshacer.

Esto convierte lo que antes era una simple filtración en una amenaza persistente: un modelo capaz de aprender cómo opera una organización, cómo se comunica y cómo toma decisiones. La evolución del mercado de datasets en la Dark Web plantea un desafío significativo para la seguridad empresarial y exige una atención urgente para mitigar estos riesgos.

Fuente

Ver noticia original