← Regresar a lecciones

Ciberinteligencia y OSINT: Vigilancia digital con fuentes abiertas

¿Qué es OSINT?

La ciberinteligencia es una disciplina de la ciberseguridad que se encarga de recolectar, analizar y transformar datos del ciberespacio en conocimiento útil para anticipar amenazas, tomar decisiones informadas y proteger activos digitales. Uno de los métodos más poderosos y accesibles para ello es el uso de OSINT (Open Source Intelligence): inteligencia obtenida de fuentes abiertas y públicas.

En un mundo digitalizado, donde las personas, organizaciones y sistemas dejan huellas constantemente, OSINT se convierte en una herramienta clave para adelantarse a ataques, investigar actores maliciosos o evaluar riesgos reputacionales. Ahora bien, antes de entender cómo se aplica OSINT, es fundamental distinguir entre tres niveles de procesamiento de la información:

  • Dato: Fragmento sin contexto. Ejemplo: una dirección IP o un nombre de usuario.
  • Información: Datos organizados con un propósito. Ejemplo: saber que una IP está asociada a una actividad sospechosa.
  • Inteligencia: Información analizada, validada y contextualizada que permite apoyar decisiones. Ejemplo: atribuir una IP a un actor de amenazas específico.

La práctica de la ciberinteligencia busca transformar grandes volúmenes de datos públicos en inteligencia accionable. Para lograrlo, se recurre al ciclo de inteligencia, que consta de las siguientes fases:

Fase 1: Planificación y dirección

Toda operación de inteligencia comienza con una definición clara de objetivos. ¿Qué se busca conocer? ¿Cuál es la amenaza potencial o el actor a investigar? Esta fase incluye la delimitación del alcance, el diseño de la estrategia de recolección y la asignación de recursos. También implica priorizar objetivos si se trabaja con múltiples focos simultáneamente. Un error común en esta etapa es iniciar la recolección sin una pregunta de inteligencia concreta, lo que puede derivar en exceso de información irrelevante.

Fase 2: Recolección de datos

Aquí se ejecutan las actividades necesarias para obtener datos brutos desde fuentes abiertas (OSINT), internas o técnicas. En el contexto de la ciberinteligencia, esto puede incluir: recopilación de datos de redes sociales, análisis de DNS, uso de buscadores avanzados, escaneo de dispositivos expuestos en Shodan o revisión de filtraciones en bases de datos públicas. Esta fase exige un equilibrio entre amplitud y precisión: obtener lo suficiente sin perder foco ni generar ruido innecesario.

Fase 3: Análisis y validación

Una vez recolectada la información, el siguiente paso es filtrar, comparar y validar los datos. No todo lo que se encuentra en línea es confiable: los analistas deben verificar la autenticidad de las fuentes, detectar contradicciones, eliminar duplicados y contextualizar la información. Aquí se transforman datos crudos en información estructurada que permite identificar patrones, relaciones entre entidades y anomalías. Esta etapa requiere criterio analítico y dominio técnico.

Fase 4: Producción de inteligencia

En esta fase se convierte la información analizada en inteligencia útil y comprensible para los destinatarios. Puede tratarse de informes técnicos, alertas tempranas, visualizaciones (como mapas de relaciones o cronologías), o incluso recomendaciones de acción. La producción debe ajustarse al contexto del usuario: un analista de seguridad, un jefe de operaciones o un equipo legal no necesitan la misma profundidad ni el mismo formato.

Fase 5: Diseminación y uso

Finalmente, la inteligencia producida debe ser entregada a tiempo y en el formato adecuado para que quienes toman decisiones puedan utilizarla eficazmente. En el ámbito corporativo, esto puede traducirse en acciones como bloquear un IP malicioso, alertar sobre una filtración de credenciales, endurecer políticas de acceso o incluso iniciar procesos legales. Además, esta fase incluye la retroalimentación: evaluar si la inteligencia entregada fue útil y qué ajustes deben hacerse en el ciclo para futuras investigaciones.

Aplicar correctamente el ciclo de inteligencia permite transformar el ruido del ciberespacio en una herramienta clave para la defensa digital.

¿Qué es OSINT?

OSINT (Open Source Intelligence) se refiere a la recopilación de información a partir de fuentes abiertas y legalmente accesibles. Estas fuentes incluyen: Sitios web, blogs, foros públicos, redes sociales como Twitter, Facebook, LinkedIn, medios de comunicación, noticias, documentos públicos, boletines oficiales, registros gubernamentales, imágenes, videos y sus metadatos, motores de búsqueda especializados como Shodan, Censys o consultas avanzadas en Google (Google Dorks).

A diferencia de una simple búsqueda en internet, OSINT implica una metodología sistemática y disciplinada para recolectar, verificar y analizar información útil con fines de ciberseguridad o investigación. Una investigación OSINT efectiva va tener estructura en etapas que permiten mantener el enfoque, la trazabilidad y la validez de los hallazgos:

  1. Definición del objetivo: Se debe establecer con claridad a quién o qué se va a investigar: una persona, una empresa, un dominio, una dirección IP, una cuenta específica, etc.

  2. Selección de fuentes: En función del objetivo, se eligen las fuentes más relevantes: redes sociales, bases de datos públicas, registros DNS, repositorios de contraseñas filtradas, entre otros.

  3. Recolección de información: Se emplean herramientas manuales o automatizadas para obtener datos. Esto puede incluir el uso de buscadores avanzados, frameworks OSINT, APIs públicas y scrapers.

  4. Validación y cruce de datos: La información recopilada debe cruzarse entre diferentes fuentes para confirmar su autenticidad, vigencia y relevancia. Esta etapa es crítica para evitar falsos positivos o interpretaciones erróneas.

  5. Producción y presentación de inteligencia: Los hallazgos se organizan en un formato útil para la toma de decisiones: informes, mapas de relaciones, líneas de tiempo, matrices de riesgo, entre otros.

En la siguiente tabla veremos casos de aplicaciones de OSINT en ciberinteligencia.

AplicaciónEjemplo de uso
Análisis de amenazasIdentificar grupos de ransomware en foros clandestinos
Investigación de personasReconstrucción de la identidad digital de un atacante
Reconocimiento pasivoMapeo de dominios, IPs y tecnologías sin interactuar con los sistemas
Verificación de filtracionesDetectar si credenciales han sido expuestas en bases de datos públicas
Prevención de fraudeDetección de perfiles falsos o suplantaciones de identidad

Por otro lado la eficacia de una investigación OSINT depende, en gran parte, de contar con herramientas adecuadas que faciliten la recolección, organización y análisis de datos. A continuación se presentan algunas de las herramientas más utilizadas por analistas de ciberinteligencia.

Herramientas comunes de OSINT

  • Maltego es una de las herramientas más completas para la visualización de relaciones entre entidades. Permite crear grafos interactivos que muestran cómo se conectan direcciones IP, dominios, correos electrónicos, personas, organizaciones y más. Es especialmente útil para analizar redes de contactos, infraestructura técnica de una organización o vínculos entre actores sospechosos. Su fortaleza radica en los transforms, módulos que automatizan la búsqueda de información en distintas fuentes (WHOIS, DNS, redes sociales, etc.) y existe una versión gratuita (Maltego CE) con ciertas limitaciones, y otras comerciales que permiten búsquedas más extensas y colaboración en equipo.

  • Spiderfoot es un framework automatizado para la recolección de inteligencia sobre un objetivo. Se puede usar a través de su interfaz web o en modo consola, y permite ejecutar escaneos masivos con más de 200 módulos. Es ideal para obtener un panorama general de un dominio, IP, nombre de usuario o dirección de correo. Realiza búsquedas en servicios como VirusTotal, Shodan, Pastebin, Have I Been Pwned, bases de datos de filtraciones, entre otros y permite identificar vulnerabilidades potenciales, información sensible expuesta, y correlaciones entre múltiples entidades.

  • Shodan es un motor de búsqueda diseñado específicamente para indexar dispositivos conectados a internet: routers, cámaras IP, servidores, bases de datos, sistemas SCADA, entre otros. A diferencia de Google, que indexa sitios web, Shodan revela servicios accesibles públicamente y metadatos técnicos como banners, versiones de software, puertos abiertos y certificados SSL. Es una herramienta clave para realizar reconocimiento pasivo y evaluar la exposición de una infraestructura tecnológica sin interactuar directamente con los sistemas. También es usada en auditorías de seguridad, análisis de superficie de ataque y para detectar

  • theHarvester es una herramienta enfocada en la recopilación de correos electrónicos, subdominios y datos DNS relacionados con un dominio específico. Es especialmente útil en fases tempranas de un proceso de reconocimiento, cuando se busca conocer el entorno digital de una organización. Consulta múltiples fuentes como Google, Bing, DuckDuckGo, DNSDumpster, y también puede integrarse con Shodan o Censys y su simplicidad la hace una opción habitual en laboratorios de formación y en ejercicios de red teaming.

  • Have I Been Pwned es un servicio en línea que permite verificar si una dirección de correo electrónico ha estado involucrada en alguna brecha de datos conocida. Es una de las fuentes más utilizadas para descubrir credenciales comprometidas. Los analistas pueden usarla para evaluar el riesgo asociado a un dominio corporativo (por ejemplo, buscando cuántas cuentas de @empresa.com han sido filtradas). También es útil para concienciar a usuarios y justificar la implementación de controles adicionales como la autenticación multifactor.

  • Google Dorks son consultas avanzadas en el motor de búsqueda de Google que utilizan operadores especiales (site:, filetype:, intitle:, etc.) para encontrar información específica que suele pasar desapercibida con búsquedas normales. Permiten descubrir documentos sensibles indexados (como archivos Excel, PDF, Word), páginas de login expuestas, directorios abiertos, errores de configuración o incluso cámaras de seguridad accesibles. Se usan en auditorías de visibilidad pública, pruebas de cumplimiento y ejercicios de pentesting ético. A pesar de su aparente sencillez, bien utilizados pueden arrojar resultados extremadamente reveladores.

La eficacia de una operación OSINT no solo depende de las herramientas utilizadas, sino también de la disciplina metodológica y el criterio analítico del investigador. Incluso con experiencia y acceso a múltiples fuentes, es posible cometer errores que afecten la validez de los hallazgos o comprometan la integridad del proceso. A continuación se detallan algunos de los errores más frecuentes, junto con su implicancia operativa.

Errores comunes en investigaciones OSINT

  • Falta de un objetivo definido: Uno de los errores más comunes es comenzar una investigación sin una pregunta clara o sin delimitar el alcance del objetivo. Buscar "todo sobre una empresa" o "toda la actividad digital de una persona" puede conducir a una acumulación excesiva de datos irrelevantes que entorpecen el análisis.

    • Consecuencia: Pérdida de tiempo, dispersión de recursos y dificultad para extraer conclusiones accionables.
    • Solución: Definir preguntas específicas de inteligencia desde el inicio. Por ejemplo: ¿qué infraestructura pública tiene el dominio empresa.com? ¿Este usuario de Twitter está vinculado con una filtración?
  • Confiar en una sola fuente: Toda fuente abierta tiene limitaciones: puede estar desactualizada, manipulada o incompleta. Confiar exclusivamente en una única base de datos, foro, buscador o plataforma es un riesgo metodológico.

    • Consecuencia: Se generan conclusiones sesgadas o directamente incorrectas.
    • Solución: Corroborar cada hallazgo relevante en al menos dos fuentes independientes. La triangulación de información es una práctica esencial en inteligencia.
  • Interpretación errónea del contexto: Un dato sin contexto es una trampa. Una publicación antigua, un comentario sarcástico, una cuenta parodia o una dirección IP mal atribuida pueden inducir a errores si no se comprenden los matices.

    • Consecuencia: El análisis pierde precisión y credibilidad. Puede derivar en acusaciones erróneas o fallas en la evaluación del riesgo.
    • Solución: Analizar el origen, la temporalidad y el tono del contenido. Cuando sea posible, ubicar al autor y el entorno digital donde se produce la interacción.
  • Exposición digital del investigador: Muchas herramientas OSINT requieren navegar por sitios web, consultar redes sociales o realizar búsquedas en plataformas públicas. Hacerlo con el navegador habitual o desde una cuenta personal puede dejar huellas digitales que alerten al objetivo o comprometan al analista.

    • Consecuencia: Riesgo de ser detectado, bloqueo de accesos, pérdida de anonimato e incluso contrainteligencia.
    • Solución: Utilizar entornos aislados (máquinas virtuales, sistemas operativos live), navegadores configurados para el anonimato (como Tor o Brave), y cuentas operativas creadas específicamente para investigación.
  • Ignorar los límites legales y éticos: OSINT trabaja con información pública, pero eso no significa que toda la información disponible sea legalmente utilizable. Acceder a contenido restringido, manipular identidades, recolectar datos personales sin justificación o difundir hallazgos sin consentimiento pueden violar normativas de privacidad o seguridad.

    • Consecuencia: Posibles consecuencias legales, daños reputacionales o exclusión de investigaciones profesionales.
    • Solución: Conocer y respetar el marco legal local e internacional (como el RGPD en Europa o la Ley de Protección de Datos en LATAM). Además, aplicar principios éticos básicos de necesidad, proporcionalidad y minimización del impacto.

En resumen, una investigación OSINT rigurosa no solo depende de la tecnología, sino del criterio, la preparación y el respeto por el marco legal del analista. Evitar estos errores no solo mejora la calidad de la inteligencia generada, sino que también fortalece la legitimidad y sostenibilidad de esta práctica dentro de la ciberseguridad profesional.

Ejemplo práctico: OSINT sobre un dominio

Hacer OSINT sobre un dominio como example.com significa recolectar información pública y legalmente accesible sobre los activos digitales asociados a ese dominio, sin interactuar activamente con sus servidores (lo que se considera reconocimiento pasivo).

El objetivo es entender:

  • Qué infraestructura está expuesta a internet
  • Qué tipo de tecnologías se están usando
  • Si hay información sensible o filtraciones asociadas
  • Qué tan fácil sería para un atacante construir un vector de ataque

Este tipo de análisis es útil para evaluar riesgos, realizar auditorías de visibilidad, o preparar ejercicios de red teaming y pentesting.

Acciones básicas detalladas

1. Consultar registros DNS y subdominios (dnsdumpster.com)

Esta acción busca identificar todos los subdominios públicos asociados a example.com, como:

  • mail.example.com
  • login.example.com
  • dev.example.com

Cada subdominio puede apuntar a un servidor diferente, con distintos servicios y niveles de protección. Con dnsdumpster.com puedes obtener: Subdominios conocidos, Direcciones IP asociadas, proveedores de hosting y posibles rutas internas o entornos de prueba (a menudo descuidados). Esto permite visualizar el mapa de superficie de ataque.

2. Recopilar correos electrónicos públicos (theHarvester)

theHarvester automatiza la búsqueda de correos electrónicos vinculados al dominio a través de motores de búsqueda, redes sociales y otras fuentes indexadas.

Importancia:

  • Los correos pueden ser utilizados en ataques dirigidos (phishing, spear phishing)
  • Revelan nombres reales y roles internos (soporte@, juan.perez@, ceo@)
  • Pueden estar presentes en bases de datos filtradas

Esto ayuda a identificar personas vulnerables o posibles puntos de entrada para ingeniería social.

3. Verificar dispositivos expuestos en internet (Shodan)

Shodan es un motor de búsqueda que muestra qué dispositivos están accesibles públicamente asociados a un dominio o IP. Ejemplos de lo que puedes encontrar: Servidores web mal configurados, cámaras IP accesibles sin autenticación, bases de datos expuestas (ej. MongoDB) y paneles administrativos visibles.

Con una búsqueda como hostname:example.com puedes detectar:

  • Servicios en puertos sensibles (21, 22, 3389, 9200…)
  • Certificados SSL expuestos
  • Versiones de software potencialmente vulnerables

Esto permite evaluar el nivel técnico de exposición de un dominio.

4. Comprobar filtraciones de credenciales (Have I Been Pwned)

Este servicio permite saber si correos del dominio han sido comprometidos en brechas de datos. Ejemplo:

Si juan.perez@example.com aparece en una filtración (Adobe, LinkedIn, Dropbox), se puede suponer que la contraseña podría reutilizarse en otros servicios. Esto permite evaluar riesgos como:

  • Accesos no autorizados
  • Ataques por reutilización de credenciales (credential stuffing)

5. Usar Google Dorks para búsquedas avanzadas

Google permite localizar documentos sensibles indexados, encontrar páginas de login o paneles administrativos y detectar errores de configuración o rutas internas visibles, como:

  • site:example.com filetype:pdf
  • intitle:"index of" site:example.com
  • inurl:admin site:example.com

Todas estas acciones mencionadas anteriormente pueden realizarse sin interactuar activamente con los sistemas del objetivo, es decir, sin escaneos, sin explotación, sin alertas. A pesar de ello, permiten construir una imagen clara de la postura de seguridad pública de una organización. Esta es la esencia del reconocimiento pasivo: observar sin intervenir, recolectar sin invadir.

Este tipo de análisis es fundamental en auditorías de ciberseguridad, análisis de amenazas, y ejercicios de simulación ofensiva.