Una entidad fiscalizadora superior necesitaba analizar situaciones de compras públicas para detectar la presencia de fraude. Por lo tanto, pensaron en la posibilidad de desarrollar un algoritmo para la prevención del fraude. Para ello, estudiamos las diferentes tablas de sus bases de datos y hablamos en profundidad con las áreas comerciales de los clientes que tenían experiencia en este tema y comprendimos qué variables debían estar presentes para la detección del fraude. A lo largo de este análisis, nos dimos cuenta de que no tenían ninguna situación de fraude identificada en su base de datos, que se denomina «sin etiquetar». En consecuencia, decidimos utilizar un Modelo no supervisado, con Detección de anomalías y un algoritmo llamado Bosque de aislamiento, que explicaremos en este artículo.
Dentro del aprendizaje automático hay tres (3) campos diferentes, según la información disponible en la base de datos: modelo de aprendizaje supervisado, modelo de aprendizaje no supervisado y modelo de aprendizaje por refuerzo. Para explicar el primero y el segundo, continuaremos con el caso de nuestros clientes (el tercero supera los propósitos de este proyecto). Por un lado, si en la base de datos se sabe cuáles son los casos de fraude y hay una variable en la base de datos que lo indica, se puede implementar un modelo de aprendizaje supervisado. Por otro lado, cuando se inicia un nuevo proyecto sin tener ninguna referencia de casos de fraude en la base de datos, se empieza a detectar primero las anomalías y se puede implementar un Sin supervisión Aprendizaje modelo. Detección de anomalías busca anomalías atípicas —es decir, situaciones que no siguen el patrón del resto— para identificarlas, estudiarlas y comprender si responden a situaciones de fraude o no.
El bosque de aislamiento El algoritmo aísla las observaciones que son diferentes de un comportamiento específico que caracteriza al resto de las situaciones, separa o aísla lo que es distinto. Estas son las anomalías, lo que no significa necesariamente, siguiendo el caso del cliente, que todas respondan a situaciones de fraude. Con un poco más de profundidad, el algoritmo Isolation Forest crea un diagrama de árbol: parte de todas las observaciones, las subdivide en diferentes ramas y separa las observaciones. Las anomalías son las observaciones que se aíslan con mayor rapidez. La cantidad de veces que tarda una observación en aislarse indica su puntuación de anomalía: cuanto más rápido se aísla una observación, más anómala será esta observación, cuanto más lenta sea el aislamiento y menos anómala será esta observación. Es por eso que Isolation Forest es el algoritmo que tiene el mejor rendimiento para casos como el del cliente, ya que es un algoritmo muy rápido y permite filtrar desde una gran cantidad de situaciones (todas las entidades públicas que pueden o no haber cometido fraude, en este caso) a una cantidad menor de situaciones (las anomalías).
Una vez que ejecutamos el algoritmo, obtenemos las puntuaciones y establecemos una línea de corte en un valor de puntuación: las situaciones por encima de la puntuación seleccionada son las que vamos a estudiar con más profundidad. Esto se ilustra en el siguiente gráfico. Tenemos la posibilidad de mover ese punto de corte, llevándolo a valores más altos o más bajos de las puntuaciones, para evaluarlo. En estos casos de detección de fraudes, es muy importante poder superar la línea de corte, ya que las situaciones de fraude suelen ser ocultas y sutiles. Cabe señalar que puede haber una situación que esté realmente lejos del punto de corte, ya que es muy diferente del resto, ya que el algoritmo aísla lo que es distinto, las anomalías (debido a cualquier característica de la entidad pública que la diferencie de las demás, como el trabajo que realiza u otro), pero no tiene ningún fraude en su proceso, por lo que en realidad no responde a una situación de fraude. En el siguiente gráfico hay un histograma con el resultado del algoritmo de una base de datos de tarjetas de crédito. El gráfico muestra la cantidad de casos con cada puntuación de anomalía. Puede ver que las anomalías que establecen el punto de corte en una puntuación de 0,65 son solo unas pocas (menos del 1%).
Distribución de las puntuaciones de Isolation Forest
Línea de corte: 0.65
¿Por qué es útil el algoritmo Isolation Forest? En lugar de tener que analizar todas las situaciones de todas las entidades públicas, ayuda a reducir ese número. De esta forma, los expertos en detección de fraudes, como los auditores, podrán acelerar el proceso y estudiar, entre ese número menor, cuáles fueron errores (situaciones que solo eran diferentes del resto) y cuáles fueron situaciones de fraude. Cuando se detecta un fraude en una situación determinada, debe registrarse y etiquetarse en la base de datos. Esto nos permitirá pasar a un modelo supervisado en el futuro, con un algoritmo que tenga la capacidad de detectar el fraude por sí mismo.
Nos enfrentamos a diferentes desafíos trabajando en este proyecto. En primer lugar, comprender los datos del cliente, acordar lo que se debe lograr, establecer los objetivos y la realidad con claridad. Interactuar con el cliente, con las diferentes áreas del negocio, para entender todo esto, es generalmente la parte más difícil y lleva tiempo. Una vez hecho esto y pudimos obtener el conjunto de datos, el proceso continuó con mayor fluidez y facilidad. La implementación del algoritmo, que es lo que sigue, no es la parte más difícil del proyecto. Las dificultades a las que se puede enfrentar al ejecutar el algoritmo son más individuales y las puede resolver uno mismo, investigando la enorme cantidad de bibliografía disponible, lo que convierte a uno en un experto más en el algoritmo que se está utilizando.
En este proceso, el cliente obtuvo resultados rápidos para enviarlos al sector de auditores de la organización. En lugar de tener que analizar todas las entidades públicas que podían o no haber cometido fraude, los auditores tuvieron que analizar una cantidad mucho menor, aquellas que Isolation Forest había identificado como valores atípicos anómalos. De esta forma, el cliente podía reducir el tiempo de trabajo y el algoritmo funcionaba como una primera herramienta de filtrado. Luego, los auditores estudiaban en profundidad las situaciones filtradas —anomalías atípicas— para determinar si las anomalías detectadas correspondían realmente a un fraude o solo indicaban algo diferente al resto, pero normal y coherente en su proceso. Y así sucesivamente, la inteligencia artificial y las capacidades/esfuerzos humanos se complementaron mutuamente.
Referencias
Jung, C., Kim, S., Lee, J. y Lee, Y. (mayo de 2020). Descripción general del método del bosque de aislamiento. [Ilustración]. Puerta de investigación. https://www.researchgate.net/figure/Overview-of-the-isolation-forest-method-Light-green-circles-represent-common-normal_fig3_341629782