La abominable degradación del algoritmo

De National Geographic a Belen Esteban. Es más fácil de lo que parece cambiar de gusto en la era digital. Los algoritmos de los recommenders comerciales como en Amazon, a saber, los que te recomiendan compras según tus compras anteriores o tu afinidad con la gente que compra lo mismo que tú, son una realidad establecida en el comercio electrónico, por su probada eficacia. Son como un amigo que te aconseja un producto. Sin embargo, en el largo plazo estos automatismos recomendantes consiguen, sin que te des cuenta, cambiarte tus preferencias e intereses. Es como si empezaras viendo documentales y a base de recomendaciones acabaras viendo reality shows

No porqué esto sea algo intencionado, sino por un problema intrínseco, que podemos llamar la degradación estadística del algoritmo. La estrella de los algoritmos, que está en el  fundamento de los sistemas de recomendación basados en filtros de contenidos y sobre las que actúan las fórmulas predictivas para la retención de clientes y upselling, son la familia de algoritmos K-means (K-means++, BK-means, Fuzzy C-means,  Spherical k-means, Minkowski metric weighted k-means, etc.), que identifican grupos (clusters) de individuos con características comunes. Otros algoritmos son los clasificadores bayesianos y los tradicionales árboles de decisión. El K means también conocido como algoritmo de Lloyds, en tributo a su autor, data nada menos que del año 1957 y fue utilizado por primera vez diez años después. Cierto es que surgen avances matemáticos de manera incansable, para paliar este problema (por ejemplo, BK-means Algorithm with Minimal Performance Degradation Caused by Improper Initial Centroid y A Modified k-means Algorithm to Avoid Empty Clusters), pero pocas soluciones han llegado al mundo comercial.
K-means en acción
El K-means clasifica los individuos en grupos, en función de criterios de distancia y pertenencia respecto al centro de los grupos. Se establecen unos grupos iniciales, luego unos centros, según las muestras de datos iniciales (centroids), y luego por proximidad, basada en la distancia euclidiana y usando la varianza como medida de dispersión estadística, se asignan a un grupo u a otro. El éxito depende en buena parte de todo el trabajo previo de segmentación, cuantificación y filtrado de datos. Luego con la técnica de refinamiento iterativo, se consiguen afinar los grupos. Sin embargo, el algoritmo falla a veces. Divide un grupo homogéneo en dos o asigna individuos distantes al grupo equivocado. Si un día compraste un regalo a un amigo, puedes estar asignado a un grupo, que no te corresponde, especialmente si lo hiciste al principio de tus compras. En el caso que estés asignado correctamente a tu grupo y escoges las opciones que te ofrece, que el algoritmo te ha proporcionado de otras personas que pertenecen grupos diferentes, al final acabarás cambiando de grupo y de preferencias. Depende de tu frecuencia de compra, pero poco a poco te puedes alejar de tus verdaderos intereses, especialmente si tienes gustos, que corresponden a más de un tipo. Al final, el algoritmo cuando más funciona contigo, te relaciona con todo y con todos, con la mayoría estadística, que resume los mayores intereses comerciales. Si sólo estamos a 6 niveles en red de cualquier persona del mundo, no estamos tan lejos de nuestros gustos antagónicos, ni de los de la mayoría. Los algoritmos a través del big data, cada vez más van a dominar nuestras vidas y lo menos que podemos hacer es exigir la llamada neutralidad algorítmica como parte de la responsabilidad digital, para que no haya alteraciones de estos, por motivos políticos o comerciales.


Confieso que escucho Spotify y por esas latitudes, el algoritmo me debe odiar. Escuchando una amplísima variedad musical de estilos, desde música oriental (china, japonesa y coreana), pasando por música clásica del siglo XX-XXI, a grupos indie alternativos, por rock alternativo, jazz funk, italianos, folkies ingleses, incluso dance, no es de sorprender, aunque sólo en ocasiones, lo que me recomienda no me gusta. Al final, sus propuestas se degradan y ya sólo me propone un popurri trending, que es donde está la mayoría de gente, de producciones musicales y de intereses comerciales. Será que estamos recorriendo el camino contrario a las promesas del marketing digital. Del one to one a los mass media de siempre, o quizás es que somos más vulgares y predecibles de lo que pensamos. Aunque nos creamos únicos y sofisticados, puede que no estemos tan lejos de ser manadas de ovejas digitales.

Comentarios

Tienda