En Machine Learning tenemos un dilema: El del Bias-Variance

O sesgo-varianza en español. Si mi modelo no es capaz de representar la complejidad de mi problema, me dará respuestas alejadas de la respuesta buena, no afinará bien. Si mi modelo es mucho más complejo que mi problema, verá patrones donde no los hay y tampoco se acercará a la respuesta correcta.

A veces se cuenta como el dilema entre infraajustar y sobreajustar (underfit y overfit). Y es un problema grave, porque es difícil saber en qué punto estamos sin unas cuantas técnicas estadísticas y de ML que nos salven. Además, nos confunden: Cuando vemos underfit podemos pensar que nuestro modelo es inviable para el problema. Cuando vemos overfit podemos pensar que los resultados son magníficos para llevarnos el chasco cuando lo pongamos en producción.

Cuando hagas modelos no te olvides de:

💡 Dividir los datos correctamente: entrenamiento, validación y test son clave.

💡 Ajustar la complejidad del modelo: más parámetros no siempre significan más precisión.

💡 Usar regularización: L1, L2 o dropout pueden salvar a tu modelo.

💡 Más datos y mejor calidad ayudan a que el modelo aprenda lo importante y no el ruido.

💡 Evalúa constantemente para ajustar el modelo, por ejemplo, con validación cruzada.