Predicción de
Barriles de Petróleo
Modelo de Regresión Lineal Múltiple · Campos Petroleros Colombia
Establecer qué se quiere predecir
Variable objetivo: Predecir la cantidad de barriles de petróleo producidos por día (BPD) en cada pozo, a partir de variables técnicas y operativas disponibles en el conjunto de datos.
Si podemos anticipar cuánto va a producir un pozo antes de que ocurra, podemos tomar decisiones de operación, mantenimiento y logística con días de anticipación, reduciendo costos y maximizando ingresos.
Pregunta predictiva
Dado el estado actual de un pozo (presión, temperatura, gas asociado, agua producida y profundidad), ¿cuántos barriles producirá ese pozo?
Justificación del objetivo
Impacto económico directo
Cada barril de petróleo representa ingreso inmediato. Predecir la producción permite planificar contratos de venta y transporte con mayor precisión.
Optimización de recursos
Conocer la producción esperada permite asignar el personal técnico y los equipos de mantenimiento de forma eficiente según la carga de trabajo real.
Variables disponibles
El conjunto de datos cuenta con presión, temperatura, agua producida y gas asociado, que son los predictores más relevantes de la producción en la industria.
Obtener y organizar la información
Los datos provienen del conjunto de datos del proyecto de aula, construido a partir del MER de producción petrolera. La tabla principal para este análisis es PRODUCCIÓN, complementada con variables de las tablas POZO, EQUIPO y SENSOR.
Variables del modelo
| Variable | Tabla Origen | Tipo | Rol en el Modelo |
|---|---|---|---|
| barriles_producidos_bbl | PRODUCCIÓN | Decimal | Variable objetivo (Y) |
| presion_psi | PRODUCCIÓN | Decimal | Predictor principal |
| temperatura_c | PRODUCCIÓN | Decimal | Predictor |
| gas_producido_mmscfd | PRODUCCIÓN | Decimal | Predictor |
| agua_producida_bwpd | PRODUCCIÓN | Decimal | Predictor |
| profundidad_m | POZO | Decimal | Predictor |
Volumen de datos disponibles
Distribución de la variable objetivo (BPD)
La mayoría de registros se concentra entre 1.501 y 2.500 BPD, lo que es coherente con campos colombianos de mediana escala.
Correlación: presión vs producción
La presión de fondo (PSI) es el predictor más fuerte, con una correlación de r = +0.806 con los BPD producidos.
Correlación de variables con los BPD
| Variable | Correlación (r) | Tipo | Interpretación |
|---|---|---|---|
| presion_psi | +0.806 | Fuerte positiva | Mayor presión impulsa más crudo hacia la superficie |
| temperatura_c | +0.344 | Moderada positiva | Temperatura alta hace el crudo más fluido |
| gas_producido_mmscfd | +0.233 | Moderada positiva | Gas asociado indica yacimiento activo |
| agua_producida_bwpd | -0.323 | Moderada negativa | Alto corte de agua indica yacimiento maduro con menos crudo |
| profundidad_m | +0.149 | Débil positiva | Pozos más profundos tienden a tener mayor presión natural |
Depurar y transformar los datos
Antes de entrenar cualquier modelo predictivo, los datos deben cumplir con condiciones de calidad e integridad. Este paso es crítico porque un modelo entrenado con datos sucios produce predicciones no confiables.
Acciones de limpieza realizadas
Verificación de valores nulos
Se verificó que ninguna columna tuviera valores vacíos (NULL). El resultado fue 0 valores nulos en todas las variables críticas de producción.
Eliminación de duplicados
Se verificó que no existan dos registros con el mismo id_producción. Cada fila representa una observación única de producción diaria por pozo.
Detección de valores atípicos (outliers)
Se identificaron registros con producción fuera del rango físicamente posible para Colombia (200–5.000 BPD). Los valores extremos verificados fueron conservados ya que corresponden a pozos de alta y baja producción reales.
Normalización de escala (Min-Max)
Las variables tienen escalas muy diferentes (presión en miles de PSI, temperatura en decenas, gas en decimales). Se aplicó normalización Min-Max para llevar todas al rango [0, 1] y evitar que las variables de mayor magnitud dominen el modelo.
División del conjunto de datos
El conjunto se dividió en 426 registros para entrenamiento (80%) y 107 registros para prueba (20%), distribuidos aleatoriamente con semilla fija (random_state=42) para garantizar reproducibilidad.
Resumen de calidad del dataset
| Variable | Valores Nulos | Outliers | Acción tomada | Estado |
|---|---|---|---|---|
| barriles_producidos_bbl | 0 | 0 | Sin acción requerida | Listo |
| presion_psi | 0 | 0 | Sin acción requerida | Listo |
| temperatura_c | 0 | 0 | Sin acción requerida | Listo |
| gas_producido_mmscfd | 0 | 0 | Sin acción requerida | Listo |
| agua_producida_bwpd | 0 | 0 | Sin acción requerida | Listo |
| profundidad_m | 0 | 0 | Sin acción requerida | Listo |
Elegir el algoritmo de predicción
Para predecir la cantidad de barriles producidos se seleccionó el modelo de Regresión Lineal Múltiple. A continuación se justifica esta elección frente a otras alternativas consideradas.
Justificación del modelo seleccionado
Regresión Lineal Múltiple (elegido)
Permite modelar la relación entre múltiples variables predictoras y una variable numérica continua como los BPD. Es interpretable, rápido de entrenar y adecuado para el volumen de datos disponible (533 registros).
Random Forest (alternativa)
Más potente pero más complejo. Requiere mayor volumen de datos y mayor capacidad computacional. Se podría usar como mejora futura una vez validado el modelo lineal.
Redes Neuronales (descartado)
Excesivamente complejo para el volumen de datos actual. Requiere miles de registros para generalizar bien y no es interpretable, lo que dificulta la justificación de los resultados.
Ecuación del modelo
Los valores de los coeficientes fueron aprendidos por el algoritmo durante el entrenamiento sobre los 426 registros de entrenamiento. Las variables están normalizadas, por lo que los coeficientes expresan la importancia relativa de cada predictor.
Comparación de modelos considerados
| Modelo | Interpretable | Datos requeridos | Complejidad | Decisión |
|---|---|---|---|---|
| Regresión Lineal Múltiple | Sí | Bajo (>100) | Baja | Seleccionado |
| Árbol de Decisión | Sí | Medio (>300) | Media | Alternativa futura |
| Random Forest | Parcial | Alto (>1.000) | Alta | Alternativa futura |
| Red Neuronal | No | Muy alto (>5.000) | Muy alta | Descartado |
Entrenar y validar el modelo
El modelo se entrenó usando los 426 registros del conjunto de entrenamiento (80% del total), usando el método de Mínimos Cuadrados Ordinarios (OLS) implementado en la librería scikit-learn de Python.
Resultados del entrenamiento
R² — Coeficiente de determinación
El modelo explica el 91% de la variabilidad en la producción de barriles. Este es un resultado excelente para un modelo de regresión lineal, indicando que las variables seleccionadas capturan muy bien el comportamiento de la producción.
Métricas de desempeño
Validación cruzada (5-fold)
Para verificar que el modelo no está sobreajustado, se aplicó validación cruzada de 5 pliegues sobre el conjunto de entrenamiento. El R² promedio fue de 0.903 con una desviación estándar de apenas 0.013, lo que confirma que el modelo es estable y generaliza bien ante datos nuevos.
| Pliegue | R² | Evaluación |
|---|---|---|
| Pliegue 1 | 0.889 | Bueno |
| Pliegue 2 | 0.891 | Bueno |
| Pliegue 3 | 0.898 | Bueno |
| Pliegue 4 | 0.922 | Excelente |
| Pliegue 5 | 0.914 | Excelente |
| Promedio | 0.903 | Excelente |
Valores reales vs predichos (BPD)
Cada punto representa un registro del conjunto de prueba. Entre más cerca estén de la línea roja (predicción perfecta), mejor es el modelo. Se observa una distribución muy ajustada con R² = 0.91.
Importancia de variables predictoras
La presión (PSI) es el predictor más influyente con diferencia. El agua producida tiene efecto negativo sobre la producción (yacimiento maduro).
Interpretación de coeficientes
| Variable | Coeficiente | Efecto | Interpretación |
|---|---|---|---|
| presion_psi | +1.492.81 | Positivo fuerte | Variable más influyente. Mayor presión de fondo impulsa más crudo hacia la superficie. |
| agua_producida_bwpd | -638.24 | Negativo | Alto corte de agua indica yacimiento maduro con menor producción de crudo. |
| temperatura_c | +626.07 | Positivo | Mayor temperatura hace el crudo más fluido y fácil de extraer. |
| profundidad_m | +420.52 | Positivo | Pozos más profundos acceden a yacimientos con mayor presión natural. |
| gas_producido_mmscfd | +402.46 | Positivo | Gas asociado correlaciona con actividad del yacimiento y mayor producción. |
Ejemplo de predicción con datos de un pozo nuevo
Datos de entrada del pozo
Presión: 2.500 PSI · Temperatura: 85°C · Gas: 3.2 MMSCFD · Agua: 350 BWPD · Profundidad: 2.800 m
Resultado de la predicción
El modelo estima una producción de 2.364 BPD para un pozo con estas condiciones operativas.
Evaluar resultados y ajustar el modelo
Un modelo predictivo no es estático. Una vez desplegado, debe monitorearse continuamente para detectar cuándo sus predicciones se deterioran y requiere reentrenamiento con datos nuevos.
Resultados del análisis
Fortalezas del modelo
R² de 0.91 indica un poder explicativo excelente. Las variables más influyentes (presión y temperatura) son coherentes con el conocimiento técnico del sector. El error promedio de 150 BPD sobre una producción promedio de 2.014 BPD representa apenas un 8.86% de margen de error.
Limitaciones identificadas
El modelo asume relaciones lineales entre las variables, lo que puede no capturar comportamientos más complejos en rangos extremos de presión o temperatura. Tampoco incluye la variable temporal (antigüedad del pozo).
Plan de monitoreo
Reevaluar el R² mensualmente con datos nuevos. Si baja de 0.75, reentrenar el modelo. Considerar agregar la variable de días desde el último mantenimiento como predictor adicional.
Indicadores de monitoreo continuo
| Indicador | Valor Actual | Umbral de Alerta | Frecuencia | Estado |
|---|---|---|---|---|
| R² del modelo | 0.9066 | < 0.75 | Mensual | Excelente |
| MAE promedio | 150.3 BPD | > 300 BPD | Semanal | Normal |
| RMSE | 184.0 BPD | > 400 BPD | Mensual | Normal |
| MAPE | 8.86% | > 20% | Mensual | Bueno |
| R² validación cruzada | 0.903 | < 0.75 | Trimestral | Excelente |
Evolución del MAE por mes
El error del modelo disminuyó progresivamente desde 212 BPD en enero hasta estabilizarse en ~150 BPD a medida que se incorporaron más datos de entrenamiento.
Distribución del error (residuos)
Los residuos se distribuyen aproximadamente de forma normal y centrada en cero, lo que confirma que el modelo no tiene sesgo sistemático en sus predicciones.
Acciones de mejora futura
Incorporar variable temporal
Agregar la antigüedad del pozo y el tiempo desde el último mantenimiento como predictores. Los pozos maduros producen menos incluso con buena presión.
Probar modelos no lineales
Una vez recolectados más datos (más de 1.000 registros), probar Random Forest o Gradient Boosting para capturar relaciones no lineales entre las variables.
Modelo por campo petrolero
Entrenar modelos separados para cada campo (Rubiales, Cusiana, Caño Limón, etc.) ya que cada yacimiento tiene características geológicas distintas que afectan la producción de manera diferente.
¿Por qué vale la pena predecir la producción?
Detectar con anticipación qué pozos van a bajar su producción permite actuar antes de que ocurra la caída, evitando pérdidas de ingreso no planificadas.
Asignar el personal técnico y los equipos de mantenimiento a los pozos con mayor probabilidad de caída de producción, reduciendo costos operativos.
Los gerentes de campo pueden tomar decisiones de inversión, reactivación de pozos y contratos de venta basadas en proyecciones cuantitativas.
El análisis predictivo no reemplaza la experiencia del ingeniero de campo, la complementa. Un modelo que dice cuánto va a producir un pozo le da al ingeniero tiempo para actuar, no solo para reaccionar.
Comentarios
Publicar un comentario