Blog - Análisis Predictivo - Producción de Petróleo
Proyecto de Aula · Análisis Predictivo

Predicción de
Barriles de Petróleo

Modelo de Regresión Lineal Múltiple · Campos Petroleros Colombia

1Definir el Objetivo

Establecer qué se quiere predecir

Variable objetivo: Predecir la cantidad de barriles de petróleo producidos por día (BPD) en cada pozo, a partir de variables técnicas y operativas disponibles en el conjunto de datos.

Si podemos anticipar cuánto va a producir un pozo antes de que ocurra, podemos tomar decisiones de operación, mantenimiento y logística con días de anticipación, reduciendo costos y maximizando ingresos.

Pregunta predictiva

Dado el estado actual de un pozo (presión, temperatura, gas asociado, agua producida y profundidad), ¿cuántos barriles producirá ese pozo?

Justificación del objetivo

Impacto económico directo

Cada barril de petróleo representa ingreso inmediato. Predecir la producción permite planificar contratos de venta y transporte con mayor precisión.

Optimización de recursos

Conocer la producción esperada permite asignar el personal técnico y los equipos de mantenimiento de forma eficiente según la carga de trabajo real.

Variables disponibles

El conjunto de datos cuenta con presión, temperatura, agua producida y gas asociado, que son los predictores más relevantes de la producción en la industria.

2Recolectar Datos

Obtener y organizar la información

Los datos provienen del conjunto de datos del proyecto de aula, construido a partir del MER de producción petrolera. La tabla principal para este análisis es PRODUCCIÓN, complementada con variables de las tablas POZO, EQUIPO y SENSOR.

Variables del modelo

VariableTabla OrigenTipoRol en el Modelo
barriles_producidos_bblPRODUCCIÓNDecimalVariable objetivo (Y)
presion_psiPRODUCCIÓNDecimalPredictor principal
temperatura_cPRODUCCIÓNDecimalPredictor
gas_producido_mmscfdPRODUCCIÓNDecimalPredictor
agua_producida_bwpdPRODUCCIÓNDecimalPredictor
profundidad_mPOZODecimalPredictor

Volumen de datos disponibles

533
Registros de producción
66
Pozos distintos
5
Variables predictoras
1
Variable objetivo

Distribución de la variable objetivo (BPD)

La mayoría de registros se concentra entre 1.501 y 2.500 BPD, lo que es coherente con campos colombianos de mediana escala.

Correlación: presión vs producción

La presión de fondo (PSI) es el predictor más fuerte, con una correlación de r = +0.806 con los BPD producidos.

Correlación de variables con los BPD

VariableCorrelación (r)TipoInterpretación
presion_psi+0.806Fuerte positivaMayor presión impulsa más crudo hacia la superficie
temperatura_c+0.344Moderada positivaTemperatura alta hace el crudo más fluido
gas_producido_mmscfd+0.233Moderada positivaGas asociado indica yacimiento activo
agua_producida_bwpd-0.323Moderada negativaAlto corte de agua indica yacimiento maduro con menos crudo
profundidad_m+0.149Débil positivaPozos más profundos tienden a tener mayor presión natural
3Limpiar y Preparar Datos

Depurar y transformar los datos

Antes de entrenar cualquier modelo predictivo, los datos deben cumplir con condiciones de calidad e integridad. Este paso es crítico porque un modelo entrenado con datos sucios produce predicciones no confiables.

Acciones de limpieza realizadas

1
Verificación de valores nulos

Se verificó que ninguna columna tuviera valores vacíos (NULL). El resultado fue 0 valores nulos en todas las variables críticas de producción.

2
Eliminación de duplicados

Se verificó que no existan dos registros con el mismo id_producción. Cada fila representa una observación única de producción diaria por pozo.

3
Detección de valores atípicos (outliers)

Se identificaron registros con producción fuera del rango físicamente posible para Colombia (200–5.000 BPD). Los valores extremos verificados fueron conservados ya que corresponden a pozos de alta y baja producción reales.

4
Normalización de escala (Min-Max)

Las variables tienen escalas muy diferentes (presión en miles de PSI, temperatura en decenas, gas en decimales). Se aplicó normalización Min-Max para llevar todas al rango [0, 1] y evitar que las variables de mayor magnitud dominen el modelo.

5
División del conjunto de datos

El conjunto se dividió en 426 registros para entrenamiento (80%) y 107 registros para prueba (20%), distribuidos aleatoriamente con semilla fija (random_state=42) para garantizar reproducibilidad.

Resumen de calidad del dataset

VariableValores NulosOutliersAcción tomadaEstado
barriles_producidos_bbl00Sin acción requeridaListo
presion_psi00Sin acción requeridaListo
temperatura_c00Sin acción requeridaListo
gas_producido_mmscfd00Sin acción requeridaListo
agua_producida_bwpd00Sin acción requeridaListo
profundidad_m00Sin acción requeridaListo
4Seleccionar el Modelo

Elegir el algoritmo de predicción

Para predecir la cantidad de barriles producidos se seleccionó el modelo de Regresión Lineal Múltiple. A continuación se justifica esta elección frente a otras alternativas consideradas.

Justificación del modelo seleccionado

Regresión Lineal Múltiple (elegido)

Permite modelar la relación entre múltiples variables predictoras y una variable numérica continua como los BPD. Es interpretable, rápido de entrenar y adecuado para el volumen de datos disponible (533 registros).

Random Forest (alternativa)

Más potente pero más complejo. Requiere mayor volumen de datos y mayor capacidad computacional. Se podría usar como mejora futura una vez validado el modelo lineal.

Redes Neuronales (descartado)

Excesivamente complejo para el volumen de datos actual. Requiere miles de registros para generalizar bien y no es interpretable, lo que dificulta la justificación de los resultados.

Ecuación del modelo

BPD = 867.60 + 1492.81 × presion_psi + 626.07 × temperatura_c + 402.46 × gas_mmscfd - 638.24 × agua_bwpd + 420.52 × profundidad_m

Los valores de los coeficientes fueron aprendidos por el algoritmo durante el entrenamiento sobre los 426 registros de entrenamiento. Las variables están normalizadas, por lo que los coeficientes expresan la importancia relativa de cada predictor.

Comparación de modelos considerados

ModeloInterpretableDatos requeridosComplejidadDecisión
Regresión Lineal MúltipleBajo (>100)BajaSeleccionado
Árbol de DecisiónMedio (>300)MediaAlternativa futura
Random ForestParcialAlto (>1.000)AltaAlternativa futura
Red NeuronalNoMuy alto (>5.000)Muy altaDescartado
5Entrenar el Modelo

Entrenar y validar el modelo

El modelo se entrenó usando los 426 registros del conjunto de entrenamiento (80% del total), usando el método de Mínimos Cuadrados Ordinarios (OLS) implementado en la librería scikit-learn de Python.

Resultados del entrenamiento

0.91

R² — Coeficiente de determinación

El modelo explica el 91% de la variabilidad en la producción de barriles. Este es un resultado excelente para un modelo de regresión lineal, indicando que las variables seleccionadas capturan muy bien el comportamiento de la producción.

Métricas de desempeño

0.9066
R² (coef. determinación)
150.3
MAE — error medio (BPD)
184.0
RMSE — raíz error cuadrático
8.86%
MAPE — error porcentual

Validación cruzada (5-fold)

Para verificar que el modelo no está sobreajustado, se aplicó validación cruzada de 5 pliegues sobre el conjunto de entrenamiento. El R² promedio fue de 0.903 con una desviación estándar de apenas 0.013, lo que confirma que el modelo es estable y generaliza bien ante datos nuevos.

PliegueEvaluación
Pliegue 10.889Bueno
Pliegue 20.891Bueno
Pliegue 30.898Bueno
Pliegue 40.922Excelente
Pliegue 50.914Excelente
Promedio0.903Excelente

Valores reales vs predichos (BPD)

Cada punto representa un registro del conjunto de prueba. Entre más cerca estén de la línea roja (predicción perfecta), mejor es el modelo. Se observa una distribución muy ajustada con R² = 0.91.

Importancia de variables predictoras

La presión (PSI) es el predictor más influyente con diferencia. El agua producida tiene efecto negativo sobre la producción (yacimiento maduro).

Interpretación de coeficientes

VariableCoeficienteEfectoInterpretación
presion_psi+1.492.81Positivo fuerteVariable más influyente. Mayor presión de fondo impulsa más crudo hacia la superficie.
agua_producida_bwpd-638.24NegativoAlto corte de agua indica yacimiento maduro con menor producción de crudo.
temperatura_c+626.07PositivoMayor temperatura hace el crudo más fluido y fácil de extraer.
profundidad_m+420.52PositivoPozos más profundos acceden a yacimientos con mayor presión natural.
gas_producido_mmscfd+402.46PositivoGas asociado correlaciona con actividad del yacimiento y mayor producción.

Ejemplo de predicción con datos de un pozo nuevo

Datos de entrada del pozo

Presión: 2.500 PSI · Temperatura: 85°C · Gas: 3.2 MMSCFD · Agua: 350 BWPD · Profundidad: 2.800 m

Resultado de la predicción

El modelo estima una producción de 2.364 BPD para un pozo con estas condiciones operativas.

6Analizar y Monitorear

Evaluar resultados y ajustar el modelo

Un modelo predictivo no es estático. Una vez desplegado, debe monitorearse continuamente para detectar cuándo sus predicciones se deterioran y requiere reentrenamiento con datos nuevos.

Resultados del análisis

Fortalezas del modelo

R² de 0.91 indica un poder explicativo excelente. Las variables más influyentes (presión y temperatura) son coherentes con el conocimiento técnico del sector. El error promedio de 150 BPD sobre una producción promedio de 2.014 BPD representa apenas un 8.86% de margen de error.

Limitaciones identificadas

El modelo asume relaciones lineales entre las variables, lo que puede no capturar comportamientos más complejos en rangos extremos de presión o temperatura. Tampoco incluye la variable temporal (antigüedad del pozo).

Plan de monitoreo

Reevaluar el R² mensualmente con datos nuevos. Si baja de 0.75, reentrenar el modelo. Considerar agregar la variable de días desde el último mantenimiento como predictor adicional.

Indicadores de monitoreo continuo

IndicadorValor ActualUmbral de AlertaFrecuenciaEstado
R² del modelo0.9066< 0.75MensualExcelente
MAE promedio150.3 BPD> 300 BPDSemanalNormal
RMSE184.0 BPD> 400 BPDMensualNormal
MAPE8.86%> 20%MensualBueno
R² validación cruzada0.903< 0.75TrimestralExcelente

Evolución del MAE por mes

El error del modelo disminuyó progresivamente desde 212 BPD en enero hasta estabilizarse en ~150 BPD a medida que se incorporaron más datos de entrenamiento.

Distribución del error (residuos)

Los residuos se distribuyen aproximadamente de forma normal y centrada en cero, lo que confirma que el modelo no tiene sesgo sistemático en sus predicciones.

Acciones de mejora futura

A
Incorporar variable temporal

Agregar la antigüedad del pozo y el tiempo desde el último mantenimiento como predictores. Los pozos maduros producen menos incluso con buena presión.

B
Probar modelos no lineales

Una vez recolectados más datos (más de 1.000 registros), probar Random Forest o Gradient Boosting para capturar relaciones no lineales entre las variables.

C
Modelo por campo petrolero

Entrenar modelos separados para cada campo (Rubiales, Cusiana, Caño Limón, etc.) ya que cada yacimiento tiene características geológicas distintas que afectan la producción de manera diferente.

Beneficios del Análisis Predictivo

¿Por qué vale la pena predecir la producción?

📈
Anticipar Tendencias

Detectar con anticipación qué pozos van a bajar su producción permite actuar antes de que ocurra la caída, evitando pérdidas de ingreso no planificadas.

Optimizar Recursos

Asignar el personal técnico y los equipos de mantenimiento a los pozos con mayor probabilidad de caída de producción, reduciendo costos operativos.

💡
Mejorar Decisiones

Los gerentes de campo pueden tomar decisiones de inversión, reactivación de pozos y contratos de venta basadas en proyecciones cuantitativas.

El análisis predictivo no reemplaza la experiencia del ingeniero de campo, la complementa. Un modelo que dice cuánto va a producir un pozo le da al ingeniero tiempo para actuar, no solo para reaccionar.

Proyecto de Aula · Análisis Predictivo · Predicción de Barriles de Petróleo (BPD)

Modelo: Regresión Lineal Múltiple · R² = 0.9066 · MAE = 150.3 BPD · MAPE = 8.86% · scikit-learn Python

Comentarios

Entradas populares de este blog