Analisis Descriptivo Petroleo

1Definir el Objetivo

Establecer qué se quiere predecir

Variable objetivo: Predecir la cantidad de barriles de petróleo producidos por día (BPD) en cada pozo, a partir de variables técnicas y operativas disponibles en el conjunto de datos.

Si podemos anticipar cuánto va a producir un pozo antes de que ocurra, podemos tomar decisiones de operación, mantenimiento y logística con días de anticipación, reduciendo costos y maximizando ingresos.

Pregunta predictiva

Dado el estado actual de un pozo (presión, temperatura, gas asociado, agua producida y profundidad), ¿cuántos barriles producirá ese pozo?

Justificación del objetivo

Impacto económico directo

Cada barril de petróleo representa ingreso inmediato. Predecir la producción permite planificar contratos de venta y transporte con mayor precisión.

Optimización de recursos

Conocer la producción esperada permite asignar el personal técnico y los equipos de mantenimiento de forma eficiente según la carga de trabajo real.

Variables disponibles

El conjunto de datos cuenta con presión, temperatura, agua producida y gas asociado, que son los predictores más relevantes de la producción en la industria.

2Recolectar Datos

Obtener y organizar la información

Los datos provienen del conjunto de datos del proyecto de aula, construido a partir del MER de producción petrolera. La tabla principal para este análisis es PRODUCCIÓN, complementada con variables de las tablas POZO, EQUIPO y SENSOR.

Variables del modelo

Variable	Tabla Origen	Tipo	Rol en el Modelo
barriles_producidos_bbl	PRODUCCIÓN	Decimal	Variable objetivo (Y)
presion_psi	PRODUCCIÓN	Decimal	Predictor principal
temperatura_c	PRODUCCIÓN	Decimal	Predictor
gas_producido_mmscfd	PRODUCCIÓN	Decimal	Predictor
agua_producida_bwpd	PRODUCCIÓN	Decimal	Predictor
profundidad_m	POZO	Decimal	Predictor

Volumen de datos disponibles

533

Registros de producción

Pozos distintos

Variables predictoras

Variable objetivo

Distribución de la variable objetivo (BPD)

La mayoría de registros se concentra entre 1.501 y 2.500 BPD, lo que es coherente con campos colombianos de mediana escala.

Correlación: presión vs producción

La presión de fondo (PSI) es el predictor más fuerte, con una correlación de r = +0.806 con los BPD producidos.

Correlación de variables con los BPD

Variable	Correlación (r)	Tipo	Interpretación
presion_psi	+0.806	Fuerte positiva	Mayor presión impulsa más crudo hacia la superficie
temperatura_c	+0.344	Moderada positiva	Temperatura alta hace el crudo más fluido
gas_producido_mmscfd	+0.233	Moderada positiva	Gas asociado indica yacimiento activo
agua_producida_bwpd	-0.323	Moderada negativa	Alto corte de agua indica yacimiento maduro con menos crudo
profundidad_m	+0.149	Débil positiva	Pozos más profundos tienden a tener mayor presión natural

3Limpiar y Preparar Datos

Depurar y transformar los datos

Antes de entrenar cualquier modelo predictivo, los datos deben cumplir con condiciones de calidad e integridad. Este paso es crítico porque un modelo entrenado con datos sucios produce predicciones no confiables.

Acciones de limpieza realizadas

Verificación de valores nulos

Se verificó que ninguna columna tuviera valores vacíos (NULL). El resultado fue 0 valores nulos en todas las variables críticas de producción.

Eliminación de duplicados

Se verificó que no existan dos registros con el mismo id_producción. Cada fila representa una observación única de producción diaria por pozo.

Detección de valores atípicos (outliers)

Se identificaron registros con producción fuera del rango físicamente posible para Colombia (200–5.000 BPD). Los valores extremos verificados fueron conservados ya que corresponden a pozos de alta y baja producción reales.

Normalización de escala (Min-Max)

Las variables tienen escalas muy diferentes (presión en miles de PSI, temperatura en decenas, gas en decimales). Se aplicó normalización Min-Max para llevar todas al rango [0, 1] y evitar que las variables de mayor magnitud dominen el modelo.

División del conjunto de datos

El conjunto se dividió en 426 registros para entrenamiento (80%) y 107 registros para prueba (20%), distribuidos aleatoriamente con semilla fija (random_state=42) para garantizar reproducibilidad.

Resumen de calidad del dataset

Variable	Acción tomada	Estado
barriles_producidos_bbl	Sin acción requerida	Listo
presion_psi	Sin acción requerida	Listo
temperatura_c	Sin acción requerida	Listo
gas_producido_mmscfd	Sin acción requerida	Listo
agua_producida_bwpd	Sin acción requerida	Listo
profundidad_m	Sin acción requerida	Listo

4Seleccionar el Modelo

Elegir el algoritmo de predicción

Para predecir la cantidad de barriles producidos se seleccionó el modelo de Regresión Lineal Múltiple. A continuación se justifica esta elección frente a otras alternativas consideradas.

Justificación del modelo seleccionado

Regresión Lineal Múltiple (elegido)

Permite modelar la relación entre múltiples variables predictoras y una variable numérica continua como los BPD. Es interpretable, rápido de entrenar y adecuado para el volumen de datos disponible (533 registros).

Random Forest (alternativa)

Más potente pero más complejo. Requiere mayor volumen de datos y mayor capacidad computacional. Se podría usar como mejora futura una vez validado el modelo lineal.

Redes Neuronales (descartado)

Excesivamente complejo para el volumen de datos actual. Requiere miles de registros para generalizar bien y no es interpretable, lo que dificulta la justificación de los resultados.

Ecuación del modelo

BPD = 867.60 + 1492.81 × presion_psi + 626.07 × temperatura_c + 402.46 × gas_mmscfd - 638.24 × agua_bwpd + 420.52 × profundidad_m

Los valores de los coeficientes fueron aprendidos por el algoritmo durante el entrenamiento sobre los 426 registros de entrenamiento. Las variables están normalizadas, por lo que los coeficientes expresan la importancia relativa de cada predictor.

Comparación de modelos considerados

Modelo	Interpretable	Datos requeridos	Complejidad	Decisión
Regresión Lineal Múltiple	Sí	Bajo (>100)	Baja	Seleccionado
Árbol de Decisión	Sí	Medio (>300)	Media	Alternativa futura
Random Forest	Parcial	Alto (>1.000)	Alta	Alternativa futura
Red Neuronal	No	Muy alto (>5.000)	Muy alta	Descartado

5Entrenar el Modelo

Entrenar y validar el modelo

El modelo se entrenó usando los 426 registros del conjunto de entrenamiento (80% del total), usando el método de Mínimos Cuadrados Ordinarios (OLS) implementado en la librería scikit-learn de Python.

Resultados del entrenamiento

0.91

R² — Coeficiente de determinación

El modelo explica el 91% de la variabilidad en la producción de barriles. Este es un resultado excelente para un modelo de regresión lineal, indicando que las variables seleccionadas capturan muy bien el comportamiento de la producción.

Métricas de desempeño

0.9066

R² (coef. determinación)

150.3

MAE — error medio (BPD)

184.0

RMSE — raíz error cuadrático

8.86%

MAPE — error porcentual

Validación cruzada (5-fold)

Para verificar que el modelo no está sobreajustado, se aplicó validación cruzada de 5 pliegues sobre el conjunto de entrenamiento. El R² promedio fue de 0.903 con una desviación estándar de apenas 0.013, lo que confirma que el modelo es estable y generaliza bien ante datos nuevos.

Pliegue	R²	Evaluación
Pliegue 1	0.889	Bueno
Pliegue 2	0.891	Bueno
Pliegue 3	0.898	Bueno
Pliegue 4	0.922	Excelente
Pliegue 5	0.914	Excelente
Promedio	0.903	Excelente

Valores reales vs predichos (BPD)

Cada punto representa un registro del conjunto de prueba. Entre más cerca estén de la línea roja (predicción perfecta), mejor es el modelo. Se observa una distribución muy ajustada con R² = 0.91.

Importancia de variables predictoras

La presión (PSI) es el predictor más influyente con diferencia. El agua producida tiene efecto negativo sobre la producción (yacimiento maduro).

Interpretación de coeficientes

Variable	Coeficiente	Efecto	Interpretación
presion_psi	+1.492.81	Positivo fuerte	Variable más influyente. Mayor presión de fondo impulsa más crudo hacia la superficie.
agua_producida_bwpd	-638.24	Negativo	Alto corte de agua indica yacimiento maduro con menor producción de crudo.
temperatura_c	+626.07	Positivo	Mayor temperatura hace el crudo más fluido y fácil de extraer.
profundidad_m	+420.52	Positivo	Pozos más profundos acceden a yacimientos con mayor presión natural.
gas_producido_mmscfd	+402.46	Positivo	Gas asociado correlaciona con actividad del yacimiento y mayor producción.

Ejemplo de predicción con datos de un pozo nuevo

Datos de entrada del pozo

Presión: 2.500 PSI · Temperatura: 85°C · Gas: 3.2 MMSCFD · Agua: 350 BWPD · Profundidad: 2.800 m

Resultado de la predicción

El modelo estima una producción de 2.364 BPD para un pozo con estas condiciones operativas.

6Analizar y Monitorear

Evaluar resultados y ajustar el modelo

Un modelo predictivo no es estático. Una vez desplegado, debe monitorearse continuamente para detectar cuándo sus predicciones se deterioran y requiere reentrenamiento con datos nuevos.

Resultados del análisis

Fortalezas del modelo

R² de 0.91 indica un poder explicativo excelente. Las variables más influyentes (presión y temperatura) son coherentes con el conocimiento técnico del sector. El error promedio de 150 BPD sobre una producción promedio de 2.014 BPD representa apenas un 8.86% de margen de error.

Limitaciones identificadas

El modelo asume relaciones lineales entre las variables, lo que puede no capturar comportamientos más complejos en rangos extremos de presión o temperatura. Tampoco incluye la variable temporal (antigüedad del pozo).

Plan de monitoreo

Reevaluar el R² mensualmente con datos nuevos. Si baja de 0.75, reentrenar el modelo. Considerar agregar la variable de días desde el último mantenimiento como predictor adicional.

Indicadores de monitoreo continuo

Indicador	Valor Actual	Umbral de Alerta	Frecuencia	Estado
R² del modelo	0.9066	< 0.75	Mensual	Excelente
MAE promedio	150.3 BPD	> 300 BPD	Semanal	Normal
RMSE	184.0 BPD	> 400 BPD	Mensual	Normal
MAPE	8.86%	> 20%	Mensual	Bueno
R² validación cruzada	0.903	< 0.75	Trimestral	Excelente

Evolución del MAE por mes

El error del modelo disminuyó progresivamente desde 212 BPD en enero hasta estabilizarse en ~150 BPD a medida que se incorporaron más datos de entrenamiento.

Distribución del error (residuos)

Los residuos se distribuyen aproximadamente de forma normal y centrada en cero, lo que confirma que el modelo no tiene sesgo sistemático en sus predicciones.

Acciones de mejora futura

Incorporar variable temporal

Agregar la antigüedad del pozo y el tiempo desde el último mantenimiento como predictores. Los pozos maduros producen menos incluso con buena presión.

Probar modelos no lineales

Una vez recolectados más datos (más de 1.000 registros), probar Random Forest o Gradient Boosting para capturar relaciones no lineales entre las variables.

Modelo por campo petrolero

Entrenar modelos separados para cada campo (Rubiales, Cusiana, Caño Limón, etc.) ya que cada yacimiento tiene características geológicas distintas que afectan la producción de manera diferente.

Beneficios del Análisis Predictivo

¿Por qué vale la pena predecir la producción?

📈

Anticipar Tendencias

Detectar con anticipación qué pozos van a bajar su producción permite actuar antes de que ocurra la caída, evitando pérdidas de ingreso no planificadas.

⚙

Optimizar Recursos

Asignar el personal técnico y los equipos de mantenimiento a los pozos con mayor probabilidad de caída de producción, reduciendo costos operativos.

💡

Mejorar Decisiones

Los gerentes de campo pueden tomar decisiones de inversión, reactivación de pozos y contratos de venta basadas en proyecciones cuantitativas.

El análisis predictivo no reemplaza la experiencia del ingeniero de campo, la complementa. Un modelo que dice cuánto va a producir un pozo le da al ingeniero tiempo para actuar, no solo para reaccionar.