Campo que utiliza técnicas de estadística, matemáticas y programación para extraer información valiosa.
Combina análisis de datos, machine learning y visualización para resolver problemas complejos y tomar decisiones basadas en datos.
# Pipeline típico de Data Science import pandas as pd import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression # 1. Cargar y explorar datos df = pd.read_csv('ventas.csv') df.head() df.info() # 2. Limpiar datos df = df.dropna() df = df[df['precio'] > 0] # 3. Análisis exploratorio df['ventas'].hist() plt.scatter(df['publicidad'], df['ventas']) # 4. Preparar features X = df[['publicidad', 'precio', 'temporada']] y = df['ventas'] # 5. Entrenar modelo X_train, X_test, y_train, y_test = train_test_split(X, y) modelo = LinearRegression() modelo.fit(X_train, y_train) # 6. Evaluar print(f'R² Score: {modelo.score(X_test, y_test)}')