Técnica para extraer datos de sitios web de manera automatizada.
Utilizando herramientas o scripts que recorren el contenido HTML de una página.
// Web scraping con Playwright (Node.js) import { chromium } from 'playwright'; async function scrapeProductos() { const browser = await chromium.launch(); const page = await browser.newPage(); await page.goto('https://tienda.com/productos'); // Esperar a que carguen los productos await page.waitForSelector('.producto'); // Extraer datos const productos = await page.$$eval('.producto', (items) => items.map(item => ({ nombre: item.querySelector('.titulo')?.textContent, precio: item.querySelector('.precio')?.textContent, imagen: item.querySelector('img')?.src })) ); await browser.close(); return productos; } // Web scraping con Cheerio (más simple, solo HTML) import * as cheerio from 'cheerio'; const html = await fetch('https://sitio.com').then(r => r.text()); const $ = cheerio.load(html); const titulos = $('h2.titulo').map((i, el) => $(el).text()).get(); // Consideraciones legales y éticas: // ✅ Respetar robots.txt // ✅ No sobrecargar el servidor // ✅ Verificar términos de servicio // ✅ Usar APIs si están disponibles