Vimos anteriormente cómo parsear contenido XML mediante Magpie RSS, pero en muchos casos una web puede no ofrecer un RSS y el contenido que necesitamos parsear se encuentra en HTML. Vamos a ver hoy como hacerlo mediante la clase HtmlSQL.
Lo primero que debemos hacer es descargar la clase:
Una vez descargada y subida a nuestro servidor podremos comenzar a trabajar con esta clase.Vamos a ver cómo realizar una consulta simple con htmlSQL. Lo primero será incluir la librería:
include_once("../snoopy.class.php");
include_once("../htmlsql.class.php");
$wsql = new htmlsql();
Nos conectamos a la URL:
if (!$wsql->connect('url', 'http://codedump.jonasjohn.de/')){
print 'Error durante la consección: ' . $wsql->error;
exit;
}
Ahora ya podremos realiar una consulta. En este ejemplo extraeremos todos los links que posean la clase "nav_item" (class="nav_item"):
if (!$wsql->query('SELECT * FROM a WHERE $class == "nav_item"')){
print "Query error: " . $wsql->error;
exit;
}
Ya podremos mostrar los resultados:
foreach($wsql->fetch_array() as $row){
print_r($row);
$row is an array and looks like this:
Array (
[href] => /feedback.htm
[class] => nav_item
[tagname] => a
[text] => Feedback
)
}
Esto es solo un ejemplo, al descargar la clase encontrarán muchos más ejemplo de lo que se puede realizar con esta clase. Les recomiendo visitar la web de sus creadores.
Si
encontraste útil esta información por favor colabora con este proyecto.
Escribir un comentario, dar un Like, o compartir en Twitter te llevará
menos de un minuto y me ayudará mucho a seguir con el proyecto.
HtmlSQL Class. Parsear Contenido HTML « Un Tal Seba http://t.co/Erg3ni71yz
— Seba (@SebaAlante) octubre 29, 2014

Cualquier corrección y/o comentario serán muy bienvenidos!!
ResponderEliminar