martes, 18 de febrero de 2014

Dataset: Menéame

Me he bajado Menéame para un proyecto de minería de datos y pongo aquí el dataset que tanto esfuerzo me ha costado conseguir por si alguien lo quiere. El formato de los datos es texto plano. Consiste en 53.088 filas, cada una de ellas conteniendo información de una noticia publicada en la portada de Menéame entre septiembre de 2010 y hoy. Por algún motivo he tenido problemas para parsear las noticias más antiguas, así que hasta esa fecha he podido llegar. Contiene algunos fallos, pero son despreciables dado el volumen de datos.

La primera fila contiene los nombres de las columnas. A partir de la segunda, cada fila contiene 7 campos separados por la secuencia de caracteres ' ;; ' (espacio, punto y coma, punto y coma, espacio). Los campos son

  1. Cabecera de la entrada (titular) [texto]
  2. Entradilla [texto]
  3. Número de meneos de la noticia [entero]
  4. Número de clics de la noticia [entero]
  5. Url de la noticia en Menéame [texto]
  6. Url de la página a la que dirige la noticia [texto]
  7. Nombre del usuario que publicó la noticia [texto]
El dataset se puede descargar aquí:

No hay comentarios:

Publicar un comentario