miércoles, 21 de agosto de 2013

Seminario SEO para desarrolladores o de como hacernos visibles en Internet I

El pasado febrero asistí al seminario SEO para desarrolladores organizado por Paradigma y JavaHispano. El SEO siempre ha sido una de esas sub-disciplinas de nuestra ciencia que he tenido en lista de espera, dando por hecho que cuando se cumpla mi deseo secreto de que el día tenga 48 horas voy a dedicarle tanto tiempo como para convertirme en ninja o gurú. Mientras tanto decidí asistir a la charla, esperando solo actualizar mis elementales conocimientos de forma rápida y pasar un rato entretenido.

La misma resultó muy provechosa. En el ponente Rubén Martínez se descubre un profesional con amplia experiencia en el tema, lleno de recursos para enfrentarse a las mas disímiles situaciones a las que puede enfrentarse un experto del SEO. Precisamente con esto, es con lo que mas me he quedado de todo lo que se trató. A pesar de que de manera concisa se expuso todo el entramado teórico del SEO (por lo menos lo que nos han permitido saber los creadores de buscadores) fue muy enriquecedor el hecho de que para cada aspecto teórico se brindase una herramienta práctica con el que poder medirlo, así como un ejemplo real de monitoreo del mismo de sitios reales en internet. El SEO es mitad ciencia, mitad artesanía, e incluye muchas experimentaciones y heurísticas por lo que no tiene sentido conocer solo los fundamentos teóricos.

A la hora de auditar el estado actual del SEO para un sitio dado existen 4 variables a tener en cuenta


  1. Back Links o enlaces que referencian al sitio.

  2. Bien conocido es que un criterio primordial para Google el que se "hable" mucho de algo por internet. Para esta categoría se presentó la herramienta ahref.com que brinda una extensa información sobre las referencias que posee nuestro sitio en el grafo de internet. Aunque de pago, permite realizar un número de análisis de manera gratuita, siendo muy interesante jugar con ella y observar sus resultados. También como aspecto interesante se brindó la siguiente tabla que muestra la distribución de los sitios en internet según el idioma, aspecto a tener en cuenta porque es mucho mas fácil obtener referencias de sitios en el mismo idioma que el nuestro.
    gráfico con la distribución de idiomas en paginas de internet



    Según el reflejo de esta tabla mas de la mitad de los sitios de internet estan en idioma inglés con lo cual es necesario cuestionarse si necesitamos publicar contenido en este idioma para tener una ventaja extra a la hora de llegar a otros sitios y ser referenciados por los mismos.

    De la misma manera, no solo importan la cantidad de referencias sino la calidad de las mismas. Ser referidos por sitios de prestigio puntuara mejor, mientras que por el contrario aparecer en enlaces "comprados" o sitios con alta cantidad de SPAM puede llegar a incurrir en penalizaciones. Una forma de lidiar con esto es mediante GOOGLE WEB MASTER TOOL

    Otras herramientas

  3. Palabras Claves

  4. Entran aquí además de las meta-tags, todas aquellas usadas en títulos, URLS, enlaces, pies de imágenes y otras partes del sitio, con las que es necesario tener especial cuidado y elegirlas para que sabiamente representen nuestro contenido a los "ojos" del crawler de Google.

    Existen herramientas para encontrar puntos débiles en este apartado y mejorarlos tales como:
    siteliner: Permite encontrar textos duplicados
    copyscape: Detecta el plagio de otros sitios de internet.
    operador site para búsquedas en google: conocer la cantidad de paginas indexadas para un dominio dado por google

  5. Arquitectura del sitio
  6. Es bueno tener un conocimiento de como se estructura nuestro sitio, que páginas reciben mas enlaces externos y cuales mas internos, cuan fácil sería por un crawler moverse por todas las aristas formadas en el grafo de nuestro sitio, que diferentes formatos se presentan. Para esto se vió en un ejemplo super completo en el cual se recogió toda la información de un sitio mediante la herramienta Xenu's Link Sleuth que hace un recorrido en profundidad del sitio y lo exporta a un archivo. Luego este puede ser importado por una herramienta de visualización de grafos Gephi.org quedando al descubierto aspectos muy interesantes sobre su topología.

    Otras herramientas sobre este aspecto:

La segunda parte versó sobre que errores no cometer y que aspectos priorizar al construir un sitio desde cero, pero es tan amplia e interesante que se merece un segundo post. Mientras tanto os comparto el enlace a los recursos que permiten ahondar aun mas en todo lo que se trató.

Ebook con los apuntes de la charla
Presentacion en Parleys

jueves, 1 de agosto de 2013

Obteniendo un listado de palabras en idioma español


Como parte de uno de los proyectos personales en los que me encuentro enrolado actualmente tuve la necesidad de disponer de un listado de palabras lo mas completo posible del idioma español. Un listado como este, sirve para mucho, desde el análisis estadístico de las mismas, hasta ser fuente de diversión, usado en un juego. 

En una búsqueda preliminar encontré algunos, aunque bastante incompletos. Otros eran solo lemarios, o sea, que no llegaban a incluir variantes como las distintas conjugaciones de los verbos (lo cual consideraba prioritario para mi proyecto), sino simplemente el lema de los mismos, debiendo ser expandido este mediante un algoritmo posterior. 

Partiendo de estas fuentes, y habiendo comprobado la efectividad de correctores ortográficos como el Chrome decidí crearme uno propio. A estos recursos con que ya contaba añadí el siguiente listado que de la dirección publica del código de Chrome extraje y luego de un pre-procesado mediante un script de Groovy (github) , ha quedado listo para usarse en lo que sea necesario.

Enlace a 110419 palabras