lunes, diciembre 22, 2014

Analizando logs en 5 minutos con ELK

A partir de una idea de Santiago, y tomando como base algunos componentes que los muchachos de MercadoLibre utilizan para su infraestructura de gestión de logs, se me ocurrió hacer una prueba de concepto de a lo que es posible arribar rápidamente utilizando la tríada ElasticSearch + Logstash + Kibana, más conocida com ELK.

Para dar una mínima introducción, diremos que ElasticSearch es un motor de búsqueda RESTful basado en el archiconocido Lucene, Logstash es una especie de concentrador/manipulador/estandarizador de logs provenientes de múltiples fuentes, y Kibana es un visualizador de eventos que corre enteramente en el navegador. Los tres son componentes que pueden utilizarse en forma separada, pero en conjunto aplican precisamente esto de que el todo es más que la suma de las partes. De hecho yo había estado viendo Logstash aparte para una charla sobre logging que diera algunos años atrás, cuando aún era un proyecto incipiente, y ahora me encuentro con que es un proyecto ampliamente utilizado en un montón de lados.

Pero hoy no quiero detenerme demasiado en la teoría; la idea de este post es analizar registros yendo de 0 a 100 en 5 minutos (o lo que tarde en bajar cada aplicación) y para ello nada mejor que arrancar ahora. Así que...

Analizando logs en 5 minutos con ELK

Prerrequisitos

Como prerequisito es necesario el motor de ejecución java 1.6 o 1.7. En distribuciones basadas en debian alcanza con instalar openjdk-6-jre u openjdk-7-jre. O eso creo, a lo mejor es necesario el jdk también; prueben por las dudas. El resto de los pasos se pueden hacer sin necesidad de ser root, como usuario común.

Paso 0. Ubicarnos en un directorio limpio

mkdir elk
cd elk

Paso 1. Obtener logstash

wget -c https://download.elasticsearch.org/logstash/logstash/logstash-1.4.2.tar.gz
tar zxf logstash-1.4.2.tar.gz

Paso 2. Obtener elasticsearch

wget -c https://download.elasticsearch.org/elasticsearch/elasticsearch/elasticsearch-1.1.1.tar.gz
tar zxf elasticsearch-1.1.1.tar.gz

Paso 3. Obtener un log de apache

... de algún lado. Si tienen un apache a mano, cópiense el archivo al directorio actual y dénle permisos de lectura para su usuario

cp /var/log/apache2/access.log access.log
chmod go+r access.log

O si no tienen ninguno a mano, acá les dejo uno que es un fragmento del log de este mismo sitio. Ustedes pueden hacer lo que les plazca con él, total este es un blog personal. Si quieren optar por otra alternativa, google hacking es su amigo y yo no se los recomendé.

wget http://maurom.com/files/access.elk.log -O access.log

Paso 4. Iniciar elasticsearch

echo Iniciando Elasticsearch. Aguarde 15s ...
elasticsearch-1.1.1/bin/elasticsearch &
sleep 15

Paso 5. Crear un archivo de configuración para parsear logs de apache

Para ello, creen un archivo de texto llamado logstash-apache.conf en el directorio actual y copien y peguen el siguiente bloque. Luego editen la ruta al archivo de logs, indicándola en forma absoluta, y configuren el tipo de entradas de log y el lenguaje de los meses según corresponda (sino tira unos errores horribles).
input {
  file {
    # apuntar a donde haga falta, con ruta absoluta!
    path => "/home/usuario/elk/access.log"
    # desde dónde leer el log, o
    # "end" para tomar datos en vivo
    start_position => beginning
  }
}
filter {
  if [path] =~ "access" {
    mutate { replace => { "type" => "apache_access" } }
    grok {
      # depende del formato de archivo
      match => { "message" => "%{COMBINEDAPACHELOG}" }
      #match => { "message" => "%{COMMONAPACHELOG}" }
    }
    kv {
      #con esto parsea incluso querystrings
      source => "request"
      target => "params"
      field_split => "?&"
    }
  }
  date {
    match => [ "timestamp" , "dd/MMM/yyyy:HH:mm:ss Z" ]
    # si los meses estan en ingles, o
    # "es" si estan en castellano
    locale => "en"
  }
}
output {
  elasticsearch { host => localhost }
  # salida estandar coloreada, util para debug
  #stdout { codec => rubydebug }
}

Todo este archivo tiene su lógica según la documentación de logstash.

Paso 6. Iniciar logstash+kibana con la configuracion dada

echo Iniciando Logstash. Aguarde 15s ...
logstash-1.4.2/bin/logstash -f logstash-apache.conf -- web &
sleep 15

Paso 7. Levantar un navegador web

xdg-open "http://localhost:9292/index.html#/dashboard/file/logstash.json"

Paso 8. Jueguen con los filtros, los gráficos y deléitense con la visualización

Fíjense de qué epoca son las entradas del log, pues puede que tengan que modificar algunas cosas para que Kibana les encuentre los eventos para esas fechas. Por ejemplo, el log de apache que les pasé solo tiene entradas para el mes de julio de 2014, así que seleccionen ese rango en el filtro de fechas de Kibana.

Acá les dejo algunas capturas de lo que pueden llegar a hacer, que si bien no son de análisis de apache, dan una idea de las posibilidades:

 

Paso 9. Terminar la tarea

Para cerrar los procesos, matelos sanamente con kill PID a cada proceso java asociado.

Ah, y una mención antes de terminar: cada vez que logstash procesa un archivo, anota hasta donde leyó para no volver a cargar la información, por lo que si están jugando con la configuración van a tener que borrar unos archivos .sincedb_algo que genera en el directorio $HOME del usuario para que vuelva a recorrer el mismo log.

Por último, en este caso estamos parseando son entradas de accesos a un sitio web, pero el combo ELK puede procesar casi cualquier tipo de flujo de eventos, y si bien java mucho no me atrae, todo este paquete vale la pena; piensen cuanto habrían tardado en programar ustedes una interfaz tan flexible y completa...

Como sé que ustedes son tan haraganes como yo, acá tienen todo en un solo script que lo hace de una.

Si se quedaron manija, acá van algunas demos y algo de documentación:
Eso es todo por hoy. Feliz análisis y Felices fiestas!

lunes, noviembre 17, 2014

Tipografía práctica

Desde pequeño tuve predilección por las tipografías y por el aspecto visual de los textos y documentos que he encontrado. Más allá de que nunca tuve buen gusto para ello, siempre trato de ceñirme a las mejores prácticas del entorno, lo que me ha dado una buena dosis experiencia con las aplicaciones de maquetación, diseño y procesamiento de texto, entendiendo, por ejem­plo, que siempre resulta mucho mejor definir el formato de un texto mediante estilos en vez de aplicar atributos a diestra y siniestra con el cursor del ratón.

Buscando un sumario de reglas generales referidas al diseño de textos impresos y de sitios web di con el libro Practical Typography de Matthew Butterick, que tras haber leído detenidamente considero indispensable para todo aquel que se haya dedicado tres minutos de su vida a plantearse con qué fuente plasmar, con qué alineación, o cómo dar énfasis a un texto que se encontraba escribiendo. Butterick es autor de diversas tipografías que provee en su sitio web, pero como diseñador viene de un trasfondo de letras: es escritor y es abogado, una profesión donde los documentos escritos son ineludibles.

Del sitio web del libro, que está disponible enteramente en línea, comiencen por “Typography in ten minutes”, luego pasen a “Summary of key rules” y, si les interesa lo que ven, sigan por el resto. En el texto, Butterick -menos teórico y más pragmático- también recomien­da varias familias de tipografías y reniega de muchas otras, da exce­lentes consejos sobre cómo dar formato al texto y componer las páginas de un documento, y presenta además algunos ejemplos de diseño de elementos tales como artículos de investigación, encabeza­dos, currículums, entre otros. Todos consejos bien fundamentados y con los que coincido casi plenamente; creo que la única diferencia que tengo es sobre el tamaño de letra que utiliza en el sitio web, pero eso se arregla fácilmente con el zoom del navegador.

Por lo demás, Practical Typography.

lunes, noviembre 10, 2014

SRC: Control de versiones para proyectos de un solo archivo

Tiempo atrás consulté con mis amigos cual sería la forma adecuada de mantener el histórico de versiones de distintos proyectos que están conformados por un único archivo de código fuente; o alternativamente, si alguno conocía un sistema de control de versiones tal como subversion, mercurial o git, que permitiera mantener esa información sin tener que crear todo el proyecto en un nuevo directorio y sin el overhead de trazar cambios en jerarquías de carpetas y similares. La idea es sencilla: muchas veces hago scripts sueltos que no merecen estar alojados en un repositorio de código particular -están todos juntos en un directorio “scripts”-, pero de los que me interesa mantener un historial de cambios y revisiones.

Tomás me recomendó GistBox, que parece bastante piola puesto que en cierta forma está destinado a mantener esa “biblioteca” de código variado que uno va acumulando con el tiempo. Además los Gists siguen siendo repositorios git, por lo cual tienen todas las ventajas de un control de versiones. Pero aquí ya uno depende un poco de los servicios en la nube y además sigue siendo necesario mantener los archivos fuente en directorios aparte.

Salvando GistBox, hasta el momento no había encontrado ningún software que realice tal tarea, e incluso estuve tentado a comenzar un proyecto propio para tal fin.

Sin embargo, recientemente di con un post de Eric Raymond en el cual menciona la creación de un nuevo proyecto denominado SRC o “Simple Revision Control”, basado en RCS y definido como “Revision control with a modern UI for single-file solo projects kept possibly more than one to a directory”. En palabras sencillas, justo lo que estoy buscando.

Según el sitio web del proyecto -que al involucrar múltiples archivos, está mantenido en git, pun intended!-, Simple Revision Control es:
RCS recargado -un pequeño y cómodo sistema de control de versiones para proyectos de único archivo, único desarrollador, tal como todos esos pequeños scripts en el directorio ~/bin. Cuenta con operación libre de bloqueo, una interfaz de usuario limpia y moderna similar a la de subversion, documentación integrada, y los archivos de historia son archivos sencillos de RCS.
A primera vista tiene tres ventajas: a) cumple con lo que yo había solicitado; b) está desarrollado en python; y c) por el propio autor de “The Art of UNIX Programming”. Más no se puede pedir.

Y mientras estaba leyendo el artículo, en los comentarios aportan otra utilidad similar (que también desconocía): Zit, the git-based single file content tracker. Por ahora voy a probar SRC y ver si se ajusta a mi forma de trabajo. En un tiempo les comento que tal fue.

lunes, noviembre 03, 2014

Post instalación Debian GNU/Linux 7 (Wheezy)

Inspirado en un post de Tomás -bah, debo decir: copiando inescrupulosamente su texto- referido a las tareas post-instalación de Ubuntu caí en la cuenta de que de requerir volver a instalar Debian, por la razón que fuera, no es mala idea tener documentado cuál es el software que suelo agregar al sistema una vez terminada la instalación inicial, por lo que éste es un post que servirá por dos puntas:
  • para el que quiera tener una instalación de debian wheezy (estable) usable, vale decir, con algunas aplicaciones más modernas que las que trae por defecto pero tratando de no salir de los repos oficiales;
  • y para mí, para no perder tiempo haciendo memoria en el caso de tener que reinstalar el sistema.

Paso 1

Para comenzar, partimos de la instalación base de Debian Wheezy. Para que se den una idea, hay que seguir la instalación tradicional y cuando presenta el uso que se dará (escritorio, servidor, etc), desmarcar todas las opciones y continuar normalmente.

Paso 2

Una vez instalado y hecho el primer arranque, luego de iniciar sesión lo que suelo hacer al toque es deshabilitar la opción de instalación de paquetes recomendados, puesto que pocas veces son necesarios y además engordan sobremanera el espacio ocupado por el sistema. Para ello basta con ejecutar la línea siguiente para que las próximas instalaciones eviten instalarlos.
echo "APT::Install-Recommends \"false\";" > /etc/apt/apt.conf.d/90-wheezy-powerup-disable-recommends.conf

Paso 3

Luego, sólo si están detrás de un proxy, hay varias formas de configurarlo: puede ser globalmente mediante las variables de entorno http_proxy, https_proxy y ftp_proxy, o bien mediante la configuración de APT para aquellos casos donde dispongan de un servidor de caché como APT-Cacher. Por ejemplo:
PROXY="http://proxy.miorganizacion.com.ar:8080/"
export http_proxy=$PROXY
export https_proxy=$PROXY
export ftp_proxy=$PROXY
echo "Acquire::http::Proxy \"$PROXY\";" > /etc/apt/apt.conf.d/90-wheezy-powerup-proxy.conf
echo "Acquire::ftp::Proxy \"$PROXY\";" > /etc/apt/apt.conf.d/90-wheezy-powerup-proxy.conf

Paso 4

Verificar que están configurados los repositorios oficiales de la distribución, más el repositorio de backports. Para ello, el archivo /etc/apt/sources.list debería listar, al menos, los siguientes:
deb http://cdn.debian.net/debian/ wheezy main contrib non-free
deb http://security.debian.org/ wheezy/updates main contrib
deb http://cdn.debian.net/debian/ wheezy-backports main contrib non-free

Paso 5

Agregar algunos repositorios externos (no Debian) que contienen software útil, por ejemplo mozilla-debian para la última versión de Iceweasel, el de Dropbox y el de Google Talk. Se pueden agregar en un archivo denominado /etc/apt/sources.list.d/repos-externos.list
deb http://mozilla.debian.net/ wheezy-backports iceweasel-release
deb http://linux.dropbox.com/debian wheezy main
deb http://dl.google.com/linux/talkplugin/deb/ stable main

Paso 6

Clásico: actualizar la lista de paquetes.
apt-get update

Paso 7

Instalar un entorno gráfico y los controladores de la placa de video. Para la interfaz gráfica hay varios metapaquetes que se corresponden a cada entorno de escritorio, los más conservadores son los siguientes: para Gnome, instalando gnome-core alcanza; para KDE, instalen kde-plasma-desktop; para XFCE instalen xfce4; para LXDE instalen lxde; incluso pueden instalar Mate desde backports mediante el paquete mate. Eventualmente puede ser necesario instalar un driver privativo, por ejemplo para placas GPU AMD/ATI suele ser necesario el paquete fglrx-driver, mientras que para placas GPU nVidia el paquete a instalar es xserver-xorg-video-nvidia. También hay versiones para chipsets más antiguos (aparecen como paquetes con el nombre legacy). Si tienen un chipset Intel, con lo que viene por defecto suele alcanzar. Sobre el entorno gráfico, yo tengo predilección por el Gnome clásico.
apt-get install xorg xserver-xorg xserver-xorg-video-all \
    gnome-core gnome-session-fallback

Superpaso 8

Instalar paquetes desde los repositorios oficiales. Como en la línea anterior, cada paquete está enlazado a su descripción en el sitio de Debian.

Paso 8.1. Controladores y servicios útiles

apt-get install amd64-microcode dkms fail2ban \
    intel-microcode libmtp-runtime ntfs-3g ssh \
    uptimed

Paso 8.2. Herramientas útiles de línea de comando

apt-get install alsa-utils bash-completion clamav \
    colordiff colortail curl flac hexedit highlight \
    htop iotop less lftp libav-tools mc mlocate nano \
    nmap netcat-openbsd os-prober p7zip p7zip-full pv \
    qemu-kvm screen sshfs tshark unrar unzip vbindiff \
    w3m wget zip

Paso 8.3. Lenguajes de programación, herramientas y documentación

apt-get install build-essential idle ipython python \
    python-doc sqlite3 sqlite3-doc

Paso 8.4. Programas gráficos para fines variados (editores, reproductores, etc)

apt-get install audacious chromium chromium-l10n \
    desktop-base file-roller filezilla \
    flashplugin-nonfree fslint gedit gedit-plugins \
    geeqie ghex gimp gksu gnome-specimen gnome-tweak-tool \
    gpicview gstreamer0.10-ffmpeg hardinfo icedove \
    icedove-l10n-es-ar keepassx leafpad meld mplayer-gui \
    mplayer2 openbox sound-juicer sqlitebrowser synaptic \
    totem transmission-gtk vlc wireshark \
    xdg-user-dirs-gtk xterm

apt-get -t wheezy-backports install geany geany-plugins \
    pepperflashplugin-nonfree

Paso 8.5. Iconos y temas de escritorio

apt-get install clearlooks-phenix-theme dmz-cursor-theme \
    gnome-colors human-icon-theme murrine-themes \
    shiki-colors tango-icon-theme

Paso 8.6. Versión más moderna del kernel (3.16 para 64 bits)

apt-get -t wheezy-backports install firmware-linux \
    linux-headers-amd64 linux-image-amd64 linux-doc

Paso 8.7. Versión más moderna de VirtualBox (4.3.14)

apt-get install libqt4-network libqt4-opengl libqtcore4 \
    libqtgui4

apt-get -t wheezy-backports install virtualbox \
    virtualbox-dkms virtualbox-qt

Paso 8.8. Versión más moderna de LibreOffice (4.3.2)

apt-get -t wheezy-backports install libreoffice \
    libreoffice-gnome libreoffice-help-es \
    libreoffice-l10n-es libreoffice-style-tango \
    fonts-opensymbol

Paso 8.9. Versión más moderna de Iceweasel/Firefox (33)

apt-get -t wheezy-backports install iceweasel \
    iceweasel-l10n-es-ar

Paso 8.10. Tipografías

apt-get install fonts-cantarell fonts-crosextra-caladea \
    fonts-crosextra-carlito fonts-dkg-handwriting \
    fonts-humor-sans fonts-droid fonts-font-awesome \
    fonts-liberation fonts-roboto ttf-dejavu \
    ttf-mscorefonts-installer

Paso 9

Instalar paquetes desde repositorios externos: dropbox, skype, google-talkplugin (pendiente de documentar)

Paso 10

Listo, con eso les queda un sistema operativo de unos 5 GB, a mi juicio, casi perfecto. Todo lo documentado aquí está disponible en un sencillo script que instala Gnome y ejecuta estos pasos de un saque. Lo dejo aquí disponible por si les sirve: wheezy-powerup.sh
Algunos consejos adicionales:
  • Antes de iniciar sesión, conviene elegir la sesión "Gnome Classic" y establecerla por defecto.
  • Una vez en el escritorio, cambien el tapiz y utilicen gnome-tweak-tool para habilitar los íconos en el fondo, cambiar la tipografía y los temas visuales.
  • Pueden añadir applets a las barras superior e inferior manteniendo presionada la tecla Alt y haciendo clic con el botón derecho del ratón sobre alguna de ellas. Si con Alt no funciona, prueben con Win+Alt
  • Para tener la tipografía clásica en las terminales Fx, ejecuten dpkg-reconfigure console-setup y en "Tipo de letra para la consola" seleccionen "No cambie la tipografía del arranque".
Les recomiendo que se den una vuelta por el post de Tomás pues el da también una buena lista de software para instalar, y si me olvido de algo, o ven algo que sobra, abajo están los comentarios...

lunes, octubre 20, 2014

La RAE y su incorrecta acepción de hacker

A partir del dato que pasó Raúl Batista en el blog Segu-Info, leo con mucho desagrado que la Real Academia Española (RAE) ha incorporado a la 23a. edición del Diccionario de la Lengua Española el término "hacker", con la siguiente acepción:
hacker (Voz ingl.): m. y f. Inform. pirata informático.
aclarando que la explicación de pirata informático tambien en rae.es:
Pirata informático: Traducción recomendada para la voz inglesa hacker, ‘persona con grandes habilidades en el manejo de ordenadores, que utiliza sus conocimientos para acceder ilegalmente a sistemas o redes ajenos’: "Un pirata informático logró jaquear los sistemas de seguridad" (Clarín@ [Arg.] 19.6.05).
Por mi parte, continuaré utilizando la definición existente en el Jargon File, de Eric S. Raymond, que surge desde el propio movimiento hacker y es aceptada ampliamente por la comunidad de software libre, según la cual un hacker es, entre otras cosas:
hacker: n. A person who enjoys exploring the details of programmable systems and how to stretch their capabilities, as opposed to most users, who prefer to learn only the minimum necessary. RFC1392, the Internet Users' Glossary, usefully amplifies this as: A person who delights in having an intimate understanding of the internal workings of a system, computers and computer networks in particular. (Jargon File)
hacker: s. Una persona que disfruta explorando los detalles de los sistemas programables y cómo extender sus capacidades, a diferencia de la mayoría de los usuarios que prefieren aprender sólo el mínimo necesario. La RFC1392, el Glosario de los Usuarios de Internet, amplía eficazmente la definición como: Una persona que se deleita en tener un entendimiento profundo del funcionamiento interno de un sistema, de las computadoras y de las redes informáticas, en particular.
Desconozco qué es lo que ha llevado a los editores de la RAE a tomar tan equivocada definición del término. Probablemente lo que apunta Raúl acerca de el uso habitual en los medios de comunicación tenga algo que ver, pero sin dudas me ha desilusionado sobremanera que la gente de la Real Academia haya incorporado esta acepción sin haber consultado previamente a los propios referidos por el término. Para decirlo sencillo: "un cirujano no es un asesino, por más que abra la gente al medio".

Actualización: Chema Alonso se suma a la protesta y ha iniciado una petición en Change.org para que se cambie la definición de hacker. Firmas aquí!

domingo, julio 06, 2014

Call for Charlas PyDay Luján 2014

El Grupo de Usuarios de Software Libre (UNLUX) de la Universidad Nacional de Luján invita a la comunidad de usuarios de Python y de Software Libre en general a proponer presentaciones y charlas para el encuentro PyDay Luján 2014, que tendrá lugar en la Sede Central de la Universidad Nacional de Luján (UNLu) el sábado 20 de septiembre de 2014.

Sobre el PyDay

PyDay es el nombre coloquial con el que se conoce a las jornadas de lenguaje Python de un día de duración.
Este evento se presenta como una oportunidad de encuentro e intercambio de experiencias entre desarrolladores, programadores y usuarios del lenguaje en ámbitos que se extienden a la empresa, la academia, el arte y, desde luego, el ocio.
La temática del evento es el lenguaje de programación de propósito general Python, en niveles introductorios e intermedios tanto teórico (charla) como práctico (talleres), si bien también serán recibidas aquellas propuestas de temas más avanzados y afines.
Cada disertante dispondrá de 45 minutos para su exposición, incluyendo el tiempo para preguntas. Habrá unos 15 minutos de intermedio entre charlas. Además, el día del evento se se pondrá a disposición de los presentes un listado para recibir propuestas de Charlas Relámpago.

Envío de propuestas

Para acercarnos una propuesta de charla, ingrese a la sección "Charlas" en el sitio oficial del evento y complete el formulario de propuesta allí presente. El material de las presentaciones se hará disponible a los asistentes, por lo que solicitamos se brinde bajo una licencia que permita su libre distribución.

Fecha límite

La recepción de propuestas finaliza el día 15 de agosto del corriente año a la medianoche. Las presentaciones fuera de plazo podrán ser considerados para su inclusión en la conferencia principal en caso de quedar espacio disponible. Una vez evaluadas las propuestas, se informará a los autores el resultado de la selección.

Para contactarse en forma privada respecto a su propuesta, por ideas más generales o preguntas sobre el evento, por favor envíenos un correo electrónico a pydaylujan@gmail.com

Esperamos contar nuevamente con Uds. en la UNLu para compartir momentos memorables durante este PyDay.

Agradecemos la difusión de este llamado y del encuentro en sí.

viernes, junio 20, 2014

Indistinguible de la magia

En 1981, una IBM PC XT no podía reproducir video en una tasa de cuadros que fuera satisfactoria para el ser humano.

Hoy, en el mismo equipamiento:


Todo gracias a la curiosidad del genial scener Jim Leonard (trixter), que redacta en su blog la complejidad de lograr tal hazaña en su demo 8088 Domination. Mierda, se me caen las lágrimas.

Vía OSNews