AñoproyectoResumen

2014-2015

Extracción de Conocimiento en Datos Masivos

Se dice en término coloquial que se está viviendo “la era de la Información” sin embargo se puede afirmar que en realidad se está viviendo “la era de los datos”. Terabytes      o petabytes de datos  se vierten cada día en  redes de computadoras domésticas (Intranets), la World Wide Web (WWW-Internet), y en diferentes dispositivos de almacenamiento de datos masivos provenientes, entre otras, de aplicaciones de negocio, de redes sociales, y de experiencias científicas de las más diversas áreas de conocimiento. Este crecimiento explosivo de la cantidad de datos disponible es el resultado de la informatización de nuestra sociedad y del rápido desarrollo de poderosas herramientas de recopilación y almacenamiento de datos. Esta realidad conduce a trabajar con grandes conjuntos de datos, cada vez más habitual en muchas áreas. Información y sobrecarga de datos nunca ha sido tan problemático como en la actualidad.[Krishnan K.]
La tecnología actual, en lo que a hardware refiere,ha logrado incorporar varios núcleos en un procesador, varios procesadores en una PC individual y la conformación de clusters de computadoras. Esto permite la paralelización de algoritmos que hasta ahora, por razones de hardware y diseño, son mayoritariamente secuenciales. Así mismo los datos, a través de mecanismos de software específicos, se distribuyen en los diferentes nodos que conforman un cluster elevando la complejidad de extraer información y conocimiento de los mismos.
El incremento de posibilidades de procesamiento paralelo es una alternativa efectiva para problemas de elevada complejidad, con soluciones computacionalmente costosas y datos-intensivas.
La presente propuesta pretende dar cabida a un grupo de trabajo integrado por docentes, investigadores, maestrandos y alumnos de las carreras LSI-LCC, a efectos de formar e  incrementar la experiencia en áreas de conocimiento como es la del aprendizaje de máquina, dando continuidad a anteriores proyectos de investigación, como así también la minería de datos paralela y distribuida mediante la utilización de hardware multicore, cluster de computadoras y herramientas de software libre. Entre estas herramientas, que permiten la aplicación de algoritmos paralelos de minería de datos y la utilización de datos masivos, se destacan R, RapidMiner, y Orange. Muchas de estas herramientas,que disponen de algoritmos secuenciales de DM para ser aplicados en bases de datos locales, han sido utilizadas por los integrantes de la actual propuesta en anteriores proyectos de investigación.

2011-2013

CODIFEXA - Colecciones Digitales para la Facultad de Exactas

La construcción de repositorios institucionales (RI) por parte de facultades de universidades argentinas es cada vez más significativa, pero para que este tipo de emprendimientos – generalmente con presupuestos ajustados – tenga sustentabilidad  en el tiempo es necesario  “mostrar que es útil”  para la institución - los docentes en particular - en el sentido que permite  aumentar la visibilidad de la producción científica local y por ende el impacto  entre sus pares.

El proyecto que aquí describimos, Colecciones Digitales  para la Facultad de Exactas (CODIFEXA), es el resultado del trabajo interdisciplinario de informáticos y bibliotecarios cuyo objetivo es sentar las bases para construir un RI para la Facultad de Ciencias Exactas de la Universidad Nacional de San Juan siguiendo la premisa de que en este tipo de emprendimientos “el centro de atención no es la tecnología, sino las actividades humanas que se sirven de la tecnología”.