Encuadre
15 de noviembre de 2024
Unificar el conocimiento. Datos abiertos en el contexto de las humanidades
Por: Eder Ávila Barrientos
Introducción
En la última década, los repositorios de datos abiertos de investigación (RDAI) han emergido como un componente esencial en el panorama global de la investigación transformando la forma en que los datos son compartidos, reutilizados y preservados. Esta tendencia no solo ha impactado en el ámbito de las ciencias duras; también ha generado un cambio profundo en el terreno de las humanidades, un campo tradicionalmente asociado con la aplicación de métodos cualitativos, análisis de textos y estudios sociales, culturales e históricos.
A medida que la digitalización avanza y las políticas de acceso abierto se consolidan en los diversos países, los RDAI en el contexto de las humanidades están adquiriendo una relevancia internacional sin precedentes, pues el fenómeno de la datificación ha motivado la generación constante de datos en todos los ámbitos de la actividad humana.
Bajo esta premisa, el presente trabajo explora cómo estos repositorios están facilitando la colaboración transnacional, promoviendo la diversidad cultural y lingüística, y abordando los desafíos que surgen en el manejo de datos sensibles y culturalmente significativos. Además, se analiza cómo la globalización y las tecnologías emergentes están redefiniendo las prácticas de la investigación en humanidades, impulsando un diálogo continuo sobre la equidad en el acceso al conocimiento y la preservación del patrimonio cultural en una escala global.
EL FENÓMENO DE LA DATIFICACIÓN HA MOTIVADO LA GENERACIÓN CONSTANTE DE DATOS EN TODOS LOS ÁMBITOS DE LA ACTIVIDAD HUMANA
La datificación en el contexto de las humanidades
La datificación es un fenómeno global con múltiples aristas que ha motivado una serie de reflexiones y consideraciones relacionadas con la generación, uso y explotación de los datos en diversos ámbitos de la actividad humana. En el contexto de las humanidades los datos juegan un papel crucial para explicar los principios generales, leyes y patrones que han dado forma a la cultura y al conocimiento humano hasta nuestros días.
De acuerdo con Mayer, Cukier e Iriarte (2013), el concepto de datificación se refiere a un proceso que permite plasmar fenómenos en un formato cuantificado para que pueda ser tabulado y analizado. Esta visión de los datos y su vinculación con los hechos y acontecimientos de la realidad ha motivado la proliferación de enormes cantidades de datos a nivel global, lo cual también ha sido influenciado por el uso generalizado de dispositivos móviles y tecnologías digitales.
De esta manera, el término big data (datos masivos) se refiere a datos que cumplen con tres características principales: volumen, velocidad y veracidad (Caballero & Martín, 2015). Es decir, que los datos a gran escala poseen un volumen demasiado amplio para ser procesados por una computadora convencional y, aunado a ello, que la velocidad en que son procesados y compartidos es crucial para el descubrimiento de nuevos patrones y conocimientos, a la par que los datos, al ser de diversa naturaleza, pueden ser muy variados en su estructura y tipología.
Los datos masivos suponen una confluencia de tendencias que venían madurando desde la última década: redes sociales, movilidad, aplicaciones, caída del coste de la banda ancha, interconexión de objetos a través de internet (internet de las cosas) y la computación en la nube.
Así, la conversación entre las humanidades y los datos masivos no se reduce a la adopción de algoritmos para estudiar de manera cuantitativa grandes colecciones de textos e imágenes (Rojas Castro, 2017). Esta interacción ha permitido gestar diversos proyectos y desarrollos con enfoques holísticos que han tenido el propósito de analizar los datos desde un punto de vista crítico.
Desde la gestión de datos culturales hasta el análisis de textos históricos, la interacción de las humanidades en el contexto de la datificación ha permitido plantear nuevas ópticas de estudio, definir metodologías y diseñar estrategias para una mayor comprensión del conocimiento humano a partir del procesamiento de grandes cantidades de datos.
Tendencias como el Humanities Digital Work-shop (Taller digital de humanidades, como se traduce al español; algunas de sus comunidades de trabajo pueden conocerse en
https://hdw.wustl.edu/ y
https://digitalhumanities.duke.edu/doing-dh/workshop) han permitido vislumbrar técnicas de procesamiento del lenguaje natural para analizar grandes corpus de textos históricos, técnicas que han sido útiles para identificar patrones, temas y comportamientos que serían difíciles de detectar a simple vista.
En suma, la intersección entre las humanidades y la datificación representa un campo de estudio emergente, donde las herramientas y técnicas de la ciencia de datos y los estudios de la información se aplican a los desafíos y preguntas de las disciplinas humanísticas. Esta unión ofrece nuevas perspectivas y posibilidades para comprender el pasado, el presente y el futuro de los estudios humanísticos.
Tradicionalmente, las humanidades se han centrado en el análisis cualitativo de textos, artefactos y eventos históricos. Sin embargo, el auge de la digitalización y el desarrollo de herramientas computacionales han abierto nuevas posibilidades para el análisis cuantitativo de grandes volúmenes de datos, lo cual despliega todo un abanico de posibilidades en cuanto a la identificación de patrones y comportamientos ocultos en los propios datos.
Los RDAI
La enorme cantidad de datos disponible en la actualidad refleja un flujo constante de manifestaciones y expresiones informativas generadas en diferentes medios y fuentes. Tal como un tsunami inunda las costas con una fuerza inmensa, el tsunami de datos inunda a empresas, organizaciones y sociedades con una avalancha de información que puede ser difícil de manejar y procesar. La amplia diversidad de datos y su utilidad han puesto de manifiesto una serie de principios relacionados con la manera de generarlos, compartirlos y utilizarlos en diversos contextos disciplinarios.
Por ejemplo, los datos abiertos de investigación son conjuntos que reúnen información derivada de investigaciones científicas y académicas, los cuales son caracterizados por su latente reutilización y accesibilidad a través de internet. “Los datos abiertos de investigación sustentan los resultados de la investigación científica y no tienen restricciones en su acceso, lo que permite que cualquier persona pueda acceder a ellos” (Comisión Europea, s. f.).
La búsqueda y acceso a los datos abiertos de investigación, se desarrolla de manera sistematizada. En este contexto, los RDAI son plataformas que permiten almacenar, organizar, buscar, recuperar, acceder y compartir datos de una determinada investigación de manera abierta, es decir, sin restricciones económicas, legales ni técnicas.
Los RDAI pueden ser de muy variada temática, puesto que la investigación que se desarrolla en la actualidad tiene un fuerte carácter multi, trans e interdisciplinario. En internet pueden observarse repositorios que han sido construidos mediante una visión holística que contempla su uso por diferentes tipos de comunidades.
El Registro de Repositorios de Datos de Investigación (Re3data) destaca como el más completo para la búsqueda e identificación de repositorios de datos. Es una plataforma digital que facilita el intercambio y el acceso y otorga mayor visibilidad a los datos de investigación, fomentando así la colaboración y la innovación dentro de la comunidad científica y humanística (Naheem & Mir, 2024).
La gradual producción y reutilización de datos de investigación en el ámbito de las humanidades ha generado una demanda creciente de servicios de descubrimiento de datos fáciles de utilizar, para la identificación de servicios de depósito y de repositorios de datos de investigación (Buddenbohm y otros, 2021).
De acuerdo con Re3data, actualmente se encuentran dados de alta en este directorio mil doscientos veintinueve repositorios que tratan de manera genérica algún tópico relacionado con las humanidades y las ciencias sociales (ver gráfica 1). De manera específica, en esta fuente pueden consultarse repositorios que ofrecen acceso abierto a datos de investigación de disciplinas como historia, filosofía, teología, lingüística y muchas más.
Gráfica 1. Número de repositorios de datos de investigación por tema
En la gráfica 2, puede apreciarse una jerarquía de temas relacionados con el contexto de las humanidades en el ámbito de Re3data. En esta fuente es posible tener acceso a datos abiertos de investigación relacionados con algún tópico en particular. Re3data registra los atributos de los RDAI para facilitar su búsqueda y recuperación en un contexto integral, donde las comunidades de usuarios pueden conocer los tipos de datos que reúne el repositorio, su licencia y las fechas de su creación.
Gráfica 2. Jerarquía de temas relacionados a las humanidades de los repositorios de datos registrados en Re3data
Los datos de investigación en humanidades son los más diversos de todas las disciplinas científicas porque casi cualquier dato sobre la actividad humana puede considerarse dato de investigación, incluidos datos de periódicos, fotografías, diarios, registros eclesiásticos, expedientes judiciales, etcétera (Poljak Bilic y Posavec, 2024). La amplia diversidad tipológica y temática de los datos de investigación en el contexto de las humanidades ha motivado su análisis, permitiendo así conocer una parte de su comportamiento y, en última instancia, generar nuevos conocimientos, teorías y perspectivas que enriquecen la comprensión del mundo.
Perspectiva internacional de la interacción entre RDAI y las humanidades
Desde un punto de vista holístico, la vinculación entre los RDAI y las humanidades deja entrever la conformación de redes de conocimiento relacionadas con la participación internacional de los diversos actores que conforman el ecosistema de datos de investigación en la actualidad.
Los procesos de digitalización han motivado la conformación de una red global de conocimiento humanístico, conectando investigadores de todo el mundo y permitiendo una visión más amplia de la cultura y la sociedad. En este sentido, investigadores de diferentes partes del mundo pueden colaborar en tiempo real, compartiendo y reutilizando datos culturales, históricos y lingüísticos que enriquecen las perspectivas sobre temas comunes, propiciando el uso de datos en comunidades de estudio.
La interacción entre los datos, la tecnología digital y las humanidades ha ocasionado la aparición de categorías como la de humanidades digitales; una nueva área de estudio surgida a partir de la relación entre los humanistas y las herramientas digitales como apoyo para el desarrollo de sus investigaciones (Rahman, Ahmad & Zakaria, 2023).
Bajo esta premisa, proyectos como el de Infraestructura Digital de Investigación para las Artes y las Humanidades (DARIAH por sus siglas en inglés,
https://www.dariah.eu/) en Europa o el HathiTrust (
https://www.hathitrust.org/) en Estados Unidos, muestran cómo los datos de investigación se están utilizando para crear grandes repositorios de datos accesibles internacionalmente, promoviendo un diálogo transnacional en el campo de las humanidades.
Ejemplos más concretos, como CORA (
https://dataverse.csuc.cat/) y e-CienciaDatos (
https://edatos.consorciomadrono.es/) de la región española y catalana, dejan apreciar la amplia riqueza multi, trans e interdisciplinaria de la generación de datos de investigación. Por ejemplo, en CORA es posible acceder a ciento ochenta y siete conjuntos de datos relacionados con las artes y las humanidades, de los que el dieciséis por ciento han sido compartidos con otra fuente digital en el ciberespacio. Por su parte, e-CienciaDatos contiene actualmente cuatrocientos cincuenta y ocho conjuntos de datos relacionados con las artes y humanidades, treinta por ciento de los cuales se han compartido con otra fuente o servicio de datos disponible en el entorno digital. De esta manera, su reutilización en el contexto de las humanidades puede ser un punto de partida para comprender la generación de nuevos proyectos relacionados con el uso y manejo de este tipo de información.
Cabe destacar que la reutilización de datos de investigación se refiere al uso de conjuntos de datos previamente recopilados para realizar nuevos análisis, responder a preguntas de investigación adicionales o validar resultados previos. Estos datos pueden haber sido generados por otros investigadores o por el mismo equipo de investigación en un proyecto anterior.
En el contexto de las humanidades, es fundamental entender y promover la reutilización de datos, ya que contribuye al avance del conocimiento y al uso eficiente de los recursos disponibles para la investigación académica de índole humanística. Para facilitar la colaboración y el intercambio de información, han surgido iniciativas que tienen el propósito de estandarizar los formatos de datos y las metodologías de su recopilación, como los principios FAIR [por sus siglas en inglés, iniciales de las palabras que en español son: encontrable, accessible, interoperable y reutilizable. El acrónimo es homónimo a la palabra inglesa fair, que significa justo o equitativo] los cuales permiten que los datos sean más fáciles de compartir y reutilizar a nivel internacional, estableciendo vinculaciones que permitan identificar su origen y sus conexiones con otras fuentes.
Por otra parte, la estandarización de los datos en el ámbito de las humanidades presenta desafíos en cuanto a la representación de la diversidad cultural y lingüística. Es crucial reconocer y respetar las particularidades de cada cultura y lengua para evitar la homogeneización de los datos y la pérdida de contextos únicos, pues la correcta descripción y representación de est0s se fundamenta en las propiedades de su contexto.
Además, las políticas nacionales e internacionales sobre acceso a los datos juegan un papel central en su consulta y reutilización. En algunos países estos están más disponibles debido a políticas de ciencia abierta que han sido implementadas a nivel gubernamental, mientras que en otros las restricciones pueden limitar la colaboración internacional al momento de establecer limitantes económicas, técnicas y legales a los datos de investigación.
Bajo esta premisa, es necesario considerar que la disponibilidad de recursos financieros para la digitalización y preservación de datos en el contexto de las humanidades varía considerablemente entre países, lo que puede generar disparidades en la calidad y cantidad de datos disponibles para la investigación internacional.
En este sentido, la recopilación y el uso de datos en las humanidades también plantea cuestiones éticas que ameritan una discusión fundamentada, especialmente cuando se trabaja con comunidades vulnerables o datos culturalmente sensibles, por ejemplo, aquellos que puedan desprenderse de algún estudio comunitario étnico en donde las personas son los actores principales para la obtención de los datos.
Es así como la perspectiva internacional acerca del manejo de los datos deja entrever una preocupación relacionada con el respeto a los derechos humanos y a la propiedad intelectual, y con el consentimiento informado, en donde los generadores y gestores de datos son entes principales del ecosistema de datos que se manifiesta en la actualidad.
La cuestión de quién posee y quien controla los datos es crucial, especialmente en proyectos internacionales de investigación de frontera, en donde los datos pueden ser visibilizados de manera global mediante el uso de tecnologías digitales, lo que ha generado una serie de debates sobre la soberanía de los datos y la equidad en su uso y acceso por parte de la sociedad.
Con la erupción de tecnologías como la inteligencia artificial y el aprendizaje automático, las humanidades han comenzado a explorar nuevas formas de interactuar con los datos. A nivel internacional estas tecnologías pueden facilitar el análisis a gran escala de datos y cruzar fronteras lingüísticas y culturales, abriendo nuevas oportunidades para la investigación inter, multi y transdisciplinaria basada en datos.
Las humanidades tienen un papel insoslayable al abordar desafíos globales como el cambio climático, la migración y la inequidad social, donde los datos de investigación pueden ser utilizados para generar una comprensión más profunda de las problemáticas que se manifiestan y fomentar soluciones colaborativas en cuanto al entendimiento de fenómenos globales con una visión humanística y apoyada en el uso de las tecnologías emergentes.
Consideraciones finales
La datificación ha transformado radicalmente la comprensión del mundo, incluidas las humanidades. Tradicionalmente las humanidades se centraban en el estudio de la cultura, el pensamiento y la creatividad humana desde perspectivas cualitativas. En la actualidad las herramientas digitales y la analítica de datos ofrecen nuevas formas de explorar estos campos a partir de una visión holística.
En este contexto, la datificación ha permitido que los estudios humanísticos se amplíen hacia áreas antes inexploradas o difíciles de analizar mediante metodologías cuantitativas. Ahora, fenómenos culturales, literarios y artísticos pueden analizarse mediante la exploración de grandes volúmenes de datos, lo que abre la puerta a nuevos enfoques de investigaciones y descubrimientos.
La creciente internacionalización de la investigación en humanidades impulsada por la datificación ha transformado las dinámicas del conocimiento en formas que eran impensables hasta hace unas décadas. En un mundo cada vez más interconectado, el uso de datos de investigación en las humanidades no sólo se ha expandido geográficamente sino que ha permitido un diálogo profundo y diverso entre diferentes culturas, tradiciones y lenguas.
La perspectiva internacional del uso de datos en el ámbito de las humanidades ofrece oportunidades para enriquecer la comprensión global de la cultura, la filosofía, la historia, el pensamiento humano y todos aquellos conocimientos disciplinarios del enfoque humanista. La clave para maximizar estos beneficios radica en fomentar la colaboración equitativa, la diversidad metodológica y la sensibilidad cultural en el desarrollo de futuros proyectos de investigación.
Algunas herramientas para investigadores en humanidades digitales
UNAM Internacional
El proceso de innovación en tecnologías digitales es vertiginoso. Se podría decir que aparecen nuevas herramientas cada día. Muchas de ellas son de acceso libre o abierto y representan oportunidades importantes para ampliar la investigación tradicional (no sólo en humanidades) mediante el acceso a las crecientes bases masivas de datos (big data). La inteligencia artificial generativa es sólo uno de muchísimos ejemplos.
Pero no siempre fue así: los Países Bajos enfrentaron en su momento problemáticas que, excepto en algunas ciudades del norte global y muy pocas del sur global, siguen afectando nuestra vida cotidiana, nuestro ser ciudadano: congestión y tráfico, contaminación, desigualdad, muerte (por accidentes) y pérdida de espacios públicos.
La Universidad de Duke en los Estados Unidos mantiene un intenso programa en humanidades digitales y en su página de herramientas (https://digitalhumanities.duke.edu/doing-dh/dh-tools) reseña las siguientes:
Agisoft Photoscan: software para producir modelos altitudinales bidimensionales y reconstrucciones tridimensionales a partir muchas imágenes digitales. Licencia privativa, https://www.agisoft.com/
ArcGIS: para la producción y gestión de sistemas de información geográfica (SIG). Versiones de escritorio y en línea. Licencia privativa, https://desktop.arcgis.com/es/desktop/index.html
CARTO: plataforma con herramientas SIG y de mapeo. Código abierto, https://carto.com/
DH Press: es una caja de herramientas acoplable como plugin a WordPress para el acceso a humanidades digitales públicas. Código abierto, https://dh.sites.gettysburg.edu/toolkit/
DRUPAL: versátil sistema de gestión de contenidos. Código abierto, https://drupal.org/
Gephi: software de análisis de redes y producción de visualizaciones de datos. Una de sus aplicaciones logró visualizar la conectividad global del New York Times. Software libre, https://gephi.org/
Mapbox: plataforma de gestión geográfica apoyada por inteligencia artificial centrada en localización. De suscripción (prueba gratuita), https://www.mapbox.com/
Neatline: herramienta para contar historias con mapas. Software libre, https://www.neatline.org/
Omeka: es la casa matriz de Neatline; una plataforma libre y flexible para publicación y display digital y la curaduría de colecciones visuales y muestras. Ideal para proyectos de cultura material. Software libre, https://omeka.org/
Scalar: plataforma de publicación digital diseñada para proyectos de largo aliento. Permite organizar contenido procedente de múltiples medios. Código abierto, https://scalar.me/anvc/scalar/
SketchUp: programa de diseño visual para modelado tridimensional. Software libre (versiones con licencia privativa), http://www.sketchup.com/es
Social Feed Manager: esta herramienta cosecha tuits (publicaciones en la red social X), los organiza y sistematiza temáticamente o según otros criterios, como ayuda en procesos de investigación. Software libre, https://social-feed-manager.readthedocs.io/en/m5_004/index.html#
Eder Ávila Barrientos es doctor en Bibliotecología y Estudios de la Información por la UNAM. Es investigador asociado de tiempo completo en el Instituto de Investigaciones Bibliotecológicas y de la Información, tutor en la licenciatura en Bibliotecología y Estudios de la Información, y profesor en el posgrado en Bibliotecología y Estudios de la Información.
Referencias
Buddenbohm, Stefan; De Jong, Maaike; Minel, Jean-Luc, & Moranville, Yoann. (2021). “Find Research Data Repositories for the Humanities - the Data Deposit Recommendation Service”.
International Journal of Digital Humanities, 1(3).
https://doi.org/10.1007/s42803-021-00030-7
Caballero, Rafael, & Martín, Enrique. (2022).
Las bases de big data y de la inteligencia artificial. Madrid: Catarata.
Comisión Europea (s. f.). “Facts and Figures for Open Research Data”.
https://research-and-innovation.ec.europa.eu/strategy/strategy-2020-2024/our-digital-future/open-science/open-science-monitor/facts-and-figures-open-research-data_en
Mayer-Schonberger, Viktor; Cukier, Kenneth; Iriarte, Antonio. (2013).
Big data: la revolución de los datos masivos. Madrid: Turner.
Naheem, K. T. y Mir, Aasif Ahmad. (2024). “Analyzing research data repositories (RDR) from BRICS nations: a comprehensive study”.
Library Management, 45(6/7).
https://bmi.arizona.edu/sites/bmi.arizona.edu/files/BMI-The-Funnel-Effect-2006.pdf
Poljak Bilic, Ljiljana & Posavec, Kristina. (2024). “FAIRness of Research Data in the European Humanities Landscape”.
MDPI Journal, 12 (1), 2024.
https://www.mdpi.com/2304-6775/12/1/6
Rahman, Md. Habibur; Ahmad, Azree, & Zakaria, Sohaimi. (2023). “Digital humanities practice in university libraries of Bangladesh”.
Digital Library Perspectives, 39(3).
https://doi.org/10.1108/DLP-11-2022-0085.
Rojas Castro, Antonio. (2017). “Big Data en las humanidades digitales: nuevas conversaciones en el contexto académico global”. Acción Cultural Española, Anuario AC/E 2017 de cultura digital. Cultura inteligente:
Análisis de tendencias digitales. España.
https://www.accioncultural.es/media/Default%20Files/activ/2017/ebook/anuario/4BigDataHumamidades_AntonioRojas.pdf