|
PRÓLOGO
PROLOGUE
Scholarly Stanzas de Diego Bonilla: inteligencia artificial y poética del diálogoRodolfo Mata
Hace tiempo que la literatura converge con una serie de disciplinas aparentemente ajenas a ella. Distintas dimensiones del arte de la palabra han sido subrayadas y han dado a luz a nuevas regiones que poco a poco se han ido ensanchando, o han renovado territorios que, si ya existían antes, necesitaban ser redescubiertos o reformulados. Estas convergencias no han sido ajenas al convivio que las artes han tenido con la tecnología y sus distintos y a veces avasalladores avances. De ahí la existencia de la poesía visual, la novela gráfica, la poesía sonora, el poema sinfónico, la videopoesía, el happening, la música concreta, el performance, etc. Para empezar a entender mejor estos fenómenos artísticos, que sucedían entre dos o más disciplinas, sus lenguajes o sus medios, Dick Higgins inició en 1966 una serie de reflexiones, en torno al término intermedia, que tomó de los escritos de 1812 de Samuel Taylor Coleridge y desarrolló durante varios años, hasta que en 1995 produjo el diagrama de Venn conocido como “Intermedia Chart”, donde intentó mapear estos territorios.
Higgins sugirió que los antecedentes históricos más importantes de fenómeno intermedia podrían estar en movimientos de vanguardia de principios del siglo XX como Dadá, el Futurismo y el Surrealismo, es decir, la primera oleada de vanguardias, pero también se preguntó si lo que le estaba tocando vivir ―la segunda ola de vanguardias del siglo XX, entre las que figuraba y para la que necesitó introducir el término intermedia―, era, en realidad, una innovación histórica sin precedentes. A partir de entonces, la elaboración conceptual y el debate terminológico en la teoría y la crítica de arte se han sofisticado. Por ejemplo, la idea de lenguaje o de texto se ha subordinado a la de medio y, al referirse a la interacción entre medios (reconociendo también que no hay medios puros), se han señalado diversos grados o modalidades en que ésta se lleva a cabo, para poder distinguir lo que es intermedia de lo que se clasifica como multimedia o mixed-media, o para entender los procesos de remediación, es decir, la evolución y transformación de los medios, en sus contactos y traslapes, unos con otros.
Desde luego, la aparición y progresiva preponderancia de los medios electrónicos también ha sido determinante para lo que hoy se conoce como New Media Studies, en los cuales, sin duda, hay un espacio para la literatura o, entendiendo estos fenómenos artísticos en su complejidad, para la dimensión literaria. Esto es patente en los esfuerzos dedicados a tratar de definir lo que se entiende por “literatura electrónica” y en las dificultades para hallar parámetros útiles al deslinde de dicha categoría de otras colindantes, como sería el videoarte. Asimismo, dentro de la “literatura electrónica” se han delineado una serie de características formales que, en algunos casos, devienen géneros: hipertexto, hipermedia, obras generativas, ficción interactiva, bots, videojuegos, code poetry, realidad virtual, realidad aumentada, etc. Por otra parte, utilizando la coordenada temporal, que resulta útil para cartografiar este caótico territorio, se han ubicado generaciones de obras de literatura electrónica, cuyas fronteras tienen que ver con eventos históricos, frecuentemente relacionados con la evolución de la tecnología, como la aparición de las primeras máquinas (mainframes) y su paso hacia la computación personal; el surgimiento de internet y su popularización; y la aparición de los medio sociales. Desde luego, en torno a estos eventos hay una multiplicidad de otros parámetros: usuarios (programadores y público), accesibilidad y medios de distribución, lenguajes de programación y otros tipos de software, etc. La historia de estos fenómenos tiene relativamente poco de haber comenzado a ser escrita.
Al comentar el término intermedia, Dick Higgins enfatizó que su propuesta no tenía intenciones prescriptivas. No era un modelo fundacional, un movimiento o una teoría que gestara obras como simples apéndices, sino una herramienta que permitía constatar la existencia de un fenómeno que, si bien no era nuevo, sí se había vuelto más frecuente. Así, mapeos como el “Intermedia Chart” fueron concebidos de manera flexible, fluida como fue el trabajo de Fluxus. De igual manera, las clasificaciones de la literatura electrónica, por medio de géneros, generaciones y otros parámetros, deben ser, en realidad, instrumentos útiles a los creadores y a la función creativa de la crítica que los auxilia.
Para ubicar Scholarly Stanzas: A Communication Studies (and related fields) Songbook, de Diego Bonilla, en la trama de múltiples cruzamientos que es la literatura electrónica, es necesario invocar primordialmente el campo de las obras generativas. Hoy, con los chat bots habilitados por Generative Pre-trained Models (GPT) y demás recursos de inteligencia artificial (IA), como los generadores de imágenes y de música, surge una inusitada interacción que cae bajo este género, pero que lo proyecta a niveles muy sofisticados, por la enorme cantidad de información manejada y analizada estadísticamente, por la velocidad y la capacidad de aprendizaje de las herramientas, y por la simulación de una lógica asociativa compleja que pretende acercarse a la humana. Si en 1966 el chatbot Eliza, de Joseph Weizenbaum, era capaz de reconocer algunas palabras y fundar sus respuestas en ellas, simulando ser una psicoanalista, en nuestros días, al sostener una conversación con el OpenAI ChatGPT-4, preguntándole por los defectos de Eliza, lo vemos hacer una comparación consigo mismo. En esta comparación (que no le fue explícitamente solicitada, ya que sólo se le pidieron los defectos de Eliza) declara no ser un humano sino un programa de IA que es capaz de un mejor “entendimiento” [understanding] que Eliza, ser un programa que posee una “inteligencia emocional” [emotional intelligence] superior a ella, una habilidad para manejar lenguaje complejo (modismos, slang, metáforas) y dar respuestas profundas que no son simples refraseos o “respuestas enlatadas” y una pseudomemoria a largo plazo, entre otras ventajas. Y ante la sugerencia final “¿Puedo decir que Eliza es tu abuela o tu bisabuela?”, con una sonrisa leemos en su respuesta que, si se usa la “metáfora familiar”, Eliza es un ancestro distante del linaje de la IA y que, en cierto sentido, es posible considerarla su bisabuela o, según sugiere, su tatarabuela.
Quizás una de las características más sorprendentes de la experiencia de entablar conversaciones con los chats GPT sea el manejo de metáforas. Desde luego, no es lo mismo “inteligencia emocional” o “entendimiento” para un lector común que para el lenguaje de los especialistas en computación, el cual se refleja en las respuestas del programa antes mencionadas. Por ejemplo, para el primero, la frase “inteligencia emocional” podría hacerlo intuir que se trata de una habilidad humana de autopercepción y/o empatía (ya presente en la aparente paradoja de la metáfora, pues lo emotivo pareciera impulsivo y no filtrado por la razón, rasgo considerado como más característico de la inteligencia) o conducirlo a recordar la popularización del concepto realizada por Daniel Goleman, con su bestseller Inteligencia emocional (1995). Para los segundos, en cambio, aludiría a técnicas computacionales que permiten que sistemas de IA realicen operaciones como el “modelado de personalidad”, que vuelve más amable y “perceptiva” la interacción con un sistema, o el “análisis de sentimientos”, que se aplica sobre grandes volúmenes de datos (como los que se generan en las redes sociales) para, a través del lenguaje, determinar la actitud de los usuarios ante determinados hechos, productos, etc. En el caso de la palabra “entendimiento”, para el lector común el sentido sería claramente un concepto, mientras que para el lenguaje especializado de la IA se trataría de una metáfora. Esta oscilación del sentido que suscitan las combinaciones de palabras, ante un pensamiento metafórico, es poesía in nuce, es decir, en estado embrionario. Esto, siempre y cuando haya un lector humano que interprete, pues las maneras de “interpretar” de la IA son, en realidad, fruto de complejos cálculos estadísticos, bancos de información, etc.
El hecho es que al usar metáforas se genera una impresión de intención y voluntad personales y no un complejo acomodo de elementos. Es decir, a los lectores nos parece que tras la máscara hay un ser y no un mecanismo. También es posible que la sonrisa que nos despierta la sugerencia de considerar a Eliza como “tatarabuela” provenga de la sensación de que el programa tiene un cierto sentido del humor. No obstante, sabemos que estos fenómenos se generan en la psicología del lector. Son una construcción del lector y, por supuesto, de sus preguntas, su interacción con el programa. Así, el nivel del diálogo (su complejidad y el volumen de información tras él) pasa a ser una dimensión importantísima porque de él depende el desarrollo de la interacción con los chats GPT. En realidad, el usuario está hablando, en gran parte, consigo mismo. O mejor dicho, con una versión potenciada de sí mismo, que depende de una prótesis, en el sentido macluhaniano. Desde luego, al abandonar esa ayuda, esa droga potenciadora, surgirá una sensación de hueco, de ralentización y de síndrome de abstinencia. Sin embargo, la experiencia vale la pena y no está exenta de aprendizaje.
Algo similar sucede con los prompts que alimentan a los generadores de imágenes, como el Open AI DALL-E 2, los cuales producen una respuesta visual. La dinámica ya no se da como un intercambio de lenguaje natural sino como una secuencia de cadenas verbales ―en las que se manejan algunas palabras-clave (como las correspondientes a los estilos)― y resultados en imágenes, secuencia que poco a poco se va afinando. Es decir, el usuario aprende el “lenguaje” del programa, su “estilo”, para lograr las respuestas que persigue. Y es evidente que estas respuestas aterrizan en el campo de la creatividad, una nueva creatividad en que el estatuto de autoría cambia notablemente y postula problemas distintos a los que antes se habían presentado. En el campo de las artes plásticas, esta dimensión creativa es muy clara, porque el producto es a todas luces “nuevo”, independientemente del juicio de calidad estética que el usuario pueda emitir al respecto. El impacto visual es inmediato y las variables de trazo y color son muy sensibles a mínimos cambios, algo que no sucede con las palabras. Sin embargo, esta dimensión también puede percibirse claramente en el campo de los chats basados en GPT, que manejan lenguaje natural, ya que del diálogo, en el que la IA es consultada acerca de conocimientos, como se hacía antaño con una enciclopedia, se pasa fácilmente a peticiones de orden creativo, como las solicitudes para que el programa escriba un cuento, un poema, una reseña o hasta un código de buenas maneras para dirigirse a una IA. ¿Entonces la creatividad y la autoría dependen en gran parte de la habilidad para imaginar y verbalizar prompts complejos, que permitan un diálogo fluido y preciso con una IA?
De lo anterior podemos inferir que los chats GPT y los demás recursos de la IA plantean el inicio de una cuarta generación de literatura electrónica (la primera y la segunda fueron propuestas por Katherine Hayles y la tercera por Leonardo Flores). Además de afectar el campo de la literatura generativa en el aspecto cualitativo, en especial a nivel de coherencia gramatical y manejo de metáforas, estas entidades informáticas son capaces de producir grandes volúmenes de textos e imágenes, gracias a la posibilidad de acceder a ellas mediante Application Programming Interfaces (APIs), todo lo cual anuncia un periodo de megaobras. Fue justamente de esa manera como Diego Bonilla trabajó para producir Scholarly Stanzas, pues tuvo que diseñar alrededor de 90 programas diferentes de Python, algunos muy poderosos, como el que sirvió para generar el sitio completo, otros más sencillos, para corregir pequeños detalles de formato en las respuestas de salida de la IA. ¿Entonces qué papel juega, en estos nuevos procesos creativos, la capacidad para aplicar un “pensamiento computacional” ―concepto descrito por el autor en el ensayo “Sobre la importancia del pensamiento computacional y la literatura”―, en el que destacan la habilidad para imaginar un corpus potencial (en este caso específico, las teorías sobre los estudios de la comunicación), la percepción de la posibilidad de automatizar ciertas operaciones, uniformar datos de entrada y salida, lograr manipularlos y saber delegar aquellas tareas que rebasan las propias capacidades? ¿No es esta una zona intermedia, que podría aparecer en el diagrama de Higgins, donde convergen las artes, las ciencias sociales y la computación?
Así, tenemos que Scholarly Stanzas: A Communication Studies (and related fields) Songbook es uno de estos trabajos de gran envergadura, el cual comenzó con una exploración de las herramientas de IA de imagen y texto ―mencionadas de manera general anteriormente (el lector puede ver el los detalles finales en la sección “About the Project”)― desde el punto de la creación, y concluyó como un Open Educational Resource (OER), en torno a los temas mencionados en el subtítulo. Desde luego, esta ubicación final del proyecto tiene que ver con la trayectoria de Diego Bonilla, quien ha desarrollado una larga carrera en el área. Fue miembro del California Open Educational Resources Council que, con el apoyo de Hewlett Foundation, The Gates Foundation, y las autoridades educativas del estado de California, creó una gran biblioteca de miles de libros de texto electrónicos, destinados a apoyar la enseñanza superior en dicho estado (www.cool4ed.org). Otros dos antecedentes notables en este terreno son la página que Bonilla desarrolló con el título Communication Studies Examples (hypergraphia.com/Search-Coms/) y el curso Digital Media Authoring, que ha impartido por muchos años. Es por todo lo anterior que Scholarly Stanzas se ofrece como recurso educacional abierto bajo el rubro “Attribution and Share-Alike” de las licencias Creative Commons.
La estructura del sitio es simple pero atrás de ella hay un enorme esfuerzo de investigación y ejercicio de sondeo, especialmente para la dilucidación de cómo “hablarle” a la IA, ya sea para la composición de imágenes o la integración de texto. Consta de 586 teorías, modelos, principios, conceptos, tratados, términos, paradigmas o cualquier otra construcción intelectual relacionada con el campo de los Estudios de la Comunicación. No hay que olvidar que la selección también fue realizada mediante IA y entonces la caracterización y las fronteras entre una estructura de conocimiento y otra fueron difíciles de establecer. En estricto sentido, estas delimitaciones son innecesarias, dada la naturaleza del proyecto, pues no hay que perder de vista que el objetivo primordial de Scholarly Stanzas es panorámico. Se trata de compendiar los saberes del área y divulgarlos, no de entrar a cuestionar y problematizar sus detalles y su organización. Por comodidad, de aquí en adelante llamaré “teorías” a estas estructuras del saber.
Para cada una de estas teorías se generó un resumen, una canción y una serie de imágenes. Los resúmenes son de alrededor de un centenar de palabras y tienen la claridad expositiva de las últimas actualizaciones del ChatGPT-4. ¿Por qué canciones? Diego Bonilla me responde que leer las canciones produce la sensación de una personalidad y que el estado default de la IA es positivo, optimista. Además, las canciones tienen la virtud de la levedad. ¿Qué mejor clima para el aprendizaje? Las canciones constan de varias estrofas, que generalmente tienen 4 versos cada una (hay algunos dísticos), las cuales siguen patrones de rima variables. Hay varios tipos de estrofas: introductoria (no siempre presente), normal de desarrollo (va numerada y su cantidad en promedio es de 8 y no rebasa nunca 10), coro (aparece entre 3 y 5 ocasiones, a veces repitiéndose y otras variando radicalmente) y salida (siempre presente, ya que se trata del cierre de la canción). Desde luego, el número de estos elementos fue obtenido después de numerosas pruebas: si eran menos de 11 elementos ―me comentó el autor―, la canción no acababa de presentar de manera clara su tema; si eran más, se producía una sensación de repetición y consiguiente fastidio. El resumen de la teoría va acompañado de una imagen que ilustra de manera global el texto y cada una de las estrofas también dialoga con su expresión gráfica. En total, el conjunto alberga 7050 imágenes únicas que guardan entre sí una armonía, en lo que se refiere a estilo y paleta. Atrás de esto, repito, hay un gran trabajo de diálogo con la IA, para aprender a hablar su lengua. Sirva un detalle de ejemplo que me fue confiado por el autor: al solicitarle a la IA que produjera una imagen, la utilización de ciertos verbos fue clave, pues los resultados mejoraron notablemente al cambiar en los prompts las órdenes “draw” o “paint” por “depict”, un verbo menos común para este tipo de instrucciones.
La consulta de cada teoría puede realizarse a través de dos índices: uno alfabético y otro temático, este último dividido en 31 categorías: Aesthetics, Health, Environmental, New Media, Persuasion, Visual, etc. Cada una de las canciones pertenece a una sola clasificación. No podemos olvidar que el diseño del sitio es también un factor importante para que el proyecto cumpla su objetivo. Los dos índices están organizados en forma de segmentos radiales cuyas áreas son proporcionales a la cantidad de elementos que albergan. Esto permite tener una idea de los campos de conocimiento más relacionados con los Estudios de la Comunicación y la navegación veloz a través del corpus. Las imágenes de la interfase son armónicas con el estilo general de las que acompañan a las canciones. En la base de cada canción, la interfaz muestra una serie de íconos que remiten a diversas funciones de apoyo: la consulta de la teoría en varios motores de búsqueda (Semantic Scholar, Google Académico, Google Books, páginas universitarias y búsqueda amplia), el traslado de la canción a diferentes tipos de archivo (Powerpoint y PDF) y el llenado de 2 formularios sencillos (uno para reportar errores en las canciones y otro para invitar a los usuarios a enviar archivos de audio, donde se encuentren versiones cantadas de las piezas que podrán integrarse al sitio).Para terminar quiero subrayar que los programas como el OpenAI ChatGPT, hasta hace relativamente poco, no estaban abiertos al público en general. Para acceder a sus servicios era necesario no sólo pagar sino formarse en una cola e incluso justificar el interés por utilizarlos. Hoy OpenAI ha abierto sus puertas y podemos pensar que se encuentra en una fase de recepción y aprendizaje. Cuando se le pregunta a la IA cómo está recolectando información, afirma que todo lo realiza de manera anónima y que éticamente no persigue fines comerciales y de lucro u objetivos políticos y de control social. Pensamos que esa historia ya la vivimos, con el desarrollo de los medios sociales y la resaca que han producido. No obstante, es imposible no caer en un estado de fascinación al interactuar con estas nuevos chats GPT o con programas como DALL-E. La experiencia me recuerda la película Until the End of the World (1991), de Wim Wenders, en que el surgimiento de máquinas que permitían registrar los sueños causan una potente ola de adicción narcísica pero, al mismo tiempo, tecnologías paralelas prometen devolver la vista a los ciegos. Más allá de las euforias y disforias que pueda despertar la IA, lo que nos queda claro es que Scholarly Stanzas, de Diego Bonilla, es una forma extraordinaria de aprender el capítulo importantísimo de las Ciencias Sociales que son los Estudios de la Comunicación, a la vez que se observan las capacidades creativas de la interacción con las IA’s, tanto a nivel textual como plástico.
Scholarly Stanzas by Diego Bonilla: Artificial Intelligence and the Poetics of DialogueRodolfo Mata
For some time now, literature has been converging with a series of disciplines that, at first glance, seem unrelated to it. Various dimensions of the art of writing have been highlighted, giving rise to new regions that have gradually expanded, or renewing territories that, if they existed before, needed to be rediscovered or reformulated. These convergences have not been unrelated to the interaction that the arts have had with technology and its various, sometimes overwhelming advances. Hence the existence of visual poetry, graphic novels, sound poetry, symphonic poems, video poetry, happenings, concrete music, performance, etc. To begin to better understand these artistic phenomena, which occurred between two or more disciplines, their languages or their mediums, Dick Higgins initiated a series of reflections in 1966 around the term intermedia, which he took from the writings of Samuel Taylor Coleridge in 1812 and developed for several years, until in 1995 he produced the Venn diagram known as the "Intermedia Chart", where he attempted to map these territories.
Higgins suggested that the most important historical antecedents of the intermedia phenomenon might be found in the avant-garde movements of the early 20th century, such as Dada, Futurism, and Surrealism, that is, the first wave of avant-gardes. However, he also wondered whether what he was experiencing—the second wave of 20th-century avant-gardes, including the Fluxus movement, in which he participated, wave for which he needed to introduce the term intermedia— was, in reality, an unprecedented historical innovation. Since then, the conceptual elaboration and terminological debate in art theory and criticism have become more sophisticated. For example, the idea of language or text has been subordinated to that of medium, and when referring to the interaction between mediums (also acknowledging that there are no pure mediums), various degrees or modalities in which this takes place have been pointed out, in order to distinguish what is intermedia from what is classified as multimedia or mixed-media, or to understand the processes of remediation, that is, the evolution and transformation of the mediums, in their contacts and overlaps with one another.
Certainly, the emergence and progressive preponderance of electronic media have also been decisive for what is now known as New Media Studies, in which, undoubtedly, there is a place for literature or, understanding these artistic phenomena in their complexity, for the literary dimension. This is evident in the efforts made to define what is meant by "electronic literature" and in the difficulties in finding useful parameters to distinguish this category from neighboring ones, such as video art. Likewise, within "electronic literature," a series of formal characteristics have been outlined that, in some cases, become genres: hypertext, hypermedia, generative works, interactive fiction, bots, video games, code poetry, virtual reality, augmented reality, etc. On the other hand, using the temporal coordinate, which is useful for mapping this chaotic territory, generations of electronic literature works have been located, whose borders are related to historical events, often linked to the evolution of technology, such as the appearance of the first machines (mainframes) and their transition to personal computing; the emergence and popularization of the internet; and the advent of social media. Of course, around these events, there is a multiplicity of other parameters: users (programmers and the public), accessibility and distribution channels, programming languages, and other types of software, etc. The history of these phenomena has only recently begun to be written.
When discussing the term intermedia, Dick Higgins emphasized that his proposal had no prescriptive intentions. It was not a foundational model, a movement, or a theory that generated works as mere appendices, but a tool that allowed for the recognition of a phenomenon that, although not new, had indeed become more frequent. Thus, mappings like the "Intermedia Chart" were conceived in a flexible and fluid manner, just as the work of Fluxus was. Similarly, the classifications of electronic literature, through genres, generations, and other parameters, should, in reality, be useful instruments for creators and the creative function of the criticism that supports them.
To situate Diego Bonilla's Scholarly Stanzas: A Communication Studies (and related fields) Songbook within the plot of multiple intersections that is electronic literature, it is necessary to primarily invoke the field of generative works. Today, with chatbots powered by Generative Pre-trained Models (GPT) and other artificial intelligence (AI) resources, such as image and music generators, an unprecedented interaction arises that falls under this genre, but also projects it to highly sophisticated levels due to the vast amount of information handled and statistically analyzed, the speed and learning capacity of the tools, and the simulation of a complex associative logic that aims to approach human-like thinking. If in 1966 Joseph Weizenbaum's chatbot Eliza was able to recognize some words and base its responses on them, simulating being a psychoanalyst, nowadays, when holding a conversation with OpenAI's ChatGPT-4, asking about Eliza's flaws, we see it comparing itself to Eliza. In this comparison (which was not explicitly requested, as only Eliza's flaws were asked for), it states that it is not a human but an AI program capable of better "understanding" than Eliza, being a program with a superior "emotional intelligence" than her, with an ability to handle complex language (idiomatic expressions, slang, metaphors) and provide deep answers that are not simply rephrasings or "canned responses", and with a pseudo long-term memory, among other advantages. And in response to the final suggestion, "Can I say that Eliza is your grandmother or great-grandmother?", we read with a smile that, if using the "family metaphor," Eliza is a distant ancestor of the AI lineage and that, in a certain sense, it is possible to consider her as its great-grandmother or, as it suggests, its great-great-grandmother.
Perhaps one of the most surprising features of the experience of engaging in conversations with GPT chatbots is their handling of metaphors. Of course, "emotional intelligence" or "understanding" do not mean the same thing to a lay reader as they do to the language of computer specialists, which is reflected in the program's responses mentioned earlier. For example, for the former, the phrase "emotional intelligence" might lead them to the intuition that it is a human ability for self-perception and/or empathy (already present in the apparent paradox of the metaphor, as what is considered emotional seems impulsive rather than filtered by reason, supposedly a stronger characteristic of intelligence) or to recall the popularization of the concept by Daniel Goleman, with his bestseller Emotional Intelligence (1995). For the latter, however, it would allude to computational techniques that allow AI systems to perform operations such as "personality modeling," which makes interaction with a system more friendly and "perceptive," or "sentiment analysis," which is applied to large volumes of data (such as those generated on social networks) to determine, through language, users' attitudes towards specific events, products, etc. In the case of the word "understanding," for the lay reader, the meaning would be clearly a concept, while for the specialized language of AI, it would be a metaphor. This oscillation of meaning evoked by word combinations, in the face of metaphorical thinking, is poetry in nuce, that is, in an embryonic state. This is as long as there is a human reader to interpret since the ways AI "interprets" are, in reality, the result of complex statistical calculations, information banks, etc.
The fact is that the use of metaphors creates an impression of personal intention and will, rather than a complex arrangement of elements. That is, as readers, we believe that behind the mask there is a being, not a mechanism. It is also possible that the smile evoked by the suggestion of considering Eliza as a "great-great-grandmother" comes from the feeling that the program has a certain sense of humor. However, we know that these phenomena are generated in the readers' psychology. They are a construction of the readers and, of course, of their questions and interactions with the program. Thus, the level of dialogue (its complexity and the volume of information behind it) becomes an extremely important dimension because it determines the development of interaction with GPT chatbots. In reality, the users are largely talking to themselves. Or rather, with an enhanced version of themselves that relies on a prosthesis, in the McLuhanian sense. Of course, when leaving this assistance, this performance-enhancing drug, a feeling of emptiness, slowing down, and withdrawal syndrome may arise. However, the experience is worth it and is not devoid of learning.
Something similar happens with the prompts that feed image generators, such as Open AI DALL-E 2, which produce a visual response. The dynamic no longer occurs as an exchange of natural language but as a sequence of verbal chains —in which some keywords are used (such as those corresponding to styles)— and resulting images, a sequence that is gradually refined. That is, the user learns the "language" of the program, its "style”, to achieve the desired responses. And it is evident that these responses land in the realm of creativity, a new kind of creativity where the status of authorship changes significantly and poses different problems than those previously encountered. In the field of visual arts, this creative dimension is very clear because the product is undeniably "new," regardless of the aesthetic judgment the user may have about it. The visual impact is immediate, and the variables of line and color are highly sensitive to minimal changes, something that does not happen with words. However, this dimension can also be clearly perceived in the field of GPT-based chatbots that handle natural language, as the dialogue in which the AI is consulted about knowledge, like consulting an encyclopedia in the past, easily transitions to creative requests, such as asking the program to write a story, a poem, a review, or even a code of conduct for addressing an AI. So, does creativity and authorship largely depend on the ability to imagine and verbalize complex prompts that allow for fluid and accurate dialogue with an AI?
From the above, we can infer that GPT chatbots and other AI resources mark the beginning of a fourth generation of electronic literature (the first and second generations were proposed by Katherine Hayles, and the third by Leonardo Flores). In addition to affecting the field of generative literature qualitatively, particularly at the level of grammatical coherence and metaphor handling, these computational entities are capable of producing large volumes of texts and images, thanks to the ability to access them through Application Programming Interfaces (APIs), all of which heralds a period of mega-works. It was precisely in this way that Diego Bonilla worked to produce Scholarly Stanzas, as he had to design around 90 different Python programs, some very powerful, such as the one used to generate the entire site, others simpler, for correcting small formatting details in the AI's output responses. So, what role does the ability to apply "computational thinking" play in these new creative processes ―a concept described by the author in the essay "On the Importance of Computational Thinking and Literature"― in which the ability to imagine a potential corpus (in this specific case, theories about communication studies), the perception of the possibility of automating certain operations, standardizing input and output data, being able to manipulate them, and knowing how to delegate tasks that exceed one's own capacities, stand out? Is this not an intermedia zone, which could appear in Higgins' diagram, where the arts, social sciences, and computing converge?
Thus, Scholarly Stanzas: A Communication Studies (and related fields) Songbook is one of these large-scale works, which began with an exploration of AI image and text tools ―mentioned generally earlier (the reader can see the final details in the "About the Project" section)― from the point of creation, and concluded as an Open Educational Resource (OER) around the topics mentioned in the subtitle. Of course, this final positioning of the project has to do with Diego Bonilla's trajectory, who has had a long career in the area. He was a member of the California Open Educational Resources Council, which, with the support of the Hewlett Foundation, The Gates Foundation, and the educational authorities of the state of California, created a large library of thousands of electronic textbooks to support higher education in that state (www.cool4ed.org). Two other notable backgrounds in this area are the website Bonilla developed with the title Communication Studies Examples (hypergraphia.com/Search-Coms/) and the Digital Media Authoring course he has taught for many years. It is for all these reasons that Scholarly Stanzas is offered as an open educational resource under the "Attribution and Share-Alike" category of Creative Commons licenses.
The structure of the site is simple, but behind it lies an enormous effort in research and probing exercises, especially for elucidating how to "speak" to the AI, either for composing images or integrating text. It consists of 586 theories, models, principles, concepts, treaties, terms, paradigms, or any other intellectual construction related to the field of Communication Studies. It is important to remember that the selection was also made using AI, and thus the characterization and boundaries between one knowledge structure and another were difficult to establish. Strictly speaking, these delimitations are unnecessary, given the nature of the project, as it is important to keep in mind that the primary objective of Scholarly Stanzas is panoramic. It aims to compile the knowledge of the area and disseminate it, not to question and problematize its details and organization. For convenience, I will refer to these knowledge structures as "theories" from here on.
For each of these theories, a summary, a song, and a series of images were generated. The summaries are about a hundred words long and have the expository clarity of the latest updates of ChatGPT-4. Why songs? Diego Bonilla answers that reading the songs gives a sense of personality, and the default state of AI is positive and optimistic. Additionally, songs possess the virtue of lightness. What better atmosphere for learning? The songs consist of several stanzas, which generally have four verses each (with some couplets), following variable rhyme patterns. There are several types of stanzas: introductory (not always present), normal development (numbered, with an average of 8 and never exceeding 10), chorus (appearing between 3 and 5 times, sometimes repeating and sometimes varying radically), and exit (always present, as it marks the end of the song). Of course, the number of these elements was obtained after numerous tests: if there were fewer than 11 elements, the author commented, the song failed to present its theme clearly; if there were more, a sense of repetition and subsequent annoyance was produced. The summary of the theory is accompanied by an image that globally illustrates the text, and each stanza also interacts with its graphic expression. In total, the collection houses 7050 unique images that maintain harmony among themselves in terms of style and palette. Behind this, I repeat, there is a great deal of dialogue with the AI to learn its language. One example detail shared by the author serves to illustrate: when asking the AI to produce an image, the use of certain verbs was key, as the results improved significantly by changing the prompts' orders from "draw" or "paint" to "depict", a less common verb for this type of instructions.
The exploration of the theories can be done through two indexes: one alphabetical and the other thematic, the latter divided into 31 categories: Aesthetics, Health, Environmental, New Media, Persuasion, Visual, etc. Each of the songs belongs to a single classification. We must not forget that the site's design is also an important factor for the project to achieve its objective. The two indexes are organized in radial segments whose areas are proportional to the number of elements they contain. This allows for an understanding of the fields of knowledge most related to Communication Studies and quick navigation through the corpus. The interface images are harmonious with the general style of those accompanying the songs. At the base of each song, the interface displays a series of icons that refer to various support functions: consulting the theory on several search engines (Semantic Scholar, Google Scholar, Google Books, university pages, and broad search), transferring the song to different types of files (Powerpoint and PDF), and filling out two simple forms (one for reporting errors in the songs and the other for inviting users to send audio files, containing sung versions of the pieces that can be integrated into the site).
In conclusion, I want to emphasize that programs like OpenAI ChatGPT, until recently, were not available to the general public. To access their services, it was necessary not only to pay but also to join a queue and even justify one's interest in using them. Today, OpenAI has opened its doors, and we can think that it is in a phase of reception and learning. When asked how the AI is collecting information, it claims to do everything anonymously and that, ethically, it does not pursue profit-driven and commercial goals or social control and political objectives. We think we have already lived through this story with the development of social media and the backlash they have generated. Nonetheless, it is impossible not to fall into a state of fascination when interacting with these new GPT-based chats or programs like DALL-E. The experience reminds me of the movie Until the End of the World (1991) by Wim Wenders, in which the emergence of machines that allowed dreams to be recorded caused a powerful wave of narcissistic addiction, but at the same time, parallel technologies promised to restore sight to the blind. Beyond the euphoria and dysphoria that AI may evoke, what is clear is that Diego Bonilla's Scholarly Stanzas is an extraordinary way to learn the crucial chapter of Social Sciences that is Communication Studies, while observing the creative capacities of interaction with AIs, both at the textual and visual levels.
Translation by ChatGPT-4 and human editing