A principios de este mes, en respuesta a las crecientes críticas sobre cómo OpenAI recopila datos para entrenar ChatGPT, su innovador chatbot, la compañía hizo posible que los sitios web impidieran que eliminara su contenido. Un breve fragmento de código le indicaría a OpenAI que desaparezca (y éste obedecería amablemente).
Desde entonces, cientos de sitios han cerrado sus puertas. Una búsqueda en Google revela muchos de ellos: importantes propiedades en línea como Amazon, Airbnb, Glassdoor y Quora han agregado el código a su archivo “robots.txt”, una especie de reglas de interacción para muchos bots, o arañas como también son. conocidos, que recorren Internet.
Cuando me puse en contacto con las empresas, ninguna estaba dispuesta a discutir su razonamiento, pero es bastante obvio: quieren poner fin a que OpenAI tome contenido que no les pertenece para entrenar su inteligencia artificial. Desafortunadamente, se necesitará mucho más que una línea de código para evitar que esto suceda.
Otros recursos en línea con el tipo de datos que a un sistema de inteligencia artificial le encantaría también se han movido para bloquear el rastreador: la tienda de muebles Ikea, el sitio de empleo Indeed.com, el recurso de comparación de vehículos Kelley Blue Book y BAILII, el sistema de registros judiciales del Reino Unido, similar a PACER de EE. UU. (que no parece estar bloqueando el robot).
El sitio web de recursos de codificación StackOverflow está bloqueando el rastreador, pero no su rival GitHub, lo que tal vez no sea sorprendente dado que el propietario de GitHub, Microsoft, es un importante inversor en OpenAI. Y, a medida que las principales empresas de medios comienzan a negociar (o posiblemente demandar) a empresas como OpenAI por el acceso a sus archivos, muchas también han dado el paso de bloquear el bot. Una investigación publicada por Business Insider sugirió que 70 de los 1.000 sitios web más importantes del mundo han añadido el código. Podemos esperar que ese número crezca.
¿Problema resuelto? No es probable. Si bien es muy generoso por parte de OpenAI brindar a los sitios la capacidad de evitar que su robot extraiga su contenido, el gesto suena vacío si se considera que el robot de OpenAI ya ha estado recopilando estos datos durante algún tiempo. El caballo de la IA se ha disparado: agregar el código en esta etapa es como gritar ‘¡Y no vuelvas, oye!’ a un ladrón mientras desaparece en la noche con tus pertenencias.
De hecho, la medida podría servir para fortalecer el liderazgo inicial de OpenAI. Al sentar este precedente, puede argumentar que los nuevos competidores deberían hacer lo mismo, ascender en la escalera y disfrutar de los beneficios de ser uno de los primeros en impulsar la IA. ‘Lo que es seguro es que OpenAI no está devolviendo los datos que recopiló’, señaló el trabajador tecnológico convertido en comentarista Ben Thompson en una edición reciente de su boletín electrónico.
Por supuesto, los rastreadores web son sólo una forma en que OpenAI y otras empresas de inteligencia artificial recopilan datos para utilizarlos en el entrenamiento de sus sistemas. Las recientes batallas legales entre propietarios de contenidos y empresas de IA se han centrado en el hecho de que OpenAI, Meta, Google y otros suelen utilizar conjuntos de datos masivos proporcionados por terceros, como ‘Books3’, un conjunto de datos que contiene alrededor de 200.000 libros, compilados por una IA independiente. investigador. Varios autores están demandando por su uso.
OpenAI se negó a hacer comentarios, incluso sobre la cuestión de si los sitios que bloquearon el rastreador web de OpenAI podían estar seguros de que OpenAI no usaría sus datos si los obtuviera por otros medios. Ciertamente no alterará lo que ya se ha recogido.
Sólo podemos encontrar un pequeño consuelo en el hecho de que OpenAI haya reconocido que el consentimiento es un factor en futuros esfuerzos de scraping. Hay cientos de otros bots, lanzados por empresas de inteligencia artificial menos conocidas que OpenAI, que no brindarán ningún tipo de opción para que los sitios opten por no participar.
Google, que ha creado una herramienta de chat rival llamada Bard, quiere iniciar un debate sobre el mejor mecanismo para administrar el consentimiento en IA. Pero como lo expresó recientemente el escritor Stephen King, los datos ya están en la “licuadora digital” y parece que ahora hay muy poco que alguien pueda hacer al respecto.
Fuente: https://www.bloomberg.com/opinion/articles/2023-08-25/amazon-airbnb-ikea-rush-to-block-chatgpt-from-scraping-content?utm_medium=email&utm_source=newsletter&utm_term=230827&utm_campaign=sharetheview&sref=DPtqrPAJ#xj4y7vzkg