exponiendo al cabal: Google dice que eliminará todo lo que publique en línea para la IA

martes, 4 de julio de 2023

Google dice que eliminará todo lo que publique en línea para la IA

Google dice que eliminará todo lo que publique en línea para la IA

Una actualización de la política de privacidad de Google sugiere que todo el Internet público es un juego justo para sus proyectos de IA.

https://gizmodo.com/google-says-itll-scrape-everything-you-post-online-for-1850601486

A robot using a computer

Google actualizó su política de privacidad durante el fin de semana y dijo explícitamente que la compañía se reserva el derecho de raspar casi todo lo que publica en línea para construir sus herramientas de IA. Si Google puede leer sus palabras, asuma que pertenecen a la empresa ahora y espere que estén anidando en algún lugar de las entrañas de un chatbot.

“Google usa la información para mejorar nuestros servicios y desarrollar nuevos productos, características y tecnologías que beneficien a nuestros usuarios y al público”, dice la nueva política de Google. “Por ejemplo, usamos información disponible públicamente para ayudar a entrenar los modelos de IA de Google y crear productos y funciones como Google Translate, Bard y capacidades de IA en la nube”.

Afortunadamente para los fanáticos de la historia, Google mantiene un historial de cambios en sus términos de servicio. El nuevo lenguaje modifica una política existente, explicando nuevas formas en que sus reflexiones en línea podrían usarse para el trabajo de las herramientas de IA del gigante tecnológico.

Anteriormente, Google dijo que los datos se usarían "para modelos de lenguaje", en lugar de "modelos de IA", y donde la política anterior solo mencionaba Google Translate, Bard y Cloud AI ahora aparecen.

Esta es una cláusula inusual para una política de privacidad. Por lo general, estas políticas describen las formas en que una empresa utiliza la información que publica en los propios servicios de la empresa. Aquí, parece que Google se reserva el derecho de recopilar y aprovechar los datos publicados en cualquier parte de la web pública, como si todo Internet fuera el campo de juego de IA de la empresa. Google no respondió de inmediato a una solicitud de comentarios.

La práctica plantea nuevas e interesantes cuestiones de privacidad. La gente generalmente entiende que las publicaciones públicas son públicas. Pero hoy, necesitas un nuevo modelo mental de lo que significa escribir algo en línea. Ya no se trata de quién puede ver la información, sino de cómo podría usarse. Es muy probable que Bard y ChatGPT ingirieran sus publicaciones de blog olvidadas hace mucho tiempo o las reseñas de restaurantes de hace 15 años. Mientras lee esto, los chatbots podrían estar regurgitando alguna versión humonculoide de sus palabras en formas que son imposibles de predecir y difíciles de entender.

Una de las complicaciones menos obvias del mundo posterior a ChatGPT es la cuestión de dónde obtuvieron su información los chatbots hambrientos de datos. Empresas como Google y OpenAI rasparon grandes porciones de Internet para alimentar sus hábitos de robots. No está del todo claro que esto sea legal, y en los próximos años los tribunales se enfrentarán a cuestiones de derechos de autor que habrían parecido ciencia ficción hace unos años. Mientras tanto, el fenómeno ya afecta a los consumidores de formas inesperadas.

Los señores de Twitter y Reddit se sienten particularmente agraviados por el problema de la IA e hicieron cambios controvertidos para bloquear sus plataformas. Ambas compañías desactivaron el acceso gratuito a sus API, lo que permitió a cualquiera que quisiera descargar grandes cantidades de publicaciones. Aparentemente, eso está destinado a proteger los sitios de redes sociales de otras empresas que aprovechan su propiedad intelectual, pero ha tenido otras consecuencias.

Los cambios en la API de Twitter y Reddit rompieron las herramientas de terceros que muchas personas usaban para acceder a esos sitios. Por un minuto, incluso pareció que Twitter iba a obligar a las entidades públicas, como los servicios meteorológicos, de tránsito y de emergencia, a pagar si querían twittear, una medida que la empresa rechazó después de una lluvia de críticas.

Últimamente, el web scraping es el coco favorito de Elon Musk. Musk culpó de varios desastres recientes de Twitter a la necesidad de la empresa de evitar que otros retiren datos de su sitio, incluso cuando los problemas parecen no estar relacionados. Durante el fin de semana, Twitter limitó la cantidad de tweets que los usuarios podían ver por día, lo que hizo que el servicio fuera casi inutilizable. Musk dijo que era una respuesta necesaria al "raspado de datos" y la "manipulación del sistema". Sin embargo, la mayoría de los expertos en TI coincidieron en que la limitación de la velocidad era probablemente una respuesta de crisis a problemas técnicos derivados de la mala gestión, la incompetencia o ambas cosas. Twitter no respondió a las preguntas de Gizmodo sobre el tema.

En Reddit, el efecto de los cambios de API fue particularmente ruidoso. Reddit está esencialmente a cargo de moderadores no remunerados que mantienen los foros en buen estado. Los mods de grandes subreddits tienden a depender de herramientas de terceros para su trabajo, herramientas que se basan en API ahora inaccesibles. Eso provocó una protesta masiva, donde los moderadores esencialmente cerraron Reddit. Aunque la controversia aún se está desarrollando, es probable que tenga consecuencias permanentes ya que los moderadores rechazados cuelgan sus sombreros.

martes, 4 de julio de 2023

Google dice que eliminará todo lo que publique en línea para la IA

No hay comentarios:

Publicar un comentario

Denunciar abuso