Anthropic, la startup líder en inteligencia artificial generativa, ha declarado que no utilizará los datos de sus clientes para entrenar su modelo de lenguaje grande (LLM) y que intervendrá para defender a los usuarios que enfrenten reclamos de derechos de autor.
Anthropic, fundada por antiguos investigadores de OpenAI, actualizó sus Términos de servicio comerciales para explicar sus ideales e intenciones. Al extraer los datos privados de sus propios clientes, Anthropic se diferencia sólidamente de rivales como OpenAI, Amazon y Meta, que aprovechan el contenido de los usuarios para mejorar sus sistemas.
“Anthropic no puede entrenar modelos sobre el contenido del cliente a partir de servicios pagos”, según los términos actualizados, que agregan que “entre las partes y en la medida permitida por la ley aplicable, anthropic acepta que el cliente es propietario de todos los resultados y renuncia a cualquier derecho que pueda tener”. recibe al cliente el contenido bajo estos términos.”
Los términos continúan diciendo que “Anthropic no prevé obtener ningún derecho sobre el contenido del cliente bajo estos términos” y que “no otorgan a ninguna de las partes ningún derecho sobre el contenido o la propiedad intelectual de la otra parte, por implicación o de otro modo”.
El documento legal actualizado aparentemente brinda protección y transparencia para los clientes comerciales de Anthropic. Las empresas poseen todos los productos de IA generados, por ejemplo, evitando posibles disputas de propiedad intelectual. Anthropic también se compromete a defender a los clientes de reclamaciones de derechos de autor sobre cualquier contenido infractor producido por Claude.
La política se alinea con la declaración de misión de Anthropic de que la IA debe ser beneficiosa, inofensiva y honesta. A medida que crece el escepticismo público sobre la ética de la IA generativa, el compromiso de la empresa de abordar preocupaciones como la privacidad de los datos podría darle una ventaja competitiva.
Datos de los usuarios: alimentos vitales de LLM
Los modelos de lenguaje grande (LLM) como GPT-4, LlaMa o Claude de Anthropic son sistemas de inteligencia artificial avanzados que comprenden y generan el lenguaje humano al entrenarse con datos de texto extensos. Estos modelos aprovechan técnicas de aprendizaje profundo y redes neuronales para predecir secuencias de palabras, comprender el contexto y captar las sutilezas del lenguaje. Durante el entrenamiento, refinan continuamente sus predicciones, mejorando su capacidad para conversar, redactar texto o proporcionar información relevante. La eficacia de los LLM depende en gran medida de la diversidad y el volumen de los datos con los que reciben capacitación, lo que los hace más precisos y conscientes del contexto a medida que aprenden de diversos patrones lingüísticos, estilos y nueva información.
Y es por eso que los datos de los usuarios son tan valiosos en la formación de LLM. En primer lugar, garantiza que los modelos se mantengan actualizados con las últimas tendencias lingüísticas y preferencias de los usuarios (por ejemplo, comprender nuevas jergas). En segundo lugar, permite la personalización y una mejor participación del usuario al adaptarse a las interacciones y estilos de los usuarios individuales. Sin embargo, esto genera un debate ético porque las empresas de IA no pagan a los usuarios por esta información crucial que se utiliza para entrenar modelos que les generan millones de dólares.
Según lo informado por DescifrarMeta reveló recientemente que está entrenando su próximo LlaMA-3 LLM basándose en los datos de los usuarios y sus nuevos modelos EMU (que generan fotos y videos a partir de mensajes de texto) también fueron entrenados utilizando datos disponibles públicamente cargados por sus usuarios en las redes sociales.
Además de eso, Amazon también reveló que su próximo LLM, que impulsaría una versión mejorada de Alexa, también se está capacitando en las conversaciones e interacciones de los usuarios; sin embargo, los usuarios pueden optar por no recibir los datos de capacitación que, de forma predeterminada, asumen que los usuarios están de acuerdo. para compartir esta información.”[Amazon] “Siempre he creído que entrenar a Alexa con solicitudes del mundo real es esencial para ofrecer a los clientes una experiencia precisa, personalizada y en constante mejora”, dijo un portavoz de Amazon. Descifrar. “Pero al mismo tiempo, damos a los clientes control sobre si sus grabaciones de voz de Alexa se utilizan para mejorar el servicio, y siempre respetamos las preferencias de nuestros clientes cuando entrenamos a nuestros modelos”.
Mientras los gigantes tecnológicos compiten por lanzar los servicios de inteligencia artificial más avanzados, las prácticas responsables de datos son clave para ganarse la confianza del público. Anthropic pretende predicar con el ejemplo en este sentido. El debate ético sobre la obtención de modelos más potentes y convenientes a expensas de la entrega de información personal es tan frecuente hoy como lo fue hace décadas, cuando las redes sociales popularizaron el concepto de que los usuarios se convirtieran en el producto a cambio de servicios gratuitos.
¡Sí! RT @bryce Me encanta esta cita: “Si no pagas por ello, no eres el cliente; eres el producto que se vende”.
– Tim O'Reilly (@timoreilly) 2 de septiembre de 2010
Editado por Ryan Ozawa.