Existe preocupación por la falta de una manera fácil de optar por no tener el contenido que se usa para entrenar modelos de lenguaje grande (LLM) como ChatGPT. Hay una forma de hacerlo, pero no es sencilla ni garantiza que funcione.
Cómo aprenden las IA de su contenido
Los modelos de lenguaje grande (LLM) se entrenan en datos que se originan en múltiples fuentes. Muchos de estos conjuntos de datos son de código abierto y se utilizan libremente para entrenar IA.
Algunas de las fuentes utilizadas son:
- Wikipedia
- Registros judiciales del gobierno
- Libros
- Correos electrónicos
- sitios web rastreados
En realidad, hay portales, sitios web que ofrecen conjuntos de datos, que brindan grandes cantidades de información.
Uno de los portales está alojado en Amazon y ofrece miles de conjuntos de datos al Registro de Datos Abiertos en AWS.
El portal de Amazon con miles de conjuntos de datos es solo un portal entre muchos otros que contienen más conjuntos de datos.
Wikipedia enumera 28 portales para descargar conjuntos de datos, incluidos los portales Google Dataset y Hugging Face para encontrar miles de conjuntos de datos.
Conjuntos de datos de contenido web
AbrirTextoWeb
Un conjunto de datos popular de contenido web se llama OpenWebText. OpenWebText consta de URL que se encuentran en publicaciones de Reddit que tenían al menos tres votos a favor.
La idea es que estas URL sean confiables y contengan contenido de calidad. No pude encontrar información sobre un agente de usuario para su rastreador, tal vez solo esté identificado como Python, no estoy seguro.
Sin embargo, sabemos que si su sitio está vinculado desde Reddit con al menos tres votos a favor, es muy probable que su sitio esté en el conjunto de datos de OpenWebText.
Más información sobre Abrir WebText aquí.
Rastreo común
Una organización sin fines de lucro llamada Rastreo común.
Los datos de Common Crawl provienen de un bot que rastrea todo Internet.
Los datos son descargados por organizaciones que desean utilizar los datos y luego se limpian de sitios de spam, etc.
El nombre del bot Common Crawl es CCBot.
CCBot obedece el protocolo robots.txt, por lo que es posible bloquear Common Crawl con Robots.txt y evitar que los datos de su sitio web se conviertan en otro conjunto de datos.
Sin embargo, si su sitio ya ha sido rastreado, es probable que ya esté incluido en varios conjuntos de datos.
Sin embargo, al bloquear Common Crawl, es posible excluir el contenido de su sitio web para que no se incluya en nuevos conjuntos de datos provenientes de los datos de Common Crawl más recientes.
La cadena de agente de usuario de CCBot es:
CCBot/2.0
Agregue lo siguiente a su archivo robots.txt para bloquear el bot Common Crawl:
User-agent: CCBot Disallow: /
Una forma adicional de confirmar si un agente de usuario de CCBot es legítimo es rastrear direcciones IP de Amazon AWS.
CCBot también obedece las directivas de metaetiquetas de robots nofollow.
Use esto en su metaetiqueta de robots:
Bloquear la inteligencia artificial para que no use su contenido
Los motores de búsqueda permiten que los sitios web opten por no ser rastreados. Common Crawl también permite optar por no participar. Pero actualmente no hay forma de eliminar el contenido del sitio web de los conjuntos de datos existentes.
Además, los científicos de investigación no parecen ofrecer a los editores de sitios web una forma de optar por no ser rastreados.
El artículo, ¿Es justo el uso de ChatGPT del contenido web? explora el tema de si es incluso ético usar los datos del sitio web sin permiso o una forma de optar por no hacerlo.
Muchos editores pueden apreciar si en un futuro cercano se les da más voz sobre cómo se usa su contenido, especialmente por productos de IA como ChatGPT.
Si eso sucederá se desconoce en este momento.
Imagen destacada de Shutterstock/ViDI Studio
#Cómo #bloquear #ChatGPT #para #contenido #sitio #web