OpenAI utiliza vídeos de YouTube para entrenar GPT-4

OpenAI ha recurrido al algoritmo de transcripción de texto Whisper para transcribir más de un millón de horas de vídeos de YouTube y así entrenar su último modelo lingüístico, GPT-4.

OpenAI utiliza vídeos de YouTube para entrenar GPT-4
OpenAI utiliza vídeos de YouTube para entrenar GPT-4

Según informa The New York Times, la falta de datos de calidad para el entrenamiento llevó a OpenAI a desarrollar su propio modelo Whisper específico para la transcripción de vídeos, podcasts y audiolibros.

El presidente de OpenAI, Greg Brockman, se involucró personalmente en la recopilación de clips de YouTube para este propósito, según el Times.

Aunque Google, propietaria de YouTube, prohíbe la recopilación no autorizada de contenidos, la empresa está tomando medidas para prevenir su uso no autorizado de datos.

Mientras tanto, Google también ha utilizado contenido de YouTube para entrenar su propia IA, pero en virtud de acuerdos separados con los creadores de contenido implicados.

El periódico también señala que Meta ha enfrentado desafíos similares con la disponibilidad de datos para entrenar sus sistemas de IA, llegando incluso a plantearse el uso de material protegido por derechos de autor.