您的位置:首页 >综合要闻 >正文

据报道OpenAI使用YouTube视频来训练GPT4

摘要 去年,OpenAI推出了其最强大的大型语言模型 (LLM) GPT-4。 LLM 被认为是早期 ChatGPT 的更强大、更智能、更强大的版本,后者在 GPT-...

去年,OpenAI推出了其最强大的大型语言模型 (LLM) GPT-4。 LLM 被认为是早期 ChatGPT 的更强大、更智能、更强大的版本,后者在 GPT-3.5 上运行。 OpenAI 在发布时还发布了 GPT-4 已通过的考试列表并分享了其分数。而且成绩都还不错。例如,该语言模型以 88 分位通过了 LSAT,以 89 分位通过了 SAT 数学。它还以80%的成绩通过了GRE定量考试,以99%和54%的成绩通过了GRE口语和写作考试。现在,新的报道称,该公司使用数百万小时的 YouTube 视频来培训其强大的法学硕士。

据《纽约时报》最近报道,OpenAI 在开发 Whisper 音频转录模型时面临训练数据匮乏的问题。据报道,为了解决这个问题,该公司转录了超过一百万小时的 YouTube 视频来训练其 GPT-4 语言模型,尽管这种方法存在法律上的模糊性。据报道,OpenAI 总裁格雷格·布罗克曼 (Greg Brockman) 在获取这些视频方面发挥了直接作用。该报告还表明,到 2021 年,OpenAI 已耗尽其传统数据源,引发了有关转录 YouTube 视频、播客和有声读物的讨论。在此之前,该公司已在不同的数据集上训练其模型,包括来自 GitHub 的计算机代码和来自 Quizlet 的教育内容。

在回答 The Verge 的询问时,OpenAI 发言人 Lindsay Held 谈到了该公司为每个模型整理不同数据集的努力,以增强其理解力并保持在全球研究中的竞争力。霍尔德提到利用各种来源,包括公共数据和合作伙伴关系,同时还探索合成数据的创建。

版权声明:本文由用户上传,如有侵权请联系删除!