“文心大模型的训练数据来自哪里?互联网公开数据及争议”
“文心大模型的训练数据来自哪里?互联网公开数据及争议”
“嘿,朋友们!想知道文心大模型咋这么厉害不?今天就来聊聊它的数据从哪来。”
一、已知来源是公开数据
文心大模型在训练中使用互联网公开数据,符合行业惯例。像文生图能力来自文心跨模态大模型 ERNIE-ViLG,就用了公开数据。
二、谷歌模型引争议
谷歌 Gemini 模型被指用文心一言数据,虽有测试发现其自称百度,但也可能是 “幻觉” 或语料共用,目前尚无定论。
三、行业惯例与变化
大模型用公开数据常见,企业会保证质量安全。文心大模型不同版本训练数据可能变化,以提升性能。
文心大模型主要用互联网公开数据,谷歌模型是否用其数据有争议,未来数据使用会更规范可持续。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。