“文心大模型的训练数据来自哪里？互联网公开数据及争议”

AI攻略 2024-09-29

“文心大模型的训练数据来自哪里？互联网公开数据及争议”

“嘿，朋友们！想知道文心大模型咋这么厉害不？今天就来聊聊它的数据从哪来。”

一、已知来源是公开数据

文心大模型在训练中使用互联网公开数据，符合行业惯例。像文生图能力来自文心跨模态大模型 ERNIE-ViLG，就用了公开数据。

二、谷歌模型引争议

谷歌 Gemini 模型被指用文心一言数据，虽有测试发现其自称百度，但也可能是 “幻觉” 或语料共用，目前尚无定论。

三、行业惯例与变化

大模型用公开数据常见，企业会保证质量安全。文心大模型不同版本训练数据可能变化，以提升性能。
文心大模型主要用互联网公开数据，谷歌模型是否用其数据有争议，未来数据使用会更规范可持续。

©️版权声明：若无特殊声明，本站所有文章版权均归AI工具集原创和所有，未经许可，任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容，或在非我站所属的服务器上建立镜像。否则，我站将依法保留追究相关法律责任的权利。

相关文章

AI工具箱收录了国内外数百个不同类型的AI工具，每日更新和添加最新AI工具，AI工具集还推荐了AI学习开发的常用网站、框架和模型，帮助你加入人工智能浪潮，自动化高效完成任务！ Ctrl + D 或 ⌘ + D 收藏本站到浏览器书签栏。

AI工具箱导航关于我们免责声明友情链接

关注我们

Copyright © 奇迹AI分类导航浙ICP备2024118933号