警惕数据陷阱：网络充斥低质机翻内容对大语言模型训练的影响研究

时间：2024-11-29

研究：网络充斥低质机翻内容，大语言模型训练需警惕数据陷阱

亚马逊云计算人工智能实验室的研究人员最近发现，网络上存在大量由机器翻译生成的内容，而这些翻译跨越多种语言的质量普遍较低。研究团队强调了在训练大型语言模型时，数据质量和来源的重要性。这一发现突显了在构建高质量语言模型时，需要更加关注数据的质量和来源的选择。

研究还发现，机器生成内容在资源较少语言的翻译中很普遍，并占网络内容的很大一部分。

本站注意到，研究团队开发了名为MWccMatrix的庞大资源，用于更好地理解机器翻译内容的特征。该资源包含64亿个独特句子，覆盖了90种语言，并提供了相互翻译的句子组合，即翻译元组。

这项研究发现，大量网络内容通常通过机器翻译被翻译成多种语言。这种现象普遍存在于资源较少语言的翻译中，并且占据了这些语言网络内容的很大一部分。

研究人员还注意到，出于广告收入等目的，被翻译成多种语言的内容存在选择性偏差。

根据我的研究，我得出以下结论：“过去十年，机器翻译技术取得了显著进步，但仍然无法达到人类质量水平。在过去的多年中，人们使用了当时可用的机器翻译系统将内容添加到网络上，因此网络上大部分机器翻译内容的质量可能相对较低，无法满足现代标准。这可能导致LLM模型产生更多的‘幻觉’，而选择偏差则表明即使不考虑机器翻译错误，数据质量也可能较低。对于LLM的训练来说，数据质量至关重要，高质量的语料库，如书籍和维基百科文章，通常需要进行多次向上采样。”

警惕数据陷阱：网络充斥低质机翻内容对大语言模型训练的影响研究

同类商品

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

CorelDRAW X8 简体中文【标准版 + Win】

相关文章