美国科学促进会：机器学习“正在导致科学危机”

大数据文摘出品

编译：张秋玥

科学家正越来越依赖机器学习技术，虽然这一技术的解释性自诞生以来就广受质疑，但当这一问题出现在科学领域，将产生非常危险的结果。

来自休斯顿莱斯大学的Genevera Allen博士说，对这一体系日益增长的使用导致了“科学危机”。

她警告科学家，如果不改进技术，他们就会浪费时间与金钱。

越来越多的科学研究涉及使用机器学习软件来分析已经被收集的数据——从生物医学研究到天文学的许多学科领域都是如此。所使用的数据集非常庞大，并且昂贵。

再现性危机

但是，根据Allen博士的说法，他们提出的答案很可能是不准确甚至错误的，因为软件识别到的是仅存在于该数据集中而非现实世界中的规律。

“通常人们也不会发现这些研究并不准确，直到有人在一个真正的大型数据集上应用这些技术，并说'天哪，这两项研究的结果并不一致'”，她说。

“现在人们普遍认识到科学中的再生性危机了。我冒昧地说一句，这一危机很大一部分都来自于科学中机器学习技术的使用。”

科学中的“再现性危机”指的是，当另一组科学家尝试相同的实验时，许多研究结果压根无法被再现。这意味着最初的结果是错误的。一项分析表明，在世界范围内进行的生物医学研究中，高达85％是浪费精力。

这是一场已经持续了20年的危机，缘起于实验设计得不够好，无法确保科学家们不会自欺欺人、只看到自己想得到的实验结果。

错误的规律

Allen博士表示，机器学习系统和大型数据集的使用加速了危机。这是因为机器学习算法专门用于在数据集中查找有趣的东西，因此当他们在大量数据中进行搜索时，不可避免地会找到某种规律。

“问题是，我们真的可以相信这些发现吗？”她告诉BBC新闻。

“这些新发现是真实的吗？它们能够代表科学吗？它们是否可重复？如果我们有一个额外的数据集，我们能够在其上看到相同的科学发现或原理吗？不幸的是，答案通常是否定的。”

Allen博士正与休斯敦贝勒医学院的一组生物医学研究人员合作提高他们结果的可靠性。她正在开发下一代机器学习和统计技术；该技术不仅可以为科学发现筛选大量数据，还可以报告结果有多高的不确定性以及再现性。

“收集这些庞大的数据集非常昂贵。我告诉科学家，与我合作的话，你的成果可能需要更长时间才能发布，但最终你的结果将经得起时间的考验。”

“它将帮助科学家节约资金。此外，帮助避免前沿科技误入歧途也是非常重要的。”