Nature社论再次提醒:科研没有坏数据!
御风行 纳米人 2019-09-18

1.jpg


科研是一场修行,遇见的都是命中注定。任何数据,都有其存在的价值,就看你有没有本事参透其中的奥秘。

 

科研没有坏数据,如果以前这么说的时候,都只是列举一些个别的案例,譬如世界十大意外发现如何改变人类进程之类,你可能以为导师是在苦口婆心的忽悠你多干活,或者并没有放在心上。现在,随着机器学习的不断发展,在科研领域,尤其是材料科学领域,这一结论开始变得更加直观,不容的你不直视这一问题。

 

今年4月份,Nature就发表了一篇机器学习的评论文章,对使用那些所谓的“失败的”坏数据来优化MOF材料的制备进行了深度分析和点评。近日,Nature再次发表一篇机器学习的文章,并同期配以社论(Editorial)文章,再次告诫科研人员:不要对数据心存偏见!

 

2.png


来自哈弗福德学院的Xiwen Jia等人报道,为了验证数据的人为偏见对材料科学的科研所产生的不良影响,他们进行了一套对比实验。实验以硼酸钒的合成为模型反应,这种反应很简单,而且也很容易通过晶体是否形成来判定实验结果是成功还是失败。

 

研究人员首先根据经验编制了一套数百种的合成条件,然后基于这套合成条件来构建机器学习模型,结果发现,基于人为经验的合成条件并不如机器学习随机实验更能准确地预测实验结果的成功与否。

 

按照经验,原料、试剂、pH和各种数据的选择都是有一定要求的,超出该范围就被认为是违背常识,是在瞎胡闹。然而,结果却发现,机器学习所设置的“超出经验范围的”随机条件,并非一无是处。在对比试验中,不常用的所谓的“不好的”试剂比常用的经典试剂成功合成目标产物的几率甚至更高。

 

3.png


因此,在采用机器学习时,基于自己经验和偏见人为设置的一些条款可能会限制机器学习的准确性。当然了,对于还没有进入机器学习这么高端领域的科研圈的普罗大众而言,我们还是靠要双手实验。

 

不过,机器学习至少再一次告诉我们,科研没有坏数据!

 

参考文献:

1.Xiwen Jia et al. Anthropogenic biases in chemical reaction data hinderexploratory inorganic synthesis. Nature 2019, 573, 251–255.

https://www.nature.com/articles/s41586-019-1540-5

2.Look out for potential bias in chemical data sets. Nature 2019.

https://www.nature.com/articles/d41586-019-02670-w

 

加载更多
3288

版权声明:

1) 本文仅代表原作者观点,不代表本平台立场,请批判性阅读! 2) 本文内容若存在版权问题,请联系我们及时处理。 3) 除特别说明,本文版权归纳米人工作室所有,翻版必究!
纳米人
你好测试
copryright 2016 纳米人 闽ICP备16031428号-1

关注公众号