Python超过R,成为数据科学和机器学习的最常用语言

share

  近日,数据挖掘资讯网站KDnuggets开展了一项调查,问题是“2016年和2017年,在数据分析、数据科学和机器学习工作中,你运用R、Python、两者都用,还是其他工具?”   对954名受访者的调查显示,Python尚未完全“吞噬”R,但2017年Python生态系统已经超越了R,成为数据分析、数据科学和机器学习领域领先的平台,同时也在迅速吸引其他平台的用户。   2016年,Python排名第二(“主要运用Python”占比为34%,“主要运用R”占比为42%),而在2017年的结果中,Python和R的占比分别为41%和36%。   在KDnuggets的读者中,同时运用R和Python的比例也从2016年的8.5%上升至2017年的12%,而运用其他工具的比例从16%下降至11%。   △ 2016年和2017年,在分析、数据科学、机器学习中,运用Python、R、两者都用、其他工具的份额   随后,我们可以看看用户在不同平台之间的转移。   △ 从2016到2017年,用户在Python、R、两者都用、其他工具间的转移情况,上图看起来有些复杂,但我们可以专注于两个关键方面。Python在这两个方面都保持领先。   忠诚度:Python用户的忠诚度更高。2016年,Python用户中的91%依旧继续运用Python。而在R的用户中,这一比例只有74%,在其他平台中只有60%。   转移比例:大约10%的R用户转移至Python,但只有5%的Python用户转移至R。在2016年同时运用两种工具的用户中,只有49%依旧同时运用两者,而38%转而主要运用Python,只有11%转而主要运用R。   接下来,我们来看看最近几年的变化趋势。   △ 2014年到2017年,Python、R和其他平台份额的变化   可以看到,R的份额正在缓慢下降(从2015年的约50%下降至2017年的约36%),而Python的份额则稳步上升,从2014年的23%上升至2017年的47%。其他平台的份额也在缓慢下降。   在2015年关于R和Python的调查中,我们没有提供“同时运用Python和R”的选项。因此为了比较过去4年的数据,我们将2016年和2017年Python和R的份额按照如下公式来计算:   Python总份额 = (Python份额) + 50%(同时运用Python和R的份额)   R总份额 = (R份额) + 50%(同时运用Python和R的份额)   最后,让我们看看各地区的趋势和模式。参与调查的用户来自各地区比例如下:   美国/加拿大:40%  欧洲:35%  亚洲:12.5%  拉美:6.2%  非洲/中东:3.6%  澳大利亚/新西兰:3.1%   为了简化表格,对于“同时运用R和Python”的份额,我们以同上的方式进行处理,并将亚洲、澳大利亚/新西兰、拉美,以及中东/非洲合并为“其他”地区。   △ 2016、2017年,Python、R、其他工具在各地区的运用情况   在这3大地区中,我们观察到同样的模式:  Python的份额上升8%到10%。  R的份额下降2%到4%。  其他平台的份额下降5%到7%。  Python用户的未来看起来很光明,但我们认为,考虑到当前用户数规模庞大,R和其他平台仍将在可预见的未来保持一定的份额。

share