其实这三者都有自己独特的优势:
Python:非常适合处理大规模的数据,其次使用的人数最多,有大量的包和库供新手使用。
R:专业的统计学家用软件,在统计方面的造诣很高,其次的话做出来的图挺好看的。
Excel:短平快,很容易用鼠标拖拖拽拽就可以做出来不错的图标。
我们主要来讨论Python和R。
数据分析的大部分工作是由我来完成的,我是这样分配的。
对于非结构化数据,也就是那些日志类数据,我是用的python,因为我主要拿它来做情感分析,这部分属于机器学习的NLP部分,而python对于机器学习更为擅长。
对于结构化数据,我选择了R,因为R在统计方面确实更厉害,当然了,最主要的原因是项目负责人用的是R,否则我还得用python重构,所以我也不得不花了点时间学习了下R。
用过R之后,发现它在统计方面和作图确实是比较厉害。统计就不用说了,这就是它最强大的地方,其次就是作图,我主要用的是ggplot2这个库。
至于学了python需不需要R,我觉得这个真的看你的需求,如果你的项目没有必须要用R,那么python也是足够的,因为R有的包,一段时间之后Python也会有。而python是个万金油的语言,几乎所有的方面它都有不错的库。