2020年流行的数据科学工具有哪些?

不管是数据分析师、数据科学家、项目经理还是数据科学主管,在想要建立一个全新的数据科学项目时,都将面对一些问题:

  • 应该在数据科学的不同领域中使用哪些工具?
  • 我应该购买这些工具的许可证还是选择开源代码?……

想搞清楚这些问题,先回归到“数据科学”本身上。

数据科学本身是一个广义术语,它由各个不同领域组成,每个领域都有自己的业务价值和复杂性。如下图所示:

报告与商业智能

先从复杂度低的开始。这个领域的业务价值在于可以使团队能够识别趋势和模式,从而制定关键的战略决策。

常用的工具有:

Excel:

它提供了多种选择,包括数据透视表和图表,可以快速进行分析。简而言之,它就是数据科学/分析工具的“王者”。(能够科学上网的可以试试Google Sheet)

QlikView:

这是一种易于操作学习的BI工具,只需单击几下即可合并,搜索,可视化和分析所有数据源。正因如此,它非常受欢迎。

Tableau:

它是当今市场上最受欢迎的数据可视化工具之一。其能够处理大量数据,甚至提供类似于Excel的计算功能和参数。

Microstrategy:

这是又一个BI工具,支持仪表板,自动分发和其他关键数据分析的任务。

PowerBI:

这是Microsoft在商业智能(BI)领域中提供的产品。PowerBI旨在与Microsoft技术集成。因此,如果你就职的企业有Sharepoint或SQL数据库用户,则会喜欢使用此工具。

Google Analytics(分析):

数字营销在转变业务中起着重要作用,没有比这更好的工具来分析数字化工作。

预测分析和机器学习工具

随着复杂性和商业价值的逐步提高,风险也逐步增加!

这是大多数数据科学家赖以生存的领域。统计建模,预测,神经网络和深度学习等都是将要解决的某些类型的问题。

来了解下该领域的常用工具:

Python:

它是当今在数据科学行业中最主要的语言之一,由于其易用性,灵活性和开源性质,已在ML社区中迅速普及和接受。

R:

这是数据科学中另一种常用的语言。它附带了许多支持大多数机器学习任务的软件包和库。

Apache Spark:

Spark由UC Berkley于2010年开源,此后成为最大的大数据社区之一。它具有多种优势,例如灵活性,速度,计算能力等。

Julia:

这种语言处于起步阶段,但有说法认为它是Python的继任者。坐等它未来的表现。

Jupyter Notebooks:

虽然它主要用于Python,但是也支持其他语言,例如Julia,R等。

到目前为止,以上所讨论的工具都是真正的开源工具。无需支付费用或购买任何额外的许可证。它们拥有活跃的社区,并且定期维护和发布更新。

接下来,再了解一些公认的行业领头者的高级工具:

SAS:

这个工具非常流行且功能强大。它在银行和金融领域使用较普遍,比如像美国运通,摩根大通,Mu Sigma,苏格兰皇家银行等私人组织中,它占有很高的份额。

SPSS:

SPSS最初称为社会科学统计软件包,2000年正式更改为“统计产品与服务解决方案”,2009年被IBM收购。

它提供高级统计分析,庞大的机器学习算法库,文本分析等。

Matlab:

在企业中,Matlab确实被低估了,但是它在学术界和研究部门中得到了广泛的使用。

最近,随着像Python,R和SAS等工具的普及以及使用,Matlab的使用范围有所缩减,但是大学(尤其是在美国)仍然使用Matlab教授许多本科课程。

深度学习的通用框架

深度学习需要大量的计算资源,并且需要特殊的框架才能有效地利用这些资源。因此,很可能需要GPU或TPU。

TensorFlow:

它是当今行业中使用最广泛的工具。

PyTorch:

PyTorch最近受到关注,其由Facebook的研究人员开发。这种灵活的深度学习框架可能正在给TensorFlow带来不小的竞争。

Keras和Caffe:

两者是广泛用于构建深度学习应用程序的框架。

人工智能工具

现在正是AutoML的时代。如果还没有听说过这些工具,那么下面的内容不要错过。

一些最受欢迎的AutoML工具是AutoKeras,Google Cloud AutoML,IBM Watson,DataRobot,H20的无人驾驶AI和亚马逊的Lex。

AutoML有望成为AI/ML社区中的下一件大事,主要致力于减少业务的技术操作,自动化整个流程/渠道,以便业务领导者可以使用它来制定战略决策。

以上,我们已经讨论了数据收集以及用于完成检索,处理和存储数据所需的工具。回到文章最开始提到的,数据科学是由众多领域组成,每个领域都有自己的一套工具和框架。

所以选择数据科学工具通常取决于自己的个人选择,所从事的领域或项目,当然也取决于团队组织。

你最喜欢使用哪些工具?欢迎下方留言评论~

原文来源:

https://www.analyticsvidhya.com/blog/2020/06/22-tools-data-science-machine-learning/,有所删减以及修改。

发表评论

电子邮件地址不会被公开。 必填项已用*标注