当前位置: 首页 > 科技 > 人工智能 > 图解|数据与数据科学_腾讯新闻

图解|数据与数据科学_腾讯新闻

天乐
2020-11-14 06:53:40 第一视角

导语

数据科学到现在还没有一个公认的定义,尤其在需要正确使用它时。25年前,数据科学是指收集和清理数据集,然后应用传统统计方法分析数据。2018年以后,数据科学已经发展到涵盖数据分析,预测分析,数据挖掘,商业智能,机器学习等等领域。

365数据科学团队设计了What-Where-Who信息图表,定义数据科学中的关键过程与核心要素。

Data Science

数据是数据科学的基础,它是进行数据分析的基础。在数据科学的背景下,数据类型可分为传统数据和大数据。

传统数据是结构化并存储在数据库中的数据,分析人员可以从一台计算机进行管理,采用表格格式,包含数字或文本值。实际上,术语“传统”是为了方便区分而引入的,有助于强调大数据与其他类型数据之间的区别。

大数据比传统数据要大,而且意义非凡。从种类(数字,文本,还有图像,音频,移动数据等),到速度(实时检索和计算),再到速度(以兆字节,千万字节和百亿字节为单位),大数据就是通常分布在计算机网络中。

1

数据科学中的传统数据

传统数据存储在关系数据库管理系统中。在准备进行处理之前,所有数据都要经过预处理。这是一组必要的操作,可将原始数据转换为更易于理解的格式。

常见流程是:

收集原始数据并将其存储在服务器上。这是我们无法立即分析的原始数据。这些数据既可以来自调查,也可以来自更流行的自动数据收集范例,例如网站上的cookie。

标记观察结果。包括按类别排列数据或将数据点标记为正确的数据类型。

数据清理/数据处理。主要用来处理不一致的数据,例如拼写错误的类别和缺少值。

数据科学中的大数据

在大数据和数据科学方面,传统数据处理中使用的方法有些重叠,但也存在很多差异。

首先,大数据存储在许多服务器上,并且无限复杂,因此预处理更加关键。

其次,收集资料,类似标记数据。但大数据千差万别,因此标签不是“数字”或“类别”,而是“文本”,“数字图像数据”,“数字视频数据”,“数字音频数据”等数据格式。

最后,在大规模收集数据时,务必要确保数据中的任何机密信息都保持私有性,并且不会妨碍对关键价值数据的分析和提取。该过程涉及使用添加随机数或加密数据的方式来隐藏原始数据,从而使科学家能够进行分析而不会损害数据隐私性要求。

数据来自哪里?

传统数据可能来自基本的客户记录或历史股价信息。但是,在大数据时代,公司和行业生成的数据越来越多,如在线社区和社交媒,或大量金融交易数据,地理位置数据,传感器和可穿戴设备数据等。

谁处理数据?

处理原始数据和创建维护数据库的数据专家所扮演的角色,显然各不相同。

数据架构师和数据工程师(分别是大数据架构师和大数据工程师)在数据科学市场中至关重要。前者从头开始创建数据库。他们设计了数据检索,处理和使用的方式。因此,数据工程师在数据架构师的工作基础之上,处理(预处理)可用数据。他们确保数据干净整洁并为数据分析人员提供良好的数据分析环境

数据库管理员负责控制数据进出数据库。由于大数据传输过程是自动化执行的,因此,不需要真正的人工管理员。数据库管理员主要处理传统数据。

在完成数据处理(预处理)并保证数据库清洁可用之后,真正的数据科学过程就会开始。

02

数据科学与预测分析

数据科学的价值在于:解释已经发生的行为和预测尚未发生的未来行为。

数据科学中的传统预测方法包括用于经典统计方法-线性回归分析,逻辑回归分析,聚类,因子分析和时间序列。这些中的每一个的输出都将馈入更复杂的机器学习分析中。

数据标注

数据标注是人工智能的基础,决定了机器学习和深度学习模型的质量。对于数据科学家而言,数据质量问题是人工智能项目的主要症结所在。

线性回归

在数据科学中,线性回归模型用于量化分析中包含的不同变量之间的因果关系。就像房价,房屋大小,邻里和建成年份之间的关系。如果有相关信息,该模型会自动计算系数从而预测新房价格。

逻辑回归

由于不可能将变量之间的所有关系表示为线性,因此数据科学利用逻辑回归之类的方法来创建非线性模型。逻辑回归的取值为0和1。公司使用逻辑回归算法在筛选过程中筛选求职者。如果算法估计潜在候选人在一年内在公司中表现良好的可能性大于50%,则它将预测1,即成功申请。否则,它将预测为0。

聚类分析

当数据中的观察结果根据某些标准分组时,将应用这种探索性数据科学技术。聚类分析考虑到某些观察结果表现出相似性,并有助于发现新的重要预测变量,而这些预测变量不是数据原始概念化的一部分。

因子分析

如果群集是有关分组的意见一起,因子分析是有关分组功能在一起。数据科学诉诸于使用因子分析来减少问题的维度。例如,如果在100个项目的问卷中,每10个问题都与一个总体态度有关,则因素分析将识别出这10个因素,然后将其用于回归分析,以提供更可解释的预测。数据科学中的许多技术都是这样集成的。

时间序列分析

时间序列是跟踪特定值随时间变化的一种流行方法。经济学和金融学专家之所以使用它,是因为它们的主题是股票价格和销量(这些变量通常随时间绘制)。

03

机器学习是数据科学的最新方法

与任何传统的数据科学技术相比,机器学习的主要优势在于算法的核心所在。这些是计算机用来查找尽可能适合数据的模型的方向。机器学习与传统数据科学方法之间的区别在于,我们不向计算机提供有关如何找到模型的指令;它采用算法并使用其方向自行学习如何找到所述模型。与传统数据科学不同,机器学习需要很少的人力参与。实际上,机器学习,尤其是深度学习算法是如此复杂,以至于人类无法真正理解“内部”正在发生的事情。

什么是机器学习?

机器学习算法就像一个反复试验的过程,但是它的特殊之处在于,每个连续的试验至少都和前一个试验一样好。但是为了取得更好的学习结果,机器必须经历数十万次的反复试验,以求得错误频率不断降低。训练完成后,机器将能够将已经学到的复杂计算模型应用于新数据,并可得到高度可靠的预测结果。

机器学习分为三种主要类型:有监督,无监督和强化学习。

监督学习

监督学习取决于标记数据的使,机器获取与正确答案关联的数据。如果机器的性能未能获得正确的答案,则需优化算法来调整计算过程,然后计算机会进行另一次尝试。通常情况下,计算机会一次在1000个数据点上执行此操作。

无监督学习

当数据太大时,或者数据科学家承受太多的压力来标记数据时,或者根本不知道标记的含义时,数据科学便会采用无监督学习。这包括为机器提供未标记的数据,并要求其从中提取见解,常常会将数据按其属性以某种方式进行划分。

无监督学习对于发现数据模型非常有效,尤其是在使用传统分析技术会疏忽的领域。数据科学通常将有监督和无监督的学习结合在一起使用,无监督的学习为数据加上标签,而有监督的学习则用于找到最佳的数据模型。

强化学习

这是一种机器学习,其重点是性能而不是准确性。只要机器性能比以前更好,它都会获得奖励,但是如果它的性能达到次优状态,则优化算法不会调整计算。想想小狗学习命令。如果遵循该命令,它将得到待遇;如果它不遵循命令,那么就不会享受。因为零食很美味,所以狗会按照以下命令逐渐改善。也就是说,强化学习不是使错误最小化,而是使奖励最大化。

机器学习在数据科学和商业领域中的什么应用?

欺诈识别

通过机器学习,特别是监督学习,银行可以获取过去的数据,将交易标记为合法或欺诈,并训练模型以检测欺诈行为。当这些模型检测到最小的盗窃可能性时,它们会标记交易并实时防止欺诈。

客户留存

借助机器学习算法,运营者可以知道哪些客户从哪里购买商品。这意味着商店可以有效地提供折扣,提供个性化服务,从而最大程度地降低营销成本并实现利润最大化。

谁在数据科学中使用机器学习?

如上所述,数据科学家深度参与了机器算法的设计,但在这个阶段还有另一个技术明星——机器学习工程师。专家们正在寻找方法,将在机器学习领域开发的最新计算模型应用于解决复杂问题,例如数据科学任务、计算机视觉、自动驾驶、机器人技术,等等。

04

数据科学中的编程语言和软件

要使用数据和数据科学,必须使用两种主要的工具:编程语言和软件。

最常用的编程语言和软件示例

数据科学中的编程语言

数据科学家在熟悉一种编程语言后,就能设计出可以执行特定操作的程序。编程语言的最大优势在于,我们可以重复使用所创建的程序来多次执行相同的操作。

R,Python和MATLAB与SQL相结合,涵盖了处理传统数据,BI和常规数据科学时使用的大多数工具。

R和Python是所有数据科学子学科中两个最受欢迎的工具。它们的最大优势是适用于数据和统计,适应性强,可集成在多个数据和数据科学软件平台中。

在使用关系数据库管理系统时,SQL为王,因为它是专门为此目的而创建的。当使用传统的历史数据(例如,准备BI分析)时,SQL的优势最大。

MATLAB是数据科学中第四个不可缺少的工具。它是使用数学函数或矩阵运算的理想选择。

总体上,数据科学中的大数据是在R和Python的帮助下处理的,但是从事该领域工作的人员通常精通Java和Scala等其他语言。当组合来自多个来源的数据时,这两种语言将非常有用。

当数据科学领域涉及机器学习时,除上述内容外,专家们还经常使用JavaScript,C和C ++。它们比R和Python更快,并提供更大的自由度。

数据科学软件

在数据科学中,软件或软件解决方案是针对特定业务需求进行调整的工具。

Excel是适用于多个类别的工具:传统数据,BI和数据科学。当然,SPSS是用于处理传统数据和应用统计分析的非常著名的工具。还有Apache Hadoop,Apache Hbase和Mongo DB是用于设计和处理大数据的常用软件。Power BI,SaS,Qlik,尤其是Tableau是为商业智能可视化设计的一流软件示例。

在预测分析方面,EViews主要用于计量经济时间序列模型,而Stata主要用于学术统计和计量经济研究,其中经常采用回归,聚类和因子分析等技术。

05

总结

数据科学是一个术语,涵盖了从处理数据(传统数据或大数据)到解释模式和预测行为的所有内容。数据科学是通过回归分析和聚类分析等传统方法或非正统的机器学习技术完成的。

数据科学是一个广阔的领域,其发展与人类生活息息相关,并将深刻地改变人们认识传统数据组织形态和即将迈进的数字新世界。

版权声明

未经「量观网络/QVN」授权,不得以任何方式加以使用,违者必究;

如需转载,需关注本公众号并留言,请注明公众号名称及ID信息。

提示:支持键盘“← →”键翻页
为你推荐
加载更多
意见反馈
返回顶部