今年百度发布了他们在大数据方面的人才需求,今年百度招聘1500名应届大学毕业生,明年预计扩招至2000名;未来还将通过提供新型岗位、加大培训力度等,培养500万名AI人才,让更多百姓的“饭碗”端得更稳、更安心。
分析是使用网络抓取从1000多个最近的大数据分析师工作中完成的,这些工作是从工作门户中提取的。
最近,有很多同学积极地开始寻找大数据分析领域的工作变动,你如果没有像硕士或博士学位这样的正规教育和AI /机器学习的背景。他们完全出于自己的兴趣开始学习大数据分析。这是选择加入富挑战性的途径之一,尤其是在同时开发其他技术的情况下。有的人通过参加许多培训课程开始了自己的数据分析职业生涯,并开始阅读书籍和业内网站。
打开各种招聘网站的需求,你可以清楚的看到公司企业提到传统数据分析,机器学习,深度学习,一些ETL工具和多种大数据技术是必需技能。我认为这没关系,因为最近每家公司都有自己对大数据分析师的定义,并开了另一份工作。这次出现了对某些其他技术的需求。
请记住,所有这些开口仅在大数据分析师下标记。所有这些开口都有共同的要求,例如机器学习算法,统计,数据分析,数据清理和深度学习技术。除了这些技能外,一些公司还希望候选人能在云(AWS,Azure或GCP)和Tableau,Power BI等数据可视化工具以及SSIS等ETL工具方面拥有知识。通常,这些技术更多地与数据分析师/数据工程师角色有关,但大数据分析师角色仍在不断发展,并且尚未真正坚持特定的技能。
作为从事多年的就业指导老师确实了解这样一个事实,即公司正在寻找适合其职位空缺并且在所需技术方面具有技能的申请人。这肯定会为公司节省时间和金钱,而无需再次提供培训。
因此,在这里,我有一个有趣的想法,可以理解IT行业真正期望大数据分析师实时扮演的角色,而不是通常在MOOC中讲授的角色。
目标: 我们将尝试找出当前行业中最需要的技能和趋势。为此,我们将从工作门户中抓取数据。
注意:整个分析是针对大数据分析师在中国市场中的作用而进行的。
在公司企业需要什么样的数据分析人才中,我们将尝试找到一些重要问题的答案,每个大数据分析求职者都将想到这些问题。
1)公司正在寻找的顶级技能是什么?
2)业界最需要的经验水平是什么?
3)在该领域积极提供工作的公司有哪些?
4)什么地方有更多空缺?
一、网页抓取
我已经从中国顶级职位门户网站收集了所有相关的职位信息, 这些日子几乎几乎每个求职者和招聘人员都在使用。由于传统的BeautifulSoap方法在该站点上无法正常工作,因此我一直使用selenium-python进行网络抓取。
免责声明:网络爬网纯粹是出于教育目的。
对于每项工作,我们将抓取这五个要素:角色,公司名称,经验,位置和关键技能。
抓取代码:
二、预处理
在开始之前,我们先做一些基本的预处理。
2.1、处理缺失值:
执行基本清理,找到丢失的值并将其删除。
2.2、处理重复数据:
在处理重复数据时,我们必须非常小心,因为公司可能会多次发布相同的要求,因为该工作仍处于开放状态,或者另一方面,公司可能正在寻找具有相同要求的全新职位 。为简单起见,我没有删除任何数据。
2.3、标记位置和技能列
将所有字符串转换为小写只是为了避免冗余,并标记了位置和技能列,因为这些列中有多个值。
这就是预处理后的样子。
三、分析
现在,我们拥有一切开始。
3.1、哪个位置提供更多空缺?
注意:如果您不是来自中国,请随时跳过此位置部分。
1)如果我们观察以上情节,几乎有 38% 的工作位于 班加罗尔。
2)班加罗尔,孟买,海得拉巴 和 浦那排名前四的城市几乎占该国大数据分析工作总数的72 % 。
3)因此,如果您来自这些城市中的任何一个,则获得大数据分析师工作的机会可能比其他城市多。
3.2、哪些公司正在积极招聘?
1)Analytics Vidhya educon 排名第一,几乎 占总职位清单的21%。
2)列表上也有很多 顾问。这些顾问通常为他们的客户进行招聘。
3)通常,工作门户中的竞争会非常激烈。大多数时候,由于收到大量申请,招聘人员甚至可能不会查看您的个人资料。在某些情况下,即使是一个空缺,您也必须与其他数百名申请人竞争。最好了解正在积极招聘的公司,以便我们可以直接通过其官方网站进行申请,这增加了进行面试的可能性。
3.3、最想要的体验是什么?
各种经验水平的工作机会。
1)我们可以看到,公司显然正在寻找有 经验的候选人。具有 5至10年经验的候选人似乎还有更多空缺。 这是有道理的,因为大数据分析师的工作涉及经验带来的关键决策技能。
2)具有至少2年 经验的候选人 有相当好的机会。
3)这并不意味着新生不可以进入,而只是经验丰富的候选人比新生更多的空缺。公司通常不从这些工作门户网站招聘应届毕业生,而是直接从校园招聘中招聘新生。新生可以随时选择为初创公司工作以获得必要的经验。
3.4、需求角色是什么
这是要研究的重要步骤,因为在获得一些结果之后,工作门户通常会开始显示与我们正在寻找的工作无关的其他一些工作。为了确保我们正在寻找合适的角色,让我们检查一下经常提到的前10个角色。
1)如果我们在上一节中观察到,有更多经验的人有更多空缺,这使我们有一个基于角色的空缺问题。
2)大多数职位空缺仍被称为大数据分析师。其次是高级大数据分析师和首席大数据分析师,他们当然需要良好的先前经验。
3.5、公司正在寻找的技能
最后,我们到了。您可能正在阅读此书的主要原因。
1)看起来非常正确,不要担心,我将在后面部分对其进行分解。我之所以包含许多技能的原因是由于大数据分析涉及的领域广泛。
2)尽管我们能够在上面的图表中描述一些顶级技能,但它仍然不能满足此分析的目的。
让我们深入了解更清楚的趋势。
3.5.1)必须具备的技能?
1)机器学习作为大数据分析师拥有的最重要技能,这不足为奇。
2)数据挖掘 和 数据分析 是每个大数据分析师必须经历的关键活动。
3)要成为更好的大数据分析师,就需要强大的统计模型。
4)公司期望深度学习方面有丰富的知识, 因为它提供了解决诸如NLP 和 Computer Vision等领域中一些有趣的实时问题的最新技术。
5)由于每天记录的数据量大量增加,用人单位希望候选人对大数据技术有所了解。实时地,我们可能正在研究庞大的数据集,这些技能肯定会派上用场。
3.5.2)需要编程语言吗?
1)如果您刚开始学习大数据分析,那么一开始,您肯定会发现选择正确的编程语言非常困难。尽管有许多语言,公司企业需要什么样的数据分析人才https://www.aaa-cg.com.cn/data/2524.html但是竞争一直是Python和R本身之间的竞争。让我们看看什么数据在告诉我们。
2)由于其丰富的库以及 R 语言,该行业仍然支持 Python。
3)对于每个大数据分析师来说,SQL都是必须的。尽管不适合被视为编程语言,但我还是趁机将其包括在这里:)。
4)在python和R之后,似乎对SAS 和 C ++ 语言有很好的需求。
3.5.3)选择的深度学习框架?
1)由于深度学习的突然兴起,许多深度学习框架都由Google和Facebook等巨头进入市场。
2)与PyTorch相比, 该行业赞成 Tensorflow。
3)Keras 在市场上占有很好的份额,由于其简单易用的特性,人们喜欢它。
4)尽管还有许多其他框架,例如Caffe,Maxnet,但似乎没有多少空缺。如果不是全世界,至少在中国。
3.5.4)哪种大数据技术具有优势?
1)Spark 排名第一。可以使用spark -Pyspark的python版本。
2)Hadoop 的机会几乎与Spark相同,只是差别很小。
3)Hive 也有很多空缺 。
3.5.5)哪个云提供商需要ML?
1)训练模型涉及大量计算,而这些计算很容易变得非常昂贵。公司正在寻找更便宜的方式来完成工作,这就是这些云平台出现的地方。
2)AWS 排名第一,其次是 Azure。
3)公司正在迅速向云选项发展。这些技术在未来的大数据分析中将有更多的机会发挥重要作用。
3.5.6)需要数据可视化工具吗?
1)雇主对于Tableau 的数据可视化表现出更多的兴趣 。
2)尽管Microsoft的 Power BI 仍然落后。
结论:
如果您具备大数据分析师提到的所有必备技能,那么最好的方法应该是开始参加面试,同时尝试填补自己的理解空白,并学习可以为您带来优势的工具/技术。超过其他候选人。
相关推荐
大数据分析python时间序列ARIMA模型
大数据分析python时间序列ARIMAX模型
大数据分析R语言RStudio使用教程
大数据分析python自回归模型