一、首先你要知道你学习目的是什么?
大数据是一门非常专业的课程,想要深入学习,那么你要学习的东西非常多。所以首先你要清楚,你想学习到什么程度?如果只是拓宽知识面或者提升职业技能,那么学习入门级课程,已经可以让你在工作中使用,比如利用大数据进行数据处理和分析。如果你确定以后要从事大数据行业的工作,那么恐怕你要下一番苦功夫。毕竟如果学一下就会了,那么大数据行业现在恐怕已经被挤破门槛了。
知道了学习目的,那么如何开始学呢?
作为零基础新手小白,要进入一个新的技术领域,首先心理上要有充分的准备,因为学习是需要足够的时间和精力投入的。另外关于学习方法,有的人习惯购买视频或书籍自学,有的人喜欢跟着老师学。如果选择自学,一定要有一个完善的学习规划。可以多利用网络资源,多逛技术论坛,可以多参考前辈的学习路线和方法,结合自己的实际情况,作出量化指标,长期坚持,实现从量变到质变。
但是我个人认为除非自控力特别强的人,还是跟着老师学习比靠谱,毕竟大数据对实际操作要求的比较高。一方面同学间可以互相激励,交流,避免在学习中自制力不够的问题。另一方面,当你遇到问题时老师能及时帮你解决,还能节约时间,避免走弯路。
二,到底大数据学习都需要学习什么?
1)学习一门计算机的编程语言:建议先学习Java或Scala。
2)学习计算处理框架:严格来说,这分为离线批处理和流式处理,建议学习Flink、Spark Streaming或Kafka Streams中的一个。
3)分布式存储框架:建议学习HDFS。
4)资源调度框架:建议学习YARN。
5)分布式协调框架:建议学习Zookeeper——太多大数据框架都需要它了,比如Kafka, Storm, HBase等。
6)KV数据库:典型的就是memcache和Redis了,特别是Redis简直是发展神速,建议学习Redis,如果C语言功底好的,熟读源码,反正源码也不多。
7)列式存储数据库:建议学习HBASE,这是目前应用最广泛的开源列式存储。
8)消息队列:大数据工程处理中消息队列作为“削峰填谷”的主力系统是必不可少的,当前该领域内的解决方案有很多,包括ActiveMQ,Kafka等。建议学习Kafka,不仅仅好找工作,还能触类旁通进一步理解基于备份日志方式的数据处理模型。