尚硅谷2020大数据最新课程完整版
大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
大数据学习路线:
文件存储:Hadoop HDFS、Tachyon、KFS
离线计算:Hadoop MapReduce、Spark
流式、实时计算:Storm、Spark Streaming、S4、Heron
K-V、NOSQL数据库:HBase、Redis、MongoDB
资源管理:YARN、Mesos
日志收集:Flume、Scribe、Logstash、Kibana
消息系统:Kafka、StormMQ、ZeroMQ、RabbitMQ
查询分析:Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid
分布式协调服务:Zookeeper
集群管理与监控:Ambari、Ganglia、Nagios、Cloudera Manager
数据挖掘、机器学习:Mahout、Spark MLLib
数据同步:Sqoop
任务调度:Oozie
数据生产
数据的生产方式多种多样,不管你是在服务器上埋点收集日志,还是直接采集数据到数据库,或者通过爬虫爬取数据,调用第三方接口等都可以生产大量的数据。生产数据很简单,但是要保证数据的有效性和可靠性就需要花费大量的精力去维护了。数据的生产是进行各种业务的源头,没有数据就没法进行分析和挖掘。
1.日志埋点收集
日志收集是在集群中每台服务器安装日志收集客户端,最后把日志汇总收集到服务端,注意客户端一定要限制CPU占用率、网络带宽,同时要定期清理日志或者做成滚动日志,日志采用异步的方式传输,一般会有延迟,如果日志堆积,可能面临日志丢失风险。
2.数据采集
由客户行为或者传感器收集数据,上传到服务器并且保存到数据库。
3.爬虫
爬虫会有针对性的抓取互联网上的公共数据。
4.数据接入
可以通过服务访问第三方的数据,接入数据或者提供数据接入的时候一定要评估好容量。避免过多的访问导致服务奔溃。
数据管理
数据管理包括2部分,一部分是对数据的信息进行管理,即对数据的基础信息做存储,方便查找对应的数据,类似图书馆的图书管理系统。另一部分就是根据数据的结构和对应的场景,保存数据到对应的数据库中。
1.元信息管理
MySQL
2.数据库
Hadoop
Hbase [Vedio] - 尚硅谷HBase教程(hbase框架快速入门)
MySQL [Vedio] - MySQL从入门到精通视频教程 (46集全)
Redis [Vedio] - 尚硅谷Redis视频教程
图数据库 [Vedio] - Neo4j图数据库实战
数据处理
数据的处理包括2部分,一部分是离线计算,这部分的数据对实时性的要求不是太高,处理完的数据可以T+1,T+2, T+7上线。另一部分是在线实时计算,对数据实时性要求高的场合,如风控、营销、推荐等场合。
1.离线计算
apache spark [Vedio] - 尚硅谷大数据Spark-2019版最新
2.实时计算
apache flink [Vedio] - 尚硅谷_2019最新 大数据工程师 Flink技术与实战
apache storm
数据可视化
数据可视化分为数据生产的可视化,还有数据展示的可视化,数据的整个流向等。比较典型的例子是数据看板。
1.开源库
d3.js [Vedio] - 数据可视化教程@基于D3.js
2.可视化工具
数据分析
数据分析主要是对上述生成好的数据制定一些测量,可以用统计学的方法,也可以采用机器学习的方法,也可以采用图表进行辅助。数据分析就是为了得出一些结论,或者方法来处理数据,或者指导公司的发展。
1.数据分析工具
python pandas
excel
2.分析结果
规则
模型
发表回复
要发表评论,您必须先登录。