大数据的基础知识上(大数据的概念和生态、linux系统与命令、虚拟机导入、虚拟机额配置和联网)

一、数据分析的方向

在这里插入图片描述
这三个方向正好对应大数据中的三个名词:
实时分析,离线分析和机器学习
在这里插入图片描述
实时分析是指 别名流式计算、流式处理。
在这里插入图片描述

在这里插入图片描述

二、数据分析步骤

数据分析步骤 (流程)的重要性体现在:对如何开展数据分析提供了强有力的逻辑支撑;

张文霖在《数据分析六步曲》说,典型的数据分析应该包含以下几个步骤
在这里插入图片描述

1.明确分析目的和思路

2.数据传输收集过程

在这里插入图片描述

3.数据处理

在这里插入图片描述
干净规整的结构化数据

4.数据分析

在这里插入图片描述

5.数据展现

在这里插入图片描述

6.报告撰写

在这里插入图片描述
甚至可以卖钱 给出商业建议

数据从数据源来到应用的地方去

核心:采集 处理 分析 应用

三、数据是什么 大数据时代

在这里插入图片描述
(通俗的说 就是数据太大 普通方法处理不了(上万))

在这里插入图片描述

数据大是一回事 数据还要真实才行

大数据的应用有哪些

●电商领域
精准广告位、个性化推荐、大数据杀熟
●传媒领域
精准营销、猜你喜欢、交互推荐
●金融方面
理财投资,通过对个人的信用评估,风险承担能力评估,集合众多理财产品、推荐响应的投资理财产品。
●交通领域
拥堵预测、智能红绿灯、导航最优规划
●电信领域
基站选址优化、舆情监控、客户用户画像
●安防领域
犯罪预防、天网监控
●医疗领域
智慧医疗、疾病预防、病源追踪

思考:大数据的存储和计算的两大问题

四、分布式和集群

数据结构真实才能更好额的反应民意。
最几年数据呈现爆炸级增长,然而我们要好好儿利用数据,分析数据,因为数据之中有规律,数据之中有价值。

1.概念

在这里插入图片描述
分布式:如京东。多台机器,但是每台机器上运行着不同的服务。有的承担支付服务,有的服务器专门承担用户评论等等。多台机器通过网络通信共同配合,对外提供服务。
在这里插入图片描述
集群:多台机器,每台机子上的系统是一样的。如,百度,多个服务器实现搜索功能。
在这里插入图片描述

🎡(by the way)大数据生态系统

在这里插入图片描述
在这里插入图片描述

🎡(by the way)大数据和物联网、人工智能、云计算的关系

在这里插入图片描述

五、linux的关键

虚拟机:

课程链接:https://www.bilibili.com/video/BV1CU4y1N7Sh/?p=8&spm_id_from=pageDriver&vd_source=d338e92ddec199319e45ef9dcafbf6c4
这个讲的导入虚拟机其实还可以。
在这里插入图片描述

SHH协议

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

五、linux文件系统

1. 基础知识

概念
在这里插入图片描述
在这里插入图片描述
文件系统通用特点
在这里插入图片描述
当前路径 相对路径 绝对路径
在这里插入图片描述
绝对路径是从根目录开始
特殊符号
在这里插入图片描述

ll 加参数.a     表示查看隐藏文件
ls /    查看更目录下的目录清单
ls ./   查看当前目录下不是隐藏的目录清单(目录包括文件和文件夹)
知到自己在哪个目录的命令:pwd

2.常用命令

在这里插入图片描述
tab键可以补全
显示目录内容
在这里插入图片描述
切换目录
在这里插入图片描述
主要是:绝对路径,相对路径和特殊符号的使用
创建删除

在这里插入图片描述

举例:在这里插入图片描述
强制递归删除文件目录:
rm -rf +当前目录下你要删除的目录名称
复制和移动

可以用移动这个命令来实现重命名的功能
在这里插入图片描述
文件内容查看
在这里插入图片描述

  • cat查看太大的文件容易爆炸
  • tail -f 这个组合命令 用于实时检测

其他命令
在这里插入图片描述
管道 不如展示所有内容的命令 管道后面4

在这里插入图片描述

tar命令 和它的参数
打包 压缩 解压

系统命令
时间、日期查看
内存、磁盘使用率查看
进程查看