大数据的基础知识上(大数据的概念和生态、linux系统与命令、虚拟机导入、虚拟机额配置和联网)
目录
一、数据分析的方向
这三个方向正好对应大数据中的三个名词:
实时分析,离线分析和机器学习
实时分析是指 别名流式计算、流式处理。
二、数据分析步骤
数据分析步骤 (流程)的重要性体现在:对如何开展数据分析提供了强有力的逻辑支撑;
张文霖在《数据分析六步曲》说,典型的数据分析应该包含以下几个步骤
1.明确分析目的和思路
2.数据传输收集过程
3.数据处理
干净规整的结构化数据
4.数据分析
5.数据展现
6.报告撰写
甚至可以卖钱 给出商业建议
数据从数据源来到应用的地方去
核心:采集 处理 分析 应用
三、数据是什么 大数据时代
(通俗的说 就是数据太大 普通方法处理不了(上万))
数据大是一回事 数据还要真实才行
大数据的应用有哪些
●电商领域
精准广告位、个性化推荐、大数据杀熟
●传媒领域
精准营销、猜你喜欢、交互推荐
●金融方面
理财投资,通过对个人的信用评估,风险承担能力评估,集合众多理财产品、推荐响应的投资理财产品。
●交通领域
拥堵预测、智能红绿灯、导航最优规划
●电信领域
基站选址优化、舆情监控、客户用户画像
●安防领域
犯罪预防、天网监控
●医疗领域
智慧医疗、疾病预防、病源追踪
思考:大数据的存储和计算的两大问题
四、分布式和集群
数据结构真实才能更好额的反应民意。
最几年数据呈现爆炸级增长,然而我们要好好儿利用数据,分析数据,因为数据之中有规律,数据之中有价值。
1.概念
分布式:如京东。多台机器,但是每台机器上运行着不同的服务。有的承担支付服务,有的服务器专门承担用户评论等等。多台机器通过网络通信共同配合,对外提供服务。
集群:多台机器,每台机子上的系统是一样的。如,百度,多个服务器实现搜索功能。
🎡(by the way)大数据生态系统
🎡(by the way)大数据和物联网、人工智能、云计算的关系
五、linux的关键
虚拟机:
课程链接:https://www.bilibili.com/video/BV1CU4y1N7Sh/?p=8&spm_id_from=pageDriver&vd_source=d338e92ddec199319e45ef9dcafbf6c4
这个讲的导入虚拟机其实还可以。
SHH协议
五、linux文件系统
1. 基础知识
概念
文件系统通用特点
当前路径 相对路径 绝对路径
绝对路径是从根目录开始
特殊符号
ll 加参数.a 表示查看隐藏文件
ls / 查看更目录下的目录清单
ls ./ 查看当前目录下不是隐藏的目录清单(目录包括文件和文件夹)
知到自己在哪个目录的命令:pwd
2.常用命令
tab键可以补全
显示目录内容
切换目录
主要是:绝对路径,相对路径和特殊符号的使用
创建删除
举例:
强制递归删除文件目录:
rm -rf +当前目录下你要删除的目录名称
复制和移动
可以用移动这个命令来实现重命名的功能
文件内容查看
- cat查看太大的文件容易爆炸
- tail -f 这个组合命令 用于实时检测
其他命令
管道 不如展示所有内容的命令 管道后面4
在这里插入图片描述
tar命令 和它的参数
打包 压缩 解压
系统命令
时间、日期查看
内存、磁盘使用率查看
进程查看