profile系统环境配置
概述 /etc/profile文件的改变会涉及到系统的环境。
Linux是一个多用户的操作系统。每个用户登录系统后,都会有一个专用的运行环境。通常每个用户默认的环境都是相同的,这个默认环境实际上就是一组环境变量的定义。用户可以对自己的运行环境进行定制,其方法就是修改相应的系统环境变量。
常在/etc/profile文件中修改环境变量,在这里修改的内容是对所有用户起作用的。
1export PATH=$JAVA_HOME/bin:$PATH
这句的意思就是,把$JAVA_HOME/bin 和 $PATH设置为PATH环境变量,由于这里加上了原来的PATH,所以相当于在原来的PATH上增加了$JAVA_HOME/bin 。
$ :指明变量
: :指明执行先后顺序
Hadoop下载安装
发展背景传统数据处理架构
结构化数据:数据库、数据仓库
非结构化、半结构化数据:NoSQL数据库、并发程序大数据背景下存在的问题
结构化数据::单机处理速度慢。MPP架构存在扩展性、热点问题
非结构化、半结构化数据:NoSQL数据库只负责存储;程序处理时涉及到数据移动、速度慢大数据的特征
数据规模巨大
生成和处理速度极快
数据类型多样
价值巨大但密度较低处理场景离线处理场景
数据仓库
搜索与检索实时处理场景
实时流处理hadoop介绍
Hadoop是个软件,是用于解决海量数据的存储和计算问题,适合离线计算
当我们在存储数据时,先记录数据的元信息,还要计算文件的存储位置
hadoop组成部分
HDFS:Hadoop Distributed File System
分布式文件存储系统
MapReduce:数据的分析计算工具
本质就是JAVA写的代码
分片技术:把计算任务分散进行计算
Yarn:资源调度分配平台
zookeeper去中心化设置:目的是为了搭建一个高可用的服务器集群,永不间断
zookeeper集群也要搭建集群,防止记录服务器宕机
安装JDK1.安装jdk版本Jav ...
BeautifulSoup库
[toc]
一、声明1from bs4 import BeautifulSoup
1soup = BeautifulSoup(爬取内容,解释器)
二、基本元素1.对BeautifulSoup库的理解Beautifulsoup是解析、遍历、维护”标签书“的功能库
2.BeautifulSoup类(1)原理123flowchart LR HTML <--> 标签树 标签树 <--> BeautifulSoup类
123from bs4 import BeautifulSoupsoup = BeautifulSoup("<html>data</html>","html.parser")soup2 = BeautifulSoup(open("D://demo.html"),"html.parser")
(2)解析器
解析器
使用方法
条件
bs4的HTML解析器
BeautifulSoup(mk,”html.parser”)
安装bs4库
lxml的 ...
无题
爬取cnblogs步骤一 分析需求:
爬取想要博主的所有文章并自动分类。
步骤二 观察网站,分析架构:
requests库
requests库[toc]
一、请求方法
方法
说明
requests.request()
构造一个请求,支持以下各方法的基础方法
requests.get()
获取HTML网页的主要方法,应对HTTP的GET
requests.head()
获取HTML网页头信息的主要方法,应对HTTP的HEAD
requests.post()
获取HTML网页的POST方法,应对HTTP的POST
requests.put()
HTML网页的POST方法,应对HTTP的POST
requests.patch()
获取HTML网页的PUT方法,应对HTTP的PUT
requests.delete()
向HTML网页提交删除方法,应对HTTP的DELETE
request方法介绍1request.request(method,url,**kwargs)
method:请求方式,对应get/put/post等7种
url:拟获取页面的url链接
**kwargs:**控制访问的参数,共13个,均为可选项
params:字典或字节序列,作为 ...
scrapy的安装与配置
安装这里建议使用虚拟环境来搭建项目
1pip install scrapy //我这个已经默认为清华源了,如果没有设置,需要声明源,否则可能无法下载
如果安装有问题,需要上https://www.lfd.uci.edu/~gohlke/pythonlibs/下载相应配置
然后使用cmd cd到相应下载文件夹,输入:
1pip insatll -i 文件名
完成后便可进入项目环境
配置进入项目并选择好解释器后在命令行中输入scrapy即可查看信息
输入:
1scrapy startproject 项目名称
来搭建项目;
然后输入:
1scrapy genspider 文件名 网站域名
即可使用基础框架。
以上操作完成后即可进行爬虫的编写了。
linux权限
linux权限[TOC]
一、Shell命令以及运行原理概念:Linux严格意义上说的是一个操作系统,我们称之为“核心(kernel) “ ,但我们一般不能直接使用kernel,而是通过kernel的“外壳”程序(shell),来与kernel沟通
Shell(命令行解释器)的作用:
操作系统的语言是机器语言,用户直接与操作系统沟通成本大,所以Shell将用户的命令翻译给核心(kernel)处理,并将核心的处理结果翻译给用户(提供良好的使用环境)
面对用户的不合意请求,操作系统会拒绝请求,以此来保护操作系统
Shell与bash:
Shell是命令行解释器的统称,而bash的具体的一种命令行解释器
二、Linux权限的概念Linux下有两种用户:
超级用户(root):可以再linux系统下做任何事情,不受限制
普通用户:在linux下做有限的事情
注:超级用户的命令提示符是“#”,普通用户的命令提示符是“$”
三、Linux权限管理1、文件访问者的分类文件和文件目录的所有者: u—User 文件
文件目录的所有者所在的组的用户: g—Group
其它用户: ...
linux服务进程
在 Linux 下,最强大的进程管理命令莫过于 ps 和 top
一、ps 命令 ps 命令是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行和它所运行的状态、进程是否结束、进程有没有僵死、哪些进程占用了过多的资源等。总之大部分信息都是可以通过执行该命令得到的。ps 命令最常用来监控后台进程的工作情况,因为后台进程是不和屏幕、键盘这些标准输入/输出设备进行通信的,所以如果需要检测后台情况,就需要使用 ps 命令了。它的格式如下所示:格式:ps 〔选项〕其主要选项如下。
-a:显示系统中所有进程的信息。
-e:显示所有进程的信息。
-f:显示进程的所有信息。
-l:以长格式显示进程信息。
-r:只显示正在运行的进程。
-u:显示面向用户的格式(包括用户名、CPU 及内存的使用情况等信息)。
-x:显示所有非控制终端上的进程信息。
-p:显示由进程 ID 指定的进程信息。
-t:显示指定终端上的进程信息。
要对进程进行监测和控制,首先要了解当前进程的情况,当然也就需要查看当前进程的状态了。通过 ps 命令查看进程,根据所显示的信息 ...
linux系统变量
Linux的变量种类按变量的生存周期来划分,Linux变量可分为两类:1 永久的:需要修改配置文件,变量永久生效。2 临时的:使用export命令声明即可,变量在关闭shell时失效。
设置变量的三种方法1 在/etc/profile文件中添加变量【对所有用户生效(永久的)】用VI在文件/etc/profile文件中增加变量,该变量将会对Linux下所有用户有效,并且是“永久的”。例如:编辑/etc/profile文件,添加CLASSPATH变量12# vi /etc/profile export CLASSPATH=./JAVA_HOME/lib;$JAVA_HOME/jre/lib注:修改文件后要想马上生效还要运行# source /etc/profile不然只能在下次重进此用户时生效。
2 在用户目录下的.bash_profile文件中增加变量【对单一用户生效(永久的)】用VI在用户目录下的.bash_profile文件中增加变量,改变量仅会对当前用户有效,并且是“永久的”。例如:
编辑guok用户目录(/home/guok)下的.bash_profile
vi /home/gu ...
linux系统文件的查看与安装
linux命令—系统文件操作[TOC]
ls命令—显示命令Linux ls(英文全拼: list directory contents)命令用于显示指定工作目录下之内容(列出目前工作目录所含的文件及子目录)。
语法:1ls [-alrtAFR] [name...]
参数 :
参数
功能
-a
显示所有文件及目录 (. 开头的隐藏文件也会列出)
-d
只列出目录(不递归列出目录内的文件)
-l
以长格式显示文件和目录信息,包括权限、所有者、大小、创建时间等
-r
倒序显示文件和目录
-t
将按照修改时间排序,最新的文件在最前面
-A
同 -a ,但不列出 “.” (目前目录) 及 “..” (父目录)
-F
在列出的文件名称后加一符号;例如可执行档则加 “*”, 目录则加 “/“
-R
递归显示目录中的所有文件和子目录
将 /bin 目录以下所有目录及文件详细资料列出:
1ls -lR /bin
当文件名包含空格、特殊字符或者开始字符为破折号时,可以使用反斜杠(\)进行转义,或者使用引号将文件名括起来。例如:
123ls "my ...







