python班级数据分析(python数据分析怎么做)

时间:2023-03-20 06:58来源:考试资源网 考试资料网
python班级数据分析(python数据分析怎么做)

python班级数据分析(python数据分析怎么做)

admin3周前免费1

python数据分析2:DataFrame对象

DataFrame对象:二维表数据结构,由行列数据组成的表格

常用index表示行,columns表示列

'''

? 语文? 数学? 英语

0? 110? 105? ? 99

1? 105? ? 88? 115

2? 109? 120? 130

'''

# print(df.columns)? # Index(['语文', '数学', '英语'], dtype='object')

# print(df.index)? # Int64Index([0, 1, 2], dtype='int64')

# 遍历DataFrame数据的每一列

'''

0? ? 110

1? ? 105

2? ? 109

Name: 语文, dtype: int64

0? ? 105

1? ? 88

2? ? 120

Name: 数学, dtype: int64

0? ? 99

1? ? 115

2? ? 130

Name: 英语, dtype: int64

'''

1.创建一个DataFrame对象

pandas.DataFrame(data,index,columns,dtype,copy)

# data表示数据,可以是ndarray数组,series对象、列表、字典等

# index表示行标签(索引)

# columns表示列标签(索引)

# dtype每一列数据的数据类型

# copy用于复制数据

# 返回值DataFrame

通过二维数组创建成绩表

'''

? 语文? 数学? 英语

0? 110? 105? ? 99

1? 105? ? 88? 115

2? 109? 120? 130

'''

2.通过字典创建DataFrame对象

value值只能是一维数组或单个的简单数据类型

# 数组,则要求所有的数组长度一致

# 单个数据,每行都需要添加相同数据

'''

? 语文? 数学? 英语? ? 班级

0? 110? 105? 109? 高一7班

1? 105? ? 88? 120? 高一7班

2? ? 99? 115? 130? 高一7班

'''

'''

【DataFrame属性】

values 查看所有元素的值? df.values

dtypes 查看所有元素的类型? df.dtypes

index 查看所有行名、重命名行名? df.index? ? df.index=[1,2,3]

columns 查看所有列名、重命名列名? df.columns? df.columns=['语','数']

T 行列数据转换? df.T

head 查看前n条数据,默认5条? ? ? ? ? ? ? ? df.head()? df.head(10)

tail 查看后n条数据,默认5条? ? ? ? ? ? ? ? df.tail()? df.tail(10)

shape 查看行数和列数,[0]表示行,[1]表示列? ? df.shape[0]? df.shape[1]

info 查看索引,数据类型和内存信息? ? df.info

【DataFrame函数】

describe 查看每列的统计汇总信息,DataFrame类型? df.describe()

count? ? 返回每一列中的非空值的个数? ? ? ? ? ? ? df.count()

sum? ? ? 返回每一列和和,无法计算返回空值? ? ? df.sum()

max? ? ? 返回每一列的最大值? ? ? ? ? ? ? ? df.max()

min? ? ? 返回每一列的最小值? ? ? ? ? ? ? ? df.min()

argmax? 返回最大值所在的自动索引位置? ? ? ? df.argmax()

argmin? 返回最小值所在的自动索引位置? ? ? ? df.argmin()

idxmax? 返回最大值所在的自定义索引位置? ? ? df.idxmax()

idxmin? 返回最小值所在的自定义索引位置? ? ? df.idxmin()

mean? ? 返回每一列的平均值? ? ? ? ? ? ? ? df.mean()

median? 返回每一列的中位数? ? ? ? ? ? ? ? df.median()

var? ? ? 返回每一列的方差? ? ? ? ? ? ? ? ? df.var()

std? ? ? 返回每一列的标准差? df.std()

isnull? 检查df中的空值,空值为True,否则为False,返回布尔型数组? df.isnull()

notnull? 检查df中的空值,非空值为True,否则为False,返回布尔型数组? df.notnull()

中位数又称中值,是指按顺序排列的一组数据中居于中间位置的数

方差用于度量单个随机变量的离散程序(不连续程度)

标准差是方差的算术平方根,反映数据集的离散程度

'''

3. 导入.xls或.xlsx文件

# pandas.read_excel(io,sheetname=0,header=0,names=None,index_col=None,usecols=None,squeeze=False,dtype=None,engine=None,converters=None,true_values=None,false_values=None,skiprows=None,nrow=None,na_values=None,keep_defalut_na=True,verbose=False,parse_dates=False,date_parser=None,thousands=None,comment=None,skipfooter=0,conver_float=True,mangle_dupe_cols=True,**kwds)

'''

io 字符串,xls或xlsx文件路径或类文件对象

sheet_name:None、字符串、整数、字符串列表或整数列表,默认值为0

? ? 字符串用于工作表名称;整数为索引,表示工作表位置

? ? 字符串列表或整数列表用于请求多个工作表,为None时则获取所有的工作表

? ? sheet_name = 0 第一个Sheet页中的数据作为DataFrame对象

? ? sheet_name = 1 第二个Sheet页中的数据作为DataFrame对象

? ? sheet_name = 'Sheet1' 名为Sheet1的Sheet页中的数据作为DataFrame对象

? ? sheet_name = [0,1,'Sheet3'] 第一个,第二个和名为Sheet3的Sheet页中的数据作为DataFrame对象

header:指定作为列名的行,默认值为0,即取第一行的值为列名。或数据不包含列名,则为header=None

names:默认值为None,要使用的列名列表

index_col:指定列为索引列,默认值为None,索引0是DataFrame对象的行标签

usecols:int、list或字符串,默认值为None

? ? 如为None,则解析所有列

? ? 如为int,则解析最后一列

? ? 如为list列表,则解析列号和列表的列

? ? 如为字符串,则表示以逗号分隔的Excel列字母和列范围列表

squeeze:布尔值,默认为False,如果解析的数据只包含一列,则返回一个Series

dtype:列的数据类型名称为字典,默认值为None

skiprows:省略指定行数的数据,从第一行开始

skipfooter:省略指定行数的数据,从尾部数的行开始

4.导入指定Sheet页的数据

# sheet_name=0表示第一个sheet页的数据,以此类推,如果不指定,则导入第一页

5.指定行索引导入Excel数据

'''

Empty DataFrame

Columns: []

Index: [1, 3, 5]

'''

# 导入第一列数据

'''

Empty DataFrame

Columns: []

Index: [1, 3, 5]

'''

python数据分析的一般步骤是什么

下面是用python进行数据分析的一般步骤:

一:数据抽取

从外部源数据中获取数据

保存为各种格式的文件、数据库等

使用Scrapy爬虫等技术

二:数据加载

从数据库、文件中提取数据,变成DataFrame对象

pandas库的文件读取方法

三:数据处理

数据准备:

对DataFrame对象(多个)进行组装、合并等操作

pandas库的操作

数据转化:

类型转化、分类(面元等)、异常值检测、过滤等

pandas库的操作

数据聚合:

分组(分类)、函数处理、合并成新的对象

pandas库的操作

四:数据可视化

将pandas的数据结构转化为图表的形式

matplotlib库

五:预测模型的创建和评估

数据挖掘的各种算法:

关联规则挖掘、回归分析、聚类、分类、时序挖掘、序列模式挖掘等

六:部署(得出结果)

从模型和评估中获得知识

知识的表示形式:规则、决策树、知识基、网络权值

更多技术请关注python视频教程。

python如何做数据分析

用Python做数据分析,大致流程如下:

1、数据获取

可以通过SQL查询语句来获取数据库中想要数据。Python已经具有连接sql server、mysql、orcale等主流数据库的接口包,比如pymssql、pymysql、cx_Oracle等。

2、数据存储

企业当中的数据存储,通过通过数据库如Mysql来存储与管理,对于非结构化数据的存储可以使用MongoDB等。对于使用Python进行网络抓取的数据,我们也可以使用pymysql包快速地将其存储到Mysql中去。

3、数据预处理/数据清洗

大多数情况下,原始数据是存在格式不一致,存在异常值、缺失值等问题的,而不同项目数据预处理步骤的方法也不一样。Python做数据清洗,可以使用Numpy和Pandas这两个工具库。

4、数据建模与分析

常见的数据挖掘模型有:分类、聚类、回归等,这些常见的算法模型,Python也有Scikit-learn和Tensorflow工具库来支持。

5、数据可视化分析

在数据可视化方面,Python有Matplotlib、Seaborn、Pyecharts等工具库可用。

怎样用 Python 进行数据分析?

做数据分析,首先你要知道有哪些数据分析的方法,然后才是用Python去调用这些方法

那Python有哪些库类是能做数据分析的,很多,pandas,sklearn等等

所以你首先要装一个anaconda套件,它包含了几乎所有的Python数据分析工具,

之后再学怎么分析。


    “python班级数据分析(python数据分析怎么做)”由考试资料网(www.kszl.net)整理!仅供学习参考!具体以权威部门公布的内容为准!

------分隔线----------------------------


------分隔线----------------------------