ndarray的基本操作

数组的索引、切片

一维、二维、三维的数组如何索引?

直接进行索引，切片
对象[:, :] –先行后列

二维数组索引方式:

举例: 获取第一个股票的前3个交易日的涨跌幅数据

1 2	# 二维的数组，两个维度 stock_change[0, 0:3]

返回结果:

1	array([-0.03862668, -1.46128096, -0.75596237])

三维数组索引方式:

# 三维
a1 = np.array([[[1,2,3], [4,5,6]], [[12,3,34], [5,6,7]]])

# 返回结果
array([[[1,2,3], [4,5,6]], [[12,3,34], [5,6,7]]])

# 索引、切片
>>> a1[0,0,1] # 输出:2

形状修改

ndarray.reshape(shape, order)

返回一个具有相同数据域，但shape不一样的视图
行、列不进行互换

1
2
3

# 在转换形状的时候，一定要注意数组的元素匹配
stock_change.reshape([5, 4])
stock_change.reshape([-1, 10]) # 数组的形状被修改为: (2,10)，-1: 表示通过待计算

ndarray.resize(new_shape)

修改数组本身的形状 (需要保持元素个数前后相同)
行、列不进行互换

stock_change.resize([5, 4])

# 查看修改后结果
stock change.shape
(5, 4)

ndarray.T

数组的转置
将数组的行、列进行互换

1 2	stock_change.T.shape (4, 5)

类型修改

ndarray.astype(type)

返回修改了类型之后的数组

1	stock_change.astype(np.int32)

ndarray.tostring([order])或者ndarray.tobytes([order])

构造包含数组中原始数据字节的Python字节事

1 2	arr = np.array([[[1,2,3], [4,5,6]], [[12,3,34], [5,6,7]]]) arr.tostring()

jupyter输出太大可能导致崩溃问题【了解】

如果遇到

I0Pub data rate exceeded.
  The notebook server will tenporarily stop sending output 
  to the client in order to avoid crashing it.
  To change this limit, set the config variable
  `--NotebookApp.iopub_data_rate_limit`.

这个问题是在jupyer当中对输出的字节数有限制，需要去修改配置文件。

创建配置文件

1 2	jupyter notebook --generate-config vi ~/.jupyter/jupyter_notebook_config.py

取消注释,多增加

1 2	## (bytes/sec) Maximum rate at which messages can be sent on iopub before they are limited. c.NotebookApp.iopub_data_rate_limit = 10000000

但是不建议这样去修改，jupyter输出太大会崩溃。

数组的去重

np.unique()

1
2
3

temp = np.array([[1,2,3,4],[3,4,5,6]])
>>> np.unique(temp)
array([1,2,3,4,5,6])

逻辑运算

# 生成10名同学，5门功课的数据
>>> score = np.random.randint(40, 100, (10, 5))

# 取出最后4名同学的成绩，用于逻辑判断
>>> test score = score[6:, 0:5]

# 逻辑判断，如果成绩大于60就标记为True 否则为False
>>> test_score > 60
array([[ True, True, True, False, True],
       [ True, True, True, False, True],
       [ True, True, False, False, True],
       [ False, True, True, True, True]])

# B00L赋值，将满足条件的设置为指定的值-布尔索引
>>> test_score[test_score > 60] = 1
>>> test_score
array([[1, 1, 1, 52, 1],
       [1, 1, 1, 59, 1],
       [1, 1, 44, 44, 1],
       [59, 1, 1, 1, 1]])

通用判断函数

np.all()

1
2
3

# 判断前两名同学的成绩[0:2, :]是否全及格
>>> np.all(score[0:2, :] > 60)
False

np.any()

1
2
3

# 判断前两名同学的成绩[0:2, :]是否有大于90分的
>>> np.any(score[0:2, :] > 90)
True

np.where (三元运算符)

通过使用np.where能够进行更加复杂的运算

np.where()

1
2
3

# 判断前四名学生，前四门课程中，成绩中大于60的置为1，否则为0
temp = score[:4, :4]
np.where(temp > 60, 1, 0)

复合逻辑需要结合np.logical_and和np.logical_or使用

#判断前四名学生，前四门课程中，成绩中大于60且小于90的换为1，否则为0
np.where(np.logical_and(temp > 60, temp < 90), 1, 0)

#判断前四名学生，前四门课程中，成绩中大于90或小于60的换为1，否则为0
np.where(np.logical_or(temp > 90, temp < 60), 1, 0)

统计运算

统计指标

在数据挖掘/机器学习领域，统计指标的值也是我们分析问题的一种方式。常用的指标如下:

min(a, axis)
- Return the minimum of an array or minimum along an axis.（返回数组的最小值或沿轴的最小值。）
max(a, axis)
- Return the maximum of an array or maximum along an axis.（返回数组的最大值或沿轴的最大值。）
median(a, axis)
- Compute the median along the specified axis.（计算沿指定轴的中位数。）
mean(a, axis, dtype)
- Compute the arithmetic mean along the specified axis.（计算沿指定轴的算术平均值。）
std(a, axis, dtype)
- Compute the standard deviation along the specified axis.（计算沿指定轴的标准差。）
var(a, axis, dtype)
- Compute the variance along the specified axis.（计算沿指定轴的方差。）

案例: 学生成绩统计运算

进行统计的时候，axis轴的取值并不一定，Numpy中不同的API轴的值都不一样，在这里，axis 0代表列，axis 1代表行去进行统计。

# 接下来对于前四名学生，进行一些统计运算
# 指定列 去统计
temp = score[:4, 0:5]
print("前四名学生，各科成绩的最大分:{}".format(np.max(temp, axis=0)))
print("前四名学生，各科成绩的最小分:{}".format(np.min(temp, axis=0)))
print("前四名学生，各科成绩波动情况:{}".format(np.std(temp, axis=0)))
print("前四名学生，各科成绩的平均分:{}".format(np.mean(temp, axis=0)))

结果:

前四名学生，各科成绩的最大分: [96 97 72 98 89]
前四名学生，各科成绩的最小分: [55 57 45 76 77]
前四名学生，各科成绩波动情况: [16.25576821 14.92271758 8.0311892 10.40432602 4.32290412]
前四名学生，各科成绩的平均分: [78.5 75.75 62.5 85.3 82.25]

如果需要统计出某科最高分对应的是哪个同学?

np.argmax(temp, axis=)
np.argmin(temp, axis=)

1	print("前四名学生，各科成绩最高分对应的学生下标:{}".format(np.argmax(temp, axis=0)))

结果:

1	前四名学生，各科成绩最高分对应的学生下标: [0 2 0 0 1]

数组与数的运算

arr = np.array([[1,2,3,2,1,4], [5,6,1,2,3,1]])
arr + 1
arr / 2

# 可以对比python列表的运算，看出区别
a = [1,2,3,4,5]
a * 3

数组与数组的运算

1 2	arr1 = np.array([[1,2,3,2,1,4], [5,6,1,2,3,1]]) arr2 = np.array([[1,2,3,4], [3,4,5,6]])

上面这个能进行运算吗，结果是不行的!

广播机制

数组在进行矢量化运算的，要求数组的形状是相等的。当形状不相等的数组执行算术运算的时候，就会出现广播机制，该机制会对数组进行扩展，使数组的shape属性值一样，这样，就可以进行矢量化运算了。下面通过一个例子进行说明:

arr1 = np.array([[0],[1],[2],[3]])
arr1.shape
# (4, 1)

arr2 = np.array([1,2,3])
arr2.shape
# (3,)

arr1+arr2

# 结果是:
array([[1,2,3], [2,3,4], [3,4,5], [4,5,6]])

上述代码中，数组arr1是4行1列，arr2是1行3列。这两个数组要进行相加，按照广播机制会对数组ar1和arr2都进行扩展，使得数组arr1和arr2都变成4行3列。

下面通过一张图来描述广播机制扩展数组的过程:

广播机制实现了时两个或两个以上数组的运算，即使这些数组的shape不是完全相同的，只需要满足如下任意一个条件即可。

1.数组的某一维度等长
2.其中一个数组的某一维度为1

广播机制需要扩展维度小的数组，使得它与维度最大的数组的shape值相同，以便使用元素级函数或者运算符进行运算。

如果是下面这样，则不匹配:

A (1d array): 10
B (1d array): 12
A (2d array):     2 x 1
B (3d array): 8 x 4 x 3

思考: 下面两个ndarray是否能够进行运算?

1 2	arr1 = np.array([[1,2,3,2,1,4],[5,6,1,2,3,1]]) arr2 = np.array([[1],[3]])

文章作者: LUCKYLYH

文章链接: https://www.luckylyh.top/post/114868fd.html

机器学习 Numpy

打赏

微信
支付宝

相关推荐

2025-03-21

N维数组-ndarray

ndarray的使用ndarray的属性数组属性反映了数组本身固有的信息。属性名字属性解释 ndarray.shape 数组维度的元组 ndarray.ndim 数组维数 ndarray.size 数组中的元素数量 ndarray.itemsize 一个数组元素的长度（字节） ndarray.dtype 数组元素的类型 ndarray的形状首先创建一些数组。 1234# 创建不同形状的数组>>> a = np.array([[1,2,3],[4,5,6]])>>> b = np.array([1,2,3,4])>>> c = np.array([[[1,2,3],[4,5,6]],[[1,2,3],[4,5,6]]]) 分别打印出形状。 1234567>>> a.shape>>> b.shape>>> C.shape(2,3) # 二维数组(4,) # 一维数组(2,2,3) #...

2025-03-20

认识Numpy

Numpy介绍Numpy（Numerical Python）是一个开源的Python科学计算库，用于快速处理任意维度的数组。 Numpy支持常见的数组和矩阵操作。对于同样的数值计算任务，使用Numpy比直接使用Python要简洁的多。 Numpy使用ndarray对象来处理多维数组，该对象是一个快速而灵活的大数据容器。 ndarray介绍1NumPy provides an N-dimensional array type, the ndarray, which describes a collection of "items" of the same type. NumPy提供了一个N维数组类型ndarray，它描述了相同类型的“items”的集合。用ndarray进行存储： 1234567891011121314import numpy as np# 创建ndarrayscore = np.array([[80, 89, 86, 67, 79],[78, 97, 89, 67, 81],[90, 94, 78, 67, 74],[91, 91,...

2025-03-13

Matplotlib基础绘图功能

完善原始折线图 — 给图形添加辅助功能为了更好地理解所有基础绘图功能，我们通过天气温度变化的绘图来融合所有的基础API使用。需求：画出某城市11点到12点1小时内每分钟的温度变化折线图，温度范围在15度~18度。效果：准备数据并画出初始折线图1234567891011121314151617import matplotlib.pyplot as pltimport random# 画出温度变化图# 0、准备x,y坐标的数据x = range(60)y_hengyang = [random.uniform(15, 18) for i in x]# 1、创建画布plt.figure(figsize=(20, 8), dpi=80)# 2、绘制折线图plt.plot(x, y_hengyang)# 3、显示图像plt.show() 添加自定义x,y刻度 plt.xticks(x, **kwargs) x:要显示的刻度值 plt.yticks(y, **kwargs) y:要显示的刻度值 12345678910# 2.1 添加x,y轴刻度#...

2025-03-18

Matplotlib常见图像绘制

Matplotlib能够绘制折线图、散点图、柱状图、直方图、饼图。我们需要知道不同的统计图的意义，以此来决定选择哪种统计图来呈现我们的数据。常见图形种类及意义折线图：以折线的上升或下降来表示统计数量的增减变化的统计图。特点：能够显示数据的变化趋势，反映事物的变化情况。(变化) api: plt.plot(x, y) 完整代码： 123456789101112131415161718import matplotlib.pyplot as pltimport numpy as np# 0.准备数据x = np.linspace(0, 8, 1000)y = np.linspace(0, 8, 1000)# 1.创建画布plt.figure(figsize=(20, 8), dpi=100)# 2.绘制函数图像plt.plot(x, y)# 2.1 添加网格显示plt.grid()#...

2025-03-29

Seaborn分类数据绘图

数据集中的数据类型有很多种，除了连续的特征变量之外，最常见的就是类别型的数据了，比如人的性别、学历、爱好等，这些数据类型都不能用连续的变量来表示，而是用分类的数据来表示。 Seaborn针对分类数据提供了专门的可视化函数，这些函数大致可以分为如下三种: 分类数据散点图: swarmplot()与 stripplot()。类数据的分布图: boxplot()与 violinplot()。分类数据的统计估算图: barplot()与 pointplot()。类别散点图通过 stripplot()函数可以画一个散点图， stripplot0函数的语法格式如下。 1n.stripplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None, jitter=False) 上述函数中常用参数的含义如下: (1)x，y，hue: 用于绘制长格式数据的输入。 (2)data: 用于绘制的数据集。如果x和y不存在，则它将作为宽格式，否则将作为长格式。 (3)jitter:...

2025-03-29

Seaborn案例分析

本文将租房网站上北京地区的租房数据作为参考，运用前面所学到的数据分析知识，带领大家一起来分析真实数据，并以图表的形式得到以下统计指标: (1)统计每个区域的房源总数量，并使用热力图分析房源位置分布情况 (2)使用条形图分析哪种户型的数量最多、更受欢迎 (3)统计每个区域的平均租金，并结合柱状图和折线图分析各区域的房源数量和租金情况 (4)统计面积区间的市场占有率，并使用饼图绘制各区间所占的比例基本数据介绍将爬到的数据下载到本地，并保存在“链家北京租房数据.csv”文件中，打开该文件后可以看到里面有很多条(本案例爬取的数据共计8224条)信息，具体如下图所示：数据读取准备好数据后，我们便可以使用 Pandas读取保存在CSV文件的数据，并将其转换成DataFrame对象展示便于后续操作这些数据。首先，读取数据: 123456import pandas as pdimport numpy as np# 读取链家北京租房信息file_data =...