前言
可迭代对象,迭代器,生成器,相信许多学习Python的小伙伴或多或少都听说过,但你真的知道他们的区别吗?真的知道为什么需要这些概念吗?
本文带你深入了解一系列相关机制,不仅告诉你概念,还告诉你为什么需要这些概念,让你可以举一反三。
本文重点
- - Python在for遍历时做了什么?
- - 为什么需要迭代器?
- - 生成器为什么不能重复使用?
- - Python的动态协议,不一样的迭代实现。
本文字数2000+,不适合初学者,阅读本文需要你有以下Python基础知识:
- - 认识列表(list)
- - for循环等基本语法。
- - 自定义类型,方法。
for循环没有你想象中的那么简单
能够看到这里的小伙伴必定已经很熟悉for循环,但你可能不知道Python在背后为你做了许多事情。
用一个简单例子来说明一下,当前有一个列表,里面装着4个数字,我们需要把数字逐一打印出来。
如下图,分别用两种方式实现:
- - 行5-行7,第一种方式,通过索引访问列表
- - 行10-行11,直接通过for遍历。
- - 大家有想过吗?为什么第二种方法,不需要一个变量 i 来记录当前读取位置呢。
答案是,不管什么方式,其实都需要在遍历过程保持一个状态值,以表示现在遍历到哪个元素。
但是为什么我们平时使用的for循环却不需要呢?
因为Python在for循环之前静悄悄地做了以下事情:
- - 行10,这里是遍历的开始。但别以为 Python 是直接向 nums 拿数值。
- - 在遍历开始之前,Python 会先问 nums 拿一个叫迭代器的东西。
- - 然后每次都问这个迭代器拿数值,然后把数值赋给变量 n 。
我们来看看示意图:
- - Python 通过 iter(nums) 拿到一个迭代器,然后才开始遍历。
- - 第一次遍历时,会问迭代器拿一个元素,然后把元素赋值给变量 n 。
- - 整个过程,iter 执行了一次,next 执行了4次。
- - 之前说的状态值 i ,其实就保存在迭代器中。
- - 以上的步骤从代码上是看不到的。
可以看到,迭代器就是为了保存遍历状态而设定的。
迭代器的由来
你可能会疑惑,为什么多此一举,非要弄一个所谓的迭代器出来?
可以把状态值 i ,保存在列表对象中啊。
答案是,因为在嵌套for遍历的时候,需要两个for的状态值 i 是独立分开的。
看下图:
- - 如果状态值 i 直接保存在列表对象中,那么这里的嵌套遍历就乱套了。
- - 可见,这里 Python 会为我们创建了2个独立的迭代器,独立维护了2个状态值 i 。
上面例子中,列表 nums 称为"可迭代对象"
说白了,迭代器就是用于维护一个遍历过程中的状态数据。
不是任何对象都有迭代器的
以上就是迭代器的由来,但似乎目前为止我们都没看到迭代器是个啥样。
通过下图的代码,来看看迭代器吧:
- - 行22,通过 iter 方法从列表 nums 中获取一个迭代器。
- - 行26,通过 next 方法从迭代器 tor 中获取一个值。
- - 行24-行29,就是整个遍历的过程。
- - 行28,当列表中的值都被取出来后,在行26 中再次问 tor 获取值的时候,就会出现 StopIteration 的错误。
重点归纳一下:
- - 如果一个类正确实现了 `__iter__` 方法,那么这个对象叫"可迭代对象"
- - 可以通过 iter 方法从可迭代对象身上获取一个迭代器。
- - 迭代器是一个正确实现 `__next__` 方法的对象。
- - 迭代器的状态是无法重置,只能向前。一旦遍历完毕,则无法再次使用。
- - 例子中, nums 列表是一个可迭代对象。
> 题外话:实际上迭代器还正确实现了 `__iter__` 方法,不过这个方法只是简单地返回迭代器自身。
生成器其实就是一种迭代器
所谓的生成器,指定的是一种不断生成输出东西的事物,同样地可以通过 next 方法从生成器上获取输出。
是不是与迭代器的概念不谋而合?那又是为什么弄这样的一个概念出来?
生成器的特点
- - 生成器的数据来源与迭代器不一样。
- - 行48-行51,生成器的来源不一定是可迭代对象,他可以是一个不断输出值的函数。
- - 行45,因此,生成器有着迭代器一样的性质。不能重复使用。
真的需要 `__iter__` 才是可迭代对象吗?
Python中的协议不像Java或C#这么严格,当一个对象实现了 `__getitem__` 方法,并且可以从0索引开始访问元素时,同样也可以迭代他。
如下:
- - 行62,实现了 `__getitem__` 方法,就是让这个对象可以通过诸如 mn[0] 这样的方式去获取元素。
- - Python 在 for 循环时,发现 MyNums 虽然没实现 `__iter__` 方法,但有 `__getitem__` 方法,那么自然可以通过维护一个状态索引值 i ,不断调用 `__getitem__` 方法实现遍历的效果。
小结
- - 我们平时经常使用的列表,元组,字典等集合,他们都是可迭代对象。
- - 遍历可迭代对象时,实际是从可迭代对象获取一个迭代器进行的。
- - 迭代器在 Python 中被定义为"只读向前",一旦使用完毕,则不能再次使用。
- - 生成器就是一种迭代器,因此拥有迭代器同样的性质与限制。
- - 当自定义类型需要可迭代时,实现 `__iter__` 方法。
- - 如果没有实现 `__iter__` 方法,那么实现 `__getitem__` 方法也是可以支持迭代。
扫描二维码
获取更多精彩
数据大宇宙
本文分享自微信公众号 - 数据大宇宙(data2fun)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。