python - 你如何判断 sys.stdin.readline() 是否会阻塞？-6ren

python - 你如何判断 sys.stdin.readline() 是否会阻塞？

转载作者：太空狗更新时间：2023-10-29 17:34:37

如何确定对 sys.stdin.readline() (或更一般地说，任何基于文件描述符的文件对象上的 readline() )的调用是否会阻塞？

当我在 python 中编写基于行的文本过滤程序时会出现这种情况；
也就是说，程序反复从输入中读取一行文本，可能对其进行转换，然后将其写入输出。

我想实现一个合理的输出缓冲策略。
我的标准是:

处理数百万时应该是高效的
批量行——主要是缓冲输出，偶尔刷新。

在保持缓冲输出时，它不应该阻塞输入。

因此，无缓冲输出是不好的，因为它违反了 (1)(对操作系统的写入过多)。
并且行缓冲输出不好，因为它仍然违反(1)
(将一百万行中的每一行的输出都刷新到操作系统是没有意义的)。
默认缓冲输出也不好，因为它违反了 (2)(如果输出到文件或管道，它将不适本地保留输出)。

我认为，在大多数情况下，一个好的解决方案是:
“每当(其缓冲区已满或)sys.stdin.readline() 即将阻塞时，刷新 sys.stdout”。
可以实现吗？

(请注意，我并不声称此策略适用于所有情况。例如，
在程序受 CPU 限制的情况下，这可能并不理想；在这种情况下，这可能是明智的
更频繁地刷新，以避免在进行长时间计算时保留输出。)

为了确定性，假设我正在 python 中实现 unix 的“cat -n”程序。

(实际上，“cat -n”比一次一行更聪明；也就是说，它知道如何
在读取整行之前读取和写入行的一部分；
但是，对于此示例，无论如何我将一次一行地实现它。)

行缓冲实现

(表现良好，但违反了标准(1)，即由于冲洗过多而慢得不合理):

#!/usr/bin/python
# cat-n.linebuffered.py
import sys
num_lines_read = 0
while True:
  line = sys.stdin.readline()
  if line == '': break
  num_lines_read += 1
  print("%d: %s" % (num_lines_read, line))
  sys.stdout.flush()

默认缓冲实现

(快速但违反标准(2)，即不友好的输出扣留)

#!/usr/bin/python
# cat-n.defaultbuffered.py
import sys
num_lines_read = 0
while True:
  line = sys.stdin.readline()
  if line == '': break
  num_lines_read += 1
  print("%d: %s" % (num_lines_read, line))

期望的实现:

#!/usr/bin/python
num_lines_read = 0
while True:
  if sys_stdin_readline_is_about_to_block():  # <--- How do I implement this??
    sys.stdout.flush()
  line = sys.stdin.readline()
  if line == '': break
  num_lines_read += 1
  print("%d: %s" % (num_lines_read, line))

所以问题是:是否可以实现 sys_stdin_readline_is_about_to_block() ？

我想要一个在 python2 和 python3 中都有效的答案。
我已经研究了以下每一种技术，但到目前为止还没有任何结果。

使用 select([sys.stdin],[],[],0) 查看从 sys.stdin 读取是否会阻塞。 (当 sys.stdin 是缓冲文件对象时，这不起作用，至少有一个可能有两个原因:(1)如果部分行准备好从底层输入管道读取，它会错误地说“不会阻塞”， (2) 如果 sys.stdin 的缓冲区包含一个完整的输入行，但底层管道还没有准备好进行额外的读取，它会错误地说“将阻塞”......我认为)。

非阻塞 io，使用 os.fdopen(sys.stdin.fileno(), 'r') 和 fcntl 和 O_NONBLOCK(我无法让它在任何 python 版本中与 readline() 一起使用:
在python2.7中，只要有部分行进来，它就会丢失输入；
在python3中，似乎无法区分“会阻塞”
和输入结束。 ??)

asyncio(我不清楚这在 python2 中有什么可用；我认为它不适用于 sys.stdin；但是，我仍然对仅在从从subprocess.Popen())。

创建一个线程来做 readline() 循环并将每一行传递给主
通过 queue.Queue 编程；然后主程序可以轮询队列之前
从中读取每一行，每当它看到它即将阻塞时，首先刷新标准输出。
(我试过这个，实际上让它工作了，见下文，但它非常慢，比行缓冲慢得多。)

线程实现:

请注意，这并没有严格回答“如何判断 sys.stdin.readline() 是否会阻塞”的问题，但它无论如何都设法实现了所需的缓冲策略。不过太慢了。

#!/usr/bin/python
# cat-n.threaded.py
import queue
import sys
import threading
def iter_with_abouttoblock_cb(callable, sentinel, abouttoblock_cb, qsize=100):
  # child will send each item through q to parent.
  q = queue.Queue(qsize)
  def child_fun():
    for item in iter(callable, sentinel):
      q.put(item)
    q.put(sentinel)
  child = threading.Thread(target=child_fun)
  # The child thread normally runs until it sees the sentinel,
  # but we mark it daemon so that it won't prevent the parent
  # from exiting prematurely if it wants.
  child.daemon = True
  child.start()
  while True:
    try:
      item = q.get(block=False)
    except queue.Empty:
      # q is empty; call abouttoblock_cb before blocking
      abouttoblock_cb()
      item = q.get(block=True)
    if item == sentinel:
      break  # do *not* yield sentinel
    yield item
  child.join()

num_lines_read = 0
for line in iter_with_abouttoblock_cb(sys.stdin.readline,
                                      sentinel='',
                                      abouttoblock_cb=sys.stdout.flush):
  num_lines_read += 1
  sys.stdout.write("%d: %s" % (num_lines_read, line))

验证缓冲行为:

以下命令(在 linux 上的 bash 中)显示了预期的缓冲行为:“defaultbuffered”缓冲过于激进，而“linebuffered”和“threaded”缓冲恰到好处。

(请注意，管道末尾的 | cat 是默认情况下制作 python 块缓冲区而不是行缓冲区。)

for which in defaultbuffered linebuffered threaded; do
  for python in python2.7 python3.5; do
    echo "$python cat-n.$which.py:"
      (echo z; echo -n a; sleep 1; echo b; sleep 1; echo -n c; sleep 1; echo d; echo x; echo y; echo z; sleep 1; echo -n e; sleep 1; echo f) | $python cat-n.$which.py | cat
  done
done

输出:

python2.7 cat-n.defaultbuffered.py:
[... pauses 5 seconds here. Bad! ...]
1: z
2: ab
3: cd
4: x
5: y
6: z
7: ef
python3.5 cat-n.defaultbuffered.py:
[same]
python2.7 cat-n.linebuffered.py:
1: z
[... pauses 1 second here, as expected ...]
2: ab
[... pauses 2 seconds here, as expected ...]
3: cd
4: x
5: y
6: z
[... pauses 2 seconds here, as expected ...]
6: ef
python3.5 cat-n.linebuffered.py:
[same]
python2.7 cat-n.threaded.py:
[same]
python3.5 cat-n.threaded.py:
[same]

时间:

(在 Linux 上的 bash 中):

for which in defaultbuffered linebuffered threaded; do
  for python in python2.7 python3.5; do
    echo -n "$python cat-n.$which.py:  "
      timings=$(time (yes 01234567890123456789012345678901234567890123456789012345678901234567890123456789 | head -1000000 | $python cat-n.$which.py >| /tmp/REMOVE_ME) 2>&1)
      echo $timings
  done
done
/bin/rm /tmp/REMOVE_ME

输出:

python2.7 cat-n.defaultbuffered.py:  real 0m1.490s user 0m1.191s sys 0m0.386s
python3.5 cat-n.defaultbuffered.py:  real 0m1.633s user 0m1.007s sys 0m0.311s
python2.7 cat-n.linebuffered.py:  real 0m5.248s user 0m2.198s sys 0m2.704s
python3.5 cat-n.linebuffered.py:  real 0m6.462s user 0m3.038s sys 0m3.224s
python2.7 cat-n.threaded.py:  real 0m25.097s user 0m18.392s sys 0m16.483s
python3.5 cat-n.threaded.py:  real 0m12.655s user 0m11.722s sys 0m1.540s

重申一下，我想要一个在保持缓冲输出时从不阻塞的解决方案
(“linebuffered”和“threaded”在这方面都很好)，
这也很快:也就是说，速度与“默认缓冲”相当。

最佳答案

你当然可以用 select : 这就是它的用途，它的性能对于少量的文件描述符来说是好的。您必须自己实现行缓冲/中断，以便您可以检测在缓冲(结果是)部分行后是否有更多可用输入。

你可以自己做所有的缓冲(这是合理的，因为 select 在文件描述符级别操作)，或者你可以设置 stdin非阻塞并使用 file.read()或 BufferedReader.read() (取决于您的 Python 版本)使用任何可用的东西。如果您的输入可能是 Internet 套接字，则无论缓冲如何，您都必须使用非阻塞输入，因为 select 的常见实现可以虚假地指示来自套接字的可读数据。 (在这种情况下，Python 2 版本使用 IOError 引发 EAGAIN ；Python 3 版本返回 None 。)

( os.fdopen 在这里没有帮助，因为它不会为 fcntl 使用创建新的文件描述符。在某些系统上，您可以使用 /dev/stdin 打开 O_NONBLOCK 。)

基于默认(缓冲)的 Python 2 实现 file.read() :

import sys,os,select,fcntl,errno

fcntl.fcntl(sys.stdin.fileno(),fcntl.F_SETFL,os.O_NONBLOCK)

rfs=[sys.stdin.fileno()]
xfs=rfs+[sys.stdout.fileno()]

buf=""
lnum=0
timeout=None
rd=True
while rd:
  rl,_,xl=select.select(rfs,(),xfs,timeout)
  if xl: raise IOError          # "exception" occurred (TCP OOB data?)
  if rl:
    try: rd=sys.stdin.read()    # read whatever we have
    except IOError as e:        # spurious readiness?
      if e.errno!=errno.EAGAIN: raise # die on other errors
    else: buf+=rd
    nl0=0                       # previous newline
    while True:
      nl=buf.find('\n',nl0)
      if nl<0:
        buf=buf[nl0:]           # hold partial line for "processing"
        break
      lnum+=1
      print "%d: %s"%(lnum,buf[nl0:nl])
      timeout=0
      nl0=nl+1
  else:                         # no input yet
    sys.stdout.flush()
    timeout=None

if buf: sys.stdout.write("%d: %s"%(lnum+1,buf)) # write any partial last line

仅用于 cat -n ，我们可以在获得它们后立即写出部分行，但这会保留它们以表示一次处理整行。

在我的(不起眼的)机器上，你的 yes测试需要“真正的 0m2.454s 用户 0m2.144s 系统 0m0.504s”。

关于python - 你如何判断 sys.stdin.readline() 是否会阻塞？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52893192/

文章推荐： C# 为什么 form.Close() 不关闭表单？

文章推荐： c# - 如何表示当前的英国时间？

文章推荐： c# - 将图像转换为位图会使背景变黑

python - Python 中的集群或合并集群以减少组数 (Python)
我正在处理一组标记为 160 个组的 173k 点。我想通过合并最接近的(到 9 或 10 个组)来减少组/集群的数量。我搜索过 sklearn 或类似的库，但没有成功。我猜它只是通过 knn 聚类
python - python 列表的子集基于同一列表的元素组，pythonically
我有一个扁平数字列表，这些数字逻辑上以 3 为一组，其中每个三元组是 (number, __ignored, flag[0 or 1])，例如: [7,56,1, 8,0,0, 2,0,0, 6,1,
python - 激活 Python 虚拟环境并在另一个 Python 脚本中调用 Python 脚本
我正在使用 pipenv 来管理我的包。我想编写一个 python 脚本来调用另一个使用不同虚拟环境(VE)的 python 脚本。如何运行使用 VE1 的 python 脚本 1 并调用另一个 p
python - 在焕然一新的 Python 环境中以编程方式从 Python 内部执行 Python 文件
假设我有一个文件 script.py 位于 path = "foo/bar/script.py"。我正在寻找一种在 Python 中通过函数 execute_script() 从我的主要 Python
python - 从 python 脚本但在 python 脚本之外运行 python 脚本
这听起来像是谜语或笑话，但实际上我还没有找到这个问题的答案。问题到底是什么？我想运行 2 个脚本。在第一个脚本中，我调用另一个脚本，但我希望它们继续并行，而不是在两个单独的线程中。主要是我不希望第
python - 使用不同的 python 从 python 运行 python 脚本
我有一个带有 python 2.5.5 的软件。我想发送一个命令，该命令将在 python 2.7.5 中启动一个脚本，然后继续执行该脚本。我试过用 #!python2.7.5 和http://re
python - 为什么从 Python 命令行调用 Python 时 Python 无法找到并运行我的脚本？
我在 python 命令行(使用 python 2.7)中，并尝试运行 Python 脚本。我的操作系统是 Windows 7。我已将我的目录设置为包含我所有脚本的文件夹，使用: os.chdir("
python - 使用动态版本的 Python 执行嵌入的 Python 代码时出现致命的 Python 错误
剧透:部分解决(见最后)。以下是使用 Python 嵌入的代码示例: #include int main(int argc, char** argv) { Py_SetPythonHome
python - python 中识别 python 数组或列表中最大累积差异的最快方法是什么？
假设我有以下列表，对应于及时的股票价格: prices = [1, 3, 7, 10, 9, 8, 5, 3, 6, 8, 12, 9, 6, 10, 13, 8, 4, 11] 我想确定以下总体上最
python - (Python) 通过单选按钮 python 更新背景
所以我试图在选择某个单选按钮时更改此框架的背景。我的框架位于一个类中，并且单选按钮的功能位于该类之外。 (这样我就可以在所有其他框架上调用它们。) 问题是每当我选择单选按钮时都会出现以下错误: co
python - python 中的字符串与正则表达式比较在 python 中失败
我正在尝试将字符串与 python 中的正则表达式进行比较，如下所示， #!/usr/bin/env python3 import re str1 = "Expecting property name
python - python 如何加载Boost.Python 库？
考虑以下原型(prototype) Boost.Python 模块，该模块从单独的 C++ 头文件中引入类“D”。 /* file: a/b.cpp */ BOOST_PYTHON_MODULE(c)
python - python 检查模块 python 的问题
如何编写一个程序来“识别函数调用的行号？” python 检查模块提供了定位行号的选项，但是， def di(): return inspect.currentframe().f_back.f_l
python - 系统 python 与用户 python
我已经使用 macports 安装了 Python 2.7，并且由于我的 $PATH 变量，这就是我输入 $ python 时得到的变量。然而，virtualenv 默认使用 Python 2.6，除
python - [Python] : Python re. 长字符串行的搜索速度优化
我只想问如何加快 python 上的 re.search 速度。我有一个很长的字符串行，长度为 176861(即带有一些符号的字母数字字符)，我使用此函数测试了该行以进行研究: def getExe
python - 编辑字符串 python 正则表达式 python
list1= [u'%app%%General%%Council%', u'%people%', u'%people%%Regional%%Council%%Mandate%', u'%ppp%%Ge
python - Python 映射中的副作用(Python "do" block )
这个问题在这里已经有了答案: Is it Pythonic to use list comprehensions for just side effects? (7 个答案) 关闭 4 个月前。告
python - 使用其值逻辑组合两个 python 列表 - Python
我想用 Python 将两个列表组合成一个列表，方法如下: a = [1,1,1,2,2,2,3,3,3,3] b= ["Sun", "is", "bright", "June","and" ,"Ju
python - Boost.Python python 链接错误
我正在运行带有最新 Boost 发行版 (1.55.0) 的 Mac OS X 10.8.4 (Darwin 12.4.0)。我正在按照说明 here构建包含在我的发行版中的教程 Boost-Pyth
python - 在 Python 中仅使用内置库制作一个基本的网络抓取工具 - Python
学习 Python，我正在尝试制作一个没有任何第 3 方库的网络抓取工具，这样过程对我来说并没有简化，而且我知道我在做什么。我浏览了一些在线资源，但所有这些都让我对某些事情感到困惑。 html 看起来

太空狗

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 你如何判断 sys.stdin.readline() 是否会阻塞？