了解 TCP 系统调用序列

从内核到应用程序级别的函数调用序列

TCP/IP 编程接口提供各种系统调用,以帮助您有效地使用该协议。TCP 堆栈代码数量繁多,深入到内核级别的完整调用序列可以帮助您了解 TCP 堆栈。在本文中,将回顾和学习关于 TCP 调用序列的详细信息,其中包括对 FreeBSD 的引用,以及在用户级进行系统调用后在 TCP 堆栈中发生的重要函数调用。

Bindu Anupama (anubindu@in.ibm.com), 软件工程师, IBM

Photo of Anupama BinduAnupama 在网络领域已有五年多的经验。她从西门子通信系统开始了她的职业生涯。她于 2003 年 4 月加入 IBM 后,作为团队负责人从事 OS/2® LAN 和 TCP/IP L3 支持工作。您可以通过 anubindu@in.ibm.com 与她联系。



2007 年 12 月 10 日

引言

典型的 TCP 客户机和服务器应用程序通过发布 TCP 系统调用序列来获取某些函数。这些系统调用包括 socket ()bind ()listen ()accept ()send ()receive()。本文介绍在应用程序发布 TCP 系统调用时在较低级别中发生的情况,如图 1 所示。

图 1. TCP 应用程序进行的普通调用序列
TCP 应用程序进行的普通调用序列

图 2 显示了 TCP 系统调用在物理链路上发出之前进行传播的各个层。

图 2. TCP 系统调用的各个层
TCP 系统调用的各个层

套接字层接收进行的任何 TCP 系统调用。套接字层验证 TCP 应用程序传递的参数的正确性。这是一个独立于协议 的层,因为尚未将协议连接到调用中。

套接字层下面是协议层,该层包含协议的实际实现(本例中为 TCP)。当套接字层对协议层进行调用时,将确保对两个层之间共享的数据结构具有独占访问权限。这样做是为了避免任何数据结构损坏。

各种网络设备驱动程序在接口层运行,该层从物理链路接收数据,并向物理链路传输数据。

每个套接字具有一个套接字队列,并且每个接口具有一个用于数据通信的接口队列。不过,对于整个协议层,只有一个称为 IP 输入队列的协议队列。接口层通过此 IP 输入队列将数据输入到协议层。协议层使用相应的接口队列将数据输出到接口。

在本文中,将学习以下系统调用:

Socket

socket (struct proc *p, struct socket_args *uap, int retval)
struct sock_args 
{
int domain, 
int type,
int protocol;
};

socket 系统调用中:

  • p 是一个指针,指向进行 socket 调用的进程的 proc 结构。
  • uap 是一个指向 socket_args 结构的指针,该结构包含传递到 socket 系统调用中的进程的参数。
  • retval 是系统调用的返回值。

socket 系统调用通过分配新的描述符创建新的套接字。将新的描述符返回到调用进程。任何后续的系统调用都使用创建的套接字标识。socket 系统调用还向创建的套接字描述符分配协议。

domaintypeprotocol 参数值指定系列、类型和协议,以分配给创建的套接字。图 3 显示了调用序列。

图 3. 用于 socket 系统调用的调用序列
用于 socket 系统调用的调用序列

从进程检索参数后,socket 函数调用 socreate 函数。socreate 函数根据进程指定的参数发现指向协议切换 protsw 结构的指针。socreate 函数然后分配新的套接字结构。然后进行协议特定的调用 pr_usrreq,进而切换到与套接字描述符关联的相应协议特定的请求。pr_usrreq 函数的原型为:

int  pr_usrreq(struct socket *so , int req, struct mbuf  *m0 , *m1 , *m2);

pr_usrreq 函数中:

  • so 是指向套接字结构的指针。
  • req 的功能是标识请求。本例中为 PRU_ATTACH。
  • m0m1m2 是指向 mbuf 结构的指针。值因请求而异。

pr_usrreq 函数为大约 16 个请求提供服务。

tcp_usrreq() 函数调用 tcp_attach( ),以处理 PRU_ATTACH 请求。要分配 Internet 协议控制块,可调用 in_pcballoc()。在 in_pcballoc 中,调用了内核的内存分配器函数,该函数将内存分配给 Internet 控制块。完成所有必要的 Internet 控制块结构指针初始化之后,该控制返回到 tcp_attach()

分配新的 TCP 控制块,并在 tcp_newtcpcb() 中初始化。它还初始化所有的 TCP 定时器变量,并且控制返回到 tcp_attach()。现在套接字状态初始化为 CLOSED。在返回到 tcp_usrreq 函数时,创建套接字描述符,以指向套接字的 TCP 控制块。

Internet 控制块是双向链接的循环链表,其指针指向套接字结构,同时套接字结构的 so_pcb 部分指向 Internet 控制块结构。Internet 控制块还具有指向 TCP 控制块的指针。有关 Internet 控制块和 TCP 控制块结构的更详细信息,请参见参考资料部分。

Bind

bind (struct proc *p, struct bind_args *uap, int *retval)
   struct bind_args 
   {   int s;
       caddr_t name;
       int namelen;
   };

bind 系统调用函数中:

  • s 是套接字描述符。
  • name 是指向包含网络传输地址的缓冲区的指针。
  • namelen 是缓冲区的大小。

bind 系统调用将本地网络传输地址与套接字关联。对于客户端进程,发布 bind 调用不是强制的。当客户端进程发布 connect 系统调用时,内核负责执行隐式绑定。服务器进程接受连接或启动与客户端的通信之前,发布显式绑定请求通常是必需的。

bind 调用将进程指定的本地地址复制到 mbuf,并调用 sobind,后者则根据请求使用 PRU_BIND 调用 tcp_usrreq()tcp_usrreq() 中的切换实例调用 in_pcbbind(),后者将本地地址和端口号绑定到套接字。in_pcbbind 函数首先执行一些完整性检查,以确保不绑定套接字两次,并且至少一个接口分配了 IP 地址。in_pcbbind 负责隐式和显式绑定。

如果对 in_pcbbind()(指向 sockaddr_in 结构的指针)的调用中的第二个参数为非空,则发生显式绑定。其他情况下,则发生隐式绑定。对于显式绑定,在绑定的 IP 地址上执行检查,并相应设置套接字选项。

图 4. 用于 bind 系统调用的调用序列
用于 bind 系统调用的调用序列

如果指定的本地端口是一个非零值,则对超级用户特权进行检查,以确定绑定是否位于保留的端口(例如,根据 Berkley 约定,端口号 < 1024)。然后调用 in_pcblookup(),以便查找具有提到的本地 IP 地址和本地端口号的控制块。in_pcblookup() 验证本地地址和端口对是否仍未使用。如果 in_pcbbind() 中的第二个参数是 NULL,或本地端口是零,则控制失败,并检查临时端口(例如,根据 Berkley 约定,1024 < 端口号 < 5000)。然后调用 in_pcblookup(),以验证发现的端口是否未使用。

Listen

listen (struct proc *p, struct listen_args *uap, int *retval)
struct listen_args
{ int s;
   int backlog;
};

listen 系统调用中:

  • s 是套接字描述符。
  • backlog 是套接字上的连接数的队列限制。

listen 调用指示协议,服务器进程准备接受套接字上任何新传入的连接。存在一个可以排列的连接数限制,在该连接数之后,忽略任何进一步的连接请求。

listen 系统调用使用套接字描述符和 listen 调用中指定的backlog 值调用 solistensolisten 仅使用 PRU_LISTEN 作为请求调用 tcp_usrreq 函数。在 tcp_usrreq() 函数的切换语句中,PRU_LISTEN 的实例检查套接字是否绑定到端口。如果端口为零,则调用 in_pcbbind(),将套接字绑定到一个端口(按照 Bind 部分中的描述)。

如果端口上已存在侦听的套接字,则将套接字的状态更改为 LISTEN。通常,所有的服务器进程都侦听众所周知的端口号。很少调用 in_pcbbind 来执行服务器进程的隐式绑定。图 5 显示了侦听的调用序列。

图 5. 用于 listen 系统调用的调用序列
用于 listen 系统调用的调用序列

Accept

accept(struct proc *p, struct accept_args *uap, int *retval);
 struct  accept_args 
{
	int s;
	caddr_t name;
	int *anamelen;
};

accept 系统调用中:

  • s 是套接字描述符。
  • name 是缓冲区(OUT 参数),它包含外来主机的网络传输地址。
  • anamelenname 缓冲区的大小。

accept 系统调用是等待传入连接的阻塞调用。处理连接请求后,accept 将返回新的套接字描述符。将此新的套接字连接到客户端,使另外一个套接字 s 保持 LISTEN 状态,以接受进一步连接。

图 6. 用于 accept 系统调用的调用序列
用于 accept 系统调用的调用序列

accept 调用首先验证参数,并等待要到达的连接请求。在此之前,函数在 while 循环中阻塞。新的连接到达后,协议层唤醒服务器进程。Accept 然后检查函数阻塞时发生的任何套接字错误。如果存在任何套接字错误,则函数返回,并继续从队列拾取新的连接并调用 soaccept。在 soaccept() 中调用 tcp_usrreq () 函数,并将请求作为 PRU_ACCEPT。tcp_usrreq 函数中的切换调用 in_setpeeraddr(),后者从协议控制块复制外来 IP 地址和外来端口号,并将其返回到服务器进程。

Connect

connect (struct proc *p, struct connect_args *uap, int *retval);
struct connect_args 
{
    int s;
    caddr_t name;
    int namelen;
};

connect 系统调用中:

  • s 是套接字描述符。
  • name 是指向具有外来 IP/端口地址对的缓冲区的指针。
  • namelen 是缓冲区的长度。

客户端进程通常调用 connect 系统调用,以连接到服务器进程。如果在初始化连接之前,客户端进程没有显式发布 bind 系统调用,则堆栈负责本地套接字上的隐式绑定。

connect 系统调用将外来地址(需要将连接请求发送到地址)从进程复制到内核,并调用 soconnect()。从 soconnect() 返回时,connect() 函数进入睡眠状体,直到协议层将其唤醒,并指示连接是 ESTABLISHED 或套接字上存在错误。soconnect() 函数检查套接字的有效状态,并使用 PRU_CONNECT 作为请求调用 pr_usrreq()

tcp_usrreq() 函数中的切换实例检查套接字与本地端口的绑定。如果未绑定套接字,则调用执行隐式绑定的 in_pcbbind()。然后调用 in_pcbconnect(),以获取到达目的地的路线,发现必须输出套接字的接口,并验证 connect() 指定的外来套接字对(IP 地址和端口号)是否唯一。然后使用外来 IP 地址和端口号更新其 Internet 控制块,并返回到 PRU_CONNECT 示例语句。

tcp_usrreq () 现在调用 soisconnecting (),它可以将客户端主机上的套接字的状态设置为 SYN_SENT。调用函数 tcp_output,将 SYN 包输出到网络。控制现在返回到 connect() 函数,该函数处于睡眠状态,直到协议层唤醒 — 指示连接现在是 ESTABLISHED,或套接字上存在错误。

图 7. 用于 connect 系统调用的调用序列
用于 connect 系统调用的调用序列

3 向 TCP 握手

图 8图 9图 10 显示了客户端发布 connect 和服务器发布 accept 以指示和建立 TCP 连接时的调用序列。

图 8. 用于 SYN 包的流序列
用于 SYN 包的流序列

当客户端发布 connect 时,在协议层调用 tcp_output() 函数,将 SYN 包输出到接口。如图 9 所示,soconnect 现在返回到 connect() 函数,并进入睡眠状态。客户端上的套接字状态现在是 SYN_SENT。接口层调用 if_output()(实际上是接口特定的输出函数),将包发送到 n/w。

目的地(服务器)上的接口接收传入 SYN 包,将其放在 ipintrq 队列中,并引发软件中断。包然后由调用 tcp_input 例程的 ipintr() 获取。tcp_input() 在 s/w 中断时执行,并从 ipintrq 拾取 SYN 包,对其进行处理,并将部分完成的套接字连接放入完成的套接字队列。服务器端的套接字状态现在是 SYN_RCVD。每次处理后,tcp_input() 例程都调用 tcp_output()(如果需要将响应套接字发送到另一端)。

图 9. 用于 SYN ACK 包的流序列
用于 SYN ACK 包的流序列

处理 SYN 后,服务器使用 tcp_output ()ip_output ()if_output () 序列发送 SYN ACK 包。客户端上的 n/w 接口接收此包,将其放在 ipintrq 中,并引发 s/w 中断。同样,ipintr () 从 ipintrq 获取该包,并将其传递到客户端 TCP 堆栈上的 tcp_input () 例程。包现在是经过处理的,并调用了 soisconnected (),它唤醒连接调用。客户端上的套接字状态现在已建立。

图 10. 用于 ACK 包的流序列
用于 ACK 包的流序列

客户端上的 tcp_input () 例程处理 SYN ACK 包,并调用 tcp_output () 将 ACK 包发回到服务器。服务器端上的 tcp_input () 处理此 ACK 包,并调用 soisconnected ()。此函数从未完成的套接字队列移除套接字,并将其放入完成的套接字队列,然后调用 Wakeup (),以唤醒 accept 调用。服务器端的套接字现在已建立。

Shutdown

shutdown (struct proc *p, struct shutdown_args *uap, int *retval);
Struct shutdown_args
{
	int s;
	int how;
}

shutdown 系统调用中:

  • s 是套接字描述符。
  • how 指定将关闭哪一部分连接。how 的值 0、1 和 2 分别指定关闭连接的读取部分、写入部分和同时关闭连接的读取及写入部分。

shutdown 系统调用关闭连接的任意一端或两端。如果需要关闭读取部分,则会丢弃接收缓冲区中存在的任何数据,并关闭该端的连接。对写入部分,TCP 发送任何剩余的数据,然后终止连接的写入端。

图 11. 用于 shutdown 系统调用的调用序列
用于 shutdown 系统调用的调用序列

如果需要关闭连接的读取部分,则 soshutdown() 函数调用 sorflush()sorflush() 标记套接字以拒绝任何传入的包,并释放保存的任何系统资源。

如果需要关闭连接的写入部分,则调用 tcp_usrreq(),并将 PRU_SHUTDOWN 作为请求。PRU_SHUTDOWN 的切换实例根据当前的状态调用 tcp_usrclosed() 函数,以更新套接字的状态。TCP/IP 状态图表可以帮助了解套接字在任何给定的时间存在的不同状态。如果从 tcp_usrclosed() 返回时需要发送 FIN,则调用 tcp_output() 将其发送到接口。

Close

soo_close(struct file *fp , struct proc *p);

close 系统调用中:

  • fp 是指向文件结构的指针。
  • p 是一个指向调用进程的 proc 结构的指针。

close 系统调用可关闭或中止套接字上任何挂起的连接。

soo_close() 仅调用 so_close() 函数,该函数首先检查要关闭的套接字是否为侦听套接字(正在接收传入连接的套接字)。如果是,则遍历两个套接字队列,以检查任何挂起的连接。对每个挂起的连接,将调用 soabort() 以发布 tcp_usrreq(),并将 PRU_ABORT 用作请求。此切换实例调用 tcp_drop() 以检查套接字的状态。

如果状态是 SYN_RCVD,则通过将状态设置为 CLOSED 并调用 tcp_output() 发送 RST 段。tcp_close() 函数然后关闭套接字。tcp_close 函数更新路由度量结构的三个变量,然后释放套接字持有的资源。

如果套接字不是侦听套接字,则控制开始使用 soclose(),以检查是否已存在附加到套接字的控制块。如果不存在,则 sofree() 释放套接字。如果存在,则调用具有 PRU_DETACH 的 tcp_usrreq() 将协议与套接字分离。PRU_DETACH 的切换实例调用 tcp_disconnect(),以检查连接状态是否为 ESTABLISHED。如果不是,则 tcp_disconnect() 调用 tcp_close(),以释放 Internet 和控制块。否则,tcp_disconnect() 检查延迟时间和延迟套接字选项。如果设置了该选项,并且延迟时间为零,则调用 tcp_drop()。如果未设置,则调用 tcp_usrclosed(),以设置套接字的状态,并调用 tcp_output()(如果需要发送 FIN 段)。

图 12 显示了 TCP 应用程序发布 close 系统调用时发生的重要调用。

图 12. 用于 close 系统调用的调用序列
用于 close 系统调用的调用序列

Send

sendmsg ( struct proc*p, struct sendmsg_args *uap, int retval);
struct sendmsg_args
{	
   int s;
   caddr_t msg;
   int flags;
};

send 系统调用中:

  • s 是套接字描述符。
  • msg 是指向 msghdr 结构的指针。
  • flags 是控制信息。

n/w 接口上有四个要发送数据的系统调用:writewritevsendtosendmsg。本文仅讨论 sendmsg() 系统调用。所有的四个调用最终调用 sosend()。尽管 send(进程调用的库函数)、sendtosendmsg 系统调用仅可以对套接字描述符操作,但 writewritev 系统调用则可以对任何类型的描述符操作。

图 13. 用于 sendmsg 的调用序列
用于 sendmsg 的调用序列

sendmsg 系统调用将从进程发送的消息复制到内核空间,并调用 sendit()。在 sendit() 中,将初始化一个结构,以便从进程将输出收集到内核中的内存缓冲区。还可以将地址和控制信息从进程复制到内核,然后调用 sosend(),以执行以下四项任务:

  • 基于 sendit() 函数传递的值初始化各种参数。
  • 验证套接字的条件和连接的状态,并确定传递消息和报告错误所需的空间。
  • 分配内存并从进程复制数据。
  • 使协议特定的调用将数据发送到网络。

然后调用 tcp_usrreq(),并根据进程指定的标志,控制切换到 PRU_SEND 或 PRU_SENDOOB(以发送带区外数据)。对于 PRU_SENDOOB,发送缓冲区大小可以超过 512 字节,将释放任何分配的内存并中断控制。否则,sbappend()tcp_output() 函数由 PRU_SEND 和 PRU_SENDOOB 调用。sbappend() 在发送缓冲区的末尾添加数据,并且 tcp_output() 将该段发送到接口。

Receive

recvmsg(struct proc *p, struct recvmsg_args *uap , int *retval);
struct recvmsg_args 
{
 int s,
 struct msghdr *msg,
 int flags,
};

receive 系统调用中:

  • s 是套接字描述符。
  • msg 是指向 msghdr 结构的指针。
  • flags 指定控制信息。

有四个系统调用可以用于从连接接收数据:readreadvrecvfromrecvmsg。尽管 recv(进程使用的库函数)、recvfromrecvmsg 仅可以对套接字描述符操作,但 readreadv 可以对任何种类的描述符操作。所有的 read 系统调用最终调用 soreceive()

图 14 显示了用于 recvmsg 系统调用的调用序列。recvmsg()recvit() 函数初始化各种数组和结构,将接收的数据从内核发送到进程。recvit() 调用 soreceive(),以便将接收的数据从套接字缓冲区传输到接收缓冲区进程。soreceive() 函数执行各种检查,如:

  • 是否设置了 MSG_OOB 标志。
  • 进程是否尝试接收数据。
  • 是否应该阻塞,直到足够的数据到达。
  • 将读取数据传输到进程。
  • 检查数据是带区外数据还是常规数据,并进行相应的处理。
  • 当数据接收完成后通知协议。
图 14. 用于 recvmsg 的调用序列
用于 recvmsg 的调用序列

当设置 MSG_OOB 标志时或数据接收完成后,soreceive() 函数进行与协议相关的请求。在接收带区外数据的情况下,协议层检查不同的条件,以验证接收的数据是否为带区外数据,然后将其返回到套接字层。在后一种情况中,协议层调用 tcp_output(),将窗口更新段发送到网络。它通知另一端任何空间都可用于接收数据。

结束语

在本文中,您学习了触发低级别调用以完成某些任务的最重要的 TCP 函数调用。图中的调用序列显示了内核级 TCP 调用的简要概述。本文是了解 FreeBSD TCP/IP 堆栈组织的很好起点。

参考资料

学习

获得产品和技术

  • IBM 试用软件:从 developerWorks 可直接下载这些试用软件,您可以利用它们开发您的下一个项目。

讨论

条评论

developerWorks: 登录

标有星(*)号的字段是必填字段。


需要一个 IBM ID?
忘记 IBM ID?


忘记密码?
更改您的密码

单击提交则表示您同意developerWorks 的条款和条件。 查看条款和条件

 


在您首次登录 developerWorks 时,会为您创建一份个人概要。您的个人概要中的信息(您的姓名、国家/地区,以及公司名称)是公开显示的,而且会随着您发布的任何内容一起显示,除非您选择隐藏您的公司名称。您可以随时更新您的 IBM 帐户。

所有提交的信息确保安全。

选择您的昵称



当您初次登录到 developerWorks 时,将会为您创建一份概要信息,您需要指定一个昵称。您的昵称将和您在 developerWorks 发布的内容显示在一起。

昵称长度在 3 至 31 个字符之间。 您的昵称在 developerWorks 社区中必须是唯一的,并且出于隐私保护的原因,不能是您的电子邮件地址。

标有星(*)号的字段是必填字段。

(昵称长度在 3 至 31 个字符之间)

单击提交则表示您同意developerWorks 的条款和条件。 查看条款和条件.

 


所有提交的信息确保安全。


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=10
Zone=AIX and UNIX, Linux
ArticleID=275968
ArticleTitle=了解 TCP 系统调用序列
publish-date=12102007