Linux 网络设备分析
潘纲
Linux 网络设备分析
潘纲
9811536
浙江大学计算机系
pg@ccnt.zju.edu.cn
[摘要] 在本文中,首先概括了网络设备总体特征和工作原理,接着在分析了一个重要的数据结
构 device 后,重点剖析了网络设备的整个初始化工作过程;简单地分析了设备的打开和关闭的
操作后,是有关数据包的传输和接收的分析;在最后,本文对写网络设备驱动程序做了一个总
结。以上的每部分的分析,都是在 NE2000 以太网卡的基础上进行的。在附录中是一个虚拟的字
符设备驱动程序以及写这个程序的体会,该程序已成功使用过,它是在网络设备分析之前本人
做的一个小小的试验。
一. 网络设备概述
在 LINUX 中,为了简化对设备的管理,所有外围的硬件设备被归结为三类:字符设备(如
键盘、鼠标等)、块设备(如硬盘、光驱、软驱等)和网络设备(也称为网络接口,network inferface),
如以太网卡。在本文中,我们将等效使用“网络设备”和“网络接口”这两个概念,而对某个
具体的网络设备,我们将称之为“物理设备”或“物理网络设备”。
为了屏蔽网络环境中物理网络设备的多样性,LINUX 对所有的物理设备进行抽象并定义了
一个统一的概念,称之为接口(Interface)。所有对网络硬件的访问都是通过接口进行的,接口
提供了一个对所有类型的硬件一致化的操作集合来处理基本数据的发送和接收。一个网络接口
被看作是一个发送和接收数据包(packets)的实体。对于每个网络接口,都用一个 device 的数
据结构表示,有关该数据结构的具体内容,将在本文的后面详细介绍。通常,网络设备是一个
物理设备如以太网卡,但软件也可以作为网络设备,如回送设备(loopback)。在内核启动时,
通过网络设备驱动程序,将登记存在的网络设备。设备用标准的支持网络的机制来转递收到的
数据到相应的网络层。所有被发送和接收的包都用数据结构 sk_buff 表示。这是一个具有很好的
灵活性的数据结构,可以很容易增加或删除网络协议数据包的首部。
网络设备作为其中的三类设备之一,它有其非常特殊的地方。它与字符设备及块设备都有
很大的不同:
网络接口不存在于 Linux 的文件系统中,而是在核心中用一个 device 数据结构表示的。
每一个字符设备或块设备则在文件系统中都存在一个相应的特殊设备文件来表示该设
备,如/dev/hda1、/dev/sda1、/dev/tty1 等。网络设备在做数据包发送和接收时,直接通
过接口访问,不需要进行文件的操作;而对字符设备和块设备的访问都需通过文件操
作界面。
网络接口是在系统初始化时实时生成的,对于核心支持的但不存在的物理网络设备,
将不可能有与之相对应的 device 结构。而对于字符设备和块设备,即使该物理设备不
存在,在/dev 下也必定有相应的特殊文件与之相对应。且在系统初始化时,核心将会
对所有内核支持的字符设备和块设备进行登记,初始化该设备的文件操作界面(struct
file_operations),而不管该设备在物理上是否存在。
以上两点是网络设备与其他设备之间存在的最主要的不同。然而,它们之间又有一些共同
之处,如在系统中一个网络设备的角色和一个安装的块设备相似。一个块设备在 blk_dev 数组及
核心其他的数据结构中登记自己,然后根据请求,通过自己的 request_function 函数“发送”和
“接收”数据块。相似地,为了能与外面世界进行数据交流,一个网络接口也必须在一个特殊
的数据结构中登记自己。
在系统内核中,存在字符设备管理表 chardevs 和块设备管理表 blkdevs,这两张保存着指向
file_operations 结构的指针的设备管理表,分别用来描述各种字符驱动程序和块设备驱动程序。
〖 1 〗
Linux 网络设备分析
潘纲
类似地,在内核中也存在着一张网络接口管理表 dev_base,但与前两张表不同,dev_base 是指
向 device 结构的指针,因为网络设备是通过 device 数据结构来表示的。dev_base 实际上是一条
device 结构链表的表头,在系统初始化完成以后,系统检测到的网络设备将自动地保存在这张链
表中,其中每一个链表单元表示一个存在的物理网络设备。当要发送数据时,网络子系统将根
据系统路由表选择相应的网络接口进行数据传输,而当接收到数据包时,通过驱动程序登记的
中断服务程序进行数据的接收处理(软件网络接口除外)。以下是网络设备工作原理图:
dev_queue_xmit ()
netif_rx ()
上层下传数据
向上层传送数据
DEVICE 结构的变量和方法
(设备接口)
初始化
程序
hard_start_xmit ()
向硬件发送数据
mydev_interrupt ()
(中断服务程序)
从硬件接收数据
网络物理设备和媒介
图一 Linux 网络设备工作原理图
每一个具体的网络接口都应该有一个名字,以在系统中能唯一标识一个网络接口。通常一
个名字仅表明该接口的类型。Linux 对网络设备命名有以下约定:(其中 N 为一个非负整数)
以太网接口,包括 10Mbps 和 100Mbps;
令牌环接口;
SLIP 网络接口;
PPP 网络接口,包括同步和异步;
PLIP 网络接口,其中 N 与打印端口号相同;
IPIP 压缩频道网络接口;
NetROM 虚拟设备接口;
ethN
trN
slN
pppN
plipN
tunlN
nrN
isdnN
dummyN
lo
ISDN 网络接口;
空设备;
回送网络接口。
二. 重要数据结构——struct device
结构 device 存储一个网络接口的重要信息,是网络驱动程序的核心。在逻辑上,它可以分
割为两个部分:可见部分和隐藏部分。可见部分是由外部赋值;隐藏部分的域段仅面向系统内
部,它们可以随时被改变。下面我们将对之进行详细的分析和解剖。
from include/linux/netdevice.h
/*
struct device
{
*/
1. 属性
char
*name;
设备的名字。如果第一字符为 NULL(即’\0’),register_netdev (drivers/net/net_init.c)将
〖 2 〗
Linux 网络设备分析
潘纲
会赋给它一个 n 最小的可用网络设备名 ethn。
unsigned long
unsigned long
unsigned long
unsigned long
rmem_end;
rmem_start;
mem_end;
mem_start;
/* shmem "recv" end
/* shmem "recv" start
/* shared mem end */
/* shared mem start */
*/
*/
这些域段标识被设备使用的共享内存的首地址及尾地址。如果设备用来接收和发送的
内存块不同,则 mem 域段用来标识发送的内存位置,rmem 用来标识接收的内存位置。
mem_start 和 mem_end 可在系统启动时用内核的命令行指定,用 ifconfig 可以查看它们的值。
rmem 域段从来不被驱动程序以外的程序所引用。
unsigned long
unsigned char
base_addr;
irq;
/* device I/O address
*/
/* device IRQ number
*/
I/O 基地址和中断号。它们都是在设备检测期间被赋值的,但也可以在系统启动时指定
传入(如传给 LILO)。ifconfig 命令可显示及修改他们的当前值。
volatile unsigned char
volatile unsigned char
start;
interrupt;
/* start an operation*/
/* interrupt arrived */
这是两个二值的低层状态标志。通常在设备打开时置 start 标志,在设备关闭时清 start
标志。当 interrupt 置位时,表示有一个中断已到达且正在进行中断服务程序理。
unsigned long
tbusy;
/* transmitter busy must be long for bitops */
标识“发送忙”。在驱动程序不能接受一个新的需传输的包时,该域段应该为非零。
struct device
*next;
指向下一个网络设备,用于维护链表。
记录哪个硬件 I/O 端口正在被接口所用,如 BNC,AUI,TP 等(drivers/net/de4x5.h)。
unsigned char
unsigned char
if_port;
dma;
设备用的 DMA 通道。
一些设备可能需要以上两个域段,但非必需的。
unsigned long
trans_start;
/* Time (in jiffies) of last Tx */
上次传输的时间点(in jiffies)
unsigned long
last_rx;
/* Time of last Rx
*/
上次接收的时间点(in jiffies)。如 trans_start 可用来帮助内核检测数据传输的死锁
(lockup)。
unsigned short
flags;
/* interface flags (a la BSD) */
该域描述了网络设备的能力和特性。它包括以下 flags:(include/linux/if.h)
IFF_UP
表示接口在运行中。当接口被激活时,内核将置该标志位。
IFF_BROADCAST
表示设备中的广播地址时有效的。以太网支持广播。
IFF_DEBUG
IFF_LOOPBACK
IFF_POINTTOPOINT
调试模式,表示设备调试打开。当想控制 printk 及其他一些基于调试目的的信息显示
时,可利用这个标志位。虽然当前没有正式的驱动程序使用它,但它可以在程序中通
过 ioctl 来设置从而使用它。
表示这是一个回送(loopback)设备,回送接口应该置该标志位。核心是通过检查此标
志位来判断设备是否是回送设备的,而不是看设备的名字是否是 lo。
表示这是一个点对点链接(SLIP and PPP),点对点接口必须置该标志位。Ifconfig 也可
〖 3 〗
Linux 网络设备分析
潘纲
以置此标志位及清除它。若置上该标志位,则 dev->dstaddr 应也相应的置为链接对方的
地址。
IFF_MASTER
IFF_SLAVE
/* master of a load balancer
/* slave of a load balancer
此两个标志位在装入平等化中要用到。
*/
*/
IFF_NOARP
IFF_PROMISC
表示不支持 ARP 协议。通常的网络接口能传输 ARP 包,如果想让接口不执行 ARP,
可置上该标志位。如点对点接口不需要运行 ARP。
全局接受模式。在该模式下,设备将接受所有的包,而不关这些包是发给谁的。在缺
省情况下,以太网接口会使用硬件过滤,以保证只接受广播包及发给本网络接口的包。
Sniff 的原理就是通过设置网络接口为全局接受模式,接受所有到达本接口媒介的包,
来“偷听”本子网的“秘密”。
IFF_MULTICAST
能接收多点传送的 IP 包,具有多点传输的能力。ether_setup 缺省是置该标志位的,故
若不想支持多点传送,必须在初始化时清除该标志位。
IFF_ALLMULTI
接收所有多点传送的 IP 包。
IFF_NOTRAILERS
IFF_RUNNING
/*无网络 TRAILER*/
/*资源被分配*/
此标志在 Linux 中没什么用,只是为了与 BSD 兼容。
unsigned short
family;
/* address family ID (AF_INET)
*/
该域段标识本设备支持的协议地址簇。大部分为 AF_INET(英特网 IP 协议),接口通
常不需要用这个域段或赋值给它。
unsigned short
unsigned short
metric;
mtu;
/* routing metric (not used)
*/
不包括数据链路层帧首帧尾的最大传输单位(Maximum Transfer Unit)。网络层在包传
输时要用到。对以太网而言,该域段为 1500,不包括 MAC 帧的帧首和帧尾(MAC 帧格式
稍后所示)。
unsigned short
type;
/* interface hardware type
*/
接口的硬件类型,描述了与该网络接口绑在一起的媒介类型。Linux 网络设备支持许多
不同种类的媒介,如以太网,X.25,令牌环,SLIP,PPP,Apple Localtalk 等。ARP 在判定
接口支持哪种类型的物理地址时要用到该域段。若是以太网接口,则在 ether_setup 中将之
设为 ARPHRD_ETHER(Ethernet 10Mbps)。
unsigned short
hard_header_len;
/* hardware hdr length
*/
在被传送的包中 IP 头之前的字节数。对于以太网接口,该域段为 14(ETH_HLEN,
include\linux\if_ether.h),这个值可由 MAC 帧的格式得出:
MAC 帧格式:
目的地址(6 字节)+ 源地址(6 字节)+ 数据长度(2 字节)+ 数据(46~~1500)+FCS
void
*priv;
/* pointer to private data */
该指针指向私有数据,通常该数据结构中包括 struct enet_statistics。类似于 struct file 的
private_data 指针,但 priv 指针是在设备初始化时被分配内存空间的(而不是在设备打开时),
因为该指针指向的内容包括设备接口的统计数据,而这些数据即使在接口卸下(down)时
也应可以得到的,如用户通过 ifconfig 查看。
unsigned char
unsigned char
pad;
broadcast[MAX_ADDR_LEN];
/* make dev_addr aligned to 8 bytes */
/* hw bcast add */
广播地址由六个 0xff 构成,即表示 255.255.255.255。
〖 4 〗
Linux 网络设备分析
潘纲
memset(dev->broadcast,0xFF, ETH_ALEN); (drivers/net/net_init.c)
unsigned char
dev_addr[MAX_ADDR_LEN];
/* hw address */
设备的物理地址。当包传送给驱动程序传输时,要用物理地址来产生正确的帧首。
unsigned char
addr_len;
/* hardware address length
*/
物理地址的长度。以太网网卡的物理地址为 6 字节(ETH_ALEN)。
unsigned long
unsigned long
unsigned long
pa_addr;
pa_brdaddr;
pa_mask;
/* protocol address
*/
/* protocol broadcast addr
/* protocol netmask */
*/
该三个域段分别描述接口的协议地址、协议广播地址和协议的网络掩码。若 dev->family
为 AF_INET,则它们即为 IP 地址。这些域段可用 ifconfig 赋值。
unsigned short
pa_alen;
/* protocol address length
*/
协议地址的长度。AF_INET 的为 4。
unsigned long
pa_dstaddr;
/* protocol P-P other side addr
*/
点对点协议接口(如 SLIP、PPP)用这个域记录连接另一边的 IP 值。
struct dev_mc_list
int
struct ip_mc_list
*mc_list;
mc_count;
*ip_mc_list;
/* Multicast mac addresses
*/
/* Number of installed mcasts */
/* IP multicast filter chain
*/
这三个域段用于处理多点传输。其中 mc_count 表示 mc_list 中的项目数。
__u32
tx_queue_len; /* Max frames per queue allowed */
一个设备的传输队列能容纳的最大的帧数。对以太网,缺省为 100;而 plip 则为节省系
统资源,仅设为 10。
/* For load balancing driver pair support */
unsigned long
struct device
struct net_alias_info *alias_info;
*my_alias;
struct net_alias
pkt_queue;
*slave;
/* Packets queued */
/* Slave device */
/* main dev alias info */
/* alias devs */
struct sk_buff_head
buffs[DEV_NUMBUFFS];
指向网络接口缓冲区的指针。
2. 服务处理程序
以下是一些对网络接口的操作,类似与字符设备和块设备。网络接口操作可以分为两部分,
一部分为基本操作,即每个网络接口都必须有的操作;另一部分是可选操作。
/* 基本操作 */
int
/* Called only once. */
(*init) (struct device *dev);
初始化函数的指针,仅被调用一次。当登记一个设备时,核心一般会让驱动程序初始
化该设备。初始化函数功能包括以下内容:检测设备是否存在;自动检测该设备的 I/O 端口
和中断号;填写该设备 device 结构的大部分域段;用 kmalloc 分配所需的内存空间等。若初
始化失败,该设备的 device 结构就不会被链接到全局的网络设备表上。在系统启动时,每
个驱动程序都试图登记自己,当只有那些实际存在的设备才会登记成功。这与用主设备号
及次设备号索引的字符设备和块设备不同。
int
(*open) (struct device *dev);
打开网络接口。每当接口被 ifconfig 激活时,网络接口都要被打开。Open 操作做以下
工作:登记一些需要的系统资源,如 IRQ、DMA、I/O 端口等;打开硬件;将 module 使用
〖 5 〗
Linux 网络设备分析
潘纲
计数器加一。
(*stop) (struct device *dev);
停止网络接口。操作内容与 open 相逆。
int
int
(*hard_start_xmit) (struct sk_buff *skb,
硬件开始传输。这个操作请求对一个包的传输,这个包原保存在一个 socket 缓冲区结
struct device *dev);
构中(sk_buff)。
int
(*hard_header) (struct sk_buff *skb,
struct device *dev, unsigned short type,
void *daddr,
void *saddr, unsigned len);
这个函数可根据先前得到的源物理地址和目的物理地址建立硬件头(hardware header)。
以太网接口的缺省函数是 eth_header。
int
(*rebuild_header)(void *eth, struct device *dev, unsigned long raddr, struct sk_buff *skb);
在一个包被发送之前重建硬件头。对于以太网设备,若有未知的信息,缺省函数将使
用 ARP 填写。
struct enet_statistics*
(*get_stats)(struct device *dev);
当一个应用程序需要知道网络接口的一些统计数据时,可调用该函数,如 ifconfig、
netstat 等。
/* 可选操作 */
void
(*set_multicast_list)(struct device *dev);
设置多点传输的地址链表(*mc_list)。
int
(*set_mac_address)(struct device *dev, void *addr);
改变硬件的物理地址。如果网络接口支持改变它的硬件物理地址,就可用这个操作。
许多硬件不支持该功能。
int
int
void
void
int
(*do_ioctl)(struct device *dev, struct ifreq *ifr, int cmd);
执行依赖接口的 ioctl 命令。
(*set_config)(struct device *dev, struct ifmap *map);
改变接口配置。设备的 I/O 地址和中断号可以通过该函数进行实时修改。
(*header_cache_bind)(struct hh_cache **hhp,
struct device *dev,
unsigned short htype,
__u32 daddr);
(*header_cache_update)(struct hh_cache *hh, struct device *dev, unsigned char * haddr);
(*change_mtu) (struct device *dev, int new_mtu);
这个函数负责使接口 MTU 改变后生效。如果当 MTU 改变时驱动程序要作一些特殊的
事情,就应该写这个函数。
struct iw_statistics*
(*get_wireless_stats) (struct device *dev);
};
三. 网络设备的初始化
网络设备的初始化主要工作是检测设备的存在、初始化设备的 device 结构及在系统中登记
该设备。类似于字符设备和快块设备,系统内核中也存在着一张网络接口管理表 dev_base,但
与 dev_base 是指向 device 结构的,因为网络设备是通过 device 数据结构来表示的。dev_base 实
际上是一条 device 结构链表的表头,在系统初始化完成以后,系统检测到的网络设备将自动地
〖 6 〗
Linux 网络设备分析
潘纲
保存在这张链表中,其中每一个链表单元表示一个存在的物理网络设备。登记成功的网络设备
必定可在 dev_base 链表中找到。
网络设备的初始化从触发角度看可分为两类:一类是由 shell 命令 insmod 触发的模块化驱动
程序(module),只有模块化的网络设备驱动程序才能用这种方式对设备进行初始化,称为“模
块初始化模式”;另一类是系统驱动时由核心自动检测网络设备并进行初始化,我们称为“启动
初始化模式”。显然,这两种初始化模式存在许多不同之处,以下我们对两者分别进行分析。
1. “模块初始化模式”的分析
概述
insmod 命令将调用相应模块的 init_module(),装载模块。init_module 函数在初始化 dev->init
函数指针后,将调用 register_netdev()在系统登记该设备。若登记成功,则模块装载成功,否
则返回出错信息。register_netdev 首先检查设备名是否已确定,若没赋值则给它一个缺省的值
ethN,N 为最小的可用以太网设备号注;然后,网络设备自己的 init_function,即刚在 init_module
中赋值的 dev->init,将被调用,用来实现对网络接口的实际的初始化工作。若初始化成功,则
将该网络接口加到网络设备管理表 dev_base 的尾部。整个函数调用关系图如下所示。下面我们
以用得最广泛以太网卡之一——NE2000 兼容网卡为例子进行分析。NE2000 网卡的主要驱动程
序在文件 drivers/net/ne.c 中。
insmod
init_module( )
register_netdev( )
dev->init ( )
图二 “模块初始化模式”的函数调用关系图
init_module
init_module---模块初始化函数,当装载模块时,核心将自动调用该函数。在次此函数中
一般处理以下内容:
1.处理用户可能传入的参数 name、ports 及 irq 的值。若有,则赋给相应的接口(注意:
未登记);
2.对 dev->init 函数指针进行赋值,对于任何网络设备这一步必不可少!!因为在
register_netdev 中要用到该函数指针;
3.调用 register_netdev,完成检测、初始化及设备登记等工作。
/* from drivers/net/ne.c */
init_module(void)
{
int this_dev, found = 0;
/* 对所有可能存在的以太网接口进行检测并试图去登记,MAX_NE_CARDS 为 4,
* 即最多可以使用 4 块 NE2000 兼容网卡。 */
for (this_dev = 0; this_dev < MAX_NE_CARDS; this_dev++) {
struct device *dev = &dev_ne[this_dev];
/* 可能有用户传入的参数:指定的 name、ports 及 irq 的值 */
dev->name = namelist+(NAMELEN*this_dev);
dev->irq = irq[this_dev];
注 在 2.0.34 版本的内核中,只有以太网设备的缺省名是在 register_netdev 中赋值的。对于其他网络设备,一般在
其他地方就赋以缺省值,而无需 register_netdev 处理。如 PLIP,在 plip.c 中就预定了 3 个 PLIP 设备 plip0、plip1
和 plip2。若启动时或装载模块时若无指定参数传入,则会依次对三个设备试图进行初始化:
for (i=0; i < 3; i++) {
/*
from drivers/net/plip.c */
if (register_netdev(&dev_plip[i]) == 0)
devices++;
}
〖 7 〗
Linux 网络设备分析
潘纲
dev->base_addr = io[this_dev];
dev->init = ne_probe;
dev->mem_end = bad[this_dev];
if (register_netdev(dev) == 0) { /* 试图登记该设备 */
/* NE2000 的检测和初始化函数 */
found++;
continue;
}
/* 第一次发生登记不成功事件 */
if (found != 0)
return 0;
/* 显示出错信息 */
if (io[this_dev] != 0)
/* 设备登记成功,继续登记下一个设备 */
/* 在这之前没有成功登记 NE2000 接口,返回 */
printk(KERN_WARNING "ne.c: No NE*000 card found at i/o = %#x\n", io[this_dev]);
printk(KERN_NOTICE "ne.c: No PCI cards found. Use \"io=0xNNN\" value(s) for
else
…………
register_netdev
该函数实现对网络接口的登记功能。其实现步骤如下:
1.首先检查设备名是否已确定,若没赋值则以以太网设备待之并给它一个缺省的值
ethN,N 为最小的可用以太网设备号;
2.然后,网络设备自己的 init_function,即刚在 init_module 中赋值的 dev->init,将被
调用,用来实现对网络接口的实际的初始化工作。
3.若初始化成功,则将该网络接口加到网络设备管理表 dev_base 的尾部
*/
/* from drivers/net/net_init.c
int register_netdev(struct device *dev)
{
struct device *d = dev_base; /* 取得网络设备管理表的表头指针 */
…………
if (dev && dev->init) {
/*若设备名字没确定,则将之看作是以太网设备!!*/
if (dev->name &&
((dev->name[0] == '\0') || (dev->name[0] == ' '))) {
/* 找到下一个最小的空闲可用以太网设备名字 */
for (i = 0; i < MAX_ETH_CARDS; ++i)
if (ethdev_index[i] == NULL) {
sprintf(dev->name, "eth%d", i);
printk("loading device '%s'...\n", dev->name);
ethdev_index[i] = dev;
break;
}
}
…………
/* 调用初始化函数进行设备的初始化 */
if (dev->init(dev) != 0) {
…………
/* 将设备加到网络设备管理表中,加在最后 */
if (dev_base) {
/* 找到链表尾部 */
while (d->next)
d = d->next;
d->next = dev;
〖 8 〗