logo资料库

Linux下E1000网卡驱动分析.doc

第1页 / 共8页
第2页 / 共8页
第3页 / 共8页
第4页 / 共8页
第5页 / 共8页
第6页 / 共8页
第7页 / 共8页
第8页 / 共8页
资料共8页,全文预览结束
Linux-千兆网卡驱动实现机制浅析
  网卡作为一个PCI设备,其必须遵守相应的PCI规范,即必须为网卡定义相应的标识号,每个PCI外设
Linux-千兆网卡驱动实现机制浅析 作者: Minit, 出处:博客, 责任编辑: 罗丽艳, 2009-03-29 00:00 网卡作为一个 PCI 设备,其必须遵守相应的 PCI 规范,即必须为网卡定义相应的标识号,每个 PCI 外设由一个总线编号、一个设备 编号及一个功能编号来标识。网卡驱动程序则需要定义相应的 pci_device_id 结构来表示其支持的 PCI 外设的标识…… 1.引言 本分析主要针对 e1000 网卡,驱动源码为 7.3.20-k2。本文的目的不是为了讲述如何编写驱动程序,主要是分析网卡驱动内部的 实现机制。通过此分析,希望可以理解驱动程序中的各个部分的关系,对网卡发送和接收数据包有直观的了解,同时也希望对设计网卡 驱动程序有帮助。由于网卡驱动程序与硬件和操作系统都有很紧密的联系,故要把某些问题完全弄清楚,需要很多的经验与相关知识, 介于自身的水平有限,且自身经验较少,故肯定存在很多问题,希望本文的读者发现了问题不吝与作者联系。 2.网卡驱动的体系结构 网卡作为一个 PCI 设备,其必须遵守相应的 PCI 规范,即必须为网卡定义相应的标识号,每个 PCI 外设由一个总线编号、一个设备 编号及一个功能编号来标识。网卡驱动程序则需要定义相应的 pci_device_id 结构来表示其支持的 PCI 外设的标识,通过在驱动程序的 pci_device_id 中查找设备标识号,将驱动程序与设备联系起来。网卡作为 PCI 设备,其包括两类空间,一种是配置空间, CPU 不能 直接访问,访问这个空间,需要借助 BIOS 功能;另一种是普通的控制寄存器空间,这部分经过映射后,CPU 可以直接访问控制。 在硬件加电初始化时,BIOS 统一检查所有的 PCI 设备,并为每个设备分配一个物理地址,该地址通过 BIOS 获得并写到设备的配 置空间内,驱动程序就可以将网卡的普通控制寄存器映射到一段内存空间内,CPU 通过访问映射后的虚拟地址来操控网卡的寄存器。当 操作系统初始化时,其为每个 PCI 设备分配一个 pci_dev 结构,并将前面分配的物理地址写到 pci_dev 的 resource 字段中。在网卡驱 动程序中则可以通过读取 pci_dev 中的 resource 字段获得网卡的寄存器配置空间地址,其由函数 pci_resource_start()和 pci_resource_end()获得该空间的起始位置,通过 ioremap()将该段位置映射到主存中,以便 CPU 访问控制网卡的 I/O 和内存空间。 如重启网卡设备,则是通过向映射后的网卡的相应寄存器写入命令实现,其通过映射后的首地址及相应的寄存器偏移量找到该寄存器的 位置,然后通过函数 writeb()写该寄存器。有关相关寄存器对应的偏移量,一般是通过网卡的相关的 datasheet 获得。如果要获取网卡 的 MAC 地址,则一般通过函数 readb()读取首地址开始的前六位内容即可得到。
通过 pci_read_config_和 pci_write_config_系列函数可以读写网卡的配置空间,如开启网卡设备就是将网卡配置空间的 command 域置 1,从而设备就可以将寄存器映射到内存。如通过函数 pci_read_config_byte(pci_dev pdev,PCI_INTERRUPT_LINE,&irq)获得设备所分配的中断号并保存在 irq 中。pci_read_config_和 pci_write_config_系列函数实 际上是调用 pci_bus_read_config_和 pci_bus_write_config_系列函数实现的,这些函数实际操作网卡对应的 PCI 总线结构。有关 PCI 寄存器的配置空间可参考《Linux Device Driver 3rd》或《PCI Bus Demystified》。 网卡作为一个规范的 PCI 设备,其对应的结构体 pci_dev 代表了网卡设备,体现了作为 PCI 设备所应有的规范。网卡的网络传输性 质,实际是通过另一结构体 net_device 来体现的,该结构体的初始化由网卡驱动程序实现。内核中对网卡的操作,其实质就是对 net_device 结构的操作,pci_dev 和 net_device 都表示网卡设备,只是体现的角度不一样。net_device 是对特定适配器的抽象,其 为上层协议提供了统一的接口,网卡驱动则基于特定适配器实现了这一抽象。 PCI 设备的驱动程序由 pci_driver 结构体表示,故网卡驱动应该是该结构体的一个实例,在该结构体中应该要定义实现与网卡相关 的参数以及相应的操作。网卡驱动实际操作的特定适配器,是由与硬件相关的 adapter 所表示的结构体,adapter 体现了大部分与硬 件相关的属性,网卡驱动除了直接对 pci_dev 结构操作外,其他对网卡设备的操作基本是对 adapter 结构体的操作。adapter 体现了 net_device 与 pci_dev 的关联,也实现了网络设备的适配器无关性。与网卡设备 pci_dev 的通信是通过 adapter 来实现的,而这个实 现则是网卡驱动所要完成的任务。 下面图 2-1 描述了三个重要数据结构间的关系,pci_dev 结构体现了网卡的配置空间和 I/O 与内存区域,net_device 结构则向内 核提供了操作网卡的抽象接口,其参数值可按照功能分为 5 个部分。e1000_adapter 结构除了体现相应的硬件无关性外,还管理了发 送与接收数据包的相应缓冲空间,网卡的物理地址空间映射后的虚拟地址也在此结构中保存。e1000_adapter 结构中的 e1000_hw 结 构主要保存网卡的硬件参数,其值就是通过读取 pci_dev 的内容获取而来的。以上的数据结构在网卡工作时起着最核心的作用,同时也 是编写驱动程序必须操作的结构体。
图 2-1 网卡驱动程序的主要数据结构 3. 网卡设备的注册与初始化 网卡设备的注册与初始化是在其相关的驱动程序的 e1000_probe()函数中实现的,有关设备如何与该驱动相关联,以及如何调用到 e1000_probe()的,在此不作介绍。在函数 e1000_probe()中首先调用函数 pci_enable_device()启用设备,然后声明了 DMA 空间, 接着调用函数 alloc_etherdev()生成结构体 net_device,该结构体就表示了网卡设备,对 net_device 的参数进行了初始化后,调用 register_netdev()注册该设备。 以上仅是对设备的注册,设备的初始化主要包括对两个结构体的赋值,一个是 net_device,另一个则是 e1000_adapter。对 e1000_adapter 的初始化包括对其中的 e1000_hw 结构的初始化,其调用函数 e1000_sw_init()实现。在对 e1000_hw 的初始化过 程中使用了 ioremap()实现了网卡硬件地址与内存虚拟地址之间的映射。 对网卡设备进行撤销则调用函数 free_netdev()实现。有关网卡设备注册与初始化的更详细的过程可以参考《Understanding Linux Network Internals》。 4. 网卡设备的启动与关闭
网卡设备启动时首先调用函数 e1000_open(),在该函数中调用 e1000_request_irq()申请中断号及其相应的中断处理程序 e1000_intr(),其实际是调用 request_irq()函数来实现的。在函数 e1000_open()中调用 e1000_setup_all_tx_resources()根据 发送队列数建立发送缓冲区,每个缓冲区的建立由函数 e1000_setup_tx_resources()实现,在 e1000_setup_tx_resources()中, 主要是对描述发送缓冲区的结构体 e1000_tx_ring 的初始化,其将 DMA 缓冲区与网卡所映射的虚拟地址空间联系起来,使用函数 pci_alloc_consistent()实现一致性映射。而虚拟地址空间与网卡的物理地址相对应,故而这三种空间就对应了起来,DMA 也就可以在 此基础上实现了,当数据包内容被映射到 DMA 缓冲区后,其将完全由设备操控。DMA 的缓冲区的初始化在驱动程序的 e1000_probe() 函数中实现。e1000_open()函数会调用 e1000_up()对网卡的一些相关的软硬件参数与空间进行配置,如硬件寄存器的读写,数据包 接收与发送空间的处理函数的初始化等。发送缓冲空间的初始化结构及相互间的关系如图 4-1 所示。 接收缓冲区的初始化与上述类似,由 e1000_setup_all_rx_resources()调用 e1000_setup_rx_resources()对结构体 e1000_rx_ring 进行初始化。接收缓冲空间的结构如图 4-2 所示。 图 4-1 发送缓冲区的结构图
图 4-2 接收缓冲区的结构图 网卡的关闭由函数 e1000_close()实现,其会首先关闭中断,然后释放中断号,并且会释放网卡申请的相应的空间。 5. 发送与接收数据包 数据包的发送:
图 5-1 发送数据包的结构图及相互关系 根据发送队列数 num_tx_queues 建立相应的发送缓冲区结构 e1000_tx_ring,在该结构中有描述该区域的指向 e1000_tx_desc 结构的 desc,该缓冲区指向的 dma 总线地址,用于接收硬件传送来的用 e1000_buffer 结构描述的缓冲块数组 buffer_info[],另外 的几个参数则主要用于描述这些缓冲块,其中 count 表示缓冲块的个数,next_to_use 和 next_to_clean 主要描述缓冲块的使用状态, 如已经接收接收了数据的位置及准备接收的位置,当有新的数据包要发送时,首先由上层协议调用 e1000_xmit_frame(),在该函数中 接着调用 e1000_tx_queue()根据相应的参数找到缓冲块存放,缓冲块的初始化则由函数 e1000_tx_map()实现。buffer_info 指向 的环形缓冲块区域主要用来接收总线地址映射来的数据包,所有的缓冲块用 next_to_match 连接成一个环,每个缓冲块用结构体 e1000_buffer 表示,在该结构中,skb 存放数据包的内容,dma 表示该数据包所在的总线地址。此处使用函数 pci_map_single()进 行流式映射,的映射方向为 PCI_DMA_TODEVICE,控制总线会把虚拟地址空间所指内容映射到总线地址,然后将该内容由网卡传送出 去。发送数据包的相关结构图及相互关系如图 5-1 所示。 e1000_tx_ring 结构中的 desc 所指向的 buffer_addr 记录了每次发送的缓冲块所映射的总线地址,即 buffer_addr 记录的是总 线地址。而 desc 本是一个虚拟地址,该虚拟地址是通过 pci_alloc_consistent()映射的发送缓冲区的地址,其与 DMA 缓冲区中的一段
总线地址相对应,该总线地址由 e1000_tx_ring 结构中的 dma 成员保存,这种映射关系在对开启网卡时就实现了,其与在发送数据包 时映射的总线地址有区别,后者是在发送时动态进行的。 数据包的接收 图 5-2 接收数据包的结构图及相互关系 根据接收队列数 num_rx_queues 建立相应的接收缓冲区结构 e1000_rx_ring,在该结构中有描述该区域的指向 e1000_rx_desc 结 构的 desc,该缓冲区指向的 dma 总线地址,用于接收硬件传送来的用 e1000_buffer 结构描述的缓冲块数组 buffer_info[],另外的 几个参数则主要用于描述这些缓冲块,其中 count 表示缓冲块的个数,next_to_use 和 next_to_clean 主要描述缓冲块的使用状态, 如已经接收接收了数据的位置及准备接收的位置,当有新的数据包要到来时,则根据这两个参数找到相应的区域存放。对于需要分片接 收的数据包则利用了 ps_page 和 ps_page_dma 来实现,参数 cpu 指定了该接收缓冲队列所属的处理器。总线地址与要发送的虚拟地 址间的映射方向为 PCI_DMA_FROMDEVICE,控制总线会把总线地址的内容映射到虚拟地址空间内。接收数据包的相关结构图及相互 关系如图 5-2 所示。
当有新的数据包到达时,首先触动中断处理函数 e1000_intr(),在函数中会为新来的数据包在缓冲块数组 buffer_info 中找到一个 新的缓冲块位置,并完成 e1000_buffer 结构的赋值。数据包的接收其实就是将总线地址指向的内容拷贝到 skb 中,然后根据 skb 中的 协议将其传给相应的上层协议的接收函数。 6. 网卡驱动程序的设计 编写网卡驱动程序,需要对以下三类结构体进行相应的操作: 1.与网络协议栈相关的结构体,如 sk_buff 结构体。 2.网卡和协议栈接口相关的结构体,如 net_device 结构体。 3.与 I/O 总线相关的结构体,如利用 PCI 总线进行数据包传送的 DMA 缓冲区以及表示网卡的 pci_dev 结构体。 设计网卡驱动时,需要针对以上的数据结构实现相应的功能,如对 sk_buff 结构的操作实现对数据包的有效控制;对 net_device 结 构的操作可以对网卡进行操作(如开启、关闭等),可以发送数据包以及轮询数据包,可以制定网卡的相应的定时操作以及统计数据包, 可以为用户提供配置功能(ethtool)等。在设计网卡驱动时,需要考虑如何与上层协议的协调以及对底层总线地址的控制。 有关网卡驱动程序更详细的设计流程可以参考《Essential Linux Device Driver》及《Linux Device Driver 3rd》。 7. 总结 本文的分析重点为网卡驱动中涉及到的重要数据结构,以及发送和接收数据包的实现,对这些实现机制了解后,对于设计和实现驱 动程序应该会有帮助,因为该机制本身难度很大,加上作者水平有限,其中的分析结论不能保证完全正确。
分享到:
收藏