电脑技术学习

FreeBSD 核心 (1)

dn001
概述
FreeBSD可以在PC/AT兼容机器上运行。CPU是i386,i486,Pentium,
Pentium Pro以及其兼容芯片等。
1.1.1(略)
1,理论地址: 2个13 bit 长+32 bit 长
2,线形地址:32 bit 长的空间
3,物理地址:32 bit 长的空间
1.1.2进程的虚拟空间
1,text部分
这部分是执行文件的的text领域,也就是机器语言部分,对于这个
部分的空间在机器上的物理内存页是共有的,还有,这部分最后的变量
地址是etext。
2,data和bss部分
执行文件的data部分,也就是初始化的数据段和执行文件指定的内
存变量。内存变量在开始的时候以0填充。这一段空间可以读写。它的
边界也是以edata和end的地址做结尾。进程的malloc()等内存分配的
操作的时候,地址的增加方向向bss空间进行。
3,stack部分
也就是进程执行的时候的stack空间,这部分空间(从地址的最高位
开始可以伸缩),其对于物理内存,伸缩程度由核心自动执行。
1.2 kernel的configure
freebsd的kernel构成文件在/usr/src/sys的目录下面。下面的子目录做一个
介绍。
compile 编译核心的目录。
conf configure的目录。
ddb 核心调试的sounre code的目录。
dev 一部分的drivers的source code的目录。
gnu 浮点运算的仿真以及ex2fs文件系统的source code目录。
i386 依赖于pc/at机器的目录,以下介绍它的字目录。
apm suspend一些节电程序。
boot 不是kernel本身的东西,只是一些怎么从开机到读入kernel
的boot program的source code。
conf config的一些依赖data。
isa isa bus的驱动程序类的source code。
eisa eisa bus的驱动程序类的source code。
include 对pc/at的一些include files
i386 对pc/at的一些核心code
ibcs2,Linux 使各类的os的执行文件在freebsd上执行的code
isofs/cd9660
cd-rom在Unix文件系统上操作的的有关code
kern 核心code
libkern 核心库的source code
miscfs 实现unix文件系统的code
msDosfs 在unix上操作ms-dos文件系统的有关code
net 实现network功能的基本部分code
netatalk
实现appletalk network功能code
netinet 实现internet network功能的code
netipx 实现ipx功能的code
netns 实现ns network的code
netkey 实现网络加密部分的功能的code
nfs 实现nfs服务
pc98 对于pc98的支持
pccard 对pcmcia的支持
pci 对pci bus的驱动程序的source code
scsi 对cd-rom,hard disk,tape 等的scsi驱动程序的source code
sys 独立于机器体系结构的一部分code
ufs unix file system 的支持code
vm 虚拟内存管理的部分
1.2.1配置的操作----config command
在root权限下,config,make实行后,可以得到简单的kernel。
*configure file
移动到/usr/src/sys/i386/config看看。
GENERIC 从cd-rom等安装freebsd的时候对应于defaule kernel
的配置file
LINT kernel组合功能的网罗的的配置file
下面4个是对配置很有必要的的依赖data file
Makefile.386 config生成的Makefile file的template.
devices.i386 对于unix filesystem可能的block型的device
名字和major号的对照表
files.i386 记录kernel功能组合的基础上,依赖于pc/at
机器的功能名称和各种功能实现的source code
file的名字表。
options.i386 记录配置项目的表。
还有,majors.i386是记录对应驱动器的I/O表和major号的一个文件。
于核心配置没关系。
对于新的i/o设备,如果要做device driver,对pc/at,要在files.i386(没
有的话在/usr/src/sys/conf/files)追加相应的行,不然就不能把它加入
到核心里面。
追加的格式为
相对path名 optional device-name device-driver

对于配置文件,首先,要设置cpu,bus,i/o设备,多少用户等。例如对于GENERIC
Machine "i386"
cpu "I386_CPU"
cpu "I486_CPU"
cpu "I586_CPU"
cpu "I686_COU"
ident GENERIC
maxusers 10
当作为server时候,应该把最大user设置大一点,以提高系统性能。
下一步,指定options,对于GENERIC
options MATH_EMULATE #support for x87 emulation
options INET #interNETworing
options FFS #Berkeley Fast Filesystem
options NFS #Network Filesystem
......
options指定的名字xxx等,如果在/usr/src/sys/conf/options或者在
/usr/src/sys/i386/conf/options.i386中记载的时候,应在对应的opt_XXX.h中写入
。没有的话,作为cc命令行的参数定义"-D"在Makefile里面追加。对于XXX的格式应该

相对path名 optional xxx
下一步,对于config
config kernel root on wd0
(略)
配置文件剩下的部分应该是bus,i/o等一些硬件配置,一般有controller,device,
disk,tape四类。例如
controller isa0
controller eisa0
controller pci0
等。
第二层的device和controller,记录了一些bus设备的连接。ISA的情况是
device device_name at isa? 参数
controller controller_name at isa? 参数
EISA和PCI就相对简单一点:
device device_name
controller controller_name
device_name里指定的设备名是,串口,并口,网络等装置。
第三层的disk和tape为
disk disk_name at 控制设备名 drive 号
tape tape_name at 控制设备名 drive 号
SCSI接口卡作为第二层的控制装置记录的同时
controller scbus0
作为通用的scsi控制设备。因此,对于它的hard disk,tape,cd-rom,mo设备,有
device sd0
device st0
device cd0
device od0
等,它可以自动识别和分配号码。
对于其他的scsi设备,有
device pt0 at scbus?
这些东西(bus,scsi,i/o),在生成的ioconf.c以及相应的include中有反映。
configure的最后,不是一些物理设备,而是kernel内部的一些软设置
pseudo-device 理论设备名
首先,要考虑以下两个设备:
pseudo-device pty 16 #ttys - can go as high as 256
pseudo-device log #syslog interface (/dev/klog)
network使用的场合,应该有下面两个
pseudo-device loop
pseudo-device ether
这种情况下,最好有
pseudo-device bpfilter 4 #berkeley packet filter
pseudo-device tun 1 #Tunnel driver ( PPP)
想做floppy的时候,要
pseudo-device vn #Vnode driver ( turns a file into a device)
(代续)



FreeBSD核心探讨(翻译)2

1.3 FreeBSD boot之前的工作
1.3.1pc/at机器的boot顺序
hard disk的最前面的一个block(512byte),叫做master boot recorder(MBR).这
里有启动限定的program和分区的信息。分区信息是指对于一个区是16byte长,最多
只能有4个区。16byte的内容是,分区哪里开始,哪里结束。哪种os,能否启动等。对
于freebsd,安装的时候向MBR写入了boot easy.
磁盘的结构如下图表示:
block Number
#0 #1 #2 ... #14 #15 #16 #17
-------------------------------------------------------------
disk no used
label
-------------------------------------------------------------
<-boot->|<---------boot2-------------->| |<--unix file system--

FreeBSD用的block#0--#14的15个block里面,含有读入freebsd的程序,bootease
只在block#0里面,在15个block中并没有。它的作用
。读入mbr,找freebsd的分区
。读入最初的15个block,到物理内存中0x0001000
。跳转到相当于block#2的内存位置
然后,屏幕表示为:
。。。
。。。
boot:
(参数说明略)
它的source是/usr/src/sys/i386/boot/biosboot,make之后,生成两个文件:
boot1,boot2分别写入block#1,block#2--#14中。
一般,一个物理的unix分区理论上可以有8个,比如swap,unix system等。
boot2部分是boot program,它读入kernel的文件名和option。然后
。找boot label指定的分区。
。构造unix filesystem,找指定的kernel
。从开始执行文件,text,data的顺序向物理内存读入。对bss清零。
。以option的选择,向开始位置跳转。
1.3.2 kernel的初始化动作
boot program执行之后,转向kernel的text段开始进行初始化,即先执行
locore.s的text段。因此是虚拟内存还没有发生作用,locore.s的开始部分必
须对offset进行补正。locore.s的作用是
。保存从boot program过来的option
。设定虚拟的stacker
。检测cpu的module
。对自己的bss空间进行0初始化
。为使虚拟内存工作,要保证最少的管理信息。然后是虚拟空间动作。
也就是,调用cpu有强的依赖关系的过程init386()(@i386/i386/machdep.c),
然后进行kernel内的管理信息初始化,i/o设备的登记,生成4个kernel process
,再调用main()(@kern/init_main.c)。当main()返回locore.s时,应该有如下
5个进程:
PID TT STAT TIME COMMAND
0 ?? DLs 0:00.17 (swapper)
1 ?? Is 0:00.19 /sbin/init --
2 ?? DL 0:56.60 (pagedaemon)
3 ?? DL 0:00.06 (vmdaemon)
4 ?? DL 6:07.65 (updata)
从locore.s返回到process #1,/sbin/init开始动作,然后转向freebsd的普通
动作。
init386()和main()的处理大致如下:
。init386()
GDT和LDT,IDT,task stages处理的初始化,例外处理等locore.s没做的
事情,虚拟内存初始化。然后,根据boot program的参数,增加物理内
存page数。然后,作成process #0的雏形。
。main()
逐步调用构成kernel模块的的初始化部分。


FreeBSD核心探讨(翻译)3

(续上,liangvy.icewolf.leon翻译)

但是,kernel构成的各个模块的初始化子程序一个个的列举出来运行很显然是
不行的。通常是利用时间连表的技能来运行它(ld command)。也就是,程序
是以很多个source分开编译和联结。相同的模块名字就对应于相同的地址来进
行调用。它在时间链表里面自动调节执行。
初始化时候,main()函数要call的模块利用在sys/kernel.h里面定义的宏
SYSINIT()和SYSINIT_KT()进行登记。这样,kernel在link的时候,ld命令就
能够得到那些信息和进行配置列表。这个列表就是kernel的组成模块的初始化
routine的登记。检查source,
就可以找到初始化routine的部分。
如表:
print_CADdr_t(copyright) kern/init_main.c
vm_men_init(NULL) vm/vm_init.c
syctl_order(&sysctl_) kern/kern_sysctl.c
kmemnit(NULL) kern/kern_malloc.c
fpu_init(NULL) i386/i386/math_emulate.c
cpu_startup(NULL) i386/i386/machdep.c
gnufpu_init(NULL) miscfs/devfs/devfs_tree.c
...
各个device的major号与处理routine的登记 (major循序号)
...
configure(NULL) i386/i386/autoconf.c
proc0_init(NULL) kern/init_main.c
rqinit(NULL) kern/kern_synch.c
vm_init_limits(&proc0) vm/vm_glue.c
vfsinit(NULL) kern/vfs_init.c
elf_insert_brand_entry(&linux_brand) i386/linux/linux_sysvec.c
initclocks(NULL) kern/kern_clock.c
mbinit(NULL) kern/uipc_mbuf.c
clst_init(NULL) kern/tty_subr.c
shmnit(NULL) kern/sysv_shm.c
seminit(NULL) kern/sysv_sem.c
msginit(NULL) kern/sysc_msg.c
kludge_splimp(&x_save_spl) kern/uipc_domain.c
ifinit(NULL) net/if.c
domaininit(NULL) kern/uipc_domain.c
kludge_splx(&x_save_spl) kern/uipc_domain.c
kmstartup(NULL) kern/subr_prof.c
sched_setup(NULL) kern/init_main.c
xxx_vfs_mountroot(NULL) kern/init_main.c
xxx_vfs_root_fdtab(NULL) kern/init_main.c
swapinit(NULL) kern/init_main.c
proc0_post(NULL) kern/init_main.c
kthread_init(NULL) kern/init_main.c||
kproc_start(&page_kp) vm/vm_pageout.c||
kproc_start(&vm_kp) vm/vm_pageout.c||
kproc_start(&up_kp) kern/vfs_bio.c||
scheduler(NULL) vm/vm_glue.c
(||表示有多个程序)
proc-post()被呼叫后,main()就是在对应process 0 的kernel的虚拟
内存里动作。kthread_init(),kproc_start(&page_kp),kproc_start(&vm_kp)
,kproc_start(&up_kp)等这几个进程,在fork()后相继被调用。它就是相
应的进程1,2,3,4等。
除process 1 以外,其他的进程调用并不返回调用的地址。(也就是,main()
的跟随执行后,并不返回locore.s)。对于process #1的kernel的虚拟内存,
在kthread_init()返回后,main()的跟随就完了,回到locore.s后,process #1
的进程空间的配置文件/sbin/init就被执行。
main()在process #0对应的kernel虚拟内存运行后,进入时间链表scheduler()。
这个并不返回。那现在就有五个进程了。
然后,fork() 的调用在下面说明。
1,分配process ID,保证struct proc()用的空间。
2,复制父亲的process的虚拟内存空间,作成物理内存的变换表。对
应两个进程,采用相对应的物理内存表。
3,给回父亲的struct proc和struct user,然后对子进程的struct和
struct user进行初始化。
4,kernel的stacker也进行复制。
5,返回父进程后,标记生成的子进程。完成处理。
但是,process #0 -- 4 这五个进程的虚拟内存里面什么都没有。这些是核心
进程的特殊部分。进程0,2,3是调节系统存在的进程的执行优先级,监视物理
内存的不足,如果不够就使用swap区进行交换。进程4的作用就是定期调查核心
的unix文件系统的管理信息与驱动程序的管理信息的一致性,使它的信息一直
是最新的。

1.3.3 /sbin/init
从kernel里面看,/sbin/init就是单一的进程空间里动作,与一般的
user program一样,提供user使用的unix文件系统的环境的服务。
核心启动后最初的动作就是/sbin/init。作用如下:
。确保file system的一致性,进行mount。
。之后,network的设定和各种daemon的启动。
。监视终端的login的配置和动作状态。这个动作完了后(logout),
修改和配置 login。
也就是说,如果没有它,用户就不能使用unix文件系统。还有就是,如果boot
progam参数指定-s的话,它就过渡到单一的用户模式。相对来说,普通的用户
模式也就是multi模式。为了使普通用户能够使用系统,/sbin/init的参考文件
主要在/etc目录里放着。主要就是运行/etc/rc文件对系统进行初始化。
/etc/rc文件的主要内容和作用如下:
。使系统能够使用swap区
。检查/etc/fstab,检查它的连贯性,如果有问题就转到单一的用户模式
。mount nfs以外的文件系统
。读入network 的设定和各种daemon进程的设定情况的记录文件
/etc/c.conf,这个内容作为shell script的变量设定,以下的就是
各个shell的动作调整
。serial的初始化(/etc/rc.serial)
。运行PCMCIA卡的插拔监控守护进程(/etc/rc.pccard)
。network的部分初始化(/etc/rc.network)
。如果有nfs的时候就进行mount操作
。network的最终初始化(/etc/rc.network:启动和entwork有关的daemon)
。共有库的有关信息的初始化
。intd,lpd,sendmail的启动
。依赖系统的一些初始化进程
/etc/rc的处理完了后,/sbin/init就对/etc/ttys等记述的一些终端的用户login进行
监视。对于这个,/etc/ttys里指定的终端,fork()后的进程里:
。exec()指定的程序(普通的情况是/usr/libexec/getty)
。/usr/libexec/getty进行终端速度等的设定。提示login:,等待用户输入
。用户输入后,名字作为参数exec() /etc/bin/login
。/usr/bin/login就提示出passwd:,等待用户的输入
。准备user名和passwd,对输入的用户名进行确定,正确的话就exec()用户
shell

下图就是/sbin/init的监视进程图:

process #1
-------------------------------------------------------->
/sbin/init | ^
| fork() | | fork()
+ exec() exec() exec() | | exec()
process #n |---------->+--------->+------------------*+--------
getty login user的login shell process #m

(第一章完,下一章介绍文件系统和驱动程序,liangvy)



FreeBSD核心探讨.4.驱动程序篇

翻译:liangvy liangvy@bigfoot.com icewolf.leon
版权所有,可以转贴

第二章 文件系统和设备驱动程序

这章主要介绍文件系统和特殊的设备文件以及它们的对应关系。

2..1 disk上的 unix file system 的基本知识
首先介绍一下经典的unix file system的思维方法。
disk 的 partition就是从0到512byte的连续长度的block的东西。这里有
1.file/Directory有关的固定长度的信息,i-node
2.file/directory的本体,data block
的两样不同的东西。partition的前面的附近块(block#16 ,1--15用于boot
program )就是i-node,data block用的领域等等的开始位置(block号)
和长度(block数量)等的记录,叫做super-block。一个block可能的容量只
能有固定数目的i-node,所以如果分配了固定的i-node,收录了节点号和节
点的块号和块的位置就可以计算出来。
i-node就是
。表明i-node的种类(file ,direstory,device等)
。这个节点参考的次数(目录数)
。参考,作成,变化的时间
。权限
。所有者的user id / group id
。本体的长度
。收集本体的data block的block号码的固定长度的对应表
的一些记录。因为data block的对应表是固定的关系,比
如10个,最长就能够作出512*10=5k为止的file。

当文件比块大的时候,unix就采用成组联结的方式对它们进行管理。就是
把所有的空闲块以一定数目为一组的方法作成单向空闲块stacker。
特别地,文件的从先头的byte位置开始和i-node内的对应表有着密切的关系。
而且,对于i-node的输入输出,可以对应指定位置的数据块进行读写。重要
的是,核心可以依照这个管理表对io装置进行管理。
unix对io设备的操作也是作为(特殊)文件进行的。对于用i-node进行
描述的io设备,data block数据块的对应表就没必要了。这个部分的io设备
的识别就通过device号码来进行。向这些对i-node进行输入输出处理的,
就又设备驱动号区别,来进行device driver驱动。
那么,节点怎么的进行查找呢?partition的最初的目录(根目录)就是,
从第二个i-node开始,一个一个顺着节点进行查找。
比如,对于目录/uuu/vvv/.../yyy/zzz的查找方式,有这种关系:
。i-node #2 所存放的是root directory。读入它的本体,就可以找到
相应的uuu所对应的i-node。
。读入这个i-node所存放的directory的i-node本体,找到相应的vvv节点。
......
查找对应yyy的节点
。读入这个节点的本体信息,这里包含目录本题的内容,这样就可以找到
zzz所对应的i-node。
目录里面由于记录了对应文件名的节点号,所以,也有可能同一个节点号
根据文件名不一样,就可以找到不同的目录名。这就是硬连接(hard link).
但是,节点号有只存在于节点所在的分区的含义,所以,不同的分区,
这种硬连接就不具有存在的可能性。为了解决这个矛盾,就有了符号连接
(symble link)的说法。当节点是输入符号连接的时候,符号连接就包含
了这个节点的data block所指定的路径名。但是,空连接和loop连接这种
情况也是允许的,所以核心要指定循环连接的最大次数。具体由参数
MAXSYMLINKS(@sys/param.h)指定。
这样,多个分区建立一个文件系统就有可能了。启动核心的分区作为一个
已存的文件系统,其他的分区就嫁接到目录层上面。这个操作过程就是mount。
利用mount指令,就可以实现上面的操作。但是,mount之前的目录,在mount后
就给屏蔽了,直到mount结束,那些目录就可以再现。
以上就是经典的unix文件系统理论。但是,对于读入了i-node,就去读
data block ,这种情况,对于一个比较大的分区,硬盘磁头向disk head的距
离就太大了。总的来说,访问时间就会变长。在这里有一些指导思想:
。分区要比较小,多分小区
。了解超级块的地位,超级块记录了分区的信息,考虑由于介质的原因而
使这个超级块造成损害,所以,在分区内部就必须为它准备多几个拷贝。
。目录和它下层的文件,要在相同的领域内放置。
。确保单位data block要比磁盘的block大。
考虑了一些东西后,经过改良标准,freebsd就采用一个叫做FFS的文件系
统(Fast File System),但这只是i-node领域/data领域的配置方法的变化,基
本的考虑方法并没有变。对磁盘分区进行文件系统的构造的初始化由命令newfs
提供。看看它的source就知道怎么配置的了。其他的构造(......)对应于kernel
的source,对于构成boot program的文件disk.c和sys.c(@i386/boot/biosboot)
比较简单易懂(单纯性)。
上面讲述的i-node对disk的partition的记录形式,详细的(source)在
struct dinode(@ufs/ufs/dinode.h)里面有。在核心内部使用的,包含这个东西
的是struct inode(@ufs/ufs.inode.h)。

描述io设备的文件叫特殊文件(special file),他对应的i-node有两个种
类:
。块型(block)
和装置的固有的数据记录的单位(大多数的情况是512byte)无关。读写
的最小单位是1byte,可以在任意的场所里任意长度的data。核心对各个
block型的特殊文件进行固定的记录单位长度(倍数)进行缓冲(buffer)
管理,这样就可以处理任意长度的读写了.
。文字型(char)
读写的基本单位是,受到装置固有的date记录单位长的限定。没有block
型的缓冲管理,对应于装置的物理特性,读写属于专用。或者说,是读写
两用。
除了网络接口之外,io装置可以全部分为文字型和块型两个大类。总的来说,
磁盘操作的两样都用,但其他的io装置只有文字型。还有就是一些没对应物理设
备的kernel modules提供的虚拟设备也有,它们对应着文字型的特殊文件。特殊
文件习惯放在目录/dev里面。

对于特殊设备文件的i-node有block和chat两个类,设备通过驱动号进行记录
。通过这些,就可以识别device driver。device 号就是major号(8bit)(主设备
号)和minor号(24bit)(辅助设备号),device driver的识别就是由major的不
一样而区别。而且呢,block型,char型的等等可能存在最大数目是256种类。一般的
情况,同种类的设备不同数目的区别就是通过辅助设备号进行识别。实际上,对于
disk的特殊文件,有disk/slide/partition表示法,而且,文字型,块型等的特殊
设备文件也存在。以下就是一个ide硬盘的的文字型特殊设备文件的例子:
/dev/rwd0 1台ide的硬盘
/dev/rwd0s1 1台ide的硬盘的slide #1
/dev/rwd0s2 1台ide的硬盘的slide #2
/dev/rwd0s2a slide #2的partition a
/dev/rwd0s2b slide #2的partition b
...
/dev/rwd0s3 1台的ide的硬盘的slide #3

如果把rwd换成wd,对应的就是block型的特殊设备文件了。
对于磁盘,有如下的使用方法:
。对于slide的文字型特殊文件
读写disk label时候使用(disklabel command)
。对于对应的partition的文字型特殊文件
在分区上建立unix文件系统时候(newfs command),文件系统修复,
检查(fsck)时候使用
。对于partition的block型的特殊文件
作为mount命令的参数使用
(下一节介绍虚拟文件系统和v-node,要休息了 )

标签: