电脑技术学习

Linux操作系统下的离线浏览器介绍

dn001

  本文将介绍如何实现一个离线浏览器,以下载并浏览网上资源。

  镜像目录结构

  离线浏览下载到本地的网页时,需要解决的一个关键性问题就是“如何通过某一网页中的超级链接正确地定位其他网页”。比较简便的方法是在用户指定的本地目录下建立一个目标网站的完整或部分镜像。也就是按照文件在服务器端的目录结构保存下载的文件(参见下图)。这样一来,如果网页中的超级链接是以相对路径形式给出的,那么浏览程序就可以直接通过此相对路径访问到本地文件系统中的网页;如果网页中的超级链接是以绝对的URL形式给出的,那么必须在保存网页之前将这些URL转换为本地绝对路径。

  在网络中,一个有效的URL应该只有唯一的网络文件与之对应。因此,只要将网络上由URL所确定的层次关系,转化为本地文件系统中由目录路径所确定的层次关系,就可以建立网站在本地的完全或部分镜像。下面讨论建立镜像的具体方法。

  镜像路径算法

  首先,将下载网页时生成的URL拆分成协议类名(protocol)、IP地址(ipaddr)、目录名(directory)和文件名(file)。

  KDE环境提供了一个用于解析URL的类KURL,只需要定义一个对象KURL u((const char*)URL),就可以利用该类提供的成员函数将URL拆解为所需的部分。但是,此类未提供对ASP定位语句的支持,所以读者可以在KURL的基础上编写自己的拆解函数,以完善程序功能。

  需要注意的是,在同一网络文件的URL中,网址部分可能是以域名地址形式给出的,也可能是以IP 地址形式给出的。为了避免将同一文件镜像到不同目录下,如果网址是域名形式的,应该使用socket函数gethostbyname ()将其转换为IP地址。

  其次,确定网络文件在本地的镜像路径。假设用户指定的本地目录存放在字符数组LDir中,则代码如下:

  

QString LocalDir = LDir + “/” + protocol + “_” + ipaddr + directory

QString LocalPath = LocalDir + file;

  这样一来,如果一个网络文件的URL是http://11.171.38.32/webfile/relax/index.html,而用户指定的本地目录是/home/yangjx/web,则此网页文件对应的镜像路径为/home/yangjx/web/http_11.171.38.32/webfile/relax/index.html。

  处理下载文件

  有了镜像路径生成算法,接下来要对下载的文件做如下处理:

  ● 如果是网页文件,必须扫描文件,并将其中以绝对URL形式给出的超级链接替换成用镜像路径生成算法产生的本地绝对路径,而那些以相对路径形式给出的超级链接则保持不变;

  ● 建立相应的目录,并保存文件到绝对路径所指定的位置。

  在建立目录时,由于Linux提供的目录创建函数int mkdir(char * dir, int mode)只能在已存在的目录下建立一级子目录,所以要用“递归”方式构造一个目录创建函数:

  

static int CDirTools:: Mkdir(QString dir,int mode);

{;

QString parentdir

 if(dir.isEmpty());

//如果dir为空串返回失败;

return -1

 int result = mkdir(dir,mode)

 if(result == -1 && errno == EEXIST) //如果dir目录已经存在,则返回1;

return 1

 if(result != -1);

//如果建立成功,则返回0;

  return 0

 else;

 {//否则先创建其父目录;

  KURL u((const char *)dir)

//取得dir的父目录  ;

parentdir = url.directory(false)

  if(Mkdir(parentdir) == -1);

//如果父目录创建失败,则返回-1;否则再次创建本目录;

   return -1

  if(mkdir(dir,mode) == -1);

//如果本目录创建失败,则返回-1;

  return -1

 };

}
  编程实现
  Linux操作系统的桌面环境KDE提供了一个文件管理器KFM,它和IE一样既可以浏览本地目录和文件,也可以浏览网页,并且KFM还提供了C++编程接口: KHTMLView类。我们可以创建一个KHTMLView类的子类CHtmlView来浏览下载的网页文件。

  1.在窗口中显示HTML页面

  

int CHtmlView:: showPage(const char * path);

{ //显示path指定的文件中所包含的HTML页面;

 if(path == NULL);

  return -1

 else;

 {;

  FILE * pfile

//打开包含页面的文件;

  if((pfile = fopen((const char*)path,“rb”)) != NULL);

  {;

   int blocklen = 0x10000

   char * c = new char[blocklen+1]

   KURL u((const char*)path)

//类成员函数,清除窗口内原有内容,并初始化窗口,准备显示新页面;

  begin( u.directoryURL() )

   while(1);

   {;

//读出网页文件的内容;

   int len = fread(c,sizeof(char),blocklen,pfile)

//类成员函数,将读取的内容写入KHTMLView类的缓冲区;

write(c)

//文件读取完毕后退出循环;

if(len < blocklen);

   break

   };

//类成员函数,标示HTML页面已经全部写入缓冲区;

   end()

//类成员函数,分析缓冲区中的HTML代码;

   parse()

//类成员函数,显示HTML页面;

   show()

   delete [] c

  };

  else return -1

};

return 0

}

  2.响应超级链接的点击

  定义鼠标事件处理函数mousePressedHook()覆盖KHTMLView类中的同型虚拟函数。当用户用鼠标点击网页中的超级链接时,该函数将被调用。被点击的超级链接的地址会作为参数自动传入该函数。由于网页文件中的所有超级链接已做过本地镜像处理,所以,只要该链接所指向的文件已经被下载程序正确地下载到本地,那么使用showPage函数就能调入并显示此页。

  

bool CHtmlView:: mousePressedHook;
( const char* _url, const char *_target,;
QMouseEvent *_ev, bool _isselected );

{;

KHTMLView:: mousePressedHook(_url,_target,_ev,_isselected)

//显示被点击的页面;

showPage(_url)

return true

}

  在生成Kdevelop的窗口应用程序框架的View类中定义一个ChtmlView对象,将View类作为其父窗口:

  

ChtmlView *m_htmlview = new ChtmlView(this,“HtmlViewer”)

/*调用showPage函数显示path指向的网页文件*/;

m_htmlview-> showPage(path);

  此外,我们还可以在此基础上加入更多的功能,依靠KDevelop所提供的丰富的图形用户接口类将浏览器设计得更美观易用。

标签: linux