DOM是DocumentObjectModel的縮寫,提供了與XML交互的標準編程模型:(1)提供了標準方法在程序中創(chuàng)建、遍歷或者更新XML文檔內容。(2)提供了一組核心的與供應商和語言無關的應用程序編程接口(API),可滿足與XML交互的大部分需求。因此,DOMAPIs成為應用程序和XML文檔之間互通的橋梁。
W3C(WorldWideWebConsortium)DOMLevel1規(guī)范定義了兩組DOM編程接口:
?。?)基本接口:W3C基本接口定義了用來在應用程序中操縱XML文檔的接口;
?。?)擴展接口:W3C擴展接口定義了一些方便開發(fā)者的接口。
所有XML處理程序必須支持Unicode字符編碼的兩種形式:UTF-8和UTF-16。XMLParser可以讀取使用ISO-8859-1、Big-5或者Shift-JIS編碼的文檔,并在加載文檔時將它們自動轉換為Unicode。
如果XML文檔使用的字符編碼不是UTF-8(8-bitASCII文本也是可接受的UTF-8)或者UTF-16,那么它必須在XML聲明中提供字符編碼聲明,否則XMLParser可能會出錯。當然,即使對字符編碼進行了聲明,Parser也可能不能夠處理(不支持該編碼),但能夠正確地給出提示信息。(由于XML聲明是使用基本的ASCII文本書寫的,Parser能夠正確地讀出它的內容。)
2.MSXML4.0簡介
MSXML(MicrosoftXMLCoreServices)是Microsoft提供的用于處理XML文檔的COM庫。MSXMLDOM不僅實現(xiàn)了W3CDOMLevel1規(guī)范定義的基本接口和擴展接口,還提供了額外的方法來支持XSLTransformation(XSLT)、XPath、名字空間和數(shù)據(jù)類型。MSXML除了支持規(guī)范所要求的字符編碼外,還支持更多的字符編碼格式,而在內部使用UnicodeUCS-2字符編碼處理XML文檔中的所有文本。
本文以VisualC++6.0為開發(fā)環(huán)境,介紹MSXML4.0SDK中DOM的使用。另外,MSXML中的SAX也比較常用。
MSXMLDOM是本文介紹的重點,它提供了豐富的接口方便在程序中操作XML文檔。DOM在內存中提供了XML文檔的完整表示,允許對整個文檔內容的隨機訪問。DOM允許應用程序依賴于MSXMLParser提供的邏輯結構來處理基于XML的信息。其工作流程和原理如下圖所示(源自MSXML4.0SDK):
當MSXMLParser把一個XML文檔加載進DOM時,它從頭到尾讀入整個XML文檔,并構建內在邏輯樹結構。文檔本身被認為是包含其它所有節(jié)點的單個節(jié)點,例如,它包含根元素(RootElement),而根元素則包含文檔中所有的元素、屬性和文本節(jié)點。
MSXMLDOM樹中每一個節(jié)點都有特定的類型(如元素、屬性、文本),也有指向父節(jié)點和子節(jié)點的成員。其中,屬性節(jié)點是一個特殊的節(jié)點,它不是子節(jié)點,是元素的屬性。
2.2.MSXMLSAX2
3.安裝MSXML4.0SDK
從MicrosoftXMLDownloadCenter下載回安裝程序,安裝程序將在你的機器上安裝三個文件:msxml4.dll、msxml4a.dll和msxml4r.dll,并對msxml4.dll進行注冊。
或者,你也可以手動安裝MSXML,如果你樂意的話。首先,拷貝上面的三個dll文件到機器的系統(tǒng)目錄($sysRootsystem32),一般是C:WINDOWSsystem32;然后,運行cmd,執(zhí)行命令:(1)cdC:WINDOWSsystem32 (2)regsvr32msxml4.dll。
在安裝MSXML4.0SDK后,應用程序必須使用版本相關的CLSID和ProgID來顯式地實例化Parser,這確保你的應用程序的穩(wěn)定性。
4.使用MSXMLDOM
本節(jié)介紹在VC6.0中使用MSXMLDOM處理XML文檔。下面的示例中將動態(tài)生成一個XML文檔,并對文檔進行查詢。
4.1.導入MSXML
首先,需要導入MSXML頭文件和庫到VC6.0工程中。有兩種導入方式:
?。?)自動方式,在源代碼中添加如下兩行程序即可:
#import<msxml4.dll>
usingnamespaceMSXML2;
?。?)手動方式(有存在的理由么?呵呵)
a)找到MSXML4.0SDK的安裝目錄,去發(fā)現(xiàn)兩個子目錄inc和lib;
b)在VC選項中,將MSXML4.0下inc和lib子目錄添加到默認的頭文件和庫文件搜索路徑中;
c)在使用MSXML的源文件中包含頭文件<msxml2.h>;
4.2.XML樣例文檔
后面的程序中將動態(tài)生成如下XML文檔,然后對該文檔進行查詢。
<?xmlversion="1.0"encoding="utf-8"?>
<!--SampleXMLfilecreatedusingXMLDOMobject.-->
<request>
<identification>
<userName>tyc</userName>
<password>pwd</password>
</identification>
<commandLinescount="2"reply="no"immediate="yes">
<commandnum="1">
<type>backup</type>
<dbName>db1359</dbName>
</command>
<commandnum="2">
<type>save</type>
<data><![CDATA[這里是XML文檔的CDATA數(shù)據(jù)段...]]></data>
</command>
</commandLines>
</request>
4.3.用到的COM技術
與其它COM技術一樣,MSXML也使用引用計數(shù)來管理DOM對象的生存期。當使用MSXML中的COM裸接口指針時,程序員必須負責處理該指針的引用計數(shù):調用AddRef增加引用計數(shù);調用Release減少引用計數(shù)。
MSXML中成員函數(shù)有兩類,一類成員函數(shù)的返回值是通過參數(shù)返回的,而函數(shù)本身返回HRESULT作為操作成功與否的標識,如果函數(shù)返回的值(通過參數(shù))是指針,那么該指針是裸指針,這里把這類用法稱為裸用法,這種函數(shù)稱為裸函數(shù);另一類成員函數(shù)是對前面的裸函數(shù)的簡單封裝形式,把裸函數(shù)的返回值作為真正的返回值返回,如果是返回指針,則指針不再是裸指針,而是經過封裝的智能指針。一般前類函數(shù)的函數(shù)名中有下劃線,而后者沒有。你可以在生成的msxml4.tli文件中看到這種封裝。
4.5.源程序
不多說了,看代碼吧。(注:本來想貼上所有代碼的,但系統(tǒng)字數(shù)限制,只好刪除了兩個實現(xiàn)函數(shù),請看文后的源程序打包文件)
#include<iostream>
#include<string>
#include<cassert>
usingnamespacestd;
#import<msxml4.dll>
usingnamespaceMSXML2;
boolgenerateXMLSampleFile(conststring&path);
boolqueryXMLSampleFile(conststring&path);
intmain()
{
//初始化COM庫
CoInitialize(NULL);
//創(chuàng)建XML文件及其內容
if(!generateXMLSampleFile("sample.xml"))
cout<<"Failed"<<endl;
//加載剛生成的XML文件,將其輸出到標準輸出中予以顯示
IXMLDOMDocument2PtrpXMLDom;
HRESULThr=pXMLDom.CreateInstance(__uuidof(DOMDocument40));
if(FAILED(hr)){
cout<<"FailedtoinstantiateDOMDocument40class!"<<endl;
return-1;
}
if(pXMLDom->load("sample.xml")!=VARIANT_TRUE){
cout<<"Failedloadxmldatafromfile:"<<
static_cast<char*>(pXMLDom->parseError->Getreason())<<endl;
return-1;
}
//下面輸出XML文件內容,但奇怪的是文件頭中沒有編碼的部分!
cout<<static_cast<char*>(pXMLDom->xml)<<endl;
pXMLDom.Release(); //注意,不能用pXMLDom->Release()這種形式!
//對剛生成的XML文件進行查詢
cout<<"---------------------------------------"<<endl;
cout<<"Startquery..."<<endl;
queryXMLSampleFile("sample.xml");
CoUninitialize();
return0;
}
補充下,如果是遍歷一個未知XML文檔,就需要使用IXMLDOMDocumentPtr的documentElement獲得根元素,使用IXMLDOMNodePtr的firstChild、nextSibling成員獲得一個節(jié)點的所有子節(jié)點;使用IXMLDOMNodePtr的nodeType成員來判斷節(jié)點類型(元素、屬性、文本,等等),使用text成員得到文本值,使用nodeName成員得到節(jié)點名。還可以使用IXMLDOMDocumentPtr、IXMLDOMNodePtr等的xml成員獲得相應的xml字符串。另詳細的資料請參考MSXML4.0SDK文檔。
另外,在程序中動態(tài)創(chuàng)建的text節(jié)點的text值的數(shù)據(jù)量大小是有限的,在我的機器上測試發(fā)現(xiàn)(默認VC配置),使用256K的數(shù)據(jù)還正常,但使用512K的數(shù)據(jù)時就StackOverflow了。但是,加載XML文檔時是沒有問題的,其數(shù)據(jù)量并不受此限制。
最后,在你使用MSXMLDOM時,請清醒地認識到它在內部是一顆樹的表示,任何數(shù)據(jù)都是以節(jié)點形式存在的。That’sall!
聯(lián)系客服