The issues around mixed content took me some experimentation to remember, so I thought I'd add this note to save others time.
When your markup is something like: <div><p>First text.</p><ul><li><p>First bullet</p></li></ul></div>, you'll get XML_ELEMENT_NODEs that are quite regular. The <div> has children <p> and <ul> and the nodeValue for both <p>s yields the text you expect.
But when your markup is more like <p>This is <b>bold</b> and this is <i>italic</i>.</p>, you realize that the nodeValue for XML_ELEMENT_NODEs is not reliable. In this case, you need to look at the <p>'s child nodes. For this example, the <p> has children: #text, <b>, #text, <i>, #text.
In this example, the nodeValue of <b> and <i> is the same as their #text children. But you could have markup like: <p>This <b>is bold and <i>bold italic</i></b>, you see?</p>. In this case, you need to look at the children of <b>, which will be #text, <i>, because the nodeValue of <b> will not be sufficient.
XML_TEXT_NODEs have no children and are always named '#text'. Depending on how whitespace is handled, your tree may have "empty" #text nodes as children of <body> and elsewhere.
Attributes are nodes, but I had forgotten that they are not in the tree expressed by childNodes. Walking the full tree using childNodes will not visit any attribute nodes.
DOMNode sınıfı
(PHP 5)
Sınıf Sözdizimi
Özellikler
- nodeName
-
Geçerli düğüm türü için en doğru ismi döndürür.
- nodeValue
-
Düğümün türüne bağlı olarak düğümün değeri.
- nodeType
-
XML_xxx_NODEsabitlerinden biri olarak düğüm türü. - parentNode
-
Düğümün ebeveyni.
- childNodes
-
Düğümün tüm çocuklarını içeren bir DOMNodeList nesnesi; düğüm çocuksuzsa boş bir DOMNodeList nesnesidir.
- firstChild
-
Düğümün ilk çocuğu; yoksa
NULL'dur. - lastChild
-
Düğümün son çocuğu; yoksa
NULL'dur. - previousSibling
-
Bir önceki kardeş düğüm; yoksa
NULL'dur. - nextSibling
-
Bir sonraki kardeş düğüm; yoksa
NULL'dur. - attributes
-
Düğüm bir DOMElement nesnesi ise düğümün özniteliklerini içeren bir DOMNamedNodeMap nesnesi, yoksa
NULL'dur. - ownerDocument
-
Düğümün ait olduğu DOMDocument nesnesi.
- namespaceURI
-
Belirtilmişse düğümün isim alanını betimleyen adres; yoksa
NULL'dur. - prefix
-
Belirtilmişse düğümün isim alanı öneki; yoksa
NULL'dur. - localName
-
Düğümün nitelikli isminin yerel kısmı.
- baseURI
-
Düğümün mutlak adresi; eğer gerçeklenim bir mutlak adres sağlayamıyorsa
NULL'dur. - textContent
-
Düğümün kendinin, çocuk ve torunlarının metin içeriği.
İçindekiler
- DOMNode::appendChild — Listenin sonuna yeni bir çocuk ekler
- DOMNode::C14N — Canonicalize nodes to a string
- DOMNode::C14NFile — Canonicalize nodes to a file
- DOMNode::cloneNode — Düğümün bir kopyasını yapar
- DOMNode::getLineNo — Get line number for a node
- DOMNode::getNodePath — Get an XPath for a node
- DOMNode::hasAttributes — Düğümün öznitelikleri var mı diye bakar
- DOMNode::hasChildNodes — Düğümün çocuk düğümleri var mı diye bakar
- DOMNode::insertBefore — Yeni çocuğu belirtilen çocuğun öncesine yerleştirir
- DOMNode::isDefaultNamespace — Belirtilen isim alanının öntanımlı olup olmadığına bakar
- DOMNode::isSameNode — İki düğüm aynı mı diye bakar
- DOMNode::isSupported — Özelliğin belirtilen sürümünün desteklenip desteklenmediğine bakar
- DOMNode::lookupNamespaceURI — İsim alanı öneki belirtilen düğümün isim alanı betimleyicisini döndürür
- DOMNode::lookupPrefix — Belirtilen isim alanıyla ilişkili düğümün isim alanı önekini döndürür
- DOMNode::normalize — Düğümü normalleştirir
- DOMNode::removeChild — Listeden belirtilen çocuğu siler
- DOMNode::replaceChild — Bir çocuk düğümü yenisi ile değiştirir
getAttribute() returns an empty string if the requested attribute doesn't exist in the node.
If you have empty $node->textContent and $node->textValue, check if document that is loaded have UTF-8 encoding.
Just discovered that node->nodeValue strips out all the tags
For a reference with more information about the XML DOM node types, see http://www.w3schools.com/dom/dom_nodetype.asp
(When using PHP DOMNode, these constants need to be prefaced with "XML_")
For clarification:
The assumingly 'discoverd' by previous posters and seemingly undocumented methods (.getElementsByTagName and .getAttribute) on this class (DOMNode) are in fact methods of the class DOMElement, which inherits from DOMNode.
See: http://www.php.net/manual/en/class.domelement.php
You cannot simply overwrite $textContent, to replace the text content of a DOMNode, as the missing readonly flag suggests. Instead you have to do something like this:
<?php
$node->removeChild($node->firstChild);
$node->appendChild(new DOMText('new text content'));
?>
This example shows what happens:
<?php
$doc = DOMDocument::loadXML('<node>old content</node>');
$node = $doc->getElementsByTagName('node')->item(0);
echo "Content 1: ".$node->textContent."\n";
$node->textContent = 'new content';
echo "Content 2: ".$node->textContent."\n";
$newText = new DOMText('new content');
$node->appendChild($newText);
echo "Content 3: ".$node->textContent."\n";
$node->removeChild($node->firstChild);
$node->appendChild($newText);
echo "Content 4: ".$node->textContent."\n";
?>
The output is:
Content 1: old content // starting content
Content 2: old content // trying to replace overwriting $node->textContent
Content 3: old contentnew content // simply appending the new text node
Content 4: new content // removing firstchild before appending the new text node
If you want to have a CDATA section, use this:
<?php
$doc = DOMDocument::loadXML('<node>old content</node>');
$node = $doc->getElementsByTagName('node')->item(0);
$node->removeChild($node->firstChild);
$newText = $doc->createCDATASection('new cdata content');
$node->appendChild($newText);
echo "Content withCDATA: ".$doc->saveXML($node)."\n";
?>
This class apparently also has a getElementsByTagName method.
I was able to confirm this by evaluating the output from DOMNodeList->item() against various tests with the is_a() function.
It took me forever to find a mapping for the XML_*_NODE constants. So I thought, it'd be handy to paste it here:
1 XML_ELEMENT_NODE
2 XML_ATTRIBUTE_NODE
3 XML_TEXT_NODE
4 XML_CDATA_SECTION_NODE
5 XML_ENTITY_REFERENCE_NODE
6 XML_ENTITY_NODE
7 XML_PROCESSING_INSTRUCTION_NODE
8 XML_COMMENT_NODE
9 XML_DOCUMENT_NODE
10 XML_DOCUMENT_TYPE_NODE
11 XML_DOCUMENT_FRAGMENT_NODE
12 XML_NOTATION_NODE
And apparently also a setAttribute method too:
$node->setAttribute( 'attrName' , 'value' );
Try canonicalization:
<?php
$dom = new DOMDocument;
$dom->loadHTMLFile('http://www.example.com/');
echo $dom->documentElement->C14N();
?>
Or output it to a file, using C14NFile()
Undocumented stuff ;)
This class has a getAttribute method.
Assume that a DOMNode object $ref contained an anchor taken out of a DOMNode List. Then
$url = $ref->getAttribute('href');
would isolate the url associated with the href part of the anchor.
