如何使用PHP函数从HTML字符串中提取标签以及其内容

发布时间：2023-06-12 15:38:06

在使用PHP处理HTML字符串时，经常需要从字符串中提取标签以及其内容。这可以使用PHP内置函数和正则表达式来完成。本文将介绍如何使用PHP函数从HTML字符串中提取标签以及其内容。

一、使用strip_tags函数删除HTML标签

strip_tags函数可以用来删除HTML标签，提取只包含文本的字符串。下面是strip_tags函数的语法：

string strip_tags( string $str [, string $allowable_tags ] )

其中，个参数是要删除HTML标签的字符串；第二个参数可以指定保留哪些标签，允许它们的存在。

以下是一个例子，演示了如何使用strip_tags函数删除HTML标签：

$html = '<p><b>Hello</b> World!</p>';
$text = strip_tags($html);
echo $text; // 输出：Hello World!

二、使用DOMDocument和DOMXPath类提取HTML标签和内容

可以使用DOMDocument和DOMXPath类来访问HTML文档中的标记和内容。DOMDocument是一个表示整个文档的树状结构，可以使用它的各种方法访问文档的不同部分。DOMXPath是一个查询语言，用于在DOM文档中选择节点。

以下是一个例子，演示了如何使用DOMDocument和DOMXPath类提取HTML标签和内容：

$html = '<div><p class="title">Welcome</p><ul><li>Item 1</li><li>Item 2</li></ul></div>';
$dom = new DOMDocument;
$dom->loadHTML($html);
$xpath = new DOMXPath($dom);

// 提取标题的内容
$title = $xpath->query('//p[@class="title"]')->item(0)->nodeValue;
echo $title . "
"; // 输出：Welcome

// 提取列表项的内容
$items = $xpath->query('//ul/li');
foreach ($items as $item) {
    echo $item->nodeValue . "
";
}
// 输出：
// Item 1
// Item 2

在上面的例子中，我们首先使用DOMDocument的loadHTML方法加载HTML字符串，然后使用DOMXPath类来选择标记和内容。在个查询中，我们选择一个带有class属性为"title"的p标记，并提取其节点值。在第二个查询中，我们选择包含在ul标志中的li标记，并逐个检查它们的节点值。

三、使用正则表达式提取HTML标记和内容

正则表达式也可以用来提取HTML标记和内容。下面是一个演示如何使用正则表达式提取HTML标记和内容的例子：

$html = '<div><p class="title">Welcome</p><ul><li>Item 1</li><li>Item 2</li></ul></div>';

// 提取标题的内容
preg_match('/<p class="title">(.+)<\/p>/', $html, $matches);
$title = $matches[1];
echo $title . "
"; // 输出：Welcome

// 提取列表项的内容
preg_match_all('/<li>(.+)<\/li>/', $html, $matches);
foreach ($matches[1] as $item) {
    echo $item . "
";
}
// 输出：
// Item 1
// Item 2

在上面的例子中，我们使用preg_match函数和正则表达式，提取包含class属性为"title"的p标签中的内容。我们使用preg_match_all函数和正则表达式来提取ul标记中的所有li标记，并逐个检查它们的内容。

总结

本文介绍了从HTML字符串中提取标记和内容的三种方法。可以使用strip_tags函数删除所有标记，提取只包含文本的字符串。DOMDocument和DOMXPath类可以用于选择标记和内容。正则表达式也可以用来提取标记和内容。使用不同的方法可以根据具体情况来选择最适合的方法。