php - HTML 字符串中的自动换行/剪切文本-6ren

php - HTML 字符串中的自动换行/剪切文本

转载作者：搜寻专家更新时间：2023-10-31 20:50:14

我想做的是:我有一个包含 HTML 标签的字符串，我想使用不包括 HTML 标签的 wordwrap 函数将其剪切。

我卡住了:

public function textWrap($string, $width)
{
    $dom = new DOMDocument();
    $dom->loadHTML($string);
    foreach ($dom->getElementsByTagName('*') as $elem)
    {
        foreach ($elem->childNodes as $node)
        {
            if ($node->nodeType === XML_TEXT_NODE)
            {
                $text = trim($node->nodeValue);
                $length = mb_strlen($text);
                $width -= $length;
                if($width <= 0)
                { 
                    // Here, I would like to delete all next nodes
                    // and cut the current nodeValue and finally return the string 
                }
            }
        }
    }
}

我不确定目前我是否以正确的方式进行操作。我希望这很清楚...

编辑:

举个例子。我有这段文字

    <p>
        <span class="Underline"><span class="Bold">Test to be cut</span></span>
   </p><p>Some text</p>

假设我想在第 6 个字符处剪切它，我想返回这个:

<p>
    <span class="Underline"><span class="Bold">Test to</span></span>
</p>

最佳答案

正如我在评论中所写，您首先需要找到要剪切的文本偏移量。

首先，我设置了一个包含 HTML 片段的 DOMDocument，然后选择在 DOM 中代表它的主体:

$htmlFragment = <<<HTML
<p>
        <span class="Underline"><span class="Bold">Test to be cut</span></span>
   </p><p>Some text </p>
HTML;

$dom = new DOMDocument();
$dom->loadHTML($htmlFragment);
$parent = $dom->getElementsByTagName('body')->item(0);
if (!$parent)
{
    throw new Exception('Parent element not found.');
}

然后我使用我的 TextRange 类找到需要进行剪切的位置，然后我使用 TextRange 实际进行剪切并找到 DOMNode 应该成为片段的最后一个节点:

$range = new TextRange($parent);

// find position where to cut the HTML textual represenation
// by looking for a word or the at least matching whitespace
// with a regular expression. 
$width = 17;
$pattern = sprintf('~^.{0,%d}(?<=\S)(?=\s)|^.{0,%1$d}(?=\s)~su', $width);
$r = preg_match($pattern, $range, $matches);
if (FALSE === $r)
{
    throw new Exception('Wordcut regex failed.');
}
if (!$r)
{
    throw new Exception(sprintf('Text "%s" is not cut-able (should not happen).', $range));
}

此正则表达式在 $range 提供的文本表示中找到要剪切内容的偏移量。正则表达式模式是 inspired by another answer，它对其进行了更详细的讨论，并稍作修改以满足此答案的需要。

// chop-off the textnodes to make a cut in DOM possible
$range->split($matches[0]);
$nodes = $range->getNodes();
$cutPosition = end($nodes);

因为有可能没有什么可剪切的(例如 body 将变为空)，我需要处理这种特殊情况。否则 - 如评论中所述 - 所有以下节点都需要删除:

// obtain list of elements to remove with xpath
if (FALSE === $cutPosition)
{
    // if there is no node, delete all parent children
    $cutPosition = $parent;
    $xpath = 'child::node()';
}
else
{
    $xpath = 'following::node()';
}

剩下的很简单:查询xpath，删除节点并输出结果:

// execute xpath
$xp = new DOMXPath($dom);
$remove = $xp->query($xpath, $cutPosition);
if (!$remove)
{
    throw new Exception('XPath query failed to obtain elements to remove');
}

// remove nodes
foreach($remove as $node)
{
    $node->parentNode->removeChild($node);
}

// inner HTML (PHP >= 5.3.6)
foreach($parent->childNodes as $node)
{
    echo $dom->saveHTML($node);
}

完整的代码示例是 available on viper codepad incl。 TextRange 类。键盘有一个错误，所以它的结果不正确(相关:XPath query result order)。实际输出如下:

<p>
        <span class="Underline"><span class="Bold">Test to</span></span></p>

所以请注意您有一个当前的 libxml 版本(通常情况下)，最后的输出 foreach 使用了一个 PHP 函数 saveHTML自 PHP 5.3.6 起的参数。如果您没有该 PHP 版本，请采取一些替代方案，如 How to get the xml content of a node as a string? 或类似问题中概述的那样。

当您仔细查看我的示例代码时，您可能会注意到剪切长度非常大 ($width = 17;)。那是因为文本前面有很多空白字符。这可以通过使正则表达式在其前面删除任意数量的空格和/或首先修剪 TextRange 来调整。第二个选项确实需要更多功能，我快速写了一些可以在创建初始范围后使用的东西:

...
$range = new TextRange($parent);
$trimmer = new TextRangeTrimmer($range);
$trimmer->trim();
...

这将删除 HTML 片段中左右两侧不必要的空白。 TextRangeTrimmer 代码如下:

class TextRangeTrimmer
{
    /**
     * @var TextRange
     */
    private $range;

    /**
     * @var array
     */
    private $charlist;

    public function __construct(TextRange $range, Array $charlist = NULL)
    {
        $this->range = $range;
        $this->setCharlist($charlist);      
    }
    /**
     * @param array $charlist list of UTF-8 encoded characters
     * @throws InvalidArgumentException
     */
    public function setCharlist(Array $charlist = NULL)
    {
         if (NULL === $charlist)
            $charlist = str_split(" \t\n\r\0\x0B")
        ;

        $list = array();

        foreach($charlist as $char)
        {
            if (!is_string($char))
            {
                throw new InvalidArgumentException('Not an Array of strings.');
            }
            if (strlen($char))
            {
                $list[] = $char; 
            }
        }

        $this->charlist = array_flip($list);
    }
    /**
     * @return array characters
     */
    public function getCharlist()
    {
        return array_keys($this->charlist);
    }
    public function trim()
    {
        if (!$this->charlist) return;
        $this->ltrim();
        $this->rtrim();
    }
    /**
     * number of consecutive charcters of $charlist from $start to $direction
     * 
     * @param array $charlist
     * @param int $start offset
     * @param int $direction 1: forward, -1: backward
     * @throws InvalidArgumentException
     */
    private function lengthOfCharacterSequence(Array $charlist, $start, $direction = 1)
    {
        $start = (int) $start;              
        $direction = max(-1, min(1, $direction));
        if (!$direction) throw new InvalidArgumentException('Direction must be 1 or -1.');

        $count = 0;
        for(;$char = $this->range->getCharacter($start), $char !== ''; $start += $direction, $count++)
            if (!isset($charlist[$char])) break;

        return $count;
    }
    public function ltrim()
    {
        $count = $this->lengthOfCharacterSequence($this->charlist, 0);

        if ($count)
        {
            $remainder = $this->range->split($count);
            foreach($this->range->getNodes() as $textNode)
            {
                $textNode->parentNode->removeChild($textNode);
            }
            $this->range->setNodes($remainder->getNodes());
        }

    }
    public function rtrim()
    {
        $count = $this->lengthOfCharacterSequence($this->charlist, -1, -1);

        if ($count)
        {
            $chop = $this->range->split(-$count);
            foreach($chop->getNodes() as $textNode)
            {
                $textNode->parentNode->removeChild($textNode);
            }
        }
    }
}

希望对您有所帮助。

关于php - HTML 字符串中的自动换行/剪切文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8482339/

文章推荐： php - 如何在 Javascript 中包含 PHP；谷歌图表 API

文章推荐： php - 我们如何在 wordpress 中为订户禁用 profile.php

文章推荐： php - 发送 header 后设置 cookie。为什么它有效？不应该

文章推荐： php - 单击时如何使我的删除链接拆分为是/否？

linux - 我的文件中有 10 行。现在我需要打印前 3 行，然后打印第 5-7 行，然后打印第 9-10 行。 LINUX 的命令是什么？
猫f1.txt阿曼维沙尔阿杰贾伊维杰拉胡尔曼尼什肖比特批评塔夫林现在输出应该符合上面给定的条件最佳答案您可以在文件读取循环中设置一个计数器并打印它，计数=0 读取行时做让我们数一数++ if
python - 查找2个文件中的公共(public)行，从文件1写入公共(public)行，从文件2写入非公共(public)行
我正在尝试查找文件 1 和文件 2 中的共同行。如果公共(public)行存在，我想写入文件 2 中的行，否则打印文件 1 中的非公共(public)行。fin1 和 fin2 是这里的文件句柄。它读
mysql - 从第一个表中选择 1 行，然后从其他表中选择 n 行，然后返回到第一个表并选择第 2 行，依此类推
我有这个 SQL 脚本: CREATE TABLE `table_1` ( `IDTable_1` int(11) NOT NULL, PRIMARY KEY (`IDTable_1`) );
sql - 哪个最快，1x 插入 512 行，4x 插入 128 行，或 512x 插入 1 行
我有 512 行要插入到数据库中。我想知道提交多个插入内容是否比提交一个大插入内容有任何优势。例如 1x 512 行插入 -- INSERT INTO mydb.mytable (id, phonen
Mysql 选择子(行，行 - 1)
如何从用户中选择user_id，SUB(row, row - 1)，其中user_id=@userid我的表用户，id 为 1、3、4、10、11、23...(不是++) --id---------u
mysql - 1M 行，1 个表，几列与 300 个表，3000 行，几列与 300 列，3000 行，1 个表？
我曾尝试四处寻找解决此问题的最佳方法，但我找不到此类问题的任何先前示例。我正在构建一个基于超本地化的互联网购物中心，该区域分为大约 3000 个区域。每个区域包含大约 300 个项目。它们是相似的项
php - 我在第 32 行、第 34 行、第 36 行、第 38 行有错误 :Notice: Undefined offset: 1 in C:\wamp\www\index. php
preg_match('|phpVersion = (.*)\n|',$wampConfFileContents,$result); $phpVersion = str_replace('"','',
正则表达式 - 如何删除前 10 行/和最后 10 行
我正在尝试创建一个正则表达式，使用“搜索并替换全部”删除 200 个 txt 文件的第一行和最后 10 行我尝试 (\s*^(\h*\S.*)){10} 删除包含的前 10 行空白，但效果不佳。最
java - 结果集返回 3 行，但我只能打印 2 行？
下面的代码从数据库中获取我需要的信息，但没有打印出所有信息。首先，我知道它从表中获取了所有正确的信息，因为我已经在 sql Developer 中尝试过查询。 public static void m
sql - 选择前 10 行，然后随机选择其中 5 行
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它，visit the help center 。已关
c# - 数据库操作预计影响 1 行，但实际影响 0 行
我试图在两个表中插入记录，但出现异常。您能帮我解决这个问题吗？首先我尝试了下面的代码。 await _testRepository.InsertAsync(test); await _xyzRepo
css - 在桌面上显示 1 行，在移动设备上显示 2 行
这个基本的 bootstrap CSS 显示 1 行 4 列: Text Text Text
mysql - 从表中选择前 X 行，忽略前 Y 行
如果我想从表中检索前 10 行，我将使用以下代码: SELECT * FROM Persons LIMIT 10 我想知道的是如何检索前 10 个结果之后的 10 个结果。如果我在下面执行这段代码，
java - 为什么 [列,行] 而不是 [行,列]
今天我开始使用 JexcelApi 并遇到了这个:当您尝试从特定位置获取元素时，不是像您通常期望的那样使用sheet.getCell(row,col)，而是使用sheet.getCell(col,ro
PHP - 显示表中最后 3 行 SQL 行(不起作用)
我正在尝试在我的网站上开发一个用户个人资料系统，其中包含用户之前发布的 3 个帖子。我可以让它选择前 3 条记录，但它只会显示其中一条。我是不是因为凌晨 2 点就想编码而变得愚蠢？ query($q)
php - MySQL 组相同的标题(行)并求和金钱(行)，但保留单独的时间戳进行排序
我在互联网上寻找答案，但找不到任何答案。 (我可能问错了？)我有一个看起来像这样的表: 我一直在使用查询: SELECT title, date, SUM(money) FROM payments W
mysql - 获取 100 行，每组最多 10 行
我有以下查询，我想从数据库中获取 100 个项目，但 host_id 多次出现在 urls 表中，我想每个 host_id 从该表中最多获取 10 个唯一行。 select * from urls j
sql - 如何查询前 10 行，下一次从表中查询其他 10 行
我的数据库表中有超过 500 行具有特定日期。查询特定日期的行。 select * from msgtable where cdate='18/07/2012' 这将返回 500 行。如何逐行查询
bash - 打印 n 行，然后在大文本文件中跳过 n 行
我想使用 sed 从某一行开始打印 n 行、跳过 n 行、打印 n 行等，直到文本文件结束。例如在第 4 行声明，打印 5-9，跳过 10-14，打印 15-19 等来自文件 1 2 3 4 5 6
php - 验证密码返回 0 行，而预期返回 1 行
我目前正在执行验证过程来检查用户的旧密码，但问题是我无法理解为什么我的查询返回零行，而预期它有 1 行。另一件事是，即使我不将密码文本转换为 md5，哈希密码仍然得到正确的答案，但我不知道为什么会发生

搜寻专家

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

php - HTML 字符串中的自动换行/剪切文本