- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
我想做的是:我有一个包含 HTML 标签的字符串,我想使用不包括 HTML 标签的 wordwrap 函数将其剪切。
我卡住了:
public function textWrap($string, $width)
{
$dom = new DOMDocument();
$dom->loadHTML($string);
foreach ($dom->getElementsByTagName('*') as $elem)
{
foreach ($elem->childNodes as $node)
{
if ($node->nodeType === XML_TEXT_NODE)
{
$text = trim($node->nodeValue);
$length = mb_strlen($text);
$width -= $length;
if($width <= 0)
{
// Here, I would like to delete all next nodes
// and cut the current nodeValue and finally return the string
}
}
}
}
}
我不确定目前我是否以正确的方式进行操作。我希望这很清楚...
编辑:
举个例子。我有这段文字
<p>
<span class="Underline"><span class="Bold">Test to be cut</span></span>
</p><p>Some text</p>
假设我想在第 6 个字符处剪切它,我想返回这个:
<p>
<span class="Underline"><span class="Bold">Test to</span></span>
</p>
最佳答案
正如我在评论中所写,您首先需要找到要剪切的文本偏移量。
首先,我设置了一个包含 HTML 片段的 DOMDocument
,然后选择在 DOM 中代表它的主体:
$htmlFragment = <<<HTML
<p>
<span class="Underline"><span class="Bold">Test to be cut</span></span>
</p><p>Some text </p>
HTML;
$dom = new DOMDocument();
$dom->loadHTML($htmlFragment);
$parent = $dom->getElementsByTagName('body')->item(0);
if (!$parent)
{
throw new Exception('Parent element not found.');
}
然后我使用我的 TextRange
类找到需要进行剪切的位置,然后我使用 TextRange
实际进行剪切并找到 DOMNode
应该成为片段的最后一个节点:
$range = new TextRange($parent);
// find position where to cut the HTML textual represenation
// by looking for a word or the at least matching whitespace
// with a regular expression.
$width = 17;
$pattern = sprintf('~^.{0,%d}(?<=\S)(?=\s)|^.{0,%1$d}(?=\s)~su', $width);
$r = preg_match($pattern, $range, $matches);
if (FALSE === $r)
{
throw new Exception('Wordcut regex failed.');
}
if (!$r)
{
throw new Exception(sprintf('Text "%s" is not cut-able (should not happen).', $range));
}
此正则表达式在 $range
提供的文本表示中找到要剪切内容的偏移量。正则表达式模式是 inspired by another answer,它对其进行了更详细的讨论,并稍作修改以满足此答案的需要。
// chop-off the textnodes to make a cut in DOM possible
$range->split($matches[0]);
$nodes = $range->getNodes();
$cutPosition = end($nodes);
因为有可能没有什么可剪切的(例如 body
将变为空),我需要处理这种特殊情况。否则 - 如评论中所述 - 所有以下节点都需要删除:
// obtain list of elements to remove with xpath
if (FALSE === $cutPosition)
{
// if there is no node, delete all parent children
$cutPosition = $parent;
$xpath = 'child::node()';
}
else
{
$xpath = 'following::node()';
}
剩下的很简单:查询xpath,删除节点并输出结果:
// execute xpath
$xp = new DOMXPath($dom);
$remove = $xp->query($xpath, $cutPosition);
if (!$remove)
{
throw new Exception('XPath query failed to obtain elements to remove');
}
// remove nodes
foreach($remove as $node)
{
$node->parentNode->removeChild($node);
}
// inner HTML (PHP >= 5.3.6)
foreach($parent->childNodes as $node)
{
echo $dom->saveHTML($node);
}
完整的代码示例是 available on viper codepad incl。 TextRange
类。键盘有一个错误,所以它的结果不正确(相关:XPath query result order)。实际输出如下:
<p>
<span class="Underline"><span class="Bold">Test to</span></span></p>
所以请注意您有一个当前的 libxml 版本(通常情况下),最后的输出 foreach
使用了一个 PHP 函数 saveHTML
自 PHP 5.3.6 起的参数。如果您没有该 PHP 版本,请采取一些替代方案,如 How to get the xml content of a node as a string? 或类似问题中概述的那样。
当您仔细查看我的示例代码时,您可能会注意到剪切长度非常大 ($width = 17;
)。那是因为文本前面有很多空白字符。这可以通过使正则表达式在其前面删除任意数量的空格和/或首先修剪 TextRange
来调整。第二个选项确实需要更多功能,我快速写了一些可以在创建初始范围后使用的东西:
...
$range = new TextRange($parent);
$trimmer = new TextRangeTrimmer($range);
$trimmer->trim();
...
这将删除 HTML 片段中左右两侧不必要的空白。 TextRangeTrimmer
代码如下:
class TextRangeTrimmer
{
/**
* @var TextRange
*/
private $range;
/**
* @var array
*/
private $charlist;
public function __construct(TextRange $range, Array $charlist = NULL)
{
$this->range = $range;
$this->setCharlist($charlist);
}
/**
* @param array $charlist list of UTF-8 encoded characters
* @throws InvalidArgumentException
*/
public function setCharlist(Array $charlist = NULL)
{
if (NULL === $charlist)
$charlist = str_split(" \t\n\r\0\x0B")
;
$list = array();
foreach($charlist as $char)
{
if (!is_string($char))
{
throw new InvalidArgumentException('Not an Array of strings.');
}
if (strlen($char))
{
$list[] = $char;
}
}
$this->charlist = array_flip($list);
}
/**
* @return array characters
*/
public function getCharlist()
{
return array_keys($this->charlist);
}
public function trim()
{
if (!$this->charlist) return;
$this->ltrim();
$this->rtrim();
}
/**
* number of consecutive charcters of $charlist from $start to $direction
*
* @param array $charlist
* @param int $start offset
* @param int $direction 1: forward, -1: backward
* @throws InvalidArgumentException
*/
private function lengthOfCharacterSequence(Array $charlist, $start, $direction = 1)
{
$start = (int) $start;
$direction = max(-1, min(1, $direction));
if (!$direction) throw new InvalidArgumentException('Direction must be 1 or -1.');
$count = 0;
for(;$char = $this->range->getCharacter($start), $char !== ''; $start += $direction, $count++)
if (!isset($charlist[$char])) break;
return $count;
}
public function ltrim()
{
$count = $this->lengthOfCharacterSequence($this->charlist, 0);
if ($count)
{
$remainder = $this->range->split($count);
foreach($this->range->getNodes() as $textNode)
{
$textNode->parentNode->removeChild($textNode);
}
$this->range->setNodes($remainder->getNodes());
}
}
public function rtrim()
{
$count = $this->lengthOfCharacterSequence($this->charlist, -1, -1);
if ($count)
{
$chop = $this->range->split(-$count);
foreach($chop->getNodes() as $textNode)
{
$textNode->parentNode->removeChild($textNode);
}
}
}
}
希望对您有所帮助。
关于php - HTML 字符串中的自动换行/剪切文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8482339/
猫f1.txt阿曼维沙尔阿杰贾伊维杰拉胡尔曼尼什肖比特批评塔夫林现在输出应该符合上面给定的条件 最佳答案 您可以在文件读取循环中设置一个计数器并打印它, 计数=0 读取行时做 让我们数一数++ if
我正在尝试查找文件 1 和文件 2 中的共同行。如果公共(public)行存在,我想写入文件 2 中的行,否则打印文件 1 中的非公共(public)行。fin1 和 fin2 是这里的文件句柄。它读
我有这个 SQL 脚本: CREATE TABLE `table_1` ( `IDTable_1` int(11) NOT NULL, PRIMARY KEY (`IDTable_1`) );
我有 512 行要插入到数据库中。我想知道提交多个插入内容是否比提交一个大插入内容有任何优势。例如 1x 512 行插入 -- INSERT INTO mydb.mytable (id, phonen
如何从用户中选择user_id,SUB(row, row - 1),其中user_id=@userid我的表用户,id 为 1、3、4、10、11、23...(不是++) --id---------u
我曾尝试四处寻找解决此问题的最佳方法,但我找不到此类问题的任何先前示例。 我正在构建一个基于超本地化的互联网购物中心,该区域分为大约 3000 个区域。每个区域包含大约 300 个项目。它们是相似的项
preg_match('|phpVersion = (.*)\n|',$wampConfFileContents,$result); $phpVersion = str_replace('"','',
我正在尝试创建一个正则表达式,使用“搜索并替换全部”删除 200 个 txt 文件的第一行和最后 10 行 我尝试 (\s*^(\h*\S.*)){10} 删除包含的前 10 行空白,但效果不佳。 最
下面的代码从数据库中获取我需要的信息,但没有打印出所有信息。首先,我知道它从表中获取了所有正确的信息,因为我已经在 sql Developer 中尝试过查询。 public static void m
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它,visit the help center 。 已关
我试图在两个表中插入记录,但出现异常。您能帮我解决这个问题吗? 首先我尝试了下面的代码。 await _testRepository.InsertAsync(test); await _xyzRepo
这个基本的 bootstrap CSS 显示 1 行 4 列: Text Text Text
如果我想从表中检索前 10 行,我将使用以下代码: SELECT * FROM Persons LIMIT 10 我想知道的是如何检索前 10 个结果之后的 10 个结果。 如果我在下面执行这段代码,
今天我开始使用 JexcelApi 并遇到了这个:当您尝试从特定位置获取元素时,不是像您通常期望的那样使用sheet.getCell(row,col),而是使用sheet.getCell(col,ro
我正在尝试在我的网站上开发一个用户个人资料系统,其中包含用户之前发布的 3 个帖子。我可以让它选择前 3 条记录,但它只会显示其中一条。我是不是因为凌晨 2 点就想编码而变得愚蠢? query($q)
我在互联网上寻找答案,但找不到任何答案。 (我可能问错了?)我有一个看起来像这样的表: 我一直在使用查询: SELECT title, date, SUM(money) FROM payments W
我有以下查询,我想从数据库中获取 100 个项目,但 host_id 多次出现在 urls 表中,我想每个 host_id 从该表中最多获取 10 个唯一行。 select * from urls j
我的数据库表中有超过 500 行具有特定日期。 查询特定日期的行。 select * from msgtable where cdate='18/07/2012' 这将返回 500 行。 如何逐行查询
我想使用 sed 从某一行开始打印 n 行、跳过 n 行、打印 n 行等,直到文本文件结束。例如在第 4 行声明,打印 5-9,跳过 10-14,打印 15-19 等 来自文件 1 2 3 4 5 6
我目前正在执行验证过程来检查用户的旧密码,但问题是我无法理解为什么我的查询返回零行,而预期它有 1 行。另一件事是,即使我不将密码文本转换为 md5,哈希密码仍然得到正确的答案,但我不知道为什么会发生
我是一名优秀的程序员,十分优秀!