- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
给定一个字符串,我必须测试它是否以一组已知的后缀结尾。现在,由于后缀不是很小,文档中的每个单词都必须根据已知后缀列表进行检查。单词和后缀中的每个字符都是 char32_t
。作为天真的迭代匹配将是昂贵的。尽管大多数后缀不是子后缀或另一个后缀的前缀,但它们中的大多数是由一小部分字符构成的。大多数检查将是未命中而不是命中。
所以我想构建一个后缀的 DFA
来最小化未命中的成本。我可以手动解析 unicode 代码点并使用 boost-graph
创建 DFA。但是是否有任何现有的库可以为我构建它?
包含所有后缀的巨大正则表达式是否会比 DFA 更便宜,因为正则表达式搜索也以类似的方式构建用于匹配的 DFA?但是我想知道命中时匹配的是哪个后缀。在正则表达式的情况下,我需要执行另一个线性搜索来获得它(我无法标记正则表达式的内部 DFA 的顶点)。我还需要 unicode
正则表达式。只需将所有后缀放在 |
中,我猜就会像线性搜索一样昂贵。我想我需要检查常见字符并相应地创建具有 lookahed 和 lookbacks 的正则表达式。这不是我手动构建 DFA 需要面对的同样困难吗?
我正在使用 utf-32
进行随机访问。但是,如果我可以轻松解决它,切换到 utf-8 不是问题。我将从右到左反转字符串和模式。
最佳答案
你考虑过Spirit吗?当然,您没有指定如何在上下文中检测后缀(最后是否需要它们,是否需要在它前面添加一些语法等),但您可以这样做:
x3::symbols<Char> sym;
sym += "foo", "bar", "qux";
它构建了一个非常有效的 Trie。它可以解析任何类型的输入迭代器(如果您愿意,也可以包括流)。只需为上下文要求添加一些魔法约束,例如输入结束:
bool has_suffix(string_view sv) {
return parse(sv.cbegin(), sv.cend(), x3::seek[suffix >> x3::eoi]);
}
如果您甚至希望返回字符串的文本值,只需执行以下操作:
string_view get_suffix(string_view sv) {
boost::iterator_range<string_view::const_iterator> output;
parse(sv.cbegin(), sv.cend(), x3::seek[x3::raw[suffix >> x3::eoi]], output);
return {output.begin(), output.size()};
}
Spirit 为您提供了很多自由,让您可以随心所欲地使用智能、动态添加/删除符号,例如对 Trie 等使用 no_case
使用 X3 (c++14)
#include <boost/spirit/home/x3.hpp>
#include <string_view>
#include <cstdint>
namespace Demo {
using Char = char32_t;
using string_view = std::basic_string_view<Char>;
namespace x3 = boost::spirit::x3;
static auto const suffix = [] {
x3::symbols<Char> sym;
sym += "foo", "bar", "qux";
return sym; // x3::no_case[sym];
}();
bool has_suffix(string_view sv) {
return parse(sv.cbegin(), sv.cend(), x3::seek[suffix >> x3::eoi]);
}
string_view get_suffix(string_view sv) {
boost::iterator_range<string_view::const_iterator> output;
parse(sv.cbegin(), sv.cend(), x3::seek[x3::raw[suffix >> x3::eoi]], output);
return {output.begin(), output.size()};
}
}
#include <iostream>
#include <iomanip>
int main() {
using namespace Demo;
auto widen = [](string_view sv) { return std::wstring(sv.begin(), sv.end()); };
std::wcout << std::boolalpha;
for (string_view testcase : { U"nope", U"lolbar you betqux" }) {
std::wcout
<< widen(testcase)
<< L" -> " << has_suffix(testcase)
<< L" (" << widen(get_suffix(testcase))
<< L")\n";
}
}
打印
nope -> false ()
lolbar you betqux -> true (qux)
文字端口: Live On Coliru
仅 C++11 版本: Live On Coliru
以及真正复古编程体验的 C++03 版本: Live On Coliru
关于c++ - boost 字符串匹配 DFA,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48127867/
我正在尝试使用boost.spirit的qi库解析某些内容,而我遇到了一个问题。根据spirit docs,a >> b应该产生类型为tuple的东西。但这是boost::tuple(又名 fusio
似乎有/正在努力做到这一点,但到目前为止我看到的大多数资源要么已经过时(带有死链接),要么几乎没有信息来实际构建一个小的工作样本(例如,依赖于boost program_options 以构建可执行文
我对 Boost.Log 的状态有点困惑。这是 Boost 的官方部分,还是尚未被接受?当我用谷歌搜索时,我看到一些帖子谈论它在 2010 年是如何被接受的,等等,但是当我查看最后一个 Boost 库
Boost 提供了两种不同的实现 string_view ,这将成为 C++17 的一部分: boost::string_ref在 utility/string_ref.hpp boost::stri
最近,我被一家GIS公司雇用来重写他们的旧地理信息库。所以我目前正在寻找一个好的计算几何库。我看过CGAL,这真是了不起,但是我的老板想要免费的东西。 所以我现在正在检查Boost.Geometry。
假设我有一个无向图 G。假设我添加以下内容 add_edge(1,2,G); add_edge(1,3,G); add_edge(0,2,G); 现在我再说一遍: add_edge(0,2,G); 我
我使用 CMake 来查找 Boost。找到了 Boost,但 CMake 出错了 Imported targets not available for Boost version 请参阅下面的完整错
我是 boost::fusion 和 boost::mpl 库的新手。谁能告诉我这两个库之间的主要区别? 到目前为止,我只使用 fusion::vector 和其他一些简单的东西。现在我想使用 fus
这个问题已经有答案了: 已关闭10 年前。 Possible Duplicate: What are the benefits of using Boost.Phoenix? 所以我开始阅读 boos
我正在尝试获得一个使用 Boost.Timer 的简单示例,用于一些秒表性能测量,但我不明白为什么我无法成功地将 Boost.Timer 链接到 Boost.Chrono。我使用以下简单脚本从源代码构
我有这样的东西: enum EFood{ eMeat, eFruit }; class Food{ }; class Meat: public Food{ void someM
有人可以告诉我,我如何获得boost::Variant处理无序地图? typedef boost::variant lut_value;unordered_map table; 我认为有一个用于boo
我对 Boost.Geometry 中的环和多边形感到困惑。 在文档中,没有图形显示什么是环,什么是多边形。 谁能画图解释两个概念的区别? 最佳答案 在 Boost.Geometry 中,多边形被定义
我正在使用 boost.pool,但我不知道何时使用 boost::pool<>::malloc和 boost::pool<>::ordered_malloc ? 所以, boost::pool<>:
我正在尝试通过 *boost::fast_pool_allocator* 使用 *boost::container::flat_set*。但是,我收到编译错误。非常感谢您的意见和建议。为了突出这个问题
sau_timer::sau_timer(int secs, timerparam f) : strnd(io), t(io, boost::posix_time::seconds(secs)
我无法理解此功能的文档,我已多次看到以下内容 tie (ei,ei_end) = out_edges(*(vi+a),g); **g**::out_edge_iterator ei, ei_end;
我想在 C++ 中序列化分层数据结构。我正在处理的项目使用 boost,所以我使用 boost::property_tree::ptree 作为我的数据节点结构。 我们有像 Person 这样的高级结
我需要一些帮助来解决这个异常,我正在实现一个 NPAPI 插件,以便能够使用来自浏览器扩展的本地套接字,为此我正在使用 Firebreath 框架。 对于套接字和连接,我使用带有异步调用的 Boost
我尝试将 boost::bind 与 boost::factory 结合使用但没有成功 我有这个类 Zambas 有 4 个参数(2 个字符串和 2 个整数)和 class Zambas { publ
我是一名优秀的程序员,十分优秀!