java - StreamTokenizer 破坏整数和松散的句点-6ren

java - StreamTokenizer 破坏整数和松散的句点

转载作者：行者123 更新时间：2023-11-30 10:30:58

24

4

我已经挪用并修改了以下代码，这些代码在使用 Java 的 StreamTokenizer 对 Java 代码进行标记化方面做得非常好。但是，它的数字处理是有问题的:

它将所有整数转换为 double 。我可以通过测试 num % 1 == 0 来解决这个问题，但这感觉像是 hack
更重要的是，一个 .以下空格被视为数字。 "Class .method()"是合法的 Java 语法，但生成的标记是 [Word "Class"]、[Whitespace ""]、[Number 0.0]、[Word "method"]、[Symbol "("] 和[符号“)”]

我很乐意完全关闭 StreamTokenizer 的数字解析并自己从单词标记中解析数字，但评论 st.parseNumbers() 似乎没有效果。

public class JavaTokenizer {

private String code;

private List<Token> tokens;

public JavaTokenizer(String c) {
    code = c;
    tokens = new ArrayList<>();
}

public void tokenize() {
    try {
        // Create the tokenizer
        StringReader sr = new StringReader(code);
        StreamTokenizer st = new StreamTokenizer(sr);

        // Java-style tokenizing rules
        st.parseNumbers();
        st.wordChars('_', '_');
        st.eolIsSignificant(false);

        // Don't want whitespace tokens
        //st.ordinaryChars(0, ' ');

        // Strip out comments
        st.slashSlashComments(true);
        st.slashStarComments(true);

        // Parse the file
        int token;
        do {
            token = st.nextToken();
            switch (token) {
            case StreamTokenizer.TT_NUMBER:
                // A number was found; the value is in nval
                double num = st.nval;
                if(num % 1 == 0)
                  tokens.add(new IntegerToken((int)num);
                else
                  tokens.add(new FPNumberToken(num));
                break;
            case StreamTokenizer.TT_WORD:
                // A word was found; the value is in sval
                String word = st.sval;
                tokens.add(new WordToken(word));
                break;
            case '"':
                // A double-quoted string was found; sval contains the contents
                String dquoteVal = st.sval;
                tokens.add(new DoubleQuotedStringToken(dquoteVal));
                break;
            case '\'':
                // A single-quoted string was found; sval contains the contents
                String squoteVal = st.sval;
                tokens.add(new SingleQuotedStringToken(squoteVal));
                break;
            case StreamTokenizer.TT_EOL:
                // End of line character found
                tokens.add(new EOLToken());
                break;
            case StreamTokenizer.TT_EOF:
                // End of file has been reached
                tokens. add(new EOFToken());
                break;
            default:
                // A regular character was found; the value is the token itself
                char ch = (char) st.ttype;
                if(Character.isWhitespace(ch))
                    tokens.add(new WhitespaceToken(ch));
                else
                    tokens.add(new SymbolToken(ch));
                break;
            }
        } while (token != StreamTokenizer.TT_EOF);
        sr.close();
    } catch (IOException e) {
    }
}

public List<Token> getTokens() {
    return tokens;
}

}

最佳答案

parseNumbers() 默认处于“开启”状态。使用 resetSyntax() 关闭数字解析和所有其他预定义的字符类型，然后启用您需要的。

也就是说，手动数字解析在计算点和指数时可能会变得棘手……使用扫描仪和正则表达式，实现您自己的分词器应该相对简单，完全根据您的需要量身定制。例如，您可能想看看这里的 Tokenizer 内部类:https://github.com/stefanhaustein/expressionparser/blob/master/core/src/main/java/org/kobjects/expressionparser/ExpressionParser.java (最后大约120行)

关于java - StreamTokenizer 破坏整数和松散的句点，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43502608/

24

4

0

文章推荐： javascript - 覆盖不工作 fancybox v2

文章推荐： javascript - 清除 Input Val() 仍然会留下尾随空格

文章推荐： JavaScript:Number() 的预期行为

javascript - 正则表达式在字符串中的时间后提取句号/句点
我有以下字符串: 00:02:44.372 我想使用正则表达式来提取句号/句点。我尝试过使用: [0-9][0-9]:[0-9][0-9]:[0-9][0-9] 选择持续时间，但我从这里去哪里？由于
c# - 去掉文件名中的*连续*句点
我想知道如果我有这样的文件名，我如何去掉文件名中的句点: Test....1.txt 看起来像 Test 1.txt？我不希望像 1.0.1 Test.txt 这样的文件被触及。只有具有连续句点的文件
Java正则表达式检测句子结尾但忽略(num)(句点)，例如15
试图找到一个好的正则表达式来检测java中的句子结尾。主要问题是，如果有数字然后句点，它会将其检测为句子结尾(请参阅演示链接)。但就我而言，我希望它不将其识别为句子结尾，尽管在某些情况下可能是这样。我
javascript - 意外 token "."(句点)
我开始学习 Backbone，但 UnderscoreJS 似乎给我带来了一些问题。我收到“意外 token ”。我不确定这意味着什么。我的 JSON 看起来不错，所以我不认为这是一个原因。 var
python - 在文本文件中创建带有句点(句点)的新行
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 9 年前。 Improve this qu
c# - 避免按。 (句点)键移动到日期时间选择器控件中的下一个字段
在日期时间选择器控件中，用户必须按.(句点)才能移动到不同的字段(如日、月、年) 我想通过允许用户输入日期而不输入.(句点)来覆盖此行为有没有什么可以在 C# winforms 中以编程方式实现这一
c++ - 在电子邮件地址中移动点(句点)的算法
对于那些不知道 GMAIL 的人，您可以根据原始电子邮件创建无限数量的电子邮件。如果您的电子邮件是“mygmail@gmail.com”，那么这可以通过两种方式实现: 1) 在您的 gmail 末尾的
html - CSS 中的多个点/句点
你们中的一位 CSS 专家可以向我解释一下这个指示符(如果您愿意这样调用它的话)吗？我了解内容，只是不了解 a.button.gold。两个点？ a.button.gold{ background-c
f# - 句点 (.) 在 F# 方法中的作用
很抱歉描述模糊，找不到更好的方式来说明它。我从 F# 开始，和许多其他人一样，我将解决的欧拉问题转换为 F#。我喜欢使用测试来运行我的代码，也喜欢 FsUnit 风格。在给定示例的帮助下，我这样做了
powershell - 在Powershell中，句点 '.'运算符有什么作用？
这是一个奇怪的。通常，当我从powershell执行外部命令时，我使用&运算符，如下所示: & somecommand.exe -p somearguments 但是，今天我遇到了像这样使用的.运算符
regex - 正则表达式，如何允许点(句点)和字母的组合？
我想允许 . 和 a-zA-Z 字母以及 _ 和 -，我的 .. 有一些问题有什么想法吗？最佳答案 [A-Za-z_.-] 是一个字符类，包含您提到的所有字符。在字符类中，没有必要对 . 进行转义
regex - 如果后面没有 AND 前面有单个字符，则匹配点/句点
所以我知道我需要使用前瞻和后视的东西，但我开始失去理智。因此，您能否提供一个示例，并解释其含义。我需要匹配以下序列中的点，但不匹配各个字符之间的点。 this.is.a.sentence.e.g.
python - 使用Python从列表中删除标点符号/符号(句点、逗号除外)
在 Python 中，我需要从列表中删除几乎所有标点符号，但保留句点和逗号。我应该创建一个函数来执行此操作还是创建一个变量？基本上我想删除除字母(我已经将大写字母转换为小写)以及句点和逗号(可能还有撇
javascript - 无法在 jQuery 中获取属性、句点
我只是想选择这些特定“边”的 ID。我已经做了一百万次了，但 jQuery 只是不想与我合作。 $( 'input[name="fd-border"]' ).change(function() {
ruby - 如何允许包含字母、数字、句点、连字符和下划线的字符串？
我正在尝试制作一个正则表达式，它允许使用大小字母 + 数字创建字符串 - a-zA-z0-9 以及字符:。 -_ 如何制作这样的正则表达式？最佳答案以下正则表达式应该是您要查找的内容(下面的解释)
regex - 检查字符串如何在 XSLT 中以数字、句点 (.) 和空格开头
我想检查以 number 开头的字符串, period(.)和 space .为此，我使用了 regex但这并没有给出正确的答案。输入: 1. this a paragaraph1
regex - 仅允许大写/小写(字母字符)、句点、空格和破折号的正则表达式是什么？
我在创建正则表达式验证器时遇到问题，该验证器会检查以确保输入仅包含大写或小写字母字符、空格、句点、下划线和破折号。无法通过搜索在线找到此示例。例如: 这些没问题: Dr. Marshall sam s
url - 能。 (句点)是 URL 路径部分的一部分吗？
以下网址有效吗？ http://www.example.com/module.php/lib/lib.php 根据https://www.rfc-editor.org/rfc/rfc1738部分 UR
c# - 如何创建属性包含点(句点)的 json 字符串？
我正在尝试发送一个采用 JSON 对象的 HttpRequest: { "some.setting.withperiods":"myvalue" } 我一直在为我的其他请求创建匿名对象，但我不能
Javascript/JQuery 正则表达式仅删除链接中的空格、括号、句点、减号
由于大量的搜索，我已经走到了这一步，但我坚持只格式化链接而不格式化文本的方法。我希望链接在文本中包含数字，但没有空格、括号、句号或减号，并保留文本不变。该链接应以 555 123-1234 为例。

首页

博学

6Ren·AI

商城

java - StreamTokenizer 破坏整数和松散的句点