info.bliki.wiki.dump.WikiXMLParser类的使用及代码示例-6ren

info.bliki.wiki.dump.WikiXMLParser类的使用及代码示例

转载作者：知者更新时间：2024-03-25 07:31:05

本文整理了Java中info.bliki.wiki.dump.WikiXMLParser类的一些代码示例，展示了WikiXMLParser类的具体用法。这些代码示例主要来源于Github/Stackoverflow/Maven等平台，是从一些精选项目中提取出来的代码，具有较强的参考意义，能在一定程度帮忙到你。WikiXMLParser类的具体详情如下：
包路径：info.bliki.wiki.dump.WikiXMLParser
类名称：WikiXMLParser

WikiXMLParser介绍

[英]A Wikipedia XML dump file parser Original version with permission from Marco Schmidt. See: http://schmidt.devlib.org/software/lucene-wikipedia.html
[中]维基百科XML转储文件解析器的原始版本，并获得了马可·施密特的许可。请参阅：http://schmidt.devlib.org/software/lucene-wikipedia.html

代码示例

代码示例来源：origin: edu.illinois.cs.cogcomp/wikipediaAPI

/**
 * Parses the given Wikipedia XML dump stream. User needs to instantiate the
 * parser for call backs
 */
public static void parseDump(InputStream is, WikiDumpFilter parser)
    throws UnsupportedEncodingException, FileNotFoundException,
    IOException, SAXException {
  new WikiXMLParser(is, parser).parse();
  parser.finishUp();
}

代码示例来源：origin: info.bliki.wiki/bliki-core

public WikiXMLParser(File filename, IArticleFilter filter) throws IOException, SAXException {
  this(getReader(filename), filter);
}

代码示例来源：origin: stackoverflow.com

import edu.jhu.nlp.wikipedia.*;
  public class InfoboxParser {

  public static void main(String[] args) throws Exception{
    WikiXMLParser parser = WikiXMLParserFactory.getSAXParser("/path_to_wiki_dump/enwiki-20131202-pages-articles-multistream.xml.bz2.xml");
      parser.setPageCallback(new PageCallbackHandler() {
        public void process(WikiPage page) {
         InfoBox infobox=page.getInfoBox();
          //do something with info box
        }
      });
      parser.parse();
  }

}

代码示例来源：origin: stackoverflow.com

File f = new File("c:/path/to/svwiki-20151102-pages-meta-current.xml");
 WikiXMLParser wxp;
 try {
   wxp = new WikiXMLParser(f, handler);
   wxp.parse();
 } catch (IOException e) {   
   e.printStackTrace();
 } catch (SAXException e) {
   e.printStackTrace();
 }

代码示例来源：origin: diegoceccarelli/json-wikipedia

/**
 * Generates a converter from the xml to json dump.
 * 
 * @param inputFile
 *            - the xml file (compressed)
 * @param outputFile
 *            - the json output file, containing one article per line (if
 *            the filename ends with <tt>.gz </tt> the output will be
 *            compressed).
 * 
 * @param lang
 *            - the language of the dump
 * 
 * 
 */
public WikipediaArticleReader(File inputFile, File outputFile, String lang) {
  JsonConverter handler = new JsonConverter();
  // encoder = new JsonRecordParser<Article>(Article.class);
  parser = new ArticleParser(lang);
  try {
    wxp = new WikiXMLParser(new File(inputFile.getAbsolutePath()), handler);
  } catch (Exception e) {
    logger.error("creating the parser {}", e.toString());
    System.exit(-1);
  }
  out = IOUtils.getPlainOrCompressedUTF8Writer(outputFile
      .getAbsolutePath());
}

代码示例来源：origin: info.bliki.wiki/bliki-core

if (fSiteinfo != null) {
  if (WIKIPEDIA_NAMESPACE.equals(qName) && fNamespaceKey != null) {
    fSiteinfo.addNamespace(fNamespaceKey, getString());
  } else if ("sitename".equals(qName)) {
    fSiteinfo.setSitename(getString());
  } else if ("base".equals(qName)) {
    fSiteinfo.setBase(getString());
  } else if ("generator".equals(qName)) {
    fSiteinfo.setGenerator(getString());
  } else if ("case".equals(qName)) {
    fSiteinfo.setCharacterCase(getString());
  fArticle.setText(getString());
  try {
    fArticleFilter.process(fArticle, fSiteinfo);
  fArticle.setTitle(getString(), fSiteinfo);
} else if (WIKIPEDIA_TIMESTAMP.equals(qName)) {
  fArticle.setTimeStamp(getString());
} else if (!fRevision && WIKIPEDIA_ID.equals(qName)) {
  fArticle.setId(getString());
} else if (fRevision && WIKIPEDIA_ID.equals(qName)) {
  fArticle.setRevisionId(getString());

代码示例来源：origin: diegoceccarelli/json-wikipedia

/**
 * Starts the parsing
 */
public void start() throws IOException, SAXException {
  wxp.parse();
  out.close();
  logger.info(sw.stat("articles"));
}

代码示例来源：origin: yahoo/FEL

public static void main( String[] arg ) {
  if( arg.length < 2 ) {
    System.err.println( " USAGE java ExtractFirstParagraphs  <inputFile> <outputFile>" );
  }
  try {
    ExtractFirstParagraphs handler = new ExtractFirstParagraphs( arg[ 1 ] );
    WikiXMLParser wxp = new WikiXMLParser( arg[ 0 ], ( IArticleFilter ) handler );
    wxp.parse();
  } catch( Exception e ) {
    e.printStackTrace();
  }
}

代码示例来源：origin: stackoverflow.com

public void wikiDumpReader(String dumpfile) {
     WikiXMLParser wxsp = WikiXMLParserFactory.getSAXParser(dumpfile);
     System.out.println("Going to process dump file");
     try {
       wxsp.setPageCallback(new PageCallbackHandler() {
         @Override
         public void process(WikiPage page) {
           System.out.println(page.getTitle());
         }
       });
       wxsp.parse();
     } catch (Exception e) {
       System.err.println("Error :" + e);
     }
   }

代码示例来源：origin: yahoo/FEL

public static void main(String[] arg) {
  if (arg.length < 2) {
    System.err.println(" USAGE java ExtractLinks  <inputFile> <output file> ");
  }
  try {
    ExtractLinks handler = new ExtractLinks(arg[1]);
    WikiXMLParser wxp = new WikiXMLParser(arg[0], (IArticleFilter)handler);
    wxp.parse();
  }
  catch (Exception e) {
    e.printStackTrace();
  }
}

代码示例来源：origin: edu.illinois.cs.cogcomp/wikipediaAPI-multilingual

/**
 * Parses the given Wikipedia XML dump file. User needs to instantiate the
 * parser for call backs
 * 
 * @param file
 * @param parser
 * @throws UnsupportedEncodingException
 * @throws FileNotFoundException
 * @throws IOException
 * @throws SAXException
 */
public static void parseDump(String file, MLWikiDumpFilter parser)
    throws UnsupportedEncodingException, FileNotFoundException,
    IOException, SAXException {
  new WikiXMLParser(file, parser).parse();
  parser.finishUp();
}

代码示例来源：origin: edu.illinois.cs.cogcomp/wikipediaAPI

/**
 * Parses the given Wikipedia XML dump file. User needs to instantiate the
 * parser for call backs
 * 
 * @param file
 * @param parser
 * @throws UnsupportedEncodingException
 * @throws FileNotFoundException
 * @throws IOException
 * @throws SAXException
 */
public static void parseDump(String file, DumpFilter parser)
    throws UnsupportedEncodingException, FileNotFoundException,
    IOException, SAXException {
  new WikiXMLParser(file, parser).parse();
  parser.finishUp();
}

代码示例来源：origin: info.bliki.wiki/bliki-core

public static void main(String args[]) throws Exception {
    if (args.length > 0) {
      File file = new File(args[0]);
      WikiXMLParser parser = new WikiXMLParser(file, new PrintArticle(999999));
      parser.parse();
    } else {
      System.err.println("PrintArticle <dump.xml>");
      System.exit(1);
    }
  }
}

代码示例来源：origin: edu.illinois.cs.cogcomp/DatalessClassification

public static void main(String[] args) {
    if (args.length != 1) {
      System.err.println("Usage: Parser <XML-FILE>");
      System.exit(-1);
    }
    String bz2Filename = args[0];
    try {
      DemoArticleFilter handler = new DemoArticleFilter(10) {

        @Override
        void processAnnotation(PageParser pageParser) {
        }

      };
      WikiXMLParser wxp = new WikiXMLParser(bz2Filename, handler);
      wxp.parse();
      handler.finishUp();
    } catch (Exception e) {
      e.printStackTrace();
    }
  }
}

文章推荐： com.sun.mail.util.WriteTimeoutSocket类的使用及代码示例

wiki - Redmine:如何将 wiki 页面移动到另一个项目的 wiki？
我在父项目 A 的子项目 B 中有几个 wiki 页面。现在我想将它们从 B 的 wiki 移动到 A 的 wiki。如何在不复制和粘贴所有页面的情况下执行此操作？ Redmine论坛的人建议直接编辑
wiki - wiki 使用什么方法来合并并发编辑？
如果两个用户编辑同一个 wiki 主题，wiki(或类似的协作编辑软件)中使用了什么方法将第二个用户的编辑与第一个用户的编辑合并？我想要一个解决方案: 不需要锁定不会丢失对页面的任何添加。它可能
wiki - 维护程序员 Wiki
关闭。这个问题需要更多 focused .它目前不接受答案。想改进这个问题？更新问题，使其仅关注一个问题 editing this post . 8年前关闭。 Improve this questi
wiki - 将 Wiki 内容转换为系统手册的工作流程
我们正在向许多地方的许多用户(8 个国家/地区的 200 多个用户)部署新的软件系统。过去，我们为用户编写了手册，然后经常更新。这很好用，因为所有用户都有相同的手册，它涵盖了主要内容，但也有问题，比如
wiki - 您如何为 wiki 站点构建数据库？
这张 table 是什么样子的——只有一张吗？你如何恢复到旧版本？类似于堆栈溢出的工作方式。最佳答案解决此问题的最佳方法是查看其他软件，例如 MediaWiki，并了解它们如何构建数据库。然后，您
wiki - Redmine Wiki 文本很大
我正在尝试使用 Redmine wiki，但我很难弄清楚如何使文本看起来不那么大。这是我正在做的标记示例。关于如何使文本看起来不那么大的任何建议。 h1. Best Practices
wiki - Redmine Wiki-自动编号标题
在Redmine Wiki中，有什么方法可以在标题中使用项目符号点编号，例如 # h1. Heading 1 ## h2. Sub Heading 1 # h1. Heading 2 输出如下
wiki - 设计 Wiki、设计注意事项和反馈
关闭。这个问题是opinion-based .它目前不接受答案。想改善这个问题吗？更新问题，以便可以通过 editing this post 用事实和引文回答问题. 4年前关闭。 Improve t
wiki - 面向最终用户/客户的用户友好型 wiki
目前我们团队正在使用MoinMoin作为 IT wiki，它非常好。我们希望促进最终用户使用 wiki，因为他们中的一些人对此感兴趣。例如，我们将在 wiki 上共享和编辑应用程序的要求。我认为
wiki - 如何在Confluence(Wiki)中组织空间？
我的公司将使用Confluence在我们的IT系统上存储和共享我们的知识库，并且可以用于涵盖从硬件管理到程序员所面临的问题的主题。我对建立全局空间的最佳做法感到好奇。为整个IT部门拥有一个大型的，万
wiki - 哪个 wiki 允许我在单击其链接时动态创建页面？
对于我正在开发的应用程序 (*)，我需要混合使用动态生成的页面和静态页面。使用 wiki 会很酷，一旦动态页面被第一次访问，它就会变成静态页面，用户可以像任何其他静态 wiki 页面一样对其进行注释。
wiki - 明天的 Wiki 应该包括哪些功能？
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。关闭 11 年前。 Improve thi
wiki - 贵公司如何使用 wiki 进行开发的一些示例是什么？
您在公司中使用 wiki 吗？谁使用它以及为什么使用它。您是否在项目/团队/部门之间共享信息？最佳答案我们用我们的来存储编码风格文档网络服务器和网站的设置和部署程序网络图(Dev、Stagi
wiki - Trac wiki 页面列表
我在 Trac wiki 中创建了一些文档。我将这些页面设置为都以相同的模式开始(例如“MyDoc ...”)。我想从 Trac 中检索以该模式开头的页面的所有 wiki 页面链接。有办法吗？最佳
wiki - 建立自己的 wiki 的建议？
我和我的 friend 正在考虑创建我们自己的 wiki。鉴于它们最近变得如此普遍，我们听说这并不难。我们希望网站尽可能简单——我们在网页设计方面有一些经验，但在系统管理方面没有很多经验。 futur
import - Gitlab Wiki - 如何在导入存储库时导入 wiki
我的服务器上运行着一个 Gitlab CE 11.7 docker。当我从 gitlab.com 导入一个项目时，它的 wiki 丢失了。我使用内置界面导入项目: 新建项目 > 导入项目 [tab]
mediawiki - Wiki 表的 Wiki 行计数器
我在我的 Wiki 中构建了一个非常广泛的表格，在列结构方面具有以下格式。是否可以在 Wiki 中插入一个计数器来跟踪此表中的列数？ |- | 1||[Site Link]||Country 1|
wiki - 如何禁用 Confluence wiki 页面的页面历史记录
我的 Confluence wiki 中有一个页面，它是通过脚本自动生成的，并通过其 API 被推送到 Confluence 中。因此我不需要这个页面的历史，因为页面版本的数量会很快增加。有没有办法
wiki - 是否可以在 trac wiki 中创建斗篷？
是否可以在类似于 cloak macro 的 trac wiki 中显示和隐藏内容块？汇合的？最佳答案它已经几个月大了，但我想知道同样的事情。 Remy Blank 的回答让我走上了正轨，他只是错
wiki - RTF 到 Wiki 转换器？
我想将 100 多个 RTF 文件转换为 Wiki 标记，但我只能在网络上甚至在 StackOverflow 上找到“Wiki to RTF”转换器。我只需要 RTF --> Wiki 标记外面有

知者

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

info.bliki.wiki.dump.WikiXMLParser类的使用及代码示例

WikiXMLParser介绍

代码示例