org.archive.io.warc.WARCReader类的使用及代码示例-6ren

org.archive.io.warc.WARCReader类的使用及代码示例

转载作者：知者更新时间：2024-03-27 14:47:05

本文整理了Java中org.archive.io.warc.WARCReader类的一些代码示例，展示了WARCReader类的具体用法。这些代码示例主要来源于Github/Stackoverflow/Maven等平台，是从一些精选项目中提取出来的代码，具有较强的参考意义，能在一定程度帮忙到你。WARCReader类的具体详情如下：
包路径：org.archive.io.warc.WARCReader
类名称：WARCReader

WARCReader介绍

[英]WARCReader. Go via WARCReaderFactory to get instance.
[中]战士。通过WARCReaderFactory获取实例。

代码示例

代码示例来源：origin: internetarchive/heritrix3

reader.setDigest(false);
try {
  l.setLevel(Level.WARNING);
  for (final Iterator<ArchiveRecord> i = reader.iterator(); i.hasNext();) {
    WARCRecord r = (WARCRecord)i.next();
    if (!isARCType(r.getHeader().getMimetype())) {
    reader.close();

代码示例来源：origin: internetarchive/heritrix3

public void transform(final File warc, final File dir, final String prefix,
    final String suffix, final boolean force)
throws IOException, java.text.ParseException {
  FileUtils.assertReadable(warc);
  FileUtils.assertReadable(dir);
  WARCReader reader = WARCReaderFactory.get(warc);
  List<String> metadata =  new ArrayList<String>();
  metadata.add("Made from " + reader.getReaderIdentifier() + " by " +
    this.getClass().getName() + "/" + getRevision());
  ARCWriter writer = 
    new ARCWriter(
        new AtomicInteger(),
        new WriterPoolSettingsData(
            prefix, 
            suffix, 
            -12, 
            reader.isCompressed(), 
            Arrays.asList(new File [] {dir}), 
            metadata));
  transform(reader, writer);
}

代码示例来源：origin: org.netpreserve.commons/webarchive-commons

Options options = getOptions();
PosixParser parser = new PosixParser();
CommandLine cmdline = parser.parse(options, args, false);
  usage(formatter, options, 0);
  switch(cmdlineOptions[i].getId()) {
    case 'h':
      usage(formatter, options, 0);
      break;
      digest = getTrueOrFalse(cmdlineOptions[i].getValue());
      break;
        usage(formatter, options, 1);
  if (cmdlineArgs.size() != 1) {
    System.out.println("Error: Pass one arcfile only.");
    usage(formatter, options, 1);
  r.setStrict(strict);
  outputRecord(r, format);
} else {
  for (Iterator<String> i = cmdlineArgs.iterator(); i.hasNext();) {
    try {
      WARCReader r = WARCReaderFactory.get(urlOrPath);
      r.setStrict(strict);
      r.setDigest(digest);

代码示例来源：origin: ViDA-NYU/ache

public WarcRecordsIterator(Path directory) {
  try {
    filesStream = Files.newDirectoryStream(directory);
    filesIt = filesStream.iterator();
    if (filesIt.hasNext()) {
      Path file = filesIt.next();
      warcReader = openFile(file);
      warcRecordIterator = warcReader.iterator();
    }
  } catch (IOException e) {
    throw new IllegalArgumentException("Failed to open target repository folder: " + directory, e);
  }
}

代码示例来源：origin: lintool/warcbase

for (Iterator<ArchiveRecord> ii = reader.iterator(); ii.hasNext();) {
  WARCRecord r = (WARCRecord) ii.next();
ArchiveRecordHeader h = r.getHeader();
 if (reader != null)
  try {
   reader.close();
  } catch (IOException e) {
   e.printStackTrace();

代码示例来源：origin: ViDA-NYU/ache

warcReader.close();
if (!filesIt.hasNext()) {
  IOUtils.closeQuietly(filesStream);
  filePath = filesIt.next();
  warcReader = openFile(filePath);
  warcRecordIterator = warcReader.iterator();
  nextRecord = (WARCRecord) warcReader.get();
} catch (IOException e) {
  String f = filePath == null ? null : filePath.toString();

代码示例来源：origin: org.netpreserve.commons/webarchive-commons

/**
 * Create new WARC record.
 * Encapsulate housekeeping that has to do w/ creating new Record.
 * @param is InputStream to use.
 * @param offset Absolute offset into WARC file.
 * @return A WARCRecord.
 * @throws IOException
 */
protected WARCRecord createArchiveRecord(InputStream is, long offset)
throws IOException {
  return (WARCRecord)currentRecord(new WARCRecord(is,
    getReaderIdentifier(), offset, isDigest(), isStrict()));
}

代码示例来源：origin: org.netpreserve.commons/commons-web

/**
 * Generate a CDX index file for an ARC file.
 *
 * @param urlOrPath The ARC file to generate a CDX index for
 * @throws IOException
 * @throws java.text.ParseException
 */
public static void createCDXIndexFile(String urlOrPath)
throws IOException, java.text.ParseException {
  WARCReader r = WARCReaderFactory.get(urlOrPath);
  r.setStrict(false);
  r.setDigest(true);
  output(r, CDX_FILE);
}

代码示例来源：origin: lintool/warcbase

@Override
 public synchronized void close() throws IOException {
  reader.close();
 }
}

代码示例来源：origin: org.netpreserve.commons/commons-web

/**
 * Skip over any trailing new lines at end of the record so we're lined up
 * ready to read the next.
 * @param record
 * @throws IOException
 */
protected void gotoEOR(ArchiveRecord record) throws IOException {
  if (record.available() != 0) {
    throw new IOException("Record should be exhausted before coming " +
      "in here");
  }
  // Records end in 2*CRLF.  Suck it up.
  readExpectedChar(getIn(), CRLF.charAt(0));
  readExpectedChar(getIn(), CRLF.charAt(1));
  readExpectedChar(getIn(), CRLF.charAt(0));
  readExpectedChar(getIn(), CRLF.charAt(1));
}

代码示例来源：origin: lintool/warcbase

/**
 * Converts raw bytes into an {@code WARCRecord}.
 *
 * @param bytes raw bytes
 * @return parsed {@code WARCRecord}
 * @throws IOException
 */
public static WARCRecord fromBytes(byte[] bytes) throws IOException {
 WARCReader reader = (WARCReader) WARCReaderFactory.get("",
   new BufferedInputStream(new ByteArrayInputStream(bytes)), false);
 return (WARCRecord) reader.get();
}

代码示例来源：origin: org.netpreserve.commons/commons-web

Options options = getOptions();
PosixParser parser = new PosixParser();
CommandLine cmdline = parser.parse(options, args, false);
  usage(formatter, options, 0);
  switch(cmdlineOptions[i].getId()) {
    case 'h':
      usage(formatter, options, 0);
      break;
      digest = getTrueOrFalse(cmdlineOptions[i].getValue());
      break;
        usage(formatter, options, 1);
  if (cmdlineArgs.size() != 1) {
    System.out.println("Error: Pass one arcfile only.");
    usage(formatter, options, 1);
  r.setStrict(strict);
  outputRecord(r, format);
} else {
  for (Iterator<String> i = cmdlineArgs.iterator(); i.hasNext();) {
    try {
      WARCReader r = WARCReaderFactory.get(urlOrPath);
      r.setStrict(strict);
      r.setDigest(digest);

代码示例来源：origin: org.netpreserve.commons/webarchive-commons

@Override
public void dump(boolean compress)
throws IOException, java.text.ParseException {
  for (final Iterator<ArchiveRecord> i = iterator(); i.hasNext();) {
    ArchiveRecord r = i.next();
    System.out.println(r.getHeader().toString());
    r.dump();
    System.out.println();
  }
}

代码示例来源：origin: ViDA-NYU/ache

boolean readSecond = false;
for (final Iterator<ArchiveRecord> i = reader.iterator(); i.hasNext();) {
  WARCRecord ar = (WARCRecord) i.next();
  if (!readWarcInfoRecord) {
reader.close();

代码示例来源：origin: iipc/webarchive-commons

/**
 * Create new WARC record.
 * Encapsulate housekeeping that has to do w/ creating new Record.
 * @param is InputStream to use.
 * @param offset Absolute offset into WARC file.
 * @return A WARCRecord.
 * @throws IOException
 */
protected WARCRecord createArchiveRecord(InputStream is, long offset)
throws IOException {
  return (WARCRecord)currentRecord(new WARCRecord(is,
    getReaderIdentifier(), offset, isDigest(), isStrict()));
}

代码示例来源：origin: org.netpreserve.commons/webarchive-commons

/**
 * Generate a CDX index file for an ARC file.
 *
 * @param urlOrPath The ARC file to generate a CDX index for
 * @throws IOException
 * @throws java.text.ParseException
 */
public static void createCDXIndexFile(String urlOrPath)
throws IOException, java.text.ParseException {
  WARCReader r = WARCReaderFactory.get(urlOrPath);
  r.setStrict(false);
  r.setDigest(true);
  output(r, CDX_FILE);
}

代码示例来源：origin: org.netpreserve.commons/webarchive-commons

/**
 * Skip over any trailing new lines at end of the record so we're lined up
 * ready to read the next.
 * @param record
 * @throws IOException
 */
protected void gotoEOR(ArchiveRecord record) throws IOException {
  if (record.available() != 0) {
    throw new IOException("Record should be exhausted before coming " +
      "in here");
  }
  // Records end in 2*CRLF.  Suck it up.
  readExpectedChar(getIn(), CRLF.charAt(0));
  readExpectedChar(getIn(), CRLF.charAt(1));
  readExpectedChar(getIn(), CRLF.charAt(0));
  readExpectedChar(getIn(), CRLF.charAt(1));
}

代码示例来源：origin: iipc/openwayback

public static Resource getResource(URL url, long offset)
throws IOException, ResourceNotAvailableException {
  
  Resource r = null;
  long start = System.currentTimeMillis();
  TimeoutArchiveReaderFactory tarf = defaultTimeoutReader;
  ArchiveReader reader = tarf.getArchiveReader(url,offset);
  if(reader instanceof ARCReader) {
    ARCReader areader = (ARCReader) reader;
    r = ARCArchiveRecordToResource(areader.get(),areader);
  
  } else if(reader instanceof WARCReader) {
    WARCReader wreader = (WARCReader) reader;
    r = WARCArchiveRecordToResource(wreader.get(),wreader);
    
  } else {
    throw new ResourceNotAvailableException("Unknown ArchiveReader");
  }
  long elapsed = System.currentTimeMillis() - start;
  PerformanceLogger.noteElapsed("Http11Resource", elapsed, url.toExternalForm());
  return r;
}

代码示例来源：origin: iipc/webarchive-commons

Options options = getOptions();
PosixParser parser = new PosixParser();
CommandLine cmdline = parser.parse(options, args, false);
  usage(formatter, options, 0);
  switch(cmdlineOptions[i].getId()) {
    case 'h':
      usage(formatter, options, 0);
      break;
      digest = getTrueOrFalse(cmdlineOptions[i].getValue());
      break;
        usage(formatter, options, 1);
  if (cmdlineArgs.size() != 1) {
    System.out.println("Error: Pass one arcfile only.");
    usage(formatter, options, 1);
  r.setStrict(strict);
  outputRecord(r, format);
} else {
  for (Iterator<String> i = cmdlineArgs.iterator(); i.hasNext();) {
    try {
      WARCReader r = WARCReaderFactory.get(urlOrPath);
      r.setStrict(strict);
      r.setDigest(digest);

代码示例来源：origin: org.archive.heritrix/heritrix-commons

reader.setDigest(false);
try {
  l.setLevel(Level.WARNING);
  for (final Iterator<ArchiveRecord> i = reader.iterator(); i.hasNext();) {
    WARCRecord r = (WARCRecord)i.next();
    if (!isARCType(r.getHeader().getMimetype())) {
    reader.close();

文章推荐： org.archive.io.warc.WARCReader.close()方法的使用及代码示例

io - 内存映射 IO - IO 设备如何知道值已更改？
IO 设备如何知道属于它的内存中的值在memory mapped IO 中发生了变化？？例如，假设内存地址 0 专用于保存 VGA 设备的背景颜色。当我们更改 memory[0] 中的值时，VGA
ios - Facebook iOS iOS SDK登录错误
我目前正在开发一个使用Facebook sdk登录(通过FBLoginView)的iOS应用。一切正常，除了那些拥有较旧版本的facebook的人。当他们按下“使用Facebook登录”按钮时，他
ios - ios ios nsrange char从结束
假设我有: this - is an - example - with some - dashesNSRange将使用`rangeOfString:@“-”拾取“-”的第一个实例，但是如果我只想要最后
ios - 如何从card.io SDK获取国家名称？ -iOS
Card.io SDK提供以下详细信息: 卡号，有效期，月份，年份，CVV和邮政编码。如何从此SDK获取国家名称。 - (void)userDidProvideCreditCardInfo:(Car
ios - iOS 应用程序如何从网络服务下载图片并在安装过程中将它们安装在用户的 iOS 设备上？
iOS 应用程序如何从网络服务下载图片并在安装过程中将它们安装到用户的 iOS 设备上？可能吗？最佳答案您无法控制应用在用户设备上的安装，因此无法在安装过程中下载其他数据。只需在安装后首次启动应
ios - iOS 企业应用程序和 iOS 零售应用程序之间的区别
我曾经开发过一款企业版 iOS 产品，我们公司曾将其出售给大型企业，供他们的员工使用。该应用程序通过 AppStore 提供，企业用户获得了公司特定的配置文件(包含应用程序配置文件)以启用他们有权使
ios - Card.io ios 与本地化集成
我正在尝试将 Card.io SDK 集成到我的 iOS 应用程序中。我想为 CardIO ui 做一个简单的本地化，如更改取消按钮标题或“在此保留信用卡”提示文本。我在 github 上找到了这个
ios - Card.Io iOS 扫描名称
我正在使用 CardIOView 和 CardIOViewDelegate 类，没有可以设置为 YES 的 BOOL 来扫描 collectCardholderName。我可以看到它在 CardIOP
ios - 如何为最近的原生 ios 应用程序设置名称字段？ - iOS
我有一个集成了通话工具包的 voip 应用程序。每次我从我的 voip 应用程序调用时，都会在 native 电话应用程序中创建一个新的最近通话记录。我在 voip 应用程序中也有自定义联系人(电话应
ios - iOS 应用程序如何在应用程序打开时知道键盘是否已经在屏幕上(iOS 多任务处理)
iOS 应用程序如何知道应用程序打开时屏幕上是否已经有键盘？应用程序运行后，它可以接收键盘显示/隐藏通知。但是，如果应用程序在分屏模式下作为辅助应用程序打开，而主应用程序已经显示键盘，则辅助应用程序不
ios - iOS 上的图像 IO 错误
我在模拟器中收到以下错误: ImageIO: CGImageReadSessionGetCachedImageBlockData *** CGImageReadSessionGetCachedIm
ios - iOS 设备与非 iOS 设备通信
如 Apple 文档所示，可以通过 EAAccessory Framework 与经过认证的配件(由 Apple 认证)进行通信。但是我有点困惑，因为一些帖子告诉我它也可以通过 CoreBluetoo
ios - (iOS) 直接在 iOS 设备上查看日志消息的方式？
尽管现在的调试器已经很不错了，但有时找出应用程序中正在发生的事情的最好方法仍然是古老的 NSLog。当您连接到计算机时，这样做很容易； Xcode 会帮助弹出日志查看器面板，然后就可以了。当您不在办公
ios - Kontakt.io iOS - 按名称识别信标
在我的 iOS 应用程序中，我定义了一些兴趣点。其中一些有一个 Kontakt.io 信标的名称，它绑定(bind)到一个特定的 PoI(我的意思是通常贴在信标标签上的名称)。现在我想在附近发现信标，
ios - Trigger.io iOS 插件从回调返回数据
我正在为警报提示创建一个 trigger.io 插件。尝试从警报提示返回数据。这是我的代码: // Prompt + (void)show_prompt:(ForgeTask*)task{
ios - iOS 4、iOS 5 和 iOS 6 的推送通知有何不同？
您好，我是 Apple iOS 的新手。我阅读并搜索了很多关于推送通知的文章，但我没有发现任何关于 APNS 从 io4 到 ios 6 的新更新的信息。任何人都可以向我提供 APNS 如何在 ios
ios - iOS 8、iOS 9、iOS 10 和 iOS 11 上 UITabBar 的高度是多少？
UITabBar 的高度似乎在 iOS 7 和 8/9/10/11 之间发生了变化。我发布这个问题是为了让其他人轻松找到答案。那么:在 iPhone 和 iPad 上的 iOS 8/9/10/11
ios - 最佳实践。通过支持 iOS 5、iOS 6 和 iOS 7 UI，使 iOS 应用程序变得通用
我想我可以针对不同的 iOS 版本使用不同的 Storyboard。由于 UI 的差异，我将创建下一个 Storyboard: Main_iPhone.storyboard Main_iPad.st
ios - 如何使用 iOS 中的视觉控件在 ios 中选择音轨的一部分？
我正在写一些东西，我将使用设备的 iTunes 库中的一部分音轨来覆盖 2 个视频的组合，例如: AVMutableComposition* mixComposition = [[AVMutableC
ios - iOS 模拟器中存在头文件，但 iOS 设备上不存在...？
我创建了一个简单的 iOS 程序，可以顺利编译并在 iPad 模拟器上运行良好。当我告诉 XCode 4 使用我连接的 iPad 设备时，无法编译相同的程序。问题似乎是当我尝试使用附加的 iPad 时

知者

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

org.archive.io.warc.WARCReader类的使用及代码示例

WARCReader介绍

代码示例