- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有 300 万行数据,每行数据有 30 个特征 - 很难将所有数据包含在我的计算机内存中,并且使用学习算法处理它的速度很慢 - 。我想编写一些进行随机采样的代码,但在 JAVA 和我的 PC 配置中,它不起作用或需要很长时间才能执行。我知道用 C 或 C++ 编写可以提供更好的解决方案,但我也很好奇 python 对于这种情况的可用性。在 Java 由于缓慢和内存限制而无法有效工作的情况下使用 Python 是否合理 - 请不要说增加堆大小或类似的 - ?
最佳答案
如果性能至关重要,这就是我使用的解决方案。
public class SimpleTable {
private final List<RandomAccessFile> files = new ArrayList<RandomAccessFile>();
private final List<FloatBuffer> buffers = new ArrayList<FloatBuffer>();
private final File baseDir;
private final int rows;
private SimpleTable(File baseDir, int rows) {
this.baseDir = baseDir;
this.rows = rows;
}
public static SimpleTable create(String baseName, int rows) throws IOException {
File baseDir = new File(baseName);
if (!baseDir.mkdirs()) throw new IOException("Failed to create " + baseName);
PrintWriter pw = new PrintWriter(baseName + "/rows");
pw.println(rows);
pw.close();
return new SimpleTable(baseDir, rows);
}
public static SimpleTable load(String baseName) throws IOException {
BufferedReader br = new BufferedReader(new FileReader(baseName + "/rows"));
int rows = Integer.parseInt(br.readLine());
br.close();
File baseDir = new File(baseName);
SimpleTable table = new SimpleTable(baseDir, rows);
File[] files = baseDir.listFiles();
Arrays.sort(files);
for (File file : files) {
if (!file.getName().endsWith(".float")) continue;
table.addColumnForFile(file);
}
return table;
}
private FloatBuffer addColumnForFile(File file) throws IOException {
RandomAccessFile rw = new RandomAccessFile(file, "rw");
MappedByteBuffer mbb = rw.getChannel().map(FileChannel.MapMode.READ_WRITE, 0, rows * 8);
mbb.order(ByteOrder.nativeOrder());
FloatBuffer db = mbb.asFloatBuffer();
files.add(rw);
buffers.add(db);
return db;
}
public int rows() {
return rows;
}
public int columns() {
return buffers.size();
}
public FloatBuffer addColumn() throws IOException {
return addColumnForFile(new File(baseDir, String.format("%04d.float", buffers.size())));
}
public FloatBuffer getColumn(int n) {
return buffers.get(n);
}
public void close() throws IOException {
for (RandomAccessFile file : files) {
file.close();
}
files.clear();
buffers.clear();
}
}
public class SimpleTableTestMain {
public static void main(String... args) throws IOException {
long start = System.nanoTime();
SimpleTable st = SimpleTable.create("test", 3 * 1000 * 1000);
for (int i = 0; i < 50; i++) {
FloatBuffer db = st.addColumn();
for (int j = 0; j < db.capacity(); j++)
db.put(j, i + j);
}
st.close();
long mid = System.nanoTime();
SimpleTable st2 = SimpleTable.load("test");
for (int i = 0; i < 50; i++) {
FloatBuffer db = st2.getColumn(i);
double sum = 0;
for (int j = 0; j < db.capacity(); j++)
sum += db.get(j);
assert sum > 0;
}
long end = System.nanoTime();
System.out.printf("Took %.3f seconds to write and %.3f seconds to read %,d rows and %,d columns%n",
(mid - start) / 1e9, (end - mid) / 1e9, st2.rows(), st2.columns());
st2.close();
}
}
打印
Took 2.070 seconds to write and 2.206 seconds to read 3,000,000 rows and 50 columns
关于java - 使用Python解决方案无法在JAVA中处理,因为执行速度慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13193871/
我的应用程序中有以下查询: SELECT a.*, f.* FROM flights_database f JOIN airports a ON f.airport = a.airportNameCl
我们在使用 MySQL(以及 MariaDB)时遇到了一个奇怪的问题。一个简单的数据库,有 2 个表(InnoDB 引擎),都包含(以及其他一些)3 或 4 个带有 XML 数据的文本列。大小为 1-
我在 MySQL 上的执行路径上遇到问题,导致查询缓慢且不一致。这是一个全新的现象。我们还有其他具有完全相同(好吧,尽可能接近)设置的表,这很好,但出于某种原因,现在创建新表会遇到这个缓慢/不一致的问
我使用 Eclipse Marketplace 的下载速度始终非常慢(现在从 http://download.eclipse.org 开始,下载速度为 3 MB/s,下载速度为 25 kB/s),这使
我正在开发一个 Qt Creator 项目,其中包含大量头文件(点云库、Boost 等)。例如。 Boost 有大约 9000 个头文件。现在看来,包含的数量确实减慢了 IDE。代码完成很慢,大约。
我在一个项目中使用 document.elementFromPoint,它看起来很慢。 100,000 次迭代需要 7051 毫秒。 document.getElementsByTagName("*"
我有一个 tableView ,每行有四个图表,大约 20 行。当我尝试滚动表格时,我将删除现有图表并为每一行构建新图表。 此操作使 TableView 的滚动非常慢。任何使滚动速度更快以及加载新图表
我有一个如下所示的数据框: date,time,metric_x 2016-02-27,00:00:28.0000000,31 2016-02-27,00:01:19.0000000,40 2016-
TLDR:我的微调器瞬间显示了错误的颜色。 我的微调器有问题。每当我运行应用程序时,如果 Activity 没有缓存在内存中,它有时会滞后。在我可以将其设置为正确的颜色之前,文本是默认颜色(如黑色)。
我在使用 SELECT COUNT(*) 对大型表进行 SQLite 时遇到性能问题。 由于我还没有收到可用的答案并且我做了一些进一步的测试,所以我编辑了我的问题以纳入我的新发现。 我有 2 个表:
当音频因加载数据不足(速度慢)而暂停时,我可以使用什么事件? 就像: $audio.on('suspendToLoading',function(){ alert('loading...');
这是我的 MATLAB 程序的分析模拟运行结果。我需要运行此模拟数十万次(约 100,000 次)。 因此我需要一种更快的方法来读取 Excel 文件。 规范:Excel 文件由 10000x2 个单
每当与数据透视表交互时,Excel 都非常慢,这让我感到非常困难。添加/删除字段、更改过滤器或切片器,所有这些都需要 Excel 卡住几分钟才能响应。 看来生成的 MDX 效率极低。我可以理解他们必须
我正在使用 Entity Framework 来检索大型数据集。 数据集有parent/child关系,我需要和parent同时带回child信息。 我发现 EF 最初发送一个查询以获取父对象列表,然
我有一个使用 gridview 的应用程序,它非常慢。 添加 Trace=true 后对于页面,我追踪了时间花费的地方:在 GridView 上调用 BindData() 时。 GridView连接到
我编写了一个小代码来使用 QtCreator 测试 QGraphicsView 的功能。 代码非常简单,只是创建了一个继承自 QGraphicsView 的类,上面有一个 QGraphicsScene
后期以补充作品的形式自动加入成员(member)。数据库速度较慢。有没有办法加快这个速度?用户无所谓..除了自动补码之外如何停止写?(自动补码;城市输入。成员(member)表格位于。) 注册.php
我有一个文件 (insert.sql),其中有 250k 行,没有键,没有索引: INSERT `project_383`.`entity_metrics_build_1` VALUES ('d402
我最近开发了一个应用程序(java 8、spring-boot、hibernate、maven),它通过 REST API 公开数据库。我遇到的问题是数据库调用很慢(3000 毫秒以上),只是为了获取
我正在尝试在 Canvas 上使用旋转,我现在有了它,因此每个对象都有自己的旋转。如果没有它们旋转,我可以在一台非常低端的计算机上在屏幕上显示大约 400 个对象,在一台正常库存的计算机上显示近 20
我是一名优秀的程序员,十分优秀!