gpt4 book ai didi

C - 将一个文件保存到两个单独的数组并打印每个元素

转载 作者:行者123 更新时间:2023-11-30 15:26:14 25 4
gpt4 key购买 nike

我有一个 DNA 序列文件和关联的 ID,我试图将偶数行(ID)保存到一个数组,将奇数行(序列)保存到另一个数组。然后我想将所有序列相互比较以找到唯一的序列。例如,Seq A 是 AGTCGAT,Seq B 是 TCG,Seq B 不是唯一的。我想将唯一序列及其 ID 保存到输出文件中,并且 id 序列不是唯一的,仅将 ID 保存到输出文件中并将“删除带有 ID 的序列:”打印到控制台。我已经完成了,但遇到了一些问题。我尝试打印出两个单独的数组,sequence[] 和 headers[],但由于某种原因,它们只包含 5 个字符串中的两个(该文件有 5 个 ID 和 5 个 header )。然后信息就没有按照预期的方式打印到屏幕上。

#include <stdio.h>
#include <stdlib.h>
#include <string.h>

int main(){

int total_seq = 20000;
char seq[900];
char** headers;
char** sequences;
int sequence_size = 0;

headers = malloc(total_seq * sizeof(char*));
sequences = malloc(total_seq * sizeof(char*));

int index;
for(index = 0; index < total_seq; index++){
headers[index] = malloc(900 * sizeof(char));
sequences[index] = malloc(900 * sizeof(char));
}

FILE *dna_file;
FILE *new_file;
dna_file = fopen("inabc.fasta", "r");
new_file = fopen("output.fasta", "w");

if (dna_file == NULL){
printf("Error");
return 0;
}

int i = 0;
int j = 0;
while(fgets(seq, sizeof seq, dna_file)){
if(i%2 == 0){
strcpy(headers[i/2], seq);
i++;
}
else{
strcpy(sequences[i/2], seq);
i++;
}
}


fclose(dna_file);
sequence_size = i/2;

char* result;
for(i=0; i < sequence_size; i++){
for(j=0; j < sequence_size; j++){
if(i==j){
continue;
}
result = strstr(sequences[j], sequences[i]);
if(result== NULL){
fprintf(new_file,"%s", headers[i]);
fprintf(new_file,"%s", sequences[i]);
}
else{
printf("Deleting sequence with id: %s \n", headers[i]);
printf(sequences[i]);
fprintf(new_file,"%s", headers[i]);
}
}
}

示例文件 inabc.fasta 很短,但我正在使用的实际文件很长,这就是我使用 malloc 的原因。任何帮助将不胜感激!

编辑:示例输入文件 inabc.fasta:

cat inabc.fasta

> id1 header1
abcd
> id2 header2
deghj
> id3 header3
defghijkabcd
> id4 header4
abcd
> id5 header5
xcvbnnmlll

因此对于此示例,序列 1 和 4 将不会保存到输出文件

最佳答案

这个:

while( fgets(seq, sizeof seq, dna_file) ) {
if( i % 2 == 0 ){
strcpy(headers[i], seq);
i++;
}
else {
strcpy(sequences[i-1], seq);
i++;
}
}

将跳过数组中的所有其他元素:

  1. i == 0时,会存储在headers[0]
  2. i == 1时,会存储在sequences[0]
  3. i == 2时,会存储在headers[2]
  4. i == 3时,会存储在sequences[2]

等等。

然后你就可以:

sequence_size = i/2;

因此,如果您循环 sequence_size 次,则只能完成已写入数组部分的一半,并且您打印的所有其他元素都将未初始化。这就是为什么你只打印一半的元素(如果你有 5 个元素,那么 i/2 == 2,你只会看到 2),以及为什么它“不打印”以应有的方式显示在屏幕上”。

在读取输入时,最好使用两个单独的计数器,并使用一个单独的变量来存储输入的奇数行还是偶数行。

例如:

int i = 0, j = 0, even = 1;
while( fgets(seq, sizeof seq, dna_file) ) {
if( even ){
strcpy(headers[i++], seq);
even = 0;
}
else {
strcpy(sequences[j++], seq);
even = 1;
}
}

这里最好有两个变量,因为如果您读取奇数行,则两个数组将包含不同数量的读取元素。

关于C - 将一个文件保存到两个单独的数组并打印每个元素,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27455528/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com