gpt4 book ai didi

linux - 如何用文件每一行中的字母替换某些数字(根据该行第 5 列和第 6 列中存在的字母)?

转载 作者:塔克拉玛干 更新时间:2023-11-02 23:17:03 27 4
gpt4 key购买 nike

我有一个以空格分隔的文件,如下所示:

probeset_id submitted_id chr snp_pos alleleA alleleB 562_201 562_202 562_203 562_204 562_205 562_206 562_207 562_208 562_209 562_210 562_211 562_212 562_213 562_214 562_215 562_216 562_217 562_218 562_219 562_220 562_221 562_222 562_223 562_224 562_225 562_226 562_227 562_228 562_229 562_230 562_231 562_232 562_233 562_234 562_235 562_236 562_237 562_238 562_239 562_240 562_241 562_242 562_243 562_244 562_245 562_246 562_247 562_248 562_249 562_250 562_251 562_252 562_253 562_254 562_255 562_256 562_257 562_258 562_259 562_260 562_261 562_262 562_263 562_264 562_265 562_266 562_267 562_268 562_269 562_270 562_271 562_272 562_273 562_274 562_275 562_276 562_277 562_278 562_279 562_280 562_281 562_283 562_284 562_285 562_289 562_291 562_292 562_294 562_295 562_296 562_400 562_401 562_402 562_403 562_404 562_405 
AX-75448119 Chr1_41908741 1 41908741 T C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 1 1 1 1 1 0 1 0 0 0 0 2 2 0 0 0 0 0 1 0 0 0 0 0
AX-75448118 Chr1_41908545 1 41908545 T A 2 2 2 2 2 2 2 2 2 0 0 0 0 0 0 0 0 0 0 0 1 2 2 2 2 2 2 2 2 2 0 0 0 0 0 1 1 0 1 1 0 0 0 0 0 0 1 2 2 2 0 1 1 1 2 -1 1 2 0 0 2 1 1 0 1 0 1 2 1 0 0 1 2 2 1 2 2 0 1 2 2 2 2 2 2 0 1 0 0 0 1 2 2 2 2 0

我想根据第 5 列和第 6 列用字母替换数字

  1. 0 替换为 $5 $5(第 5 列重复两次)例如,如果第 5 列是 T,则替换 0 T T
  2. 2 替换为 $6 $6(第 6 列重复两次)例如,如果第 6 列是 C,则替换 2 C C
  3. 1 替换为 $5 $6 例如,如果第 5 列和第 6 列分别为 TC,将 1 替换为 T C
  4. -1替换为? ?

我必须注意,第 5 列和第 6 列可以是 T、A、C 和 G

所以我想要的输出是:

AX-75448119 Chr1_41908741 1 41908741 T C T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T C T T T T T T T C T C T C T C T C T C T T T C T T T T T T T T C C C C T T T T T T T T T T T C T T T T T T T T T T 
AX-75448118 Chr1_41908545 1 41908545 T A A A A A A A A A A A A A A A A A A A T T T T T T T T T T T T T T T T T T T T T T T A A A A A A A A A A A A A A A A A A A T T T T T T T T T T T A T A T T T A T A T T T T T T T T T T T T T A A A A A A A T T T A T A T A A A ? ? T A A A T T T T A A T A T A T T T A T T T A A A T A T T T T T A A A A A T A A A A A T T T A A A A A A A A A A A A A T T T A T T T T T T T A A A A A A A A A T T

我不知道这是否可以通过 awk 实现!如果不是,我会在 python 中尝试,但我宁愿使用像 awk 这样的 Linux 命令(它比 python 快得多,因为我使用的文件有 120 万行,我的计算机可以通过 python 交换!)

最佳答案

NR>1{
o="1"; z="0"; t="2"
if($5 == "T" && $6 == "C")
o="T C"
if($5 == "T")
z="T T"
if($6 == "C")
t="C C"
if($6 == "A")
t="A A"
for (i=7; i<=NF; i++) {
gsub(/1/,o,$i)
gsub(/0/,z,$i)
gsub(/2/,t,$i)
gsub(/-1/,"? ?", $i)
}
}1

输出

$ awk -f allele.awk allele.in
probeset_id submitted_id chr snp_pos alleleA alleleB 562_201 562_202 562_203 562_204 562_205 562_206 562_207 562_208 562_209 562_210 562_211 562_212 562_213 562_214 562_215 562_216 562_217 562_218 562_219 562_220 562_221 562_222 562_223 562_224 562_225 562_226 562_227 562_228 562_229 562_230 562_231 562_232 562_233 562_234 562_235 562_236 562_237 562_238 562_239 562_240 562_241 562_242 562_243 562_244 562_245 562_246 562_247 562_248 562_249 562_250 562_251 562_252 562_253 562_254 562_255 562_256 562_257 562_258 562_259 562_260 562_261 562_262 562_263 562_264 562_265 562_266 562_267 562_268 562_269 562_270 562_271 562_272 562_273 562_274 562_275 562_276 562_277 562_278 562_279 562_280 562_281 562_283 562_284 562_285 562_289 562_291 562_292 562_294 562_295 562_296 562_400 562_401 562_402 562_403 562_404 562_405
AX-75448119 Chr1_41908741 1 41908741 T C T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T C T T T T T T T C T C T C T C T C T C T T T C T T T T T T T T C C C C T T T T T T T T T T T C T T T T T T T T T T
AX-75448118 Chr1_41908545 1 41908545 T A A A A A A A A A A A A A A A A A A A T T T T T T T T T T T T T T T T T T T T T T 1 A A A A A A A A A A A A A A A A A A T T T T T T T T T T 1 1 T T 1 1 T T T T T T T T T T T T 1 A A A A A A T T 1 1 1 A A ? ? 1 A A T T T T A A 1 1 T T 1 T T 1 A A 1 T T T T 1 A A A A 1 A A A A T T 1 A A A A A A A A A A A A T T 1 T T T T T T 1 A A A A A A A A T T

注意:您的规范仍然不完整,当第 5 列和第 6 列不是 T C 时,您从未说明如何处理 1,分别。您遗漏了许多排列。

关于linux - 如何用文件每一行中的字母替换某些数字(根据该行第 5 列和第 6 列中存在的字母)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9197520/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com