gpt4 book ai didi

具有不同输入的 Javascript 正则表达式

转载 作者:行者123 更新时间:2023-12-01 14:37:45 25 4
gpt4 key购买 nike

我想从一段很长的文字中过滤掉下面的信息。我复制的并粘贴到一个文本字段中,然后希望将结果处理成一个表格。与

  • 姓名
  • 地址
  • 状态

示例片段:(将名称和地址等随机化)

Thuisprikindeling voor: Vrijdag 15 Mei 2015 DE SMART BON 22 afspraken
Pagina 1/4
Persoonlijke mededeling:
Algemene mededeling:
Prikpostgegevens: REEK-Eeklo extern, (-)
Telefoonnummer Fax Mobiel 0499/9999999 Email dummy.dummy@gmail.com
DUMMY FOO V Stationstreet 2 8000 New York F N - Sober BSN: 1655
THUIS Analyses: Werknr: PIN: 000000002038905
Opdrachtgever: Laboratorium Arts:
Mededeling: Some comments // VERY DIFFICULT
FO DUMMY FOO V Butterstreet 6 8740 Melbourne F N - Sober BSN: 15898
THUIS Analyses: Werknr: AFD 3 PIN: 000000002035900
Opdrachtgever: Laboratorium Arts:
Mededeling: ZH BLA / BLA BLA - AFD 3 - SOCIAL BEER
JOHN FOOO V Waterstreet 1 9990 Rome F N - Sober BSN: 17878
THUIS / Analyses: Werknr: K111 PIN: 000000002037888
Opdrachtgever: Laboratorium Arts:
Mededeling: TRYOUT/FOO
FO SMOOTH M.FOO M Queen Elisabethstreet 19 9990 Paris F NN - Not Sober BSN: 14877

我想从中得到的是:

DUMMY FOO Stationstreet 2 8000 New York Sober
FO DUMMY FOO Butterstreet 6 8740 Melbourne Sober
JOHN FOOO Waterstreet 1 9990 Rome Sober
FO SMOOTH M.FOO Queen Elisabethstreet 19 9990 Paris Not sober

我目前的策略是使用以下内容:

  • 过滤掉行首至少有两个大写单词的所有行。以及一个 4 位数的邮政编码。
  • 然后丢弃所有其他行,因为我只需要包含名称和地址的行
  • 然后我删除该行所需的所有信息
  • 去掉姓名/地址/身份

我使用以下代码:

  //Regular expressions

//Filter all lines which start with at least two UPPERCASE words following a space
pattern = /^(([A-Z'.* ]{2,} ){2,}[A-Z]{1,})(?=.*BSN)/;
postcode = /\d{4}/;
searchSober= /(N - Sober)+/;
searchNotSober= /(NN - Not sober)+/;

adres = inputText.split('\n');


for (var i = 0; i < adres.length; i++) {

// If in one line And a postcode and which starts with at least
// two UPPERCASE words following a space
temp = adres[i]

if ( pattern.test(temp) && postcode.test(temp)) {

//Remove BSN in order to be able to use digits to sort out the postal code
temp = temp.replace( /BSN.*/g, "");

// Example: DUMMY FOO V Stationstreet 2 8000 New York F N - Sober

//Selection of the name, always take first part of the array
// DUMMY FOO
var name = temp.match(/^([-A-Z'*.]{2,} ){1,}[-A-Z.]{2,}/)[0];

//remove the name from the string
temp = temp.replace(/^([-A-Z'*.]{2,} ){1,}[-A-Z.]{2,}/, "");
// V Stationstreet 2 8000 New York F N - Sober

//filter out gender
//Using jquery trim for whitespace trimming
// V
var gender = $.trim(temp.match(/^( [A-Z'*.]{1} )/)[0]);

//remove gender
temp = temp.replace(/^( [A-Z'*.]{1} )/, "");

// Stationstreet 2 8000 New York F N - Sober
//looking for status

var status = "unknown";
if ( searchNotsober.test(temp) ) {
status = "Not soberr";
}
else if ( searchSober.test(temp) ) {
status = "Sober";


}
else {
status = "unknown";
}

//Selection of the address /^.*[0-9]{4}.[\w-]{2,40}/
//Stationstreet 2 8000 New York
var address = $.trim(temp.match(/^.*[0-9]{4}.[\w-]{2,40}/gm));

//assemble into person object.
var person={name: name + "", address: address + "", gender: gender +"", status:status + "", location:[] , marker:[]};
result.push(person);
}
}

我现在遇到的问题是:

  • 有时名字不是用大写字母写的
  • 有时没有添加邮政编码,所以我的代码就停止工作了。
  • 有时他们会在名字前加一个*

一个更广泛的问题是您可以采取什么策略来解决这些类型的困惑输入问题?我是否应该为我在这些片段中看到的每一个错误提出案例?我感觉像我真的不知道每次运行时我会从这段代码中得到什么它具有不同的输入。

最佳答案

一般的处理方式:

  1. 找到最有可能匹配的所有行。匹配“Sober”或任何不太可能错过匹配的内容,即使它会给您带来误报。

  2. 滤除误报,您必须随时更新和调整。确保只过滤掉根本不相关的内容。

  3. 严格过滤输入,不匹配的将被记录/报告以供手动处理,匹配的现在符合已知的严格模式

  4. 归一化和提取数据现在应该容易得多,因为您在此阶段可能的输入有限

关于具有不同输入的 Javascript 正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30249768/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com