gpt4 book ai didi

php - 用 PHP/Python 解析文本?如何?什么?

转载 作者:太空宇宙 更新时间:2023-11-04 11:00:56 25 4
gpt4 key购买 nike

我为外语学习者构建了一个 Drupal Ed 站点,该站点具有词汇共享功能和抽认卡功能。我正在考虑添加一种方法来解析文本(报纸文章等)并输出使用的单词列表,然后可能交叉连接到词汇部分。

现在,我想知道是否有理想的 php 或 python 中的任何程序/脚本可用于将文本解析为使用的单词列表(并且可能能够排除最常用单词的列表).我希望能够适应在 Drupal 中工作,所以 php 最好。我愿意使用那里的各种东西吗?有什么想法吗?

我什至不确定从哪里开始?

最佳答案

简单的开始:

<?php
// source text
$paragraph = "Lorem ipsum dolor sit amet, consectetur adipiscing elit.
Proin congue, quam nec tincidunt congue, massa ipsum sodales tellus,
in rhoncus sem quam quis ante. Nam condimentum pellentesque libero at
blandit. Suspendisse felis sem, interdum pulvinar ultricies a, auctor
vel leo. Curabitur congue mi nec purus placerat sit amet mollis magna
laoreet. Duis eu purus non turpis lacinia sagittis. Aliquam tristique
nulla volutpat neque posuere faucibus. Aenean tempus diam quis sem
convallis id cursus lorem sagittis. Nam feugiat, felis nec tincidunt
aliquet, felis lectus bibendum mi, ut tincidunt purus urna ac felis.
Quisque ut lectus dolor. Duis ipsum arcu, adipiscing id vestibulum
fringilla, euismod non augue. Nullam quis ipsum nec tortor tristique
egestas sed nec leo. Pellentesque tempus velit lacus, sit amet rhoncus
mi. Curabitur justo ipsum, consectetur ac vestibulum sed, porttitor
eget dui. Vivamus nisi lorem, porta vel gravida quis, varius et elit.
Nulla eros metus, congue sit amet interdum at, porta eget ligula.";

// remove newlines
$paragraph = str_replace(array("\r","\n"), '', $paragraph);

// convert to lowercase
$paragraph = strtolower($paragraph);

// remove non-alphanumeric characters
$paragraph = preg_replace('/[^A-Za-z0-9\s]/', '', $paragraph);

// convert into array
$words = explode(' ', $paragraph);

// remove null values
$words = array_filter($words, 'strlen');

// remove duplicate values
$words = array_unique($words);

// sort array alphabetically (optional)
natsort($words);

// reindex array
$words = array_values($words);

// display array
print_r($words);
?>

更新:现在删除换行符。将所有修改分成单独的命令。

关于php - 用 PHP/Python 解析文本?如何?什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5504128/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com