gpt4 book ai didi

php - Hadoop:仅读取 “English”页面

转载 作者:行者123 更新时间:2023-12-02 21:51:01 27 4
gpt4 key购买 nike

我正在尝试从Common Crawl阅读“英语”网页。我正在Amazon界面中运行这些Hadoop作业。请看下面的代码,那是Mapper的一部分。我没有 reducer 。

#!/usr/bin/php
<?php

$word2count = array();
$counter = 0;
$closeit = false;

while (($closeit == false)&& (($line = fgets(STDIN)) !== false)) {
$counter++;
$line = strtolower(trim($line));
echo "$line\n";
if($counter > 100)
{
$closeit = true;
}
}

echo "mapper1\n";


?>

在这里,此代码将读取文章的前100行。我该如何更改,以便仅阅读“英文”文章?除此之外,我应该使用哪个数据集?

请帮忙。

最佳答案

阅读一行或几行后,可以使用语言检测器。这是一些描述如何在PHP中执行此操作的代码:http://phpir.com/language-detection-with-n-grams已经配置为检测某些语言,包括英语。

关于php - Hadoop:仅读取 “English”页面,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21001379/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com