当前位置：文江博客话题详情

C# language-detection

如何检测字符串的语言？

发布于 2024-07-28 11:11:39 字数 23 浏览 10 评论 0 原文

检测字符串语言的最佳方法是什么？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

心清如水 2024-08-04 11:16:43

一种替代方法是使用“文本翻译 API< /a>' 这是

...机器的 Azure 认知服务 API 集合的一部分
云端的学习和人工智能算法，并且易于使用
您的开发项目

这里有快速入门指南如何使用此 API 从文本中检测语言

回复收藏 0 原文

萌无敌 2024-08-04 11:16:12

您可以使用C# 包进行语言识别来自微软研究院：

这个包实现了多种语言算法
识别，并包含两套预编译语言
配置文件。一套涵盖 52 种语言，并在维基百科上接受过培训
（即编写良好的语料库）；另一个涵盖 26 种语言，
由 Twitter（即高度口语化的语料库）构建。这
语言标识符被打包为 C# 库，并且很容易
嵌入到其他 C# 项目中。

从上面的链接下载该包。

回复收藏 0 原文

趴在窗边数星星i 2024-08-04 11:15:48

我们可以使用 Regex.IsMatch(text, "[\\uxxxx-\\uxxxx]+") 来检测特定语言。这里 xxxx 是字符的 4 位 Unicode id。
要检测阿拉伯语：

bool isArabic = Regex.IsMatch(yourtext, @"[\u0600-\u06FF]+")

We can use Regex.IsMatch(text, "[\\uxxxx-\\uxxxx]+") to detect an specific language. Here xxxx is the 4 digit Unicode id of a character.
To detect Arabic:

bool isArabic = Regex.IsMatch(yourtext, @"[\u0600-\u06FF]+")

回复收藏 0 原文

橘和柠 2024-08-04 11:15:16

来自 Google Chromium 浏览器的 CLD3（紧凑语言检测器 v3） 库

您可以封装 CLD3 库< /a>，这是用 C++ 编写的。

回复收藏 0 原文

横笛休吹塞上声 2024-08-04 11:14:45

对字符串进行统计分析：将字符串拆分为单词。为您想要测试的每种语言准备一本字典。然后找到字数最多的语言。

在 C# 中，内存中的每个字符串都将是 unicode，并且不会进行编码。此外，在文本文件中，不会存储编码。（有时仅指示8位或16位）。

如果您想区分两种语言，您可能会发现一些简单的技巧。例如，如果您想从荷兰语中识别英语，则包含“y”的字符串主要是英语。（不可靠但速度快）。

回复收藏 0 原文

面如桃花 2024-08-04 11:14:13

如果您指的是自然（即人类）语言，那么这通常是一个难题。 “服务器”是什么语言 - 英语还是土耳其语？ “聊天”是什么语言——英语还是法语？ “uno”是什么语言 - 意大利语还是西班牙语（或拉丁语！）？

如果不注意上下文，并进行一些困难的自然语言处理（<-----这是谷歌搜索的短语），你就没有机会。

您可能会喜欢看一下 Frengly - 这是 Google 翻译服务的一个不错的 UI，它会尝试猜测文本的语言输入文本...

回复收藏 0 原文

夏至、离别 2024-08-04 11:13:40

使用二字母或三字母的统计方法是一个非常好的指标。例如，以下是按顺序排列的最常见的英语二合字母： http://www.letterFrequency.org/ #digraph-Frequency（可以找到更好或更完整的列表）。对于短文本片段，此方法可能比单词分析具有更高的成功率，因为文本中的二合字母多于完整的单词。

回复收藏 0 原文

伪装你 2024-08-04 11:13:11

快速回答 NTextCat (NuGet，在线演示）

长答案：

目前最好的方法似乎是使用经过训练的分类器将一段文本从预定义的语言中分类为一种（或多种）语言放。

有一个名为 TextCat 的 Perl 工具。它拥有 74 种最流行语言的语言模型。该工具有大量端口可以移植到不同的编程语言中。

.Net 中没有端口。所以我写了一个：NTextCat on GitHub。

它是纯.NET Framework DLL + 命令行接口。默认情况下，它使用 14 种语言的配置文件。

非常感谢任何反馈！
新的想法和功能请求也受到欢迎:)

另一种选择是使用多种在线服务（例如提到的 Google 服务、Detectlanguage.com、langid.net 等）。

回复收藏 0 原文

浮萍、无处依 2024-08-04 11:12:45

如果您的代码上下文可以访问互联网，您可以尝试使用 Google API 进行语言检测。
http://code.google.com/apis/ajaxlanguage/documentation/

var text = "¿Dónde está el baño?";
google.language.detect(text, function(result) {
  if (!result.error) {
    var language = 'unknown';
    for (l in google.language.Languages) {
      if (google.language.Languages[l] == result.language) {
        language = l;
        break;
      }
    }
    var container = document.getElementById("detection");
    container.innerHTML = text + " is: " + language + "";
  }
});

并且，由于您使用的是 c#，请查看这篇文章介绍如何从 C# 调用 API。

更新：
那个 c# 链接消失了，这是其核心的缓存副本：

string s = TextBoxTranslateEnglishToHebrew.Text;
string key = "YOUR GOOGLE AJAX API KEY";
GoogleLangaugeDetector detector =
   new GoogleLangaugeDetector(s, VERSION.ONE_POINT_ZERO, key);

GoogleTranslator gTranslator = new GoogleTranslator(s, VERSION.ONE_POINT_ZERO,
   detector.LanguageDetected.Equals("iw") ? LANGUAGE.HEBREW : LANGUAGE.ENGLISH,
   detector.LanguageDetected.Equals("iw") ? LANGUAGE.ENGLISH : LANGUAGE.HEBREW,
   key);

TextBoxTranslation.Text = gTranslator.Translation;

基本上，您需要创建一个 URI 并将其发送到 Google，如下所示：

http://ajax.googleapis.com/ajax/services/language/translate?v=1.0&q=hello%20worled&langpair=en%7ciw&key=your_google_api_key_goes_here

这告诉 API 您想要将“hello world”从英语翻译成希伯来语，Google 的 JSON 响应如下所示：

{"responseData": {"translatedText":"שלום העולם"}, "responseDetails": null, "responseStatus": 200}

我选择创建一个代表典型 Google JSON 响应的基类：

[Serializable]
public class JSONResponse
{
   public string responseDetails = null;
   public string responseStatus = null;
}

然后，从此类继承的 Translation 对象：

[Serializable]
public class Translation: JSONResponse
{
   public TranslationResponseData responseData = 
    new TranslationResponseData();
}

此 Translation 类有一个TranslationResponseData 对象如下所示：

[Serializable]
public class TranslationResponseData
{
   public string translatedText;
}

最后，我们可以创建 GoogleTranslator 类：

using System;
using System.Collections.Generic;
using System.Text;

using System.Web;
using System.Net;
using System.IO;
using System.Runtime.Serialization.Json;

namespace GoogleTranslationAPI
{

   public class GoogleTranslator
   {
      private string _q = "";
      private string _v = "";
      private string _key = "";
      private string _langPair = "";
      private string _requestUrl = "";
      private string _translation = "";

      public GoogleTranslator(string queryTerm, VERSION version, LANGUAGE languageFrom,
         LANGUAGE languageTo, string key)
      {
         _q = HttpUtility.UrlPathEncode(queryTerm);
         _v = HttpUtility.UrlEncode(EnumStringUtil.GetStringValue(version));
         _langPair =
            HttpUtility.UrlEncode(EnumStringUtil.GetStringValue(languageFrom) +
            "|" + EnumStringUtil.GetStringValue(languageTo));
         _key = HttpUtility.UrlEncode(key);

         string encodedRequestUrlFragment =
            string.Format("?v={0}&q={1}&langpair={2}&key={3}",
            _v, _q, _langPair, _key);

         _requestUrl = EnumStringUtil.GetStringValue(BASEURL.TRANSLATE) + encodedRequestUrlFragment;

         GetTranslation();
      }

      public string Translation
      {
         get { return _translation; }
         private set { _translation = value; }
      }

      private void GetTranslation()
      {
         try
         {
            WebRequest request = WebRequest.Create(_requestUrl);
            WebResponse response = request.GetResponse();

            StreamReader reader = new StreamReader(response.GetResponseStream());
            string json = reader.ReadLine();
            using (MemoryStream ms = new MemoryStream(Encoding.Unicode.GetBytes(json)))
            {
               DataContractJsonSerializer ser =
                  new DataContractJsonSerializer(typeof(Translation));
               Translation translation = ser.ReadObject(ms) as Translation;

               _translation = translation.responseData.translatedText;
            }
         }
         catch (Exception) { }
      }
   }
}

If the context of your code have internet access, you can try to use the Google API for language detection.
http://code.google.com/apis/ajaxlanguage/documentation/

var text = "¿Dónde está el baño?";
google.language.detect(text, function(result) {
  if (!result.error) {
    var language = 'unknown';
    for (l in google.language.Languages) {
      if (google.language.Languages[l] == result.language) {
        language = l;
        break;
      }
    }
    var container = document.getElementById("detection");
    container.innerHTML = text + " is: " + language + "";
  }
});

And, since you are using c#, take a look at this article on how to call the API from c#.

UPDATE:
That c# link is gone, here's a cached copy of the core of it:

string s = TextBoxTranslateEnglishToHebrew.Text;
string key = "YOUR GOOGLE AJAX API KEY";
GoogleLangaugeDetector detector =
   new GoogleLangaugeDetector(s, VERSION.ONE_POINT_ZERO, key);

GoogleTranslator gTranslator = new GoogleTranslator(s, VERSION.ONE_POINT_ZERO,
   detector.LanguageDetected.Equals("iw") ? LANGUAGE.HEBREW : LANGUAGE.ENGLISH,
   detector.LanguageDetected.Equals("iw") ? LANGUAGE.ENGLISH : LANGUAGE.HEBREW,
   key);

TextBoxTranslation.Text = gTranslator.Translation;

Basically, you need to create a URI and send it to Google that looks like:

http://ajax.googleapis.com/ajax/services/language/translate?v=1.0&q=hello%20worled&langpair=en%7ciw&key=your_google_api_key_goes_here

This tells the API that you want to translate "hello world" from English to Hebrew, to which Google's JSON response would look like:

{"responseData": {"translatedText":"שלום העולם"}, "responseDetails": null, "responseStatus": 200}

I chose to make a base class that represents a typical Google JSON response:

[Serializable]
public class JSONResponse
{
   public string responseDetails = null;
   public string responseStatus = null;
}

Then, a Translation object that inherits from this class:

[Serializable]
public class Translation: JSONResponse
{
   public TranslationResponseData responseData = 
    new TranslationResponseData();
}

This Translation class has a TranslationResponseData object that looks like this:

[Serializable]
public class TranslationResponseData
{
   public string translatedText;
}

Finally, we can make the GoogleTranslator class:

using System;
using System.Collections.Generic;
using System.Text;

using System.Web;
using System.Net;
using System.IO;
using System.Runtime.Serialization.Json;

namespace GoogleTranslationAPI
{

   public class GoogleTranslator
   {
      private string _q = "";
      private string _v = "";
      private string _key = "";
      private string _langPair = "";
      private string _requestUrl = "";
      private string _translation = "";

      public GoogleTranslator(string queryTerm, VERSION version, LANGUAGE languageFrom,
         LANGUAGE languageTo, string key)
      {
         _q = HttpUtility.UrlPathEncode(queryTerm);
         _v = HttpUtility.UrlEncode(EnumStringUtil.GetStringValue(version));
         _langPair =
            HttpUtility.UrlEncode(EnumStringUtil.GetStringValue(languageFrom) +
            "|" + EnumStringUtil.GetStringValue(languageTo));
         _key = HttpUtility.UrlEncode(key);

         string encodedRequestUrlFragment =
            string.Format("?v={0}&q={1}&langpair={2}&key={3}",
            _v, _q, _langPair, _key);

         _requestUrl = EnumStringUtil.GetStringValue(BASEURL.TRANSLATE) + encodedRequestUrlFragment;

         GetTranslation();
      }

      public string Translation
      {
         get { return _translation; }
         private set { _translation = value; }
      }

      private void GetTranslation()
      {
         try
         {
            WebRequest request = WebRequest.Create(_requestUrl);
            WebResponse response = request.GetResponse();

            StreamReader reader = new StreamReader(response.GetResponseStream());
            string json = reader.ReadLine();
            using (MemoryStream ms = new MemoryStream(Encoding.Unicode.GetBytes(json)))
            {
               DataContractJsonSerializer ser =
                  new DataContractJsonSerializer(typeof(Translation));
               Translation translation = ser.ReadObject(ms) as Translation;

               _translation = translation.responseData.translatedText;
            }
         }
         catch (Exception) { }
      }
   }
}

回复收藏 0 原文

~没有更多了~