当前位置：文江博客话题详情

C# nlp linguistics

如何正确地在单词前面加上“a”和“一个”？

发布于 2024-08-02 22:04:53 字数 145 浏览 12 评论 0原文

我有一个 .NET 应用程序，给定一个名词，我希望它正确地为该单词添加“a”或“an”前缀。我该怎么做呢？

在您认为答案只是简单地检查第一个字母是否是元音之前，请考虑以下短语：

一个诚实的错误
二手车

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（25）

稍尽春風 2024-08-09 22:04:53

下载 Wikipedia
将其解压缩并编写一个快速过滤程序，该程序仅输出文章文本（下载的文件通常采用 XML 格式，也包含非文章元数据）。
查找 a(n).... 的所有实例，并在以下单词及其所有前缀上创建索引（您可以为此使用简单的后缀）。这应该区分大小写，并且您需要最大字长 - 15 个字母？
（可选）丢弃所有出现次数少于 5 次或“a”与“an”达到少于 2/3 多数的前缀（或一些其他阈值 - 此处调整）。最好保留空前缀以避免出现极端情况。
您可以通过丢弃其父级共享相同“a”或“an”注释的所有前缀来优化前缀数据库。
当确定使用“A”还是“AN”时，找到最长的匹配前缀，并遵循其引导。如果您在步骤 4 中没有丢弃空前缀，那么总是会有一个匹配的前缀（即空前缀），否则您可能需要一个完全不匹配的字符串的特殊情况（这样的输入应该非常罕见）。

您可能找不到比这更好的了 - 而且它肯定会击败大多数基于规则的系统。

编辑：我已经在 JS/C# 中实现了这个。您可以在浏览器中尝试，或下载小型、可重用的 JavaScript 实现它使用。 .NET 实现是 nuget 上的包 AvsAn。这些实现很简单，因此如果需要的话应该很容易移植到任何其他语言。

事实证明，“规则”比我想象的要复杂得多：

这是一个出乎意料的结果，但它是一次一致投票，
这是一个一个诚实的决定但是金银花灌木
符号：一个 0800 数字，或一个牛至 ∞。
缩写词：它是a NASA 科学家，但是an NSA 分析师；一辆菲亚特汽车，但联邦航空局政策。

...这只是强调基于规则的系统构建起来会很棘手！

回复收藏 0 原文

若水微香 2024-08-09 22:04:53

您需要使用例外列表。我认为并不是所有的例外都有明确的定义，因为它有时取决于说这个词的人的口音。

一种愚蠢的方法是向 Google 询问两种可能性（使用搜索 API 之一）并使用最流行的：

http://www.google.co.uk/search?q=%22a+europe%22 - 841,000 次点击
http://www.google.co.uk/search?q=%22an+europe%22 - 25,000 次点击

或者：

http://www.google.co.uk/ search?q=%22a+honest%22 - 797,000 次点击
http://www.google.co.uk/search?q=%22an+honest%22 - 8,220,000 次点击

因此“a europe”和“anHonest”是正确的版本。

回复收藏 0 原文

躲猫猫 2024-08-09 22:04:53

如果您可以找到单词拼写到单词发音的来源，例如：

"honest":"on-ist"
"horrible":"hawr-uh-buhl, hor-"

您可以根据拼写发音字符串的第一个字符做出决定。
为了提高性能，也许您可以使用此类查找来预先生成异常集，并在执行期间使用这些较小的查找集。

编辑添加：

！！！ - 我认为你可以用它来生成你的异常：
http://www.speech.cs.cmu.edu/cgi-bin/cmudict当然

，并非所有内容都会在字典中 - 这意味着并非所有可能的异常都会出现在您的异常集中 - 但在这种情况下，您可以默认使用 an 表示元音/ a 表示辅音或使用其他启发式方法有更好的胜算。

（翻阅卡耐基梅隆大学词典，我很高兴地看到它包含了国家和其他一些地方的专有名词 - 因此它会提供诸如“乌克兰人”、“今日美国报纸”、“乌拉尔灵感绘画”等示例。）

再次编辑添加：CMU 词典不包含常见的缩写词，您必须担心以 s、f、l、m、n、u 和 x 开头的缩写词。但是有很多缩略词列表，例如维基百科，您可以使用它们来添加例外情况。

If you could find a source of word spellings to word pronunciations, like:

"honest":"on-ist"
"horrible":"hawr-uh-buhl, hor-"

You could base your decision on the first character of the spelled pronunciation string.
For performance, perhaps you could use such a lookup to pre-generate exception sets and use those smaller lookup sets during execution instead.

Edited to add:

!!! - I think you could use this to generate your exceptions:
http://www.speech.cs.cmu.edu/cgi-bin/cmudict

Not everything will be in the dictionary, of course - meaning not every possible exception would wind up in your exceptions sets - but in that case, you could just default to an for vowels/ a for consonants or use some other heuristic with better odds.

(Looking through the CMU dictionary, I was pleased to see it includes proper nouns for countries and some other places - so it will hande examples like "a Ukrainian", "a USA Today paper", "a Urals-inspired painting".)

Editing once more to add: The CMU dictionary does not contain common acronyms, and you have to worry about those starting with s,f,l,m,n,u,and x. But there are plenty of acronym lists out there, like in Wikipedia, which you could use to add to the exceptions.

回复收藏 0 原文

海拔太高太耀眼 2024-08-09 22:04:53

您必须手动实施并添加您想要的例外，例如如果第一个字母是“H”，后跟“O”，如诚实、小时……以及相反的字母，如欧洲、大学、二手……

回复收藏 0 原文

千柳 2024-08-09 22:04:53

由于“a”和“an”是由语音规则而不是拼写约定决定的，我可能会这样做：

如果单词的第一个字母是辅音 -> > 'a'
如果单词的第一个字母是元音-> 'an'
将例外列表（心脏、X 射线、房屋）保留为 rjumnro 说。

回复收藏 0 原文

梦年海沫深 2024-08-09 22:04:53

你需要看看不定冠词的语法规则（英语语法中只有两种不定冠词——“a”和“an”）。你可能不同意这些听起来正确，但是英语语法非常清晰：

“单词a和an是不定的
文章。我们使用不定式
文章开头的词
带有元音 (a, e, i, o, u) 并且
词前的不定冠词a
以辅音开头的（所有
其他字母）。”

请注意，这表示元音声音，而不是元音字母。例如，以不发音的“h”开头的单词，例如“honour”或“继承人”被视为元音，因此以“an”开头 - 例如，“很荣幸见到你”以辅音开头的单词以 a 为前缀 - 这就是为什么你说“二手车”。而不是“二手车”——因为“二手车”发出的是“yoose”的声音，而不是“呃”的声音。

所以，作为程序员，这些是要遵循的规则。单词以哪个字母开头，而不是我见过的例子，例如 PHP 中的这个作者：Jaimie Sirovich ：

function aOrAn($next_word) 
{ 
    $_an = array('hour', 'honest', 'heir', 'heirloom'); 
    $_a = array('use', 'useless', 'user'); 
    $_vowels = array('a','e','i','o','u'); 

    $_endings = array('ly', 'ness', 'less', 'lessly', 'ing', 'ally', 'ially'); 
    $_endings_regex = implode('|', $_endings); 

    $tmp = preg_match('#(.*?)(-| |$)#', $next_word, $captures); 
    $the_word = trim($captures[1]); 
    //$the_word = Format::trimString(Utils::pregGet('#(.*?)(-| |$)#', $next_word, 1)); 

    $_an_regex = implode('|', $_an); 
    if (preg_match("#($_an_regex)($_endings_regex)#i", $the_word)) { 
        return 'an'; 
    } 

    $_a_regex = implode('|', $_a); 
    if (preg_match("#($_a_regex)($_endings_regex)#i", $the_word)) { 
        return 'a'; 
    } 

    if (in_array(strtolower($the_word{0}), $_vowels)) { 
        return 'an';     
    } 

    return 'a'; 
}

创建规则然后创建例外列表并使用它可能是最简单的。我不认为会有那么多。

You need to look at the grammatical rules for indefinite articles (there are only two indefinite articles in English grammar - "a" and "an). You may not agree these sound correct, but the rules of English grammar are very clear:

"The words a and an are indefinite
articles. We use the indefinite
article an before words that begin
with a vowel sound (a, e, i, o, u) and
the indefinite article a before words
that begin with a consonant sound (all
other letters)."

Note this means a vowel sound, and not a vowel letter. For instance, words beginning with a silent "h", such as "honour" or "heir" are treated as vowels an so are proceeded with "an" - for example, "It is an honour to meet you". Words beginning with a consonant sound are prefixed with a - which is why you say "a used car" rather than "an used car" - because "used" has a "yoose" sound rather than a "uhh" sound.

So, as a programmer, these are the rules to follow. You just need to work out a way of determining what sound a word begins with, rather than what letter. I've seen examples of this, such as this one in PHP by Jaimie Sirovich :

function aOrAn($next_word) 
{ 
    $_an = array('hour', 'honest', 'heir', 'heirloom'); 
    $_a = array('use', 'useless', 'user'); 
    $_vowels = array('a','e','i','o','u'); 

    $_endings = array('ly', 'ness', 'less', 'lessly', 'ing', 'ally', 'ially'); 
    $_endings_regex = implode('|', $_endings); 

    $tmp = preg_match('#(.*?)(-| |$)#', $next_word, $captures); 
    $the_word = trim($captures[1]); 
    //$the_word = Format::trimString(Utils::pregGet('#(.*?)(-| |$)#', $next_word, 1)); 

    $_an_regex = implode('|', $_an); 
    if (preg_match("#($_an_regex)($_endings_regex)#i", $the_word)) { 
        return 'an'; 
    } 

    $_a_regex = implode('|', $_a); 
    if (preg_match("#($_a_regex)($_endings_regex)#i", $the_word)) { 
        return 'a'; 
    } 

    if (in_array(strtolower($the_word{0}), $_vowels)) { 
        return 'an';     
    } 

    return 'a'; 
}

It's probably easiest to create the rule and then create a list of exceptions and use that. I don't imagine there will be that many.

回复收藏 0 原文

哆兒滾 2024-08-09 22:04:53

伙计，我意识到这可能是一个已解决的争论，但我认为它比使用维基百科的临时语法规则更容易解决，维基百科最多只能导出白话语法。

看来，最好的解决方案是使用 a 或 an 触发后续单词的基于音素的匹配，其中某些音素始终与“an”相关联，其余音素属于“a”。

卡内基梅隆大学有一个很棒的在线工具来进行此类检查 - http://www .speech.cs.cmu.edu/cgi-bin/cmudict - 125k 单词，匹配 39 个音素。插入一个单词即可提供整个音素集，其中只有第一个是重要的。

如果该单词没有出现在字典中，例如“NSA”并且全部大写，则系统可以假设该单词是缩写词，并基于相同的原始规则集使用第一个字母来确定使用哪个不定冠词。

回复收藏 0 原文

溺ぐ爱和你が 2024-08-09 22:04:53

@内森·朗：
下载维基百科实际上并不是一个坏主意。不需要所有图像、视频和其他媒体。

我用 php 和 javascript 编写了一个（蹩脚的）程序（！）来阅读整个瑞典语维基百科（或者至少可以从有关数学的文章中找到所有文章，这是我的蜘蛛的开始。）

我收集了所有单词和数据库中的内部链接，并且还跟踪每个单词的频率。我现在使用它作为各种任务的单词数据库：
* 查找可以从给定字母集（包括通配符）创建的所有单词
* 创建了一个简单的瑞典语语法文件（所有不在数据库中的单词都被认为是不正确的）。

哦，下载整个 wiki 大约需要一周时间，我的笔记本电脑大部分时间都在运行，连接速度为 10Mbit。

当你这样做时，记录所有与英语不一致的情况，看看其中是否有错误。去解决它们并回馈社区。

回复收藏 0 原文

心清如水 2024-08-09 22:04:53

请注意，美国和英国方言之间存在差异，正如 Grammar Girl 在她的剧集中指出的那样 A与 An 相对。

一个复杂的问题是英式英语和美式英语中单词的发音不同。例如，某种植物的单词在美式英语中发音为“erb”，在英式英语中发音为“herb”。在极少数情况下会出现问题，请使用您所在国家/地区或大多数读者所期望的表格。

回复收藏 0 原文

ㄖ落Θ余辉 2024-08-09 22:04:53

看一下 Perl 的 Lingua::EN::Inflect。请参阅源代码中的sub _indef_article。

回复收藏 0 原文

装迷糊 2024-08-09 22:04:53

我已经从 Python（最初来自 CPAN 包 Lingua-EN-Inflect），可以正确确定 C# 中的元音并将其发布为问题的答案以编程方式确定是否用 a 或 an 描述对象？。您可以看到代码片段在这里。

回复收藏 0 原文

窗影残 2024-08-09 22:04:53

您能否获得一本英语词典，其中存储了用我们的常规字母表书写的单词和国际音标字母表？

然后用语音学来判断这个词的声母，“a”或“an”是否合适？

不确定这是否真的比统计维基百科方法更容易（或同样有趣）。

回复收藏 0 原文

自找没趣 2024-08-09 22:04:53

我会使用基于规则的算法来覆盖尽可能多的情况，然后使用例外列表。如果您想变得更奇特，您可以尝试从例外列表中确定一些新的“规则”。

回复收藏 0 原文

清醇 2024-08-09 22:04:53

我看起来只是一套启发法。它需要更复杂一点，并回答一些我从未得到好的答案的问题，例如您如何对待缩写（“a RPM”或“an RPM”？我一直认为后者更有意义）。

快速搜索了一些关于如何处理英语单数前缀的语言库，但如果你挖掘得足够深入，你可能会找到一些东西。如果没有 - 您始终可以编写自己的变形库并获得世界声誉:-)。

回复收藏 0 原文

枫林﹌晚霞¤ 2024-08-09 22:04:53

我不认为你可以只填写一些像“a/an”这样的样板内容作为一步涵盖所有内容。否则，您最终会遇到假设错误，例如所有带有 'h' 的单词都以 'o' 开头，得到 'an' 而不是 'a'，如 'home' - （一个家？）。基本上，你最终会包含英语的逻辑，或者偶尔会发现一些罕见的案例，让你看起来很愚蠢。

回复收藏 0 原文

星 2024-08-09 22:04:53

检查单词是否以元音或辅音开头。 “u”通常是一个辅音和一个元音（“yu”），因此根据您的目的属于辅音组。

字母“h”在法语和英语中使用的法语单词中代表总塞音（辅音）。您可以列出这些内容（事实上，包括“honor”、“honour”和“hour”可能就足够了）并将它们算作以元音开头（因为英语不识别声门塞音）。

也把“eu”算作辅音等。

这并不太难。

回复收藏 0 原文

﹏半生如梦愿梦如真 2024-08-09 22:04:53

an 或 a 的选择取决于单词的发音方式。通过查看该单词，您不一定能说出其正确的发音，例如行话或缩写等。
其中一种方法可以是拥有支持音素的字典，并使用与单词相关联的音素信息来确定是否应该使用“a”或“an”。

回复收藏 0 原文

千年*琉璃梦 2024-08-09 22:04:53

我不能确定它是否有适当的信息来区分“a”和“an”，但普林斯顿大学的 WordNet 数据库的存在正是为了类似的任务，所以我认为数据很可能就在那里。它有大约数万个单词和所说单词之间的数十万个关系（IIRC；我在网站上找不到当前的统计数据）。看看吧。它可以免费下载。

回复收藏 0 原文

泪痕残 2024-08-09 22:04:53

如何？什么时候呢？获取附有文章的名词。以特定的形式提出要求。

询问文章中的名词。许多 MUD 代码库将项目存储为由以下内容组成的信息：

一个或多个关键字缩写
形式
长形式

关键字形式可能是“短剑生锈”。简称为“一把剑”。长形将是“一把生锈的短剑”。

您正在编写“a vs. an”Web 服务吗？退后一步，看看是否可以进一步向上游解决此泄漏问题。你可以建造一座大坝，但除非你阻止它流动，否则它最终会溢出。

确定这有多重要，正如其他人所建议的那样，追求“快速但粗糙”或“昂贵但坚固”。

回复收藏 0 原文

揽清风入怀 2024-08-09 22:04:53

规则很简单。如果下一个单词以元音开头，则使用“an”，如果下一个单词以辅音开头，则使用“a”。困难的是我们学校对元音和辅音的分类不起作用。 “honour”中的“h”是元音，而“hospital”中的“h”是辅音。

更糟糕的是，像“诚实”这样的单词以元音或辅音开头，具体取决于说它们的人。更糟糕的是，对于某些说话者来说，某些单词会根据周围的单词而发生变化。

问题仅取决于您愿意投入多少时间和精力。您可以在几分钟内使用“aeiou”作为元音写出一些内容，也可以花费几个月的时间对目标受众进行语言分析。它们之间存在大量的启发式方法，这些启发式方法对于某些说话者来说是正确的，而对于另一些说话者来说则是错误的——但因为不同的说话者对同一个词有不同的判断，所以无论你怎么做，都不可能总是正确的。它。

回复收藏 0 原文

坐在坟头思考人生 2024-08-09 22:04:53

理想的方法是在网上找到可以为您提供答案的地方，动态查询它们并缓存答案。对于初学者来说，您可以用几百个单词来启动系统。

（我不知道有这样的在线资源，但如果有的话我不会感到惊讶。）

回复收藏 0 原文

蓝海似她心 2024-08-09 22:04:53

因此，无需下载所有互联网内容，就可以找到合理的解决方案。这就是我所做的：

我记得 Google 发布了 Google Books N-Gram 频率的原始数据这里。所以我下载了“a_”和“an”的 2 克文件。如果我没记错的话，大概有26场演出。由此我生成了一个字符串列表，其中绝大多数前面都有您所期望的相反的文章（如果我们期望元音采用“an”）。我能够存储的最终单词列表不到 7 KB。

回复收藏 0 原文

对不⑦ 2024-08-09 22:04:53

我倾向于重写包含不定冠词的语句，而不是编写可能与文化相关且有大量例外的代码。例如，您可以说“这位客户想要‘单户住宅’的住房类型，而不是说“这位客户想要住在单户住宅中。”这样，不定冠词不依赖于变量 - 例如，“该客户想要‘公寓’的住房类型。”

回复收藏 0 原文

长亭外，古道边 2024-08-09 22:04:53

我想综合一些给出的答案，并贡献我自己的解决方案。

让我们从一些基本的启发式开始：

从单词的第一个字母开始。
- 如果以“a”、“i”或“o”开头，则使用“an”。据我所知，这些字母总是以实际的元音开头。
  - 如果它以“e”开头，那么它将被发音为元音，除非后面跟着“u”（例如，上低音号、优生学、欣快语、委婉语等）。 “i”也是如此，在“Iuka”、“Iuliyanov”和“IUPAC”等不太可能的情况下也是如此。 (https://en.wiktionary.org/w /index.php?title=类别:English_terms_with_IPA_pronunciation&from=iu)
- 如果以“b”、“c”、“d”、“g”、“k”、“p”、“q”、“t”、“v”、“w”或“开头z”，那么它就保证是一个辅音，并且像辅音一样发音。
- 如果它以“f”、“l”、“m”、“n”、“r”、“s”或“x”开头，则可以用元音发音，但仅如果它是首字母缩略词。否则，它保证被发音为辅音。
- 如果它以“u”或“h”、“j”或“y”开头，则属于特殊情况。
确定该单词是否是首字母缩略词。

如果该单词是首字母缩略词，则假设它包含多个连续的大写字母，或包含句点。这可以通过一个简单的正则表达式来解决（例如[AZ][AZ]+）。
- 如果该单词是首字母缩略词，则首先将其转换为更“类似单词”的形式（即，并非全部大写，不包含句点），然后再进行步骤 3。如果它不是首字母缩略词，则参考返回第 1 步中的信息。

。使用字典！
- 如果该单词在本词典中，并且以“a”、“e”、“i”、“o”或“u”，然后以元音开头。否则，它是辅音。
- 维基词典和维基百科使用国际音标来表示单词的发音。如果单词以这些字母之一开头，那么它以元音开头。< /里>

希望这有帮助。我怀疑它比任何单个选项占用的资源更少，因为其中大部分可以通过简单的“等于”语句（例如 word[0] == 'a'）来解决，或通过正则表达式（例如[aioAIO]），以及一些简单的语言学知识和英文字母名称的发音。如果该词不属于简单情况，则使用其他回答者提供的更复杂的解决方案之一。

I'd like to synthesize a few of the given answers, and contribute my own solutions as well.

Let's start with some basic heuristics:

Start with the first letter of the word.
- If it starts with an "a", "i" or "o", then use "an". As far as I know, those letters always begin with an actual vowel.
  - If it starts with an "e", then it will be pronounced as a vowel, unless it is followed by a "u" (e.g., euphonium, eugenics, euphoric, euphemism, etc.). This would be the case with "i" as well, in the unlikely cases of "Iuka", "Iuliyanov", and "IUPAC". (https://en.wiktionary.org/w/index.php?title=Category:English_terms_with_IPA_pronunciation&from=iu)
- If it starts with a "b", "c", "d", "g", "k", "p", "q", "t", "v", "w", or "z", then it is guaranteed to be a consonant, and pronounced like a consonant.
- If it starts with an "f", "l", "m", "n", "r", "s", or "x", it may be pronounced with a vowel, but only if it's in an acronym. Otherwise, it's guaranteed to be pronounced as a consonant.
- If it begins with a "u", or with an "h", "j", or "y", then it falls into a corner case.
Determine whether the word is an acronym.

If the word is an acronym, then assume that it contains more than one consecutive capital letter, or contains periods. This could be solved via a simple regex (e.g. [A-Z][A-Z]+).
- If the word is an acronym, then first turn it into a more "word-like" form (i.e., not all capitalized, not containing periods) before going to Step 3. If it isn't an acronym, then refer back to the information in Step 1.

Use a dictionary!
- If the word is in this dictionary, and begins with an "a", "e", "i", "o", or "u", then it begins with a vowel. Otherwise, it's a consonant.
- Wiktionary and Wikipedia use the IPA to represent the pronunciations of words. If the word begins with one of these letters, then it begins with a vowel.

Hopefully this helps. I suspect that it will be less resource intensive than any single option, given that much of it can be solved by either a simple "equals" statement (e.g. word[0] == 'a'), or by a regex expression (e.g. [aioAIO]), and by some simple knowledge of linguistics and the pronunciations of the English letter names. If the word doesn't fall into a simple case, then use one of the more complex solutions that the other answerers have provided.

回复收藏 0 原文

酒绊 2024-08-09 22:04:53

每当下一个单词不是元音时，您就使用“a”吗？每当有元音时你就用“an”吗？

话虽如此，你不能只做一个像“a\s[a,e,i,o,u].*”这样的正则表达式吗？然后将其替换为“an？”

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

25 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

忆悲凉

文章 0 评论 0

hgfg1645

文章 0 评论 0

qq_qLPLYi

文章 0 评论 0

戏舞

文章 0 评论 0

殊姿

文章 0 评论 0

﹂绝世的画

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文