Facebook新AI可以将语言实时相互翻译

🟨🟧🟩🟦vx: 『buyfensi』 , 超级喜欢粉丝网提供ins涨cheap粉,ins加粉,ins便宜粉丝,ins粉丝增加,instagram 如何涨cheap粉,ig粉絲的行为规律是什么等? 美国/ig真人follow粉丝关注、点赞、ins按赞、ig买buy粉赞、ig 粉丝赞、ig视频直播浏览等🟨🟧🟩🟦

Instagram 自动赞

无论您是从美国,巴西,婆罗洲还是法国登录,Facebook都可以使用自动机器翻译将其平台上发布的几乎所有书面内容翻译成本地语言。实际上,仅Facebook的“新闻提要”每天就提供约200亿笔翻译。但是,这些系统通常使用英语作为中介步骤-也就是说,从中文到法语的翻译实际上是从中文到英语到法语的翻译。这样做是因为往返于英语的翻译数据集非常庞大且广泛可用,但是将英语置于中间会降低整体翻译的准确性,同时使整个过程变得比所需的更为复杂。这就是为什么Facebook AI开发了一种新的MT模型,该模型可以在不使用英语的情况下直接在两种语言(中文到法语以及法语到中文)之间进行双向翻译。

Whether you log in from the United States, Brazil, Borneo or France, Facebook can use automatic machine translation to translate almost all written content published on its platform into local languages. In fact, Facebook's "news feed" alone provides about 20 billion translations a day. However, these systems usually use English as the intermediary step - that is, the translation from Chinese to French is actually the translation from Chinese to English to French. This is because the translation data set to and from English is very large and widely available, but putting English in the middle will reduce the accuracy of the whole translation and make the whole process more complicated than needed. That's why Facebook AI has developed a new MT model, which can translate directly between two languages (Chinese to French and French to Chinese) without using English.

Facebook AI研究助理Angela Fan表示:“ 大的挑战实际上是,我们如何利用现有的翻译系统,然后真正满足世界各地人们的需求。“因此,您正在翻译成人们真正想要的所有语言和所有方向。例如,世界上有很多地区人们会说多种语言,这些语言都不是英语,但是现有的翻译系统严重依赖纯英语的数据。”她指出,在Facebook平台上每天以160种语言发布的数十亿篇文章中,三分之二是用英语以外的其他语言撰写的。

Facebook称其为M2M-100,它是 个可以在100种语言中的任何一对之间直接来回翻译的多语言机器翻译模型(MMT)。总体而言,FBAI构建了一个庞大的数据集,其中包含100种语言的75亿个句子。Facebook博客周一表示,研究小组利用这一点训练了一个通用翻译模型,该模型具有超过150亿个参数“可以从相关语言中捕获信息并反映出更加多样化的语言和形态脚本”。

因此,Facebook必须使用各种新技术来收集来自世界各地的大量公共数据。范解释说:许多这些实际上是基于我们在Facebook多年的研究中做的工作,就像我们今天为了建立这个系统而建立所有不同的乐高积木一样。

首先,团队使用CommonCrawl来维护Web爬网数据的开放存储库,以从网络上收集文本示例。然后,他们开始使用FastText来识别文本所使用的语言,FastText是Facebook几年前开发并开放源代码的文本分类系统,“它基本上是在进行一些测试,并试图确定所用的语言,”Fan说。“因此,我们将网络上的一堆文本划分为所有这些不同的语言,然后我们的目标是识别将要翻译的句子。”

传统上,人们使用人工翻译来创建翻译数据。这在规模上是很困难的,比如很难找到会说英语和泰米尔语的人,但更难找到会说法语和泰米尔语的人,因为非英语翻译仍然是一个需要改进的领域。

[超级ins粉丝网(superlikefollow.com)] https://www.superlikefollow.com

Fan的团队非常依赖LASER系统来大规模挖掘必要的数据。他说:读句子,获取文字,创建文字的数学表达,这样,同样意义的句子就能反映出同样的思想。所以,如果我有一句中文和法文,而且他们说的是同一句话,他们会有一点重叠——就像维恩图一样——重叠区域是我们认为对齐句子的文字。

当然,并非所有语言在互联网上都有大量可用的书面内容。在这种情况下,范的团队转向了单语数据,即仅以一种语言编写的数据。范先生以中文译成法语的示例进行了解释:“因此,如果我的目标是将中文翻译成法语,但由于某种原因,我的翻译质量不佳,那么我将尝试通过获取文本单语数据来对此进行改进用法语。我要做的是对系统进行反向训练:我从法语转到中文。例如,我从Wikipedia提取所有法语,然后将其翻译成中文。”

范继续说,这样做会产生大量机器产生的合成数据。所以我根据翻译的法语创建了这个合成中文,然后再加到正向模型中。所以我不是从中文到法语,而是有中文加我的补充合成中文,都是用法语。而且因为会在输入端和输出端添加很多新的例子,所以这个模型会更强大。

Fan指出,该项目的 终成功取决于AI可以利用的资源量。对于法语,中文,德语,西班牙语和北印度语等主要语言,这些资源非常丰富。“人们用这些语言在网络上写了大量文本,”范指出。“他们确实能够帮助很多数据,我们的模型可以使用这些数据来变得更好。”

Fan pointed out that the ultimate success of the project depends on the amount of resources available to AI. For major languages such as French, Chinese, German, Spanish and Hindi, these resources are very rich“ People use these languages to write a lot of text on the Internet, "fan points out“ They can really help a lot of data, and our models can use that data to get better. "

她继续说:“我个人确定了在资源非常低的语言中我们可能需要改进的很多领域。”

Facebook正在将数据集,模型,培训和评估设置发布为研究社区的开放源码,以帮助刺激进一步的发展。该公司还计划继续独立开发该系统,并 终将该技术应用于其日常运营中。


❤️‍🔥

关于【 SoundCloud推广 】全部服务列表

vx: 『buyfensi』 , 超级喜欢粉丝网提供ins涨cheap粉,ins加粉,ins便宜粉丝,ins粉丝增加,instagram 如何涨cheap粉,ig粉絲的行为规律是什么等? 美国/ig真人follow粉丝关注、点赞、ins按赞、ig买buy粉赞、ig 粉丝赞、ig视频直播浏览等❤️‍🔥