Common Voice

Common Voice

Phát triển bởi	Mozilla Foundation
Phát hành lần đầu	2017 tháng 6 năm 19; 6 năm trước (19-06-2017)
Kho mã nguồn	https://github.com/mozilla/voice-web
Ngôn ngữ có sẵn	Đa ngôn ngữ (Danh sách ngôn ngữ)
Giấy phép	Creative Commons CC0
Website	voice.mozilla.org

Common Voice là một dự án crowdsourcing bắt đầu bởi Mozilla để tạo ra một cơ sở dữ liệu miễn phí cho phần mềm nhận dạng giọng nói. Dự án được hỗ trợ bởi các tình nguyện viên ghi lại các câu mẫu bằng micrô và duyệt lại các bản ghi âm của những người dùng khác. Các câu chép lại sẽ được thu thập trong một cơ sở dữ liệu bằng giọng nói phát hành theo giấy phép phạm vi công cộng CC0. Giấy phép này đảm bảo rằng các nhà phát triển có thể sử dụng cơ sở dữ liệu cho các ứng dụng thoại thành văn bản mà không bị hạn chế hoặc mất phí.

Common Voice xuất hiện như là sự đáp lại cho các trợ lý ngôn ngữ của các công ty lớn như Amazon Echo, Siri hoặc Trợ lý Google.

Mục đích

Common Voice nhằm mục đích cung cấp các mẫu giọng nói đa dạng. Theo Katharina Borchert của Mozilla, nhiều dự án hiện có đã lấy các bộ dữ liệu từ đài phát thanh công cộng hoặc nói cách khác là có các bộ dữ liệu không có nhiều giọng nói của phụ nữ hay của những người có giọng nói không chuẩn.^[1]

Cơ sở dữ liệu giọng nói

Cơ sở dữ liệu Common Voice tiếng Anh là cơ sở dữ liệu giọng nói có thể truy cập tự do lớn thứ hai sau LibriSpeech. Vào thời điểm dữ liệu đầu tiên được công bố vào ngày 29 tháng 11 năm 2017, hơn 20.000 người dùng trên toàn thế giới đã đăng ký 400.000 câu được xác thực, với tổng thời lượng 500 giờ.^[2]

Tháng 2 năm 2019, loạt ngôn ngữ đầu tiên được phát hành để sử dụng. Nó bao gồm 18 ngôn ngữ: tiếng Anh, tiếng Pháp, tiếng Đức và tiếng Quan thoại, nhưng cũng có các ngôn ngữ ít phổ biến hơn như tiếng Wales và tiếng Kabyle. Tổng cộng, nó bao gồm gần 1.400 giờ dữ liệu giọng nói được ghi lại từ hơn 42.000 người đóng góp.^[3]

Tham khảo

^ “Why do we gender AI? Voice tech firms move to be more inclusive”. The Guardian. ngày 11 tháng 1 năm 2020. Truy cập ngày 19 tháng 4 năm 2020.
^ “Announcing the Initial Release of Mozilla's Open Source Speech Recognition Model and Voice Dataset”. blog mozilla.org. ngày 29 tháng 11 năm 2017.
^ “Mozilla updates Common Voice dataset with 1,400 hours of speech across 18 languages”. VentureBeat. ngày 28 tháng 2 năm 2019.

Mozilla

Các dự án

Phòng thí nghiệm
Mozilla

Bugzilla
ChatZilla
Dự án Electrolysis
Jetpack
Lightning
Persona
Prism
Raindrop
Skywriter
Sunbird
PDF.js
Đồng bộ hóa
Tinderbox
Ubiquity

Phòng nghiên cứu
Mozilla

asm.js
Daala
Firefox OS
OpenFlint
Open Media
Rust
Servo
Shumway
WebAssembly
WebVR

Quỹ
Mozilla

Dịch vụ định vị Mozilla
SeaMonkey
Thunderbird

Firefox	Trình duyệt Firefox 1 1.5 2 3 3.5 3.6 4 5 6 7 xem thêm cho Android Preview cho iOS Focus Firefox Lockwise Firefox Monitor Firefox Send IRL - Online Life is Real Life Pocket
Các nguồn gốc	Gói ứng dụng Mozilla Netscape Navigator Netscape Communicator Netscape Communications Beonex Communicator
Các bản phân nhánh	Basilisk BurningDog Classilla Flock Gnuzilla Goanna Iceape IceCat Icedove Iceowl Miro Netscape 9 Pale Moon Bản portable Swiftfox Swiftweasel TenFourFox UXP Waterfox xB Browser
Các nền tảng	Add-on Gecko Necko NPAPI XPConnect XBL XPCOM XPInstall XUL XULRunner
Các gói thành phần	Composer NSPR NSS Rhino SpiderMonkey Tamarin
Các kiểu chữ	Fira Sans Zilla Slab
Bị ngưng	Calendar Project Camino Firefox Home Grendel Minimo

Các dự án bị ngưng được in nghiêng. Một số dự án bị Mozilla bỏ rơi vẫn được các bên thứ ba duy trì được in đậm.

Tổ chức

Quỹ	Tổ chức Mozilla cũ Quỹ Mozilla
Các công ty con	Tập đoàn Mozilla Mozilla Messaging Mozilla Online
Các chi nhánh chính thức	Mozilla China Mozilla Europe Mozilla Japan Mozilla Taiwan
Con người	Mitchell Baker David W. Barron Sheeri Cabral Tantek Çelik Brendan Eich John Hammink Robert O'Callahan Johnny Stenbäck Doug Turner Boris Zbarsky