
Die Erstellung von Indic -Sprachdatensätzen für ein einheimisches KI -Modell, das wesentlich nützlich sein kann, hängt daher von einer besseren Verfügbarkeit indischer Sprachdaten (Datei) | Fotokredit: Reuters
Ein zentrales Ziel von indischen Startups und der Indiaai -Mission war es, ein grundlegendes großes Sprachmodell zu schaffen, das auf indische Sprachen abgestimmt ist. Dies war bisher eine große Reihenfolge, da die Menge an indischen Sprachinhalten online-eine wichtige Quelle für Schulungsdaten in Englisch, die die meisten grundlegenden Modelle wie OpenAI und Google in erster Linie arbeiten-ein Bruchteil anderer gut vertreten Sprachen.
“Die englischen Daten waren völlig natürlich”, sagte Vivekanand Pani, Mitbegründer von Reverie Language Technologies, und bezog sich auf die Online-Daten, die die meisten Grundmodelle vorantreiben. Herr Pani hat politische Entscheidungsträger und Technologieunternehmen über ein Jahrzehnt lang in Indien mehr Internetnutzung in lokaler Sprache eingesetzt und hat anhaltende Bedenken hinsichtlich der Einführung der Internetnutzung der lokalen Sprache.
In einsprachigen Internetgesellschaften wie den USA, China, Japan und Südkorea konnten „die Menschen frei und ohne Reibung einbeziehen“, da lokale Entwickler zuerst für ihre eigenen Gesellschaften bauten. „Wir haben dieses Problem nicht gelöst. Und wir sind immer noch nicht bereit, es zu lösen “, sagte er.

Digitalisierung von Inhalten wie Nachrichten und Büchern zum Extrahieren von Inhalten in lokaler Sprache ist auch keine todsichere Lösung, sagte Pani, da das bloße Volumen der öffentlichen Benutzerposts im Internet -Zwergnutzer in den öffentlichen Web nach Band generierte. Er fügte hinzu, dass indische Sprachen wie Odia verschiedene Register für formelle Sprache wie Nachrichtensendungen und informelle Reden im Alltag verwenden. Letzteres ist in Daten, die online zu finden sind, unterrepräsentiert.
Die Übersetzungsqualität für Dienste wie Google Translate hat sich trotz dieser Einschränkung enorm verbessert. Aber Herr Pani sagte, dass dies daran lag, dass die Übersetzung eine „transformative“ Technologie war, in der sich die Herausforderung nicht zur Schaffung neuer Text und Lösung von Problemen in einer bestimmten Sprache nicht erstreckt.
Die Erstellung von indic -Sprachdatensätzen Für ein einheimisches KI -Modell, das wesentlich nützlich sein kannwas wiederum davon abhängt, dass mehr indische Sprachinhalte online veröffentlicht werden. Während es in den sozialen Medien eine wachsende Menge dieses Textes gibt, ist die kritische Masse solcher Inhalte, die für die Ausbildung eines grundlegenden KI -Modells erforderlich sind, in Arbeit.
41% der Inder nutzen das Internet laut einem Bericht der Internet and Mobile Association of India nicht regelmäßig, wobei der Anteil der Non-Internet-Nutzer im ländlichen Indien bei 51% stand. Dieser Anteil fällt wahrscheinlich mit nicht englischen Sprechern zusammen, die daher gut positioniert sind, um auf einer Weise teilzunehmen, auf der KI-Modelle geschult werden können.
Jeder ernsthafte Fortschritt bei der Entwicklung eines grundlegenden Modells, das indische Sprachen sinnvoll einbeziehen kann, hängt von laufenden und bevorstehenden Bemühungen zur Erstellung solcher Daten ab. Karya, ein in Bengaluru ansässiges Unternehmen, hat internationale Aufmerksamkeit erregt, indem er indische Sprachredner entschädigt hat, synthetische Sprachinhalte beizutragen, die in Datensätzen verwendet werden können. Die Indiaai -Mission plant auch ein Repository mit indischen Sprachdatensätzen, sagte IT -Minister Ashwini Vaishnaw Anfang dieses Monats mit Einzelheiten der Indiaai -Datensätze -Plattform, die später bekannt gegeben werden soll.
Veröffentlicht – 14. Februar 2025 12:18 Uhr IST
Source link