Tip:
Highlight text to annotate it
X
>> LUCAS FREITAS: Hey.
Sexan benvidos.
O meu nome é Lucas Freitas.
Eu son un Júnior na [inaudível], estudando ciencia da computación con foco en
lingüística computacional.
Así, a miña secundario é en lingua ea teoría lingüística.
Estou moi animado para ensinar vostedes un pouco sobre o campo.
É unha área moi interesante para estudar.
Tamén cun gran potencial para o futuro.
Entón, eu estou realmente animado que vostedes están considerando proxectos en
lingüística computacional.
E eu serei máis que feliz para aconsellar calquera de vostedes, se decide
perseguir un deses.
>> Entón, primeiro de todo o que son computacional lingüística?
Entón lingüística computacional é o intersección entre lingüística e
ciencia da computación.
Entón, o que é lingüística?
¿Que é a ciencia da computación?
Ben da lingüística, o que tomamos son as linguas.
Así, a lingüística é realmente o estudo da linguaxe natural en xeral.
Linguaxe tan natural - falamos linguaxe que realmente usar a
comunicarse uns cos outros.
Polo tanto, non estamos a falar exactamente sobre C ou Java.
Estamos a falar máis sobre inglés e Chinés e outras linguas que
usar para comunicarse uns cos outros.
>> O difícil sobre iso é que agora temos case 7.000
linguas do mundo.
Entón, hai un alto variedade de idiomas que podemos estudar.
E entón pensa que é, probablemente, moi difícil de facer, por exemplo,
tradución dunha lingua para a outro, tendo en conta que ten
case 7.000 deles.
Entón, se pensar en facer a tradución dunha lingua a outra ti
ten case máis dun millón combinacións diferentes que pode
ten de lingua para lingua.
Entón, é realmente un desafío para facer algunha tipo de sistema de exemplo para tradución
cada lingua única.
>> Así, a lingüística trata con sintaxe, semántica, pragmática.
Vostedes non exactamente ten para saber o que están son.
Pero a cousa moi interesante é que como un falante nativo, cando aprende
linguaxe como neno, o que realmente aprender Todas esas cousas - semántica sintaxe
e pragmática -
por si mesmo.
E ninguén ten que te ensinar sintaxe para entender como as sentenzas son
estruturada.
Entón, é realmente interesante porque é algo que vén moi
intuitivamente.
>> E o que está tirando a ciencia da computación?
Ben, a cousa máis importante que nós ter en ciencia da computación é, antes de
todo, a intelixencia artificial e aprendizaxe de máquina.
Entón, o que estamos intentando facer lingüística computacional é ensinar
o ordenador como facer algo coa linguaxe.
>> Así, por exemplo, na máquina tradución.
Estou tentando ensinar o meu ordenador como para saber como facer a transición dun
lingua para a outra.
Entón, basicamente desexa ensinar un ordenador dúas linguas.
Se eu fai procesamento de linguaxe natural, que é o caso por exemplo de
Facebook Graph Search, vostede ensinar o ordenador como entender
consultas ben.
>> Entón, se di "as fotos da miña contactos. "Facebook non tratar este
como toda unha serie que ten só unha morea de palabras.
El realmente entende a relación entre "Fotos" e "meus amigos" e
entende que "fotos" son propiedade de "meus amigos".
>> Entón, iso é parte, por exemplo, procesamento de linguaxe natural.
Está tentando entender o que é a relación entre
as palabras nunha frase.
E a gran cuestión é, non é ensinar un ordenador falando
unha linguaxe en xeral?
Que é unha pregunta moi interesante creo que, como se cadra no futuro,
vai ser capaz de fale co seu teléfono móbil.
Máis ou menos como o que facemos con Siri, pero algo máis parecido, realmente pode
dicir o que quere e teléfono vai entender todo.
E pode ter seguimento preguntas e seguir a falar.
Isto é algo realmente emocionante, na miña opinión.
>> Entón, algo sobre linguas naturais.
Algo realmente interesante linguas naturais é que, e este é
crédito para o meu profesor de lingüística, María Polinsky.
Ela dá un exemplo e eu creo que é realmente interesante.
Porque aprender a linguaxe a partir de cando nacemos e entón a nosa nativa
tipo de linguaxe crece en nós.
>> E basicamente aprender a lingua de entrada mínima, non?
Só está a recibir entrada de seu pais de que o seu idioma soa
gusta e que acaba de aprender.
Entón, é interesante porque se ollar a esas frases, por exemplo.
Mira, "María pon un abrigo de cada vez que sae de casa. "
>> Neste caso, se pode estar palabra "ela" refírese a María, non?
Pode dicir "María pon un abrigo cada vez que deixa o María
casa. "de xeito que é bo.
Pero, entón, se ollar para a sentenza "Ela pon un abrigo de cada vez que María
sae de casa. "sabe que é imposible dicir que "ela" é
referíndose a María.
>> Non hai ningunha forma de dicir que "María pon un abrigo de cada vez que Mary deixa
a casa. "Entón, é interesante porque este é o tipo de intuición
que todo falante nativo ten.
E ninguén se ensina que se trata a forma que a sintaxe funciona.
E que só se pode ter ese "ela" referíndose a María neste primeiro caso,
e, de feito, nesta outra tamén, pero non neste.
Pero todo o mundo fica tipo de para a mesma resposta.
Todos coinciden con iso.
Entón, é realmente interesante como a pesar de non sabe as regras
no seu idioma que tipo de comprender como a linguaxe funciona.
>> Entón, a cousa interesante sobre naturais linguaxe é que non ten que
coñezo ningunha sintaxe saber se unha sentenza é gramatical ou non gramatical para
maior parte dos casos.
O que fai pensar que quizais o que pasa é que, a través da súa vida,
están a ser cada vez máis sentenzas dixo para ti.
E entón manter memorización todas as sentenzas.
E entón, cando alguén lle di algo, escoita esa frase e
mira para o seu vocabulario de sentenzas e ver se
esa frase está aí.
E se está alí dicir que é gramatical.
Se non é vostede dicir que é ungrammatical.
>> Entón, nese caso, diría: oh, así que ten unha lista enorme de todo
posibles sentenzas.
E entón, cando se escoita unha frase, vostede sabe se é gramatical ou
non con base niso.
A cousa é que se ollar para unha frase, por exemplo, "A
cinco cabezas CS50 TFS cocido cegos polbo usando unha caneca DAPA ". É
definitivamente non é unha sentenza que xa escoitou antes.
Pero, á vez, vostede sabe que é practicamente gramatical, non?
Non hai erros gramaticais e pode dicir que
é unha posible sentenza.
>> Por iso, fainos pensar que, en realidade, a xeito que aprender a lingua non é só
por ter unha enorme base de datos de posibles palabras ou frases, pero máis de
comprender a relación entre palabras esas frases.
Será que isto ten sentido?
Así, entón, a pregunta é, pode ordenadores aprender linguas?
Podemos ensinar a lingua para ordenadores?
>> Entón, imos pensar na diferenza entre un falante nativo dunha lingua
e un ordenador.
Entón, o que pasa co altofalante?
Ben, o falante nativo aprende unha linguaxe da exposición ao produto.
Normalmente os seus anos de infancia.
Entón, basicamente, só ten un bebé, e continúa a falar con el, e el
só aprende a falar a linguaxe, non?
Entón, está basicamente dando entrada para o bebé.
Entón, pode argumentar que un ordenador Pode facer o mesmo, non?
Pode só dar-lingua como entrada para o ordenador.
>> Como por exemplo, unha morea de arquivos que teñen libros en inglés.
Quizais esa sexa unha forma que podería ensinar unha
ordenador Inglés, non?
E, de feito, se pensar sobre iso, hai que que quizais un par
días a ler un libro.
Para un equipo que leva un segundo para mirar para as palabras en un libro.
Así, pode pensar que pode ser só iso argumento de entrada a partir da súa volta,
iso non é suficiente para dicir que iso é algo que só os humanos poden facer.
Pode pensar ordenadores Tamén pode obter entrada.
>> A segunda cousa é que os falantes nativos tamén teñen un cerebro que ten
capacidade de aprendizaxe de linguas.
Pero se pensar sobre iso, un cerebro é unha cousa sólida.
Cando nace, xa está definido -
este é o seu cerebro.
E, como crecer, está máis entrada da linguaxe e quizais nutrientes
e outras cousas.
Pero moi fermoso o seu cerebro é unha cousa sólida.
>> Así, pode dicir, ben, quizais poida construír un ordenador que ten unha morea de
funcións e métodos que imitan capacidade de aprendizaxe de linguas.
Entón, nese sentido, pódese dicir, ben, eu pode ter un ordenador que ten todo o
cousas que eu teño aprender a lingua.
E a última cousa é que un nativo falante aprende con intento e erro.
Entón, basicamente, outra cousa importante na a aprendizaxe de linguas é que medio
de aprender as cousas, facendo xeneralizacións sobre o que se escoita.
>> Entón, como é evidente aprende que algunhas palabras son máis como substantivos,
algunhas outras son adxectivos.
E non ten que ter ningún coñecemento da lingüística
entender iso.
Pero só se sabe que hai algunhas palabras están posicionados en algures do
sentenza e algúns outros noutro partes da sentenza.
>> E que cando fai algo que é como unha frase que non é correcto -
quizais por mor dunha xeneralización sobre por exemplo.
Quizais cando está crecendo, entender que o plural é xeralmente
formado por poñer un S no o fin da palabra.
E entón intenta facer o plural de "Corzo" como "cervos" ou "dentes" como
"Tooths". Entón os seus pais ou alguén resolve e di, non, o
plural de "corzo" é "corzo", eo plural de "dente" é "dentes". E entón
aprender esas cousas.
Entón aprender intento e erro.
>> Pero tamén pode facelo con un ordenador.
Pode que unha cousa chamada aprendizaxe por reforzo.
Que é basicamente como dar un ordenador unha recompensa cada vez que fai
algo correctamente.
E dándolle o contrario dunha recompensa e cando fai algo mal.
Pode realmente ver que se ir a Google Translate e tentar
traducir unha frase, pídelle ao GABARITO.
Entón, se di, oh, hai unha mellor tradución desta frase.
Pode escriba-lo e, a continuación, se unha morea de as persoas seguen a dicir que é a mellor
tradución, el só aprende que debe usala en vez de tradución
aquel que estaba dando.
>> Entón, é unha pregunta moi filosófica a ver se os ordenadores van ser
capaz de falar ou non no futuro.
Pero eu teño grandes esperanzas de que poden só con base neses argumentos.
Pero é só un filosófica pregunta.
>> Así, mentres os ordenadores aínda non pode falar, cales son as cousas que podemos facer?
Algunhas cousas moi legais son clasificación de datos.
Así, por exemplo, xa sabedes que os servizos de correo-e facer, para
exemplo, filtrado de spam.
Así, sempre que recibir spam, intenta filtrar a outra caixa.
Entón, como fai iso?
Non é como se o ordenador só sabe enderezos de correo electrónico que está enviando spam.
Polo tanto, é máis baseado no contido de da mensaxe, ou que o nome, ou
quizais algún defecto que ten.
>> Entón, basicamente, o que pode facer é obter un gran cantidade de datos de correo-e que son spam,
correos electrónicos que non son spam, e así aprender o que tipo de patróns que ten no
aquelas que son spam.
E iso forma parte do computacional lingüística.
Chama-se a clasificación de datos.
E nós estamos indo realmente para ver unha exemplo de que, nos próximos diapositivas.
>> A segunda cousa é a linguaxe natural procesamento que é a cousa que o
Gráfico Investigación está facendo de deixar escribir unha frase.
E confía en ti entender o que é o sentido e dá
un resultado mellor.
De feito, se vai a Google ou Bing e busca algo como Lady
Altura de Gaga, en realidade está indo para obter 5 '1 "no canto de información
dela, porque realmente entende o que está falando.
Entón, iso é parte de recursos naturais procesamento da linguaxe.
>> Ou tamén cando está usando o Siri, primeiro ten un algoritmo que trata de
traducir o que está dicindo en palabras, en texto.
E entón el tenta traducir que en sentido.
Entón, iso é todo parte de recursos naturais procesamento da linguaxe.
>> Entón tes de tradución automática -
que en realidade é un dos meus favoritos -
que é só a tradución de dunha lingua a outra.
Así, pode pensar que, cando está facendo tradución automática, ten
infinitas posibilidades de sentenzas.
Polo tanto, non hai ningunha forma de almacenar só cada tradución única.
Entón tes que chegar a interesante algoritmos para poder
traducir cada sentenza de algunha maneira.
>> Vostedes teñen algunha dúbida ata agora?
Non?
Aceptar.
>> Entón, o que veremos hoxe?
Primeiro de todo, eu vou falar de o problema de clasificación.
Entón, o que eu estaba dicindo sobre spam.
O que vou facer é, dadas as letras unha música, pode tentar descubrir
con elevada probabilidade quen é o cantante?
Imos dicir que eu teño cancións de Lady Gaga e Katy Perry, se che dou un
nova canción, pode descubrir se é Katy Perry ou Lady Gaga?
>> O segundo, eu só vou falar sobre o problema de segmentación.
Entón, eu non sei se vostedes saben, pero Chinés, xaponés, outro do leste asiático
idiomas, e outros idiomas en xeral, non teñen
espazos entre as palabras.
E entón, se pensar sobre a forma que o tipo de ordenador de intentos para
comprender procesamento de linguaxe natural, ten en conta as palabras e
intenta comprender as relacións entre eles, non?
Pero, entón, se ten chinés, e ter cero espazos, é realmente difícil
descubrir o que é a relación entre palabras, porque eles non teñen ningunha
palabras en primeiro lugar.
Entón tes que facer algo chamado segmentación que significa só poñer
espazos entre o que nós chamariamos palabras nesas linguas.
Ten sentido?
>> E entón nós imos falar sintaxe.
Entón, simplemente un pouco sobre naturais procesamento da linguaxe.
Será só unha visión xeral.
Entón, hoxe, basicamente o que quero facer é dar a vostedes un pouco de unha
dentro do que son as posibilidades que se pode facer con computacional
lingüística.
E entón podes ver o que pensa é legal entre esas cousas.
E quizais poida pensar nun proxecto e vén falar comigo.
E podo lle dar consellos sobre o xeito de implementar lo.
>> Entón sintaxe será algo Investigación sobre Graph e máquina
tradución.
Eu só vou dar un exemplo de como podería, por exemplo, traducir
algo de portugués a inglés.
Parece bo?
>> Entón, primeiro, o problema de clasificación.
Eu vou dicir que esta parte do seminario será o maior desafío
un só porque non vai ser algunha codificación.
Pero vai ser Python.
Sei que vostedes non coñecen Python, por iso, Eu só vou explicar sobre a alta
nivel que eu estou facendo.
E non ten que realmente se preocupan máis moito sobre a sintaxe, porque iso é
algo que vostedes poidan aprender.
OK?
Parece bo.
>> Entón, cal é o problema de clasificación?
Entón, está dado algunhas letras para unha música, e quere adiviñar
quen está a cantar.
E isto pode ser para calquera tipo doutros problemas.
Así pode ser, por exemplo, ten un campaña presidencial e ten un
fala, e quere atopar si era, por exemplo,
Obama ou Mitt Romney.
Ou pode ter unha chea de correos electrónicos e quere descubrir se son
spam ou non.
Entón é só clasificando unhas datos en base ás palabras
que ten alí.
>> Entón, para facelo, ten que facer algunhas suposicións.
Entón, unha morea sobre a lingüística computacional está a facer suposicións,
presupostos xeralmente intelixentes, de xeito que pode obter bos resultados.
Intentando crear un modelo para el.
E, a continuación, proba-lo para ver se funciona, se lle dá unha boa precisión.
E se isto acontecer, entón tentar melloralo.
Se non, é como, OK, quizais eu debe facer unha suposición diferente.
>> Así, a suposición de que imos facer é que un artista normalmente canta
sobre un tema varias veces, e quizais usa palabras varias veces só
porque están afeitos a iso.
Pode só pensar no seu amigo.
Eu estou seguro que todos teñen amigos que din que a súa frase de sinatura,
literalmente a cada frase -
como algunha palabra ou algún específico específico frase que din para
cada frase única.
>> E o que pode dicir é que se ves unha frase que ten unha sinatura
frase, pode imaxinar que, probablemente, o seu amigo é o
un dicilo, non?
Entón fai esa suposición e, a continuación, é así que crear un modelo.
>> O exemplo que vou dar é sobre como Lady Gaga, por exemplo, persoas
dicir que usa "bebé" para todas as súas cancións número un.
E, de feito, este é un vídeo que mostra ela dicir a palabra "bebé" para
cancións diferentes.
>> [REPRODUCIÓN]
>> - (Cantando) Bebé.
Bebé.
Bebé.
Bebé.
Bebé.
Borracho.
Bebé.
Bebé.
Bebé.
Bebé.
>> [FIN reprodución de vídeo-
>> LUCAS FREITAS: Polo tanto, hai, penso eu, 40 cancións aquí no que di que a
palabra "bebé". Entón, basicamente podes imaxinar que se ve unha música que ten
a palabra "bebé", hai algúns de alta probabilidade de que é Lady Gaga.
Pero imos tratar de desenvolver esta aínda máis formalmente.
>> Entón, estas son letras de cancións por Lady Gaga e Katy Perry.
Entón mira para Lady Gaga, ve que ten unha morea de ocorrencias de "bebé", un
moitas aparicións de "camiño". E entón Katy Perry ten unha morea de ocorrencias de
"A", unha serie de aparicións de "lume".
>> Entón, basicamente, o que queremos facer é, que obtén unha letra.
Imos dicir que ten unha letra a un música que é "bebé", só "bebé". Se
comeza só a palabra "bebé", e iso e todos os datos que ten a partir de
Lady Gaga e Katy Perry, que sería adiviñar é a persoa
quen canta a canción?
Lady Gaga ou Katy Perry?
Lady Gaga, non?
Porque é o único que di "Bebé". Isto soa estúpido, non?
OK, iso é moi fácil.
Estou só mirando para as dúas cancións e de Por suposto, é a única persoa que ten
"Bebé".
>> Pero e se ten unha morea de palabras?
Se vostede ten unha letra real, algo como, "bebé, eu só
fun ver un [? CFT?]
charla ", ou algo así, e entón realmente ten que descubrir -
en base a todas as palabras -
quen é o artista que probablemente cantou esta canción?
Entón, imos tratar de desenvolver iso un pouco máis.
>> OK, baseado só nos datos que temos obtido, parece que Gaga é probablemente
o cantante.
Pero como podemos escribir esta máis formal?
E non vai ser un pouco pouco de estatísticas.
Entón, se se perder, basta tentar para entender o concepto.
Non importa se entender as ecuacións perfectamente ben.
Iso todo vai estar en liña.
>> Entón, basicamente o que eu estou cálculo é o probabilidade de que esta canción é por
Lady Gaga, xa que -
así que este bar significa xa que -
Vin a palabra "bebé". Será que isto ten sentido?
Entón, eu estou tentando calcular esa probabilidade.
>> Polo tanto, non hai este teorema chamado Teorema de Bayes que di que o
probabilidade dunha dada B, é o probabilidade de B deu A, veces o
A probabilidade, durante a probabilidade B. Trátase de unha ecuación longa.
Pero o que ten que entender de que é o que iso é o que quero
calcular, non?
Así, a probabilidade de que esa música é de Lady Gaga, xa que vin a palabra
"Bebé".
>> E agora o que eu estou a recibir é a probabilidade de que a palabra "bebé" deu
que teño Lady Gaga.
E que é o que, basicamente?
O que isto significa, cal é o probabilidade de ver a palabra "bebé"
en letras Gaga?
Se eu queira calcular que dun xeito moi xeito sinxelo, é só o número de
veces vexo "bebé" sobre o número total de palabras en letras Gaga, non?
Cal é a frecuencia que vexo esa palabra no traballo de Gaga?
Ten sentido?
>> O segundo termo é o probabilidade de Gaga.
Que significa isto?
Isto significa, basicamente, o que é o probabilidade de clasificar
algunhas letras como Gaga?
E iso é medio raro, pero Imos pensar nun exemplo.
Entón, imos dicir que a probabilidade de ter "bebé" nunha canción é a mesma
por Gaga e Britney Spears.
Pero Britney Spears ten o dobre máis cancións do que Lady Gaga.
Entón, se alguén lle dá só aleatoriamente letra de "bebé", o primeiro que
ollar é, cal é a probabilidade de ter "bebé" nunha canción Gaga, "bebé"
nunha canción de Britney?
E é o mesmo.
>> Polo tanto, a segunda cousa que podes ver é, ben, cal é a probabilidade de
esta letra por si só ser un lírico Gaga, e cal é a probabilidade de
ser un lírico Britney?
Entón, xa que Britney ten tantos máis letras de Gaga, probablemente
digamos, ben, este é, probablemente, unha letra de Britney.
Entón é por iso que temos este termo correcto aquí.
Probabilidade de Gaga.
Ten sentido?
Non é?
Aceptar.
>> E o último é só a probabilidade de "bebé", que non
realmente importa moito.
Pero é a probabilidade de ver "bebé" en inglés.
Nós xeralmente non lles importa que moito sobre ese termo.
Será que isto ten sentido?
Así, a probabilidade de Gaga é chamada a probabilidade anterior
da Gaga clase.
Porque iso significa só que, o que é o probabilidade de ter esa clase -
que é Gaga -
só, en xeral, só sen condicións.
>> E entón cando eu teño probabilidade Gaga regalo "bebé", podemos chamalo máis
marejados unha probabilidade porque é a probabilidade de ter
Gaga deu algunhas probas.
Entón, eu estou dándolle a evidencia que vin o bebé da palabra e
a música ten sentido?
Aceptar.
>> Entón, se eu calculou que para cada das cancións de Lady Gaga,
o que sería -
ao parecer, non se pode mover este.
A probabilidade de Gaga será algo así como 2 máis de 24, os tempos de 1/2,
máis de 2 máis de 53.
Non importa se sabe o que estas cifras están vindo.
Pero é só un número que vai ser máis que 0, non?
>> E entón, cando fago Katy Perry, a probabilidade de "bebé" dado Katy é
xa 0, non?
¿Por que non hai "bebé" en Katy Perry.
Entón iso se fai 0, e Gaga vitorias, o que significa que Gaga é
probablemente o cantante.
Será que isto ten sentido?
Aceptar.
>> Entón, se eu quero facelo máis oficial, Podo realmente facer un modelo
varias palabras.
Entón, digamos que eu teño algo como: "Querida, eu son
no lume ", ou algo así.
Por iso, ten varias palabras.
E neste caso, pode ver que "bebé" está en Gaga,
pero non é en Katy.
E o "lume" está en Katy, pero non é en Gaga, non?
Por iso, está quedando máis complicado, non?
Porque parece que case ten un lazo entre os dous.
>> Entón o que tes que facer é asumir independencia entre as palabras.
Entón, basicamente o que significa isto é que Eu só estou calculando o que é o
probabilidade de ver "bebé", o que se a probabilidade de ver "eu", e
"AM" e "on" e "fogo" todo separado.
Entón eu estou multiplicando todos eles.
E eu estou a ver cal é a probabilidade de ver a frase.
Ten sentido?
>> Entón, basicamente, se eu teño só unha palabra, o que quero é atopar o arg max,
o que significa, que é a clase que é me dando a maior probabilidade?
Entón, cal é a clase que está dando ma maior probabilidade de
probabilidade de clase determinada palabra.
Polo tanto, neste caso, Gaga deu "bebé". Ou Katy deu "bebé". Ten sentido?
>> E só desde Bayes, que ecuación que eu mostre,
creamos esta fracción.
O único é que ve que a probabilidade de que a palabra dada
cambios de clase, dependendo na clase, non?
Número de s "bebé" que eu teño en Gaga é diferente de Katy.
A probabilidade de que a clase tamén cambios, porque iso é só o número
de cancións cada un deles ten.
>> Pero a probabilidade da propia palabra será o mesmo para todo o
artistas, non?
Así, a probabilidade de que a palabra está só, cal é a probabilidade de
ver esa palabra no Idioma inglés?
Entón, é o mesmo para todos eles.
Entón, unha vez que esta é constante, podemos só botar iso e non se preocupan con iso.
Entón, que vai ser realmente o ecuación que estamos a buscar.
>> E se eu tivera varias palabras, eu son aínda vai ter o previo
probabilidade aquí.
O único é que eu estou multiplicando a probabilidade de
todas as outras palabras.
Entón, eu estou multiplicando todos eles.
Ten sentido?
Parece raro, pero basicamente significa, calcular o antes da clase, e
logo multiplicar por probabilidade de cada das palabras sendo nesa clase.
>> E vostede sabe que a probabilidade dun palabra dada unha clase será o
número de veces que ve esa palabra en clase, dividido polo número de
palabras que ten que clase en xeral.
Ten sentido?
É só como "bebé" foi de 2 sobre o número de palabras que
Tiven nas letras.
Polo tanto, só a miúdo.
>> Pero hai unha cousa.
Lembre-se de como eu estaba mostrando que o probabilidade de seren letras "bebé"
de Katy Perry é 0 só porque Katy Perry non tiña "bebé" en todo?
Pero soa un pouco dura só simplemente dicir que as letras non poden ser de
un artista só porque non teñen esta palabra, en particular, en calquera momento.
>> Entón, vostede podería só dicir, ben, se non ten esta palabra, vou
darlle unha pequena probabilidade, pero eu non vou
darlle 0 inmediatamente.
Porque quizais fose algo así como: "Lume, lume, lume, lume", que é
totalmente Katy Perry.
E, a continuación, "bebé", e iso só serve para 0 de inmediato, xa que había unha
"Bebé".
>> Entón, basicamente, o que facemos é algo chamado Laplace alisado.
E iso só quere dicir que eu estou dando algunha probabilidade, mesmo para as palabras
que non existen.
Entón, o que fago é que cando estou calcular iso, eu sempre engadir 1 ao
o numerador.
Así, aínda que a palabra non existe, en Neste caso, se este é 0, eu aínda estou
cálculo deste como un todo número total de palabras.
En caso contrario, fico con cantas palabras Eu teño e eu engadir 1.
Entón, eu estou contando a ambos os casos.
Ten sentido?
>> Entón agora imos facer algunha codificación.
Vou ter que facelo moi rápido, pero é só importante que
caras entender os conceptos.
Entón o que estamos intentando facer é exactamente aplicar esta
cousa que eu dixen -
Quero que poñer letras de Lady Gaga e Katy Perry.
E o programa vai ser capaz de dicir se esas novas letras son de Gaga
ou Katy Perry.
Ten sentido?
Aceptar.
>> Entón, eu teño este programa eu vou para chamar classify.py.
Polo tanto, esta é Python.
É unha nova linguaxe de programación.
É moi semellante nalgúns formas de C e PHP.
É semellante, porque se quere aprender Python tras coñecer C, é
non é realmente un gran desafío só porque Python é moito máis doado
a C, en primeiro lugar.
E unha morea de cousas que xa están aplicadas para ti.
Entón, como como PHP ten funcións que ordenar unha lista, ou engadir algo
para unha matriz, ou bla, bla, bla.
Python ten todas as tamén.
>> Entón, eu só vou explicar rapidamente como poderiamos facer a clasificación
problema para aquí.
Entón, imos dicir que, neste caso, eu teño letras de Gaga e Katy Perry.
O xeito que eu teño é que esas letras a primeira palabra das letras é
o nome do artista e o resto é a letra.
Entón, imos dicir que eu teño esa lista en que a primeira é letra de Gaga.
Entón, aquí estou no camiño correcto.
E o seguinte é Katy, e el tamén ten as letras.
>> Entón é así que declarar unha variable en Python.
Non ten que dar o tipo de datos.
Acaba de escribir "letras", tipo de gusto en PHP.
Ten sentido?
>> Entón, cales son as cousas que eu teño que calcular a ser capaz de calcular a
probabilidades?
Teño que calcular os "antecedentes" de cada un dos diferentes
clases que eu teño.
Teño que calcular os "posteriors", ou practicamente as probabilidades
cada unha das palabras que diferentes Podo ter a cada artista.
Entón, dentro de Gaga, por exemplo, eu vou ter unha lista de cantas veces eu vexo
cada unha das palabras.
Ten sentido?
>> E, finalmente, eu estou indo só para ter un lista chamada "palabras" que só vai
ter cantas palabras que ter para cada artista.
Así, para Gaga, por exemplo, cando eu ollo para as letras, que eu tiña, eu creo, 24
palabras en total.
Polo tanto, este é só terá Gaga 24, e Katy outro número.
Ten sentido?
Aceptar.
>> Entón, agora, de feito, imos ir á codificación.
Así, en Python, pode realmente voltar unha morea de diferentes
cousas dunha función.
Entón, eu estou indo a crear esta función chamado "condicional", que vai
para volver todas estas cousas, o "Antecedentes", as "probabilidades", eo
"Palabras". Así, "condicional", e é será pór en "letras".
>> Entón agora quero que realmente escribir esta función.
Así, a forma que eu podo escribir este función é só marcou este
funciona con "def". Entón eu fixen "def condicional ", e está tomando
"Letras". E o que iso vai facer é, antes de todo, eu teño as miñas priores
que quero calcular.
>> Así, a forma que eu poida facelo é crear un dicionario en Python, o que
é practicamente o mesmo que un hash mesa, ou é como un iterativo
array en PHP.
Isto é como eu declarar un dicionario.
E, basicamente, o que isto significa que priores de Gaga é de 0,5, por exemplo, se
50% das letras son de Gaga, 50% son de Katy.
Ten sentido?
Entón eu teño que descubrir como para calcular os antecedentes.
>> Os próximos que eu teño que facer, tamén, son as probabilidades e as palabras.
Así, as probabilidades de Gaga é a lista de todas as probabilidades de que I
ter para cada unha das palabras de Gaga.
Entón, se eu for a probabilidade de Gaga "Bebé", por exemplo, el me vai dar
algo así como 2 máis de 24 nese caso.
Ten sentido?
Entón eu vou para "probabilidades", vaia para o Balde "gagá", que ten unha lista de todos
as palabras Gaga, entón eu vou para "bebé" e eu vexo a probabilidade.
>> E, finalmente, eu teño esa "As palabras" dicionario.
Entón, aquí, "probabilidades". E entón "Palabras". Entón, se eu fago "palabras", "gagá",
o que vai ocorrer é que é me vai dar 24, dicindo que eu
ten 24 palabras dentro letras de Gaga.
Ten sentido?
Entón, aquí, "palabras" coincide dah-dah-dah.
Ok
>> Entón o que eu vou facer é que eu vou iterado sobre cada unha das letras, así
cada unha das cordas que Teño na lista.
E eu vou para calcular isto para cada un dos candidatos.
Ten sentido?
Entón eu teño que facer un loop for.
>> Así, en Python, o que podo facer é "para a liña en letras. "O mesmo que un
"Para cada" declaración en PHP.
Lembra-se como se fose PHP eu puidese dicir "para cada letras como
liña. "Ten sentido?
Entón, eu estou tomando cada unha das liñas, neste caso, esta secuencia ea próxima
corda de xeito para cada unha das liñas que eu son vai facer é, primeiro, eu vou
dividir esta liña nunha lista de palabras separadas por espazos.
>> Entón, a cousa legal sobre Python é que podería só o Google como "Como podo
dividir unha cadea palabras? "E é vou dicir-lle como facelo.
E o xeito de facelo, é só liña " = Line.split () "e é basicamente
vai dar-lle unha lista con cada un dos termos aquí.
Ten sentido?
Polo tanto, agora que eu fixen iso que quero saber quen é o cantante da canción.
E para facelo eu teño que aproveitar o primeiro elemento do array, non?
Entón, eu só podo dicir que eu "cantante = Liña (0) "Ten sentido?
>> E entón o que eu teño que facer é, en primeiro lugar todo, eu vou actualizar cantos
palabras que eu teño en "gagá". entón eu son só vai dicir cantas palabras que
ten nesta lista, non?
Porque este é o número de palabras que eu teño nas letras e eu só vou
engadir lo á matriz "gagá".
Será que isto ten sentido?
Non concentrarse moito na sintaxe.
Pense máis sobre os conceptos.
Esta é a parte máis importante.
Aceptar.
>> Entón, o que podo facer é "gagá" é xa nesa lista, polo que "se cantante
palabras "o que significa que eu xa teño palabras por Gaga.
Eu só quero engadir o adicional palabras para iso.
Entón, o que fago é "palabras (cantante) + = Len (liña) - 1 ".
E entón podo só facer a lonxitude da liña.
Entón, como moitos elementos I ter na matriz.
E eu teño que facer menos 1 só porque o primeiro elemento da matriz é só
un cantante e os que non son letras.
Ten sentido?
Aceptar.
>> "Else", isto significa que quero, en realidade, introducir Gaga na lista.
Entón, eu só fago "palabras (cantante) = Len (liña) - 1, "Sentímolo.
Así, a única diferenza entre os dous liñas é que un agasallo, isto non acontece
existen aínda, entón eu son só arrinque la.
Este realmente estou engadindo.
Aceptar.
Polo tanto, esta foi a adición de palabras.
>> Agora quero engadir aos antecedentes.
Entón, como fago para calcular os priores?
Os antecedentes pódese calcular por cantas veces.
Entón, cantas veces ves que a cantante entre todos os cantantes que vostedes,
ten, non?
Así, por Gaga e Katy Perry, neste caso, non vexo Gaga
xa que, Katy Perry vez.
>> Entón, basicamente, os priores para Gaga e para Katy Perry faría
ser só un, non?
Só as veces Eu vexo o artista.
Entón iso é moi fácil de calcular.
Podo só algo semellante como como "se cantante en priores, "Eu só vou
engadir 1 para a súa caixa de antecedentes.
Entón, "priores (cantar)" + = 1 "e despois" senón " Vou facer "priores (cantante)
= 1. "Ten sentido?
>> Entón, se non existir Acabo de pór como 1, se non, eu só engadir 1.
OK, entón agora o único que me queda facer tamén é engadir cada unha das palabras do
probabilidades.
Entón eu teño que contar cantas veces Vexo cada unha das palabras.
Entón, eu só teño que facer outro loop for na liña.
>> Entón o primeiro que vou facer é comprobar que o cantante xa ten un
variedade probabilidades.
Entón, eu estou comprobando se a cantante non fai ter unha matriz probabilidades, eu son só
indo a arrincar un deles.
Non é nin mesmo unha matriz, desculpe, é un dicionario.
Así, as probabilidades de cantante vai para ser un dicionario aberto, polo que estou
só arrincar un dicionario para el.
OK?
>> E agora podo realmente facer un loop para calcular cada unha das palabras '
probabilidades.
Aceptar.
Entón, o que podo facer é un loop for.
Entón, eu só vou facer unha iteración sobre a matriz.
Así, a forma que eu podo facer iso en Python é "ser i in range". A partir do 1
porque quero comezar o segundo elemento porque o primeiro é o
Nome cantante.
Entón, a partir dun ata o lonxitude da liña.
E cando eu variar realmente ir de como aquí de 1 a len do
liña menos 1.
Por iso, xa fai esa cousa de facer n menos 1 para matrices que é moi
cómodo.
Ten sentido?
>> Así, para cada unha delas, o que eu vou facer é, así como no outro,
Vou comprobar se a palabra neste posición na liña que xa está en
probabilidades.
E entón, como dixen aquí, as probabilidades palabras, como en engada
"Probabilidades (cantante)".
Así, o nome da cantante.
Entón, se xa está en "Probabilit (cantante)", quere dicir que eu
desexa engadir 1 a iso, entón eu vou facer "probabilidades (cantante)", ea
palabra é chamado de "liña de (i)".
Eu estou indo a engadir un e "senón" Eu son só indo a inicializar-lo para 1.
"Liña (i)".
Ten sentido?
>> Entón, I calculada tódalas matrices.
Entón, agora todo o que eu teño que facer para este é só "volver priores,
probabilidade e palabras. "Imos ver se hai algún, Aceptar.
Parece que todo funciona ata agora.
Entón, iso ten sentido?
De algunha maneira?
Aceptar.
Entón agora eu teño todas as probabilidades.
Entón, agora o único que me queda é só para ter esa cousa que
calcula o produto de todos os probabilidades cando chegar a letra.
>> Entón, imos dicir que quero chamar agora esta función "clasificar ()" eo
que función ten é só unha discusión.
Imos dicir "Baby, eu estou no lume" e é Vai descubrir que é o
probabilidade de que se trata Gaga?
Cal é a probabilidade que este é Katie?
Parece bo?
Entón, eu só vou ter que crear un nova función chamada "clasificar ()" e
iso vai levar moito letras tamén.
E alén das letras que eu tamén ten que enviar os priores, o
probabilidade e as palabras.
Entón eu vou mandar cartas, priores, probabilidades, palabras.
>> Entón, iso está tomando letras, priores, probabilidades, palabras.
Entón, o que fai?
É basicamente vai pasar por todo os posibles candidatos que teña
ten como cantante.
E onde están os candidatos?
Están no priores, non?
Entón, eu teño todos os alí.
Entón, eu vou ter un dicionario de todos os candidatos posíbeis.
E, a continuación, para cada candidato no priores, entón iso significa que vai
ser Gaga, Katie se eu tivese máis sería máis.
Vou comezar a calcular esta probabilidade.
A probabilidade, como vimos no PowerPoint é os tempos anteriores a
produto de cada un dos outros probabilidades.
>> Entón eu podo facer o mesmo aquí.
Podo só facer a probabilidade é inicialmente só o anterior.
Así antecedentes do candidato.
Non?
E agora teño que iterado sobre todo o palabras que eu teño nas letras a ser
capaz de engadir a probabilidade para cada un deles, ok?
Entón, "por palabra nas letras" o que eu vou que facer é, se a palabra está en
"Probabilidades (candidatos)", que significa que é unha palabra que o
candidato ten nas súas letras -
por exemplo, "bebé" para Gaga -
o que eu vou facer é que o probabilidade será multiplicada
por 1 máis as probabilidades o candidato a esa palabra.
E iso é chamado de "palabra".
Esta dividido polo número de palabras que eu teño para este candidato.
O número total de palabras que eu teño ao cantante que estou mirando.
>> "Else". isto significa que é un novo contrasinal polo que sería por exemplo
"Lume" de Lady Gaga.
Entón, eu só quero facer un sobre "Palabras (candidato)".
Entón eu non quero poñer este termo aquí.
>> Por iso, será basicamente copiando e pegando esta.
Pero eu vou borrar esa parte.
Por iso, só será 1 sobre iso.
Parece bo?
E agora, ao final, eu só vou imprimir o nome do demandante e
a probabilidade de que ten de tendo a S en súas letras.
Ten sentido?
E eu, de feito, nin sequera precisa deste dicionario.
Ten sentido?
>> Entón, imos ver se isto realmente funciona.
Entón, se eu executar tanto, non funcionou.
Espere un segundo.
"Palabras (candidatos)", "palabras (candidatos)", iso é
nome da matriz.
OK Entón, el di que hai algún erro ao candidato en antecedentes.
Déixeme só relaxarse un pouco.
Aceptar.
Imos probar.
Aceptar.
>> Entón dá Katy Perry ten este probabilidade de isto veces 10 elevado a
menos rúbricas 7, e Gaga ten esta veces 10 elevado a menos 6.
Entón ve que demostra que Gaga ten unha maior probabilidade.
Así, "Baby, eu estou no lume" é probablemente unha canción Gaga.
Ten sentido?
Entón é iso que nós fixemos.
>> Este código será publicado en liña, para que vostedes poidan revisar.
Quizais usa algunhas delas para se quere facer un proxecto ou algo semellante.
Aceptar.
Este foi só para amosar computacional que
código lingüística parece.
Pero agora imos a máis material de alto nivel.
Aceptar.
>> Así, os outros problemas que eu estaba falando -
o problema de segmentación é a primeira delas.
Entón tes aquí xaponesa.
E entón ve que non hai espazos.
Polo tanto, esta é, basicamente, significa que é o principio da materia, non?
Vostede fala xaponés?
É o principio da materia, non?
>> ALUMNO: Eu non sei o que o kanji alí é.
>> LUCAS FREITAS: É [a falar xaponés]
Aceptar.
Por iso basicamente significa materia de arriba.
Entón, se tivese que poñer un espazo sería aquí.
E entón tes [? Ueda-san. ?]
Que basicamente significa Ueda.
E ve que "Ueda" e ten un espazo e, a continuación, "san." Entón ve que
Aquí "UE" é por si só.
E aquí ten un carácter ó lado.
>> Entón non é como nas linguas caracteres que significan unha palabra del para que
só tes que poñer unha morea de espazos.
Caracteres refírense se uns aos outros.
E poden estar xuntos como dous, tres, un.
Entón, o que realmente ten que crear algún tipo de forma de poñer estes espazos.
>> E esa cousa é que cada vez que comeza datos destes idiomas asiáticos,
todo vén unsegmented.
Porque ninguén que escribe xaponés ou chinés escribe con espazos.
Sempre que está escribindo chinés, Xaponés que acaba de escribir todo
sen espazos.
Non fai moito sentido para poñer espazos.
Entón cando comeza a partir de datos, algúns Idioma do leste asiático, se quere
realmente facer algo con iso ten que primeiro segmento.
>> Debería facer o exemplo de as letras, sen espazos.
Así, as únicas letras que ten será sentenzas, non?
Separados por puntos.
Pero, entón, que só a sentenza ha non realmente axudar a dar información
de que estas letras son de.
Non?
Polo tanto, ten que poñer espazos en primeiro lugar.
Entón, como pode facelo?
>> Entón, a continuación, ven a idea dunha lingua modelo que é algo realmente
importante para computacional lingüística.
Así, un modelo de linguaxe é basicamente un táboa de probabilidades que mostra
antes de todo, cal é a probabilidade de ter a palabra nunha lingua?
Entón, amosando como unha palabra é frecuente.
E, a continuación, tamén, que mostra a relación entre as palabras nunha frase.
>> Así, a idea principal é que, se un estraño veu para ti e dixo unha frase para
ti, cal é a probabilidade de que, para exemplo, "esta é a miña irmá [? GTF"?]
foi a frase que a persoa dixo?
Entón, obviamente, algunhas frases son máis comúns do que outros.
Por exemplo, "bo día" ou "boa noite ", ou" hey alí, "é moito máis
común do que a maioría das sentenzas que temos un inglés.
Entón, por que estas frases máis frecuente?
>> Primeiro de nada, é porque ten palabras que son máis frecuentes.
Así, por exemplo, se di, o can é grande, e que o can é xigantesca, vostede
xeralmente probablemente escoitar o can é grande máis frecuentemente, por "gran" é máis
frecuente en inglés de "xigantesco". Así, un dos
cousas é a frecuencia de palabras.
>> A segunda cousa que é realmente importante é só o
orde das palabras.
Así, é común dicir que "o gato está dentro da caixa. ", pero xeralmente non
ver en "O cadro de dentro é o gato." así ve que hai algunha importancia
na orde das palabras.
Non pode simplemente dicir que os dous sentenzas teñen a mesma probabilidade
só porque teñen as mesmas palabras.
Realmente ten que coidar sobre a orde tamén.
Ten sentido?
>> Entón, o que facemos?
Entón, o que eu podería intentar levalo?
Estou intentando conseguir o que nós chamar os modelos n-gramos.
Así, os modelos n-gram basicamente asumir que, para cada palabra que
ten nunha frase.
É a probabilidade de ter que palabra non depende non só do
frecuencia da palabra na lingua, pero tamén en que as palabras
están ao seu redor.
>> Así, por exemplo, xeralmente cando ve algo así como en ou polo que é
probablemente vai ver un substantivo despois, non?
Porque cando tes unha preposición xeralmente leva substantivo despois del.
Ou se ten un verbo que é transitivo normalmente van
ter un sintagma nominal.
Por iso, vai ter un substantivo en algún lugar en torno a el.
>> Entón, basicamente, o que fai é que considera a probabilidade de ter
palabras á beira do outro, cando está calculando o
probabilidade dunha sentenza.
E iso é o que a lingua modelo é basicamente.
Só ten que dicir cal é a probabilidade de ter unha específica
sentenza nunha lingua?
Entón, por que é tan útil, basicamente?
E antes de todo o que é un modelo de n-gramos, entón?
>> Así, un modelo de n-gramos significa que cada palabra depende da
N próxima de menos 1 palabras.
Entón, basicamente, significa que se eu ollar, por exemplo, o TF CS50 cando
Estou calculando a probabilidade de a frase, vai ser como "o
probabilidade de ter a palabra "a" veces a probabilidade de ter o "
CS50 "veces a probabilidade de ter "O TF CS50". Entón, basicamente, eu conto
todas as formas posibles de estirala-lo.
>> E, entón, xeralmente cando está facendo iso, como nun proxecto, se pon N a ser
un valor baixo.
Entón, xeralmente teñen bigramas ou trigramas.
Así que acaba de contar dúas palabras, unha grupo de dúas palabras, ou tres palabras,
só para problemas de rendemento.
E tamén porque, se cadra, se ten algo así como "O TF CS50". Cando
ter "TF", é moi importante que "CS50" está ao lado del, non?
Esas dúas cousas son normalmente á beira do outro.
>> Se pensar en "TF", é probablemente terá que
clase é TF'ing para.
Tamén "a" é realmente importante para CS50 TF.
Pero se ten algo como "O CS50 TF fun á clase e deron o seu
os alumnos algúns doces. "" Candy "e" a " non teñen relación de verdade, non?
Están tan distantes unhas das outras que iso realmente non importa o que
palabras que ten.
>> Entón, facendo un bigram ou un trigrama, el Significa só que está limitando
a algunhas palabras que están ao redor.
Ten sentido?
Entón, cando quere facer segmentación, Basicamente, o que quere facer é ver
cales son todas as formas posibles que podes segmentar a frase.
>> De tal forma que ve o que é a probabilidade de cada unha das mencionadas frases
existente na linguaxe?
Entón, o que fai é como, así, imos me tentar poñer un espazo aquí.
Entón poñer un espazo alí e ve o que é a
probabilidade de que a sentenza?
Entón é como, OK, quizais que non era tan bo.
Entón engada un espazo alí e un espazo alí, e calcular a
probabilidade agora, e ve que é unha probabilidade máis elevada.
>> Polo tanto, este é un algoritmo chamado TANGO algoritmo de segmentación, que é
en realidade, algo que sería realmente legal para un proxecto, que
basicamente leva texto unsegmented que pode ser xaponés ou chinés ou que
Inglés sen espazos e intenta poñer espazos entre as palabras e fai
que, ao utilizar un modelo de linguaxe e tentar ver o que é o máis alto
probabilidade pode comezar.
Aceptar.
Polo tanto, esta é a segmentación.
>> Agora sintaxe.
Así, a sintaxe está a ser usado para tantas cousas neste momento.
Así, por Graph Investigación, por Siri para practicamente calquera tipo de recursos naturais
procesamento de linguaxe que ten.
Entón, cales son os importantes cousas sobre sintaxe?
Así, as sentenzas en xeral, teñen o que chamamos electores.
Cales son os tipo de como grupos de palabras que teñen unha función na frase.
E eles non poden realmente ser afastados uns dos outros.
>> Entón, se eu digo, por exemplo, "Lauren ama Milo. "Sei que" Lauren "é un
constituínte e despois "amores Milo "é tamén outra.
Porque non pode dicir como "Lauren Milo ama "ter o mesmo significado.
Non terá mesmo significado.
Ou eu non podo dicir como "Milo Lauren ama. "Non todo ten o mesmo
significando con iso.
>> Así, as dúas cousas máis importantes sobre sintaxe son os tipos lexicais que se
basicamente a función que teño palabras por si mesmos.
Entón tes que saber que "Lauren" e "Milo" son substantivos.
"Love" é un verbo.
E a segunda cousa importante é que son tipo frasais.
Entón vostede sabe que "ama Milo" é, en realidade, unha frase verbal.
Entón, cando digo "Lauren," Sei que Lauren está facendo algo.
O que está facendo?
Ela está amando Milo.
Entón é unha cousa toda.
Pero os seus compoñentes son substantivo e un verbo.
Pero xuntos, eles fan unha frase verbal.
>> Entón, o que podemos realmente facer lingüística computacional?
Entón, se eu tivera algo, por exemplo, "Amigos de Allison". Vexo si
unha árbore sintáctica gustaríame saber que "Amigos" é unha frase que é un substantivo
substantivo e despois "de Allison" é un locución prepositiva en que "de" é
unha proposición e "Allison" é un substantivo.
O que eu podería facer é ensinar o meu ordenador que cando eu teño un sintagma nominal e un
logo unha frase preposicional.
Entón, neste caso, "amigos" e logo "de Milo "Sei que isto significa que
NP2, a segunda, posúe NP1.
>> Para que eu poida crear algún tipo de relación, algún tipo de función para el.
Así, cada vez que vexo esta estrutura, que corresponde exactamente con "amigos de
Allison, "Sei que Allison ten os amigos.
Así, os amigos son algo que ten Allison.
Ten sentido?
Entón, iso é basicamente o que Gráfico Busca fai.
Só crea regras para unha morea de cousas.
Así, "amigos de Allison", "meus amigos que viven en Cambridge "," meus amigos
que van a Harvard. "El crea regras para todas esas cousas.
>> Agora tradución automática.
Así, a tradución automática tamén é algo estatística.
E, de feito, se se involucrar en lingüística computacional, unha morea de
o seu material será estatísticas.
Entón, como eu estaba facendo o exemplo con unha morea de probabilidades de que eu era
cálculo, e entón comeza a este número moi pequeno que é o final
probabilidade, e iso é o que dálle a resposta.
A tradución automática tamén usa un modelo estatístico.
E se queres pensar en máquina tradución no máis sinxelo posible
forma, o que pode pensar é só traducir palabra por palabra, non?
>> Cando está a aprender un idioma para o primeira vez, que xeralmente é o que
fai, non?
Se quere, traducir unha frase na súa lingua a linguaxe
está a aprender, xeralmente en primeiro lugar, ten converter cada unha das palabras
individualmente, e logo tentar para poñer as palabras no seu lugar.
>> Entón, se eu quería traducir este, [PORTUGUÉS LINGUA]
que significa "o gato branco fuxiu." Se eu quixese traducir-lo desde
Portugués a inglés, o que eu podería facer é, en primeiro lugar, eu só
traducir palabra por palabra.
Así, "o" é "a", "gato", "gato", "Branco", "branco", e entón "Fugio" é
"Fuxiu".
>> Entón eu teño todas as palabras aquí, pero eles non están en orde.
É como "o gato branco fuxiu" que é gramatical.
Así, entón eu podo ter un segundo paso, que será atopar o ideal
posición para cada unha das palabras.
Entón eu sei que eu realmente quero ter "Gato branco" no canto de "gato branco". Así
o que podo facer é, o método máis inxenuo sería a creación de toda a
permutacións posibles de palabras, de posicións.
E entón ver cal deles ten o maior probabilidade de acordo
para o meu modelo de linguaxe.
E entón, cando eu atopar o que ten a máis alta probabilidade de que, o que é
probablemente "o gato branco fuxiu" esa é a miña tradución.
>> E esta é unha maneira sinxela de explicar como unha morea de tradución automática
algoritmos funcionan.
Será que isto ten sentido?
Isto tamén é algo realmente emocionante que vostedes poden explotar se cadra por un
proxecto final, non?
>> ALUMNO: Ben, vostede dixo que era a forma inxenua, entón cal é
a forma non inxenua?
>> LUCAS FREITAS: O xeito non inxenua?
Aceptar.
Entón o primeiro que é malo sobre deste método é que eu só traducido
palabras, palabra por palabra.
Pero ás veces ten palabras que pode ter varias traducións.
Vou tentar pensar de algo.
Por exemplo, "manga" en lata Portugués quere ser "mangle" ou "manga". Así
cando estás a traducir palabra por palabra, pódese dar-lle
algo que non ten sentido.
>> Entón, o que realmente quere que ollar para todos as posibles traducións da
palabras e ver, en primeiro lugar, cal é a orde.
Estabamos falando sobre permutando as cousas?
Para ver todas as ordes posibles e escoller aquel co maior
probabilidade?
Tamén podes escoller todo o posible traducións para cada
palabra e, a continuación, ver -
combinados coas permutacións -
cal deles ten a maior probabilidade.
>> Ademais, tamén se pode ver non só palabras, senón frases.
para que poida analizar as relacións entre as palabras e, a continuación, obter un
mellor tradución.
Tamén outra cousa, de xeito que este semestre En realidade, estou facendo unha investigación en
Chinés-Inglés tradución automática, así traducindo
Chinés para o inglés.
>> E unha cousa que facemos é, ademais de utilizar un modelo estatístico, que é só
vendo as probabilidades de ver postura nunha frase, eu son
de feito tamén engadir un pouco de sintaxe ao meu modelo, dicindo: Oh, se eu ver este tipo
de construción, que é o que quero mudalo para cando traducir.
Así, tamén se pode engadir algún tipo de elemento de sintaxis para facer o
tradución máis eficiente e máis preciso.
Aceptar.
>> Entón, como pode comezar, se quere de facer algo en computacional
lingüística?
>> En primeiro lugar, escolle un proxecto que implica idiomas.
Así, non hai tantos por aí.
Hai tantas cousas que podes facer.
E despois podemos pensar nun modelo que pode usar.
Normalmente, isto significa que o pensamento de suposicións, como, como, oh, cando eu era
como o pensamento das letras.
Eu era como, ben, se quero descubrir un que escribiu iso, eu probablemente quere
mirar para as palabras da persoa e usa ver quen usa esa palabra con moita frecuencia.
Polo tanto, probe facer suposicións e tente pensar en modelos.
E entón tamén pode buscar en liña para o tipo de problema que ten,
e só pode suxerir para vós modelos que quizais
modelado esa cousa tamén.
>> E tamén pode sempre enviar correo-e me.
me@lfreitas.com.
E eu só podo responder as súas preguntas.
Podemos incluso pode atoparse para que eu poida dar suxerencias sobre as formas de
implementación do seu proxecto.
E quero dicir, se se involucrar co lingüística computacional, que vai
para ser grande.
Vai ver que moito potencial.
E a industria quere contratar vostede é tan malo por causa diso.
Entón, eu espero que vós guste.
Se vós ten algunha dúbida, que me pode preguntar despois.
Pero grazas.