Glossary

0-9

1-shot learning 5G + AI 7D representation 0-shot learning 3D convolution 4D data 2-stage detector 6DoF pose estimation 8-bit quantization 9-layer network

A

AGI / Artificial General Intelligence Algorithm Attention Autoencoder Artificial Intelligence (AI)

B

Backpropagation BERT Bias Boosting Batch Normalization

C

Chatbot Classifier / Classification Clustering CNN / Convolutional Neural Network Cross-Validation

D

Data Augmentation Deep Learning Deepfake Deterministic Model Discriminative Model

E

Ensemble Learning Embedding Encoder Epoch Explainable AI (XAI)

F

Feature Extraction Fine-tuning Fusion / Multimodal Fusion Foundation Model Forward Propagation

G

Gradient Descent GAN / Generative Adversarial Network Grounding Generative AI Graph Neural Network (GNN)

H

Hidden Layer Hallucination Heuristic Hyperparameter Hierarchical Model

I

Intelligence Amplification / Augmentation Imbalanced Data Instance / Sample Instruction tuning Interpretability

J

JAX Jittering Joint Embedding JSONL / JSON-lines Juxtaposition

K

Knowledge Distillation KL Divergence (Kullback–Leibler Divergence)K-means Clustering K-Shot Learning Kernel Trick

L

Loss Function LSTM / Long Short-Term Memory Learning Rate Large Language Model (LLM)Latent Variable

M

Machine Learning (ML)Meta-learning Model Multi-head Attention Multimodal / Multimodality

N

Novelty Detection / Anomaly Detection NLP / Natural Language Processing NLU / Natural Language Understanding Normalization Neural Network

O

Online Learning Objective Function One-hot Encoding Optimizer Overfitting

P

Parameter Policy / Reinforcement Learning Policy Pooling Pretraining Prompt

Q

Quality Estimation Queue / Buffer Q-learning Quantization Query

R

Representation Learning Reinforcement Learning (RL)Retrieval Augmented Generation (RAG)Regularization RNN / Recurrent Neural Network

S

Sampling Self-Supervised Learning Supervised Learning Sequence Modeling Softmax

T

Training Data Tokenizer Transfer Learning Transformer Tuning / Hyperparameter Tuning

U

Unsupervised Learning Uncertainty Estimation Universal Approximation Theorem U-Net Underfitting

V

Vector Embedding Vanishing / Exploding Gradient Validation Set Variational Autoencoder (VAE)Vision Transformer (ViT)

W

Weak Supervision Weight Decay Whitening / Whitening Transformation Word Embedding Workflow

X

X-axis / feature axis XOR problem XAI / Explainable AI XLM XLNet

Y

Y-axis / feature axis Y-transform / YUV YAGNI (You Aren't Gonna Need It)Yield (model yield / throughput)Yoga of AI

Z

Zero-shot Learning / Zero-shot inference Zero-centric / Zero-bias initialization Z-score Normalization Zero-gradient phenomenon Zygosity in augmentation

O que é LSTM / Memória de Longo e Curto Prazo

LSTM (Memória de Longo e Curto Prazo) é um tipo especial de rede neural recorrente (RNN) projetada para processar e prever sequências de dados. Introduzido por Hochreiter e Schmidhuber em 1997, ele aborda os problemas de desvanecimento e explosão do gradiente normalmente encontrados nas RNNs tradicionais ao lidar com longas sequências. A estrutura do LSTM permite que ele retenha informações por longos períodos, tornando-o adequado para tarefas que envolvem séries temporais, processamento de linguagem natural e reconhecimento de fala.

O núcleo do LSTM reside em sua estrutura de célula única, que inclui uma porta de entrada, uma porta de esquecimento e uma porta de saída. Esses mecanismos de porta ajudam o LSTM a decidir quando manter, atualizar ou descartar informações. Esse mecanismo operacional permite que o LSTM se destaque em tarefas que requerem memória de longo prazo, como geração de texto e tradução automática.

Na prática, o LSTM tem sido amplamente utilizado em vários campos, como previsão de dados financeiros, modelagem climática, reconhecimento de fala e análise de vídeo. No entanto, sua estrutura complexa e suas altas demandas computacionais são desvantagens significativas.

Olhando para o futuro, à medida que as tecnologias de aprendizado profundo continuam a evoluir, o LSTM pode ser combinado com outras tecnologias emergentes, como modelos Transformer, para melhorar ainda mais a eficiência e a eficácia do processamento. Portanto, entender a mecânica operacional do LSTM e suas aplicações no aprendizado profundo moderno é crucial.