Описание Falcon 40B
Falcon 40B - модель искусственного интеллекта, позволяющая расширить возможности исключительных сценариев использования с помощью обучающих вычислительных мощностей. Falcon 40b демонстрирует хорошее понимание естественного языка и способность генерировать текст, похожий на человеческий. Прогресс в области больших языковых моделей, достигнутый всего за год, поразителен, и Falcon 40b является значительным достижением в этой области.Модель Falcon 40B занимает первое место в рейтинге лидеров больших языковых моделей Hugging Face и доступна под лицензией Apache 2.0, что делает ее удобной для бизнеса.
Falcon 40B - это первая в ОАЭ и на Ближнем Востоке отечественная большая языковая модель (LLM) с открытым исходным кодом, содержащая 40 млрд. параметров, обученных на одном триллионе лексем. Falcon 40B, детище Института технологических инноваций (TII), вызвало огромный интерес во всем мире, но что действительно важно, так это прозрачность и возможность использования открытого исходного кода.
Это одна из лучших моделей с открытым исходным кодом, доступных в настоящее время. Falcon-40B превосходит LLaMA, StableLM, RedPajama, MPT и т.д. См. таблицу лидеров OpenLLM.
Модель имеет архитектуру, оптимизированную для выводов, с FlashAttention (Dao et al., 2022) и multiquery (Shazeer et al., 2019).
Falcon-40B была обучена на 384 графических процессорах A100 емкостью 40 ГБ, используя стратегию 3D-параллелизма (TP=8, PP=4, DP=12) в сочетании с ZeRO. Обучение началось в декабре 2022 года и заняло два месяца.
⚠️ Это сырая, предварительно обученная модель, которая может быть доработана для большинства случаев использования. Если вы ищете версию, более подходящую для восприятия общих инструкций в формате чата, обратите внимание на Falcon-40B-Instruct.
Модели доступны на сайте Hugging Face через библиотеку Transformers. Модель с 7 млрд. параметров требует около 10 ГБ памяти, а вариант с 40 млрд. параметров - около 45-55 ГБ при 8 битах и 100+ ГБ при 16 битах, в зависимости от длины контекста. Запуск этих моделей возможен локально, даже на процессоре и в оперативной памяти, но для большей производительности и экономичности рекомендуется использовать облачный хостинг.
⚠️ Более "легкую" модель, содержащую 7 млрд. параметров, и требующую порядка 10ГБ оперативной памяти, можно скачать здесь.
В ходе краткого тестирования было обнаружено, что Falcon 40b сопоставима с базовой моделью ChatGPT - GPT-3.5. Хотя Falcon 40b меньше, чем GPT-4, он обладает потенциалом еще более высокой производительности. Возможности Falcon 40b очень широки, и он может быть использован для решения широкого круга задач.
Описание модели
Разработано: https://www.tii.ae;
Тип модели: Только для каузального декодера;
Язык (языки) (NLP): Английский, немецкий, испанский, французский (и ограниченные возможности в итальянском, португальском, польском, голландском, румынском, чешском, шведском);
Лицензия: Лицензия Apache 2.0.
Скачать модель
Прямое использование
Исследование больших языковых моделей; как основа для дальнейшей специализации и доработки под конкретные случаи использования (например, резюмирование, генерация текста, чатбот и т.д.)
Использование не по назначению
Производственное использование без адекватной оценки рисков и их снижения; любые случаи использования, которые могут быть расценены как безответственные или вредные.
Предвзятость, риски и ограничения
Falcon-40B обучен в основном на английском, немецком, испанском, французском языках, с ограниченными возможностями также на итальянском, португальском, польском, голландском, румынском, чешском, шведском. Он не может адекватно обобщать информацию на других языках. Кроме того, поскольку он обучается на крупномасштабной корпоративной базе, представляющей Интернет, он будет нести в себе стереотипы и предубеждения, часто встречающиеся в нем.
Как начать работу с моделью Falcon 40B
from transformers import AutoTokenizer, AutoModelForCausalLMimport transformers
import torch
model = "tiiuae/falcon-40b"
tokenizer = AutoTokenizer.from_pretrained(model)
pipeline = transformers.pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
torch_dtype=torch.bfloat16,
trust_remote_code=True,
device_map="auto",
)
sequences = pipeline(
"Girafatron is obsessed with giraffes, the most glorious animal on the face of this Earth. Giraftron believes all other animals are irrelevant when compared to the glorious majesty of the giraffe.\nDaniel: Hello, Girafatron!\nGirafatron:",
max_length=200,
do_sample=True,
top_k=10,
num_return_sequences=1,
eos_token_id=tokenizer.eos_token_id,
)
for seq in sequences:
print(f"Result: {seq['generated_text']}")