Подписаться
Опубликовано

QVQ‑Max визуальная модель Alibaba

Автор
  • Имя
    Кибермаркетинг| AI+ опыт = деньги
    Telegram

QVQ‑Max - флагманская визуально-языковая модель от Alibaba

Не много кто знает об этой модели, а она стоит нашего внимания. Это не просто инструмент “увидел и описал”, а полноценный «визуальный аналитик», способный не только понимать изображение, но и анализировать, давать рекомендации и генерировать сложные сценарии. Модель видит не пиксели, а структуру и логику — и может выдать связный, внятный анализ.

Что умеет:

🖊Поддерживает изображения высокого разрешения (до миллиона пикселей и соотношения сторон вне стандартов) .

🖊Значительно продвинутое визуальное рассуждение: может ответить на вопросы по диаграммам, объяснить математические задачи, понять сложные сцены .

🖊Сканирование мелкого текста на изображениях: отлично справляется даже с распознаванием табличных данных и документов на фото .

Я поработала с ней и результат мне зашел, она слушает тебя и слышит. Взяла из Битрикса BI дашборд с отчетом. Текста на нём немного, но есть графики, столбики, подписи и визуальные блоки. Задавала конкретные вопросы по нему.

Вот что модель точно может:

🔎Распознать и считать все подписи и числовые значения (работает даже с мелким текстом).

🔎Понять структуру графика: что за оси, какие переменные, где рост, где падение.

🔎 Ответить на конкретный вопрос: → «Какие три показателя в этом отчёте упали по сравнению с прошлым месяцем?» → «Что можно сказать о динамике user retention по возрастным группам?»

Тестировала на официальном сайте и бесплатно.

А еще анонсирована Qwen VLo — свежая нейросеть от Alibaba, которая работает с изображениями.

Пишут, что ее можно уже протестить на официальном сайте, но я не нашла. Буду ждать, так как вводные очень интересные:

Она строит изображение не сразу, а поэтапно, как будто бы реально прорисовывает: сначала компоновка, потом свет, детали, фактура. Поэтому меньше визуального мусора и нелепых искажений.

Что еще полезного: 🖊 Меняет строго по запросу — если просишь сменить пол, потолок останется на месте 🖊 Подстраивается под стиль: хочешь 60-е, хочешь киберпанк — сделает 🖊 Умеет выделять предметы и фон — удобно, если нужно, например, быстро вырезать вазу с цветами и вставить в макет 🖊 Работает с разными языками: можно писать на русском без дополнительных плясок с английским.

Подробнее можно почитать здесь.

#этостоитпротестить

Кибермаркетинг| AI+ опыт = деньги
5099 подписчиков
653 поста
Авторский канал про маркетинг и AI. Экономим время, не теряя в качестве!Личный опыт. Полезные ИИ сервисы. Современные тенденции. Я знаю, за что стоит платить, а что можно получить бесплатно. Контакт @ana_ai_marketing

Закрепленные

Опубликовано

3 уровня AI-навыков для маркетолога и предпринимателя

Уровни AI-навыков для маркетолога и предпринимателя: Base, Normal, Pro
Опубликовано

Что нового по видео?

AI‑инструменты для видеопродакшн: Higgsfield превращает анимацию в кино, Genie 3 генерирует виртуальные миры, Luma AI делает цифрового актёра
Опубликовано

Lucy 2.0: подмена человека в реальном времени

Lucy 2.0 AI замена лица в реальном времени: как работает, возможности и ограничения
Опубликовано

ИИ‑рынок затишье: живой ИИ без революций

ИИ инструменты: голосовой нейронный NVIDIA, Realtime Edit Krea, Qwen3‑TTS Alibaba – что нового в 2024?

Свежие посты

Опубликовано

ИИ‑сервисы: 3D‑фото, генерация видео и удаление фона

Подборка бесплатных ИИ‑сервисов: 3D‑преобразование фото, генерация видео из текста и мгновенное удаление фона.
Опубликовано

Субботнее для тестирования

Три простых AI‑инструмента для продуктивных выходных: Type Therapy, промпты без магии и лекция Стэнфорда о креативности.
Опубликовано

Интересное про ИИ сегодня

ИИ сегодня: 80% людей не использовали, тесты на устойчивость к бреду, возможности в профессиях
Опубликовано

Классный промпт для Нано Банана Про.

Классный промпт для Нано Банана Про: зимняя и весенняя гиперреалистичная сцена Instagram, 3D‑эффекты, ультрареализм
Опубликовано

Субботнее для тестирования

Субботнее тестирование: обзор Sitdeck, JavaLab и 170 готовых промтов от Google для AI
Опубликовано

А теперь к действительно важным новостям.

LLM могут деанонимизировать пользователей: как ИИ находит реального человека за псевдонимом онлайн