QVQ‑Max визуальная модель Alibaba | Кибермаркетинг| AI+ опыт = деньги

QVQ‑Max - флагманская визуально-языковая модель от Alibaba

Не много кто знает об этой модели, а она стоит нашего внимания. Это не просто инструмент “увидел и описал”, а полноценный «визуальный аналитик», способный не только понимать изображение, но и анализировать, давать рекомендации и генерировать сложные сценарии. Модель видит не пиксели, а структуру и логику — и может выдать связный, внятный анализ.

Что умеет:

🖊Поддерживает изображения высокого разрешения (до миллиона пикселей и соотношения сторон вне стандартов) .

🖊Значительно продвинутое визуальное рассуждение: может ответить на вопросы по диаграммам, объяснить математические задачи, понять сложные сцены .

🖊Сканирование мелкого текста на изображениях: отлично справляется даже с распознаванием табличных данных и документов на фото .

Я поработала с ней и результат мне зашел, она слушает тебя и слышит. Взяла из Битрикса BI дашборд с отчетом. Текста на нём немного, но есть графики, столбики, подписи и визуальные блоки. Задавала конкретные вопросы по нему.

Вот что модель точно может:

🔎Распознать и считать все подписи и числовые значения (работает даже с мелким текстом).

🔎Понять структуру графика: что за оси, какие переменные, где рост, где падение.

🔎 Ответить на конкретный вопрос: → «Какие три показателя в этом отчёте упали по сравнению с прошлым месяцем?» → «Что можно сказать о динамике user retention по возрастным группам?»

Тестировала на официальном сайте и бесплатно.

А еще анонсирована Qwen VLo — свежая нейросеть от Alibaba, которая работает с изображениями.

Пишут, что ее можно уже протестить на официальном сайте, но я не нашла. Буду ждать, так как вводные очень интересные:

Она строит изображение не сразу, а поэтапно, как будто бы реально прорисовывает: сначала компоновка, потом свет, детали, фактура. Поэтому меньше визуального мусора и нелепых искажений.

Что еще полезного: 🖊 Меняет строго по запросу — если просишь сменить пол, потолок останется на месте 🖊 Подстраивается под стиль: хочешь 60-е, хочешь киберпанк — сделает 🖊 Умеет выделять предметы и фон — удобно, если нужно, например, быстро вырезать вазу с цветами и вставить в макет 🖊 Работает с разными языками: можно писать на русском без дополнительных плясок с английским.

Подробнее можно почитать здесь.

#этостоитпротестить

Обсудить в Telegram

Кибермаркетинг| AI+ опыт = деньги

5099 подписчиков

769 постов

Авторский канал про маркетинг и AI. Экономим время, не теряя в качестве!Личный опыт. Полезные ИИ сервисы. Современные тенденции. Я знаю, за что стоит платить, а что можно получить бесплатно. Контакт @ana_ai_marketing