آگاه: هماکنون سیستمهای هوش مصنوعی جلوههای صوتی برای تصاویر ساکن از خیابانهای شهر و اماکن دیگر میسازند اما یک فناوری آزمایشی جدید برعکس این فرآیند را انجام میدهد.
«یوهائو کانگ» و همکارانش در دانشگاه تگزاس «مدل انتشار صدا به تصویر» (Soundscape-to-Image Diffusion Model) را براساس مخزن دادهای از کلیپهای صوتی و تصویری ۱۰ثانیهای آموزش دادند.
این کلیپها شامل تصاویر ثابت و صداهای محیطی از ویدئوهای یوتیوب مربوط به خیابانهای شهری و حومهای در آمریکای شمالی، آسیا و اروپا بودند. محققان با استفاده از الگوریتمهای یادگیری عمیق نهتنها به سیستم آموزش دادند چه اصواتی به چه آیتمهایی در تصاویر مرتبط است، بلکه چه کیفیت اصواتی با محیطهای بصری مطابقت دارد.
پس از تکمیل آموزش به سیستم دستور داده شد تصاویری را فقط براساس صدای محیطی ضبطشده از ۱۰۰ویدئو چشمانداز خیابان بسازد. این سیستم بهازای هر ویدئو یک عکس ساخت.
در مرحله هریک از عکسها همراه دو تصویر تولیدشده از خیابانهای دیگر به پنلی از داوران انسانی نشان داده شد و همزمان صدایی که عکسها براساس آن تولید شده بودند نیز پخش شد. هنگامی که از داوران خواسته شد سه عکس مرتبط با صدای شنیدهشده را شناسایی کنند، آنها با دقت متوسط ۸۰درصد این کار را انجام دادند.
همچنین هنگامی که تصاویر تولیدشده با رایانه تحلیل شدند، شباهت نسبی آسمان، سرسبزی محیط و ساختمانها نیز بهشدت با نمونههایی که در ویدئوهای اصلی بودند، همخوانی داشت. درواقع حتی در بسیاری از موارد تصاویر شرایط روشنایی در منبع ویدئویی مانند آبوهوای آفتابی، ابری یا آسمان شب را نشان میداد.
۱۴ آذر ۱۴۰۳ - ۱۳:۰۶
کد خبر: ۹٬۰۰۶
سیستم هوش مصنوعی جدید تصاویری با دقت بالا را براساس کلیپهای صوتی از خیابانها میسازد.
نظر شما