Інженери звернулися до глибоких нейронних мереж як до швидких замінників класичних електромагнітних симуляторів (солверів). Ідея проста: навчити мережу на тисячах пар (геометрія, оптичний відгук), а потім використовувати її для прогнозування властивостей нових дизайнів за мілісекунди замість хвилин чи годин. Але є нюанс: звичайні нейромережі підходять до цього як до суто статистичного пошуку закономірностей. Вони не мають внутрішнього розуміння фізики, тому потребують величезних масивів даних, щоб вивчити навіть базову електромагнітну поведінку. 40 000 симуляцій, що займають 30 днів, часто були необхідним мінімумом, і навіть тоді моделі могли генерувати фізично неможливі результати .
Філіп Тассен, професор кафедри фізики Чалмерса, і докторант Віктор Лілья застосували принципово інший підхід. Замість того, щоб просити нейромережу з чистого аркуша виводити фізику лише з прикладів, вони дали їй «базову фізичну освіту», жорстко закодувавши обмеження, отримані з рівнянь Максвелла, прямо в структуру мережі .
Їхня концепція, опублікована в журналі Laser & Photonics Reviews під назвою «Загальна структура для інтеграції знань у машинне навчання для електромагнітного розсіювання з використанням квазінормальних мод», формалізує цю ідею навколо специфічного фізичного поняття: квазінормальних мод . Кожна резонансна оптична структура має набір таких мод, кожна з яких характеризується комплексною частотою, що описує як її коливання, так і затухання. Спектр розсіювання структури — саме те, чим прагнуть керувати інженери, — можна виразити як суму внесків від цих квазінормальних мод. Структурувавши нейронну мережу так, щоб вона за своєю суттю навчалася в термінах цих резонансних внесків і поважала відому математичну форму електромагнітного розсіювання, команда обмежила процес навчання моделі лише тими результатами, які узгоджуються з рівняннями Максвелла
.
«Коли ми надали супер-мозку інформацію про закони фізики, він одразу став набагато розумнішим, — пояснив Тассен. — Тепер наші розрахунки займають десяту частину часу, який був потрібен раніше» .
Раніше для створення однієї точки традиційних тренувальних даних потрібна була симуляція тривалістю 10–60 хвилин. Ціла кампанія з навчання могла вимагати до 40 000 таких точок, що в сумі становило близько місяця. З фізичним наставництвом мережа вивчає ту саму фізику з набагато меншою кількістю прикладів. Генерація достатньої кількості тренувальних даних тепер займає приблизно 3 дні, а навчена мережа видає свої прогнози за мілісекунди, продукуючи при цьому фізично надійні оцінки, позбавлені грубих помилок .
Цей підхід також узгоджується з ширшими тенденціями в машинному навчанні, керованому фізикою. Інші нещодавні дослідження показали, що вбудовування рівнянь Максвелла в процес навчання може покращити фізичну узгодженість і здатність до узагальнення, водночас зменшуючи вимоги до даних вдвічі або більше . Ці фізично-інформовані нейронні мережі (PINN) знаменують перехід від сліпого підгону даних до моделей, які з самого початку поважають фундаментальні закони.
Основним механізмом є розкладання матриці розсіювання за квазінормальними модами. У будь-якій нанофотонній структурі світло розсіюється, взаємодіючи з особливостями матеріалу. Це розсіювання можна математично описати як суперпозицію резонансних мод. Побудувавши мережу, яка за своєю суттю оперує цим модовим представленням, дослідники гарантували, що певні математичні властивості електромагнітного розсіювання — як-от причинність та аналітична структура коефіцієнтів розсіювання — автоматично виконуються .
Практичний результат полягає в трьох аспектах:
Десятикратне прискорення проєктування є не просто лабораторним показником — воно відкриває практичні інженерні робочі процеси, які раніше були нездійсненними.
Штучні оптичні матеріали (метаматеріали) можуть створювати тонші, легші та ефективніші лінзи, ніж звичайне скло чи пластик, але їхнє проєктування вимагає дослідження величезних просторів параметрів. Фізично-інформована мережа може швидко сканувати кандидатів на дизайн, на що раніше пішли б тижні з використанням традиційних солверів .
Команда Чалмерса активно співпрацює з університетським проєктом квантового комп'ютера. Мета полягає в тому, щоб спроєктувати наноструктуровані матеріали, які точно контролюють поширення світла, потенційно створюючи оптичні канали зв'язку між квантовими процесорами за допомогою механічно сумісних фотонних кристалів. Такі інтерконекти є критично важливим елементом для масштабування квантових комп'ютерів за межі кількох кубітів .
Система на основі квазінормальних мод є навмисно універсальною. Вона застосовна до будь-яких оптичних компонентів, що описуються рівняннями Максвелла: метаповерхонь, метаматеріалів, хвилеводів тощо . Пов'язані дослідження показали, що подібні моделі з вбудованою фізикою можуть досягати прискорення оптимізації більш ніж у 80 000 разів для певних завдань, одночасно підвищуючи точність прогнозування
. Інші групи, використовуючи фізично-інформовані нейромережі для дизайну метаповерхонь, продемонстрували здатність підтримувати високі оптичні характеристики з урахуванням виробничих похибок, що робить ці проєкти набагато практичнішими для реального виробництва
.
Прорив Чалмерса підкреслює ширший переломний момент у обчислювальній нанофотоніці. За останні кілька років ця галузь активно впроваджувала машинне навчання, причому моделі досягали прискорення від 500× до понад 10⁶× порівняно з традиційними солверами на основі методу скінченних різниць у часовій області (FDTD) . Що вирізняє роботу Чалмерса, так це зосередження на тому, щоб зробити сам процес навчання значно ефективнішим завдяки глибокій фізичній інтеграції, а не просто прискорювати етап отримання відповіді.
Вбудувавши рівняння Максвелла не просто у функцію втрат, а в саму архітектурну основу мережі, команда продемонструвала шлях до сурогатів машинного навчання, які є водночас швидкими та надійними — поєднання, якого історично було важко досягти в електромагнітному проєктуванні. Інші команди зараз досліджують квантові фізично-інформовані варіанти, які використовують параметризовані квантові схеми для розв'язання залежних від часу рівнянь Максвелла з ще більшою ефективністю .
Мабуть, найпромовистішу оцінку дають самі дослідники. Віктор Лілья відверто описав попередній робочий процес: «Ви починаєте процес проєктування і через 30 днів отримуєте результати. Потім, якщо ви розумієте, що вам потрібно щось додати, це може зайняти ще місяць» . Новий підхід скорочує цей графік до трьох днів — і видає відповіді за мілісекунди. У галузі, де швидкість ітерацій проєктування безпосередньо визначає темп інновацій, ця різниця є вирішальною.
Comments
0 comments