Swish функція

Swish функція це математична функція, що описується виразом:

swish ( x ) := x × sigmoid ( β x ) = x 1 + e β x . {\displaystyle \operatorname {swish} (x):=x\times \operatorname {sigmoid} (\beta x)={\frac {x}{1+e^{-\beta x}}}.} [1][2]

де β є константою або параметром, який залежить від типу моделі.

Похідна функції f ( x ) = f ( x ) + σ ( x ) ( 1 f ( x ) ) {\displaystyle f'(x)=f(x)+\sigma (x)(1-f(x))} .

Застосування

Застосовується в якості функції активації штучного нейрона. У 2017 році, провівши аналіз даних ImageNet, дослідники з Google стверджували, що використання функції swish як функції активації в штучних нейронних мережах покращує продуктивність порівняно з функціями ReLU та сигмоподібної форми[1][2]. Вважається, що однією з причин покращення є те, що функція swish допомагає полегшити проблему зникаючого градієнта під час зворотного поширення[3].

Див. також

Примітки

  1. а б Ramachandran, Prajit; Zoph, Barret; Le, Quoc V. (16 жовтня 2017). Swish: A Self-Gated Activation Function (PDF). v1. Google Brain. arXiv:1710.05941v1. Архів (PDF) оригіналу за 18 червня 2020. Процитовано 18 червня 2020.
  2. а б Ramachandran, Prajit; Zoph, Barret; Le, Quoc V. (27 жовтня 2017). Searching for Activation Functions (PDF). v2. Google Brain. arXiv:1710.05941v2. Архів (PDF) оригіналу за 18 червня 2020. Процитовано 18 червня 2020.
  3. Serengil, Sefik Ilkin (21 серпня 2018). Swish as Neural Networks Activation Function. Machine Learning, Math. Архів оригіналу за 18 червня 2020. Процитовано 18 червня 2020.
GKG: /g/11jgcrjnzd