HyTRecは長いユーザー行動シーケンスを2つの専門的な注意メカニズムに分割し、安定した好みと最近の意図の急増を独立して処理できるようにします。
これは小さな調整ではありません。計算複雑さは、従来の手法が効率的に扱えた10倍の長さのシーケンスを扱いながらも、シーケンス長は線形に保たれます。しかし、建築には裏
穴があります。最近の信号を重要にする
ハイブリッドシステムの課題は、線形注意の枝が何千もの相互作用を経験してきたことです。Softmaxのブランチでは何百件も見ています。音量の大きさから見て、線形枝の信号はより大きいです。しかし、推奨としては、ボリュームよりも最近のことの方が重要です。今日のクリックは、6か月前のクリックよりも、その人が何を求めているかをよりよく伝えてくれます。
両方のブランチを平等に扱うと、古いデータが新しいデータをかき消してしまいます。計算問題は解決しましたが、応答性の問題を生み
出しました。この解決策は時間認識型デルタネットワーク(TADN)と呼ばれます。このメカニズムは単純なことをします。新しい行動信号を動的に重み付けしつつ、過去のノイズを抑制します。
シーケンスの各部分に「あなたは何歳ですか?」と尋ねるゲート機構を想像してください。新しいやり取りはより重みが置かれます。古いインタラクションは重みが低くなります。これは決まったスケジュールで起こるのではなく、データから学習されます。ネットワークは「このユーザーの行動パターンは数日ごとに変化するため、1週間以上のやり取りは半分の強さで重み付けすべきだ」といったパターンを発見します。
TADNがなければ、ユーザーの好みが変わるにつれてハイブリッドシステムはますます陳腐な推薦をしてしまうでしょう。これにより、システムは変化に柔軟に対応し続けます。最近のシグナルは当然、推奨に大きな影響を与えますが、ネットワークは各ユーザーやインタラクションタイプに対してどれだけの影響が意味を持つかを正確に学習します。
実際の結果
研究者たちは、1ユーザーあたり数万回もの相互作用が実際に展開する大規模なデータセットでHyTRecをテストしました。これはクリーンな学術データではなく、生産規模の混乱です。
スピードに関しては、結果が重要です。HyTRecは線形推論の複雑さを維持します。列の長さを2倍にすると、推論時間はほぼ倍になります。softmax attentionのように4倍になるわけではありません。10,000長さのシーケンスでは、この差が50ミリ秒か5秒の推薦かを決定します。何百万人ものユーザーにサービスを提供するプラットフォームにおいて、その違いが実現可能か不可能かの境界線となります。
...