JP7264385B1

JP7264385B1 - 端末装置、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number: JP7264385B1
Application number: JP2022046729A
Authority: JP
Inventors: 崇詞今中; 真衣太田; 眞太郎丸; 一人矢野; 健太鈴木
Original assignee: ATR Advanced Telecommunications Research Institute International; Fukuoka University
Current assignee: ATR Advanced Telecommunications Research Institute International; Fukuoka University
Priority date: 2022-03-23
Filing date: 2022-03-23
Publication date: 2023-04-25
Anticipated expiration: 2042-03-23
Also published as: JP2023140737A

Abstract

【課題】周波数資源の有効利用を促進することが可能な端末装置を提供する。【解決手段】制御手段１３は、待機期間の長さＡを学習器１４から受けると、待機期間の長さＡを受けた時点から待機期間の長さＡだけ経過した時点までの期間を待機期間Ｗ＿ｐｒｄとして設定する。制御手段１３は、キャリアセンスの結果に基づいて、待機期間Ｗ＿ｐｒｄにおいて他の端末装置が送信チャネルＣｈを使用する期間である使用期間ＵＳＥ＿ｐｒｄを観測する。そして、制御手段１３は、待機期間の長さＡ、送信チャネルＣｈの使用期間の長さＢおよびパケットの送信動作結果を学習器１４へ出力する。学習器１４は、待機期間の長さＡ、送信チャネルＣｈの使用期間の長さＢおよびパケットの送信動作結果に基づいて学習を繰り返し実行し、最大の平均報酬が得られるときの待機期間の長さＡを（１－ε）の確率で選択して制御手段１３へ出力する。【選択図】図２

Description

この発明は、端末装置、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体に関するものである。

ＩｏＴ（Internet of Things）化によって、様々な製品がインターネットに接続されるようになり、世界のＩｏＴデバイス数が増加している。

また、高速・大容量な通信を実現可能な第５世代移動通信システム（５Ｇ）のサービスが開始されている。そして、５Ｇの普及によってトラフィックが大幅に増加する。その結果、限られた周波数資源を有効活用することが必要になる。

無線通信技術においては、無線ＬＡＮ（Local Area Network）などに代表されるＣＳＭＡ／ＣＡ（Carrier Sense Multiple Access/ Collision Avoidance）方式が用いられており、ＣＳＭＡ／ＣＡ方式では，同時送信などによるパケットの衝突・損失が起きた場合、バックオフ時間（他局からの送信電波が止まったことを検知した後、直ちに送信せず、自局が送信するまでの意図的な待ち時間）を長くすることにより、パケットの衝突確率を低減させる（特許文献１）。

また、強化学習を用いてパケットの衝突を回避する衝突回避方法が提案されている（非特許文献１）。

図２２は、非特許文献１における衝突回避方法を説明するための図である。図２２を参照して、ノードＮｏｄｅ１は、強化学習法を用いてバックオフ時間に相当するタイムスロットを選択する。ノードＮｏｄｅ１は、強化学習法を用いて、成功率の高いバックオフカウンタ値（タイムスロット数）Ｎを学習する。

そして、ノードＮｏｄｅ１は、時間ｔ１から時間ｔ２ごと（フレームごと）にタイムスロットを選択し直す。

バックオフ中に、他のノードが送信を開始し始めた場合、ノードＮｏｄｅ１は、送信が終わるまで待機し、送信が終わると、もう一度バックオフカウンタ値をＮに戻してバックオフカウンタ値Ｎをカウントダウンする。

そして、ノードＮｏｄｅ１は、時間ｔ１において、強化学習法におけるＱｔａｂｌｅのＱｖａｌｕｅが最も大きいタイムスロット＝３を選択するとともにバックオフカウンタ値Ｎのカウントダウンを開始し、バックオフカウンタ値Ｎが零になると、パケットを送信する。即ち、ノードＮｏｄｅ１は、バックオフ時間の間、待機し、バックオフ時間が終了すると、パケットを送信する。

特開２００６－０１３８９４号公報

Lee, Chang Kyu, and Seung Hyong Rhee, "Collision Avoidance in IEEE 802.11 DCF using a Reinforcement Learning Method," 2020 International Conference on Information and Communication Technology Convergence (ICTC), IEEE, 2020, p. 898-901.

しかし、非特許文献１に記載のパケットの衝突を回避する衝突回避方法においては、バックオフ時間の間、パケットの送信を待っても、報酬を得ることが無いため、パケットの送信を待つというインセンティブを得ることが困難である。その結果、他のノードにパケットの送信機会を与えることが困難であり、周波数資源の有効利用を促進することが困難である。

そこで、この発明の実施の形態によれば、周波数資源の有効利用を促進することが可能な端末装置を提供する。

また、この発明の実施の形態によれば、周波数資源の有効利用の促進をコンピュータに実行させるためのプログラムを提供する。

更に、この発明の実施の形態によれば、周波数資源の有効利用の促進をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体を提供する。

（構成１）
この発明の実施の形態によれば、端末装置は、キャリアセンス手段と、設定手段と、検出手段と、通信手段と、学習器とを備える。キャリアセンス手段は、パケットを送信するチャネルである送信チャネルにおいてキャリアセンスを実行する。設定手段は、送信チャネルでのパケットの送信を待機する期間である待機期間を設定するとともに待機期間の終了時をパケットの送信タイミングとして設定する。検出手段は、待機期間におけるキャリアセンス手段によるキャリアセンスの結果に基づいて送信チャネルが使用されている期間である送信チャネルの使用期間の長さを検出する。通信手段は、送信タイミングにおいて送信チャネルが空いているときパケットを送信チャネルで送信するとともにＡＣＫパケットを受信する。学習器は、待機期間の長さ、送信チャネルの使用期間の長さおよびパケットの送信動作結果を受け、その受けた待機期間の長さ、送信チャネルの使用期間の長さおよびパケットの送信動作結果に基づいて第１の時点における即時報酬を算出する第１の処理と、即時報酬の累積値を平均した報酬であり、かつ、第１の時点の後の第２の時点における報酬である平均報酬を第１の処理において算出した即時報酬を用いて算出する第２の処理と、待機期間の長さの選択肢と、待機期間の長さと、平均報酬とを対応付けた対応表を作成するとともに第２の処理において算出した平均報酬によって第１の時点において設定手段へ出力した待機期間の長さに対応付けられた平均報酬を更新することによって対応表を更新し、その作成または更新した対応表に基づいて最大の平均報酬が得られるときの待機期間の長さを第２の時点で所定の確率で選択し、その選択した待機期間の長さを設定手段へ出力する第３の処理とを待機期間の長さ、送信チャネルの使用期間の長さおよびパケットの送信動作結果を受ける毎に実行する。設定手段は、第２の時点において学習器から待機期間の長さを受けると、待機期間を設定するともに、送信タイミングを通信手段へ出する。通信手段は、第２の時点において設定手段から送信タイミングを受けると、その受けた送信タイミングにおいて送信チャネルが空いているときパケットを送信チャネルで送信するとともにパケットの送信結果を受信する。検出手段は、第２の時点において設定された待機期間において送信チャネルの使用期間の長さを検出する。

（構成２）
構成１において、待機期間は、設定手段が待機期間の長さを学習器から受けた時点から零またはパケットのパケット長の正の整数倍に相当する時間が経過した時点までの期間に設定される。

（構成３）
構成１または構成２において、設定手段は、キャリアセンスの結果が、送信チャネルが空いていることを示すアイドル状態であるか、キャリアセンスの結果が、送信チャネルが空いていないことを示すビジー状態であるかに拘わらず、待機期間の長さを学習器から受けた時点から待機期間の長さだけ経過した時点までの期間を待機期間として設定する。

（構成４）
構成１から構成３のいずれかにおいて、学習器は、第１の処理において、パケットの送信結果がパケットの送信の失敗であるとき、即時報酬を負の値と算出し、パケットの送信結果がパケットの送信の成功であるとき、待機期間の長さをパケットのパケット長で除算した除算結果に第１の所定値を加算した加算結果の逆数に送信チャネルの使用期間の長さをパケット長で除算した除算結果を乗算し、その乗算した乗算結果に第２の所定値を加算した加算結果を第１の時点ｔにおける即時報酬として算出し、待機期間においてパケットが送信されなかったとき、乗算結果を第１の時点ｔにおける即時報酬として算出する。

（構成５）
構成１から構成４のいずれかにおいて、学習器は、第２の処理において、第１の時点ｔにおける即時報酬をＲ_ｔとし、第１の時点ｔにおける平均報酬をＶ_ｔとし、待機期間の長さの選択回数をｎとしたとき、以下の式（１）によって、第１の時点ｔの後の第２の時点ｔ＋１における平均報酬Ｖ_ｔ＋１を算出することによって平均報酬を更新する。

Ｖ_ｔ＋１＝Ｖ_ｔ＋（Ｒ_ｔ－Ｖ_ｔ）／ｎ・・・（１）
（構成６）
構成１から構成５のいずれかにおいて、学習器は、第３の処理において、確率（１－ε）（εは、０～１の範囲の実数である。）で第２の時点ｔ＋１における平均報酬が最大である待機期間の長さを選択する。

（構成７）
構成１から構成６のいずれかにおいて、端末装置は、第２の通信ユニットを更に備える。第２の通信ユニットは、待機期間を設定せずに、キャリアセンスの結果に基づいて送信チャネルが空いていると判定したときパケットを送信チャネルで送信し、キャリアセンスの結果に基づいて送信チャネルが空いていないと判定したときパケットを送信チャネルで送信しない通信方法によってパケットを送信するとともにパケットの送信結果を受信する。キャリアセンス手段、設定手段、検出手段、通信手段および学習器は、第１の通信ユニットを構成する。第１の通信ユニットは、パケットの再送率がしきい値よりも大きい場合、送信タイミングにおいて送信チャネルが空いているとき、パケットを送信チャネルで送信するとともにＡＣＫパケットを受信する。第２の通信ユニットは、パケットの再送率がしきい値以下である場合、キャリアセンスの結果に基づいて送信チャネルが空いていると判定したとき、パケットを送信チャネルで送信するとともにＡＣＫパケットを受信する。

（構成８）
また、この発明の実施の形態によれば、プログラムは、
キャリアセンス手段が、パケットを送信するチャネルである送信チャネルにおいてキャリアセンスを実行する第１のステップと、
設定手段が、送信チャネルでのパケットの送信を待機する期間である待機期間を設定するとともに待機期間の終了時をパケットの送信タイミングとして設定する第２のステップと、
検出手段が、待機期間におけるキャリアセンスの結果に基づいて送信チャネルが使用されている期間である送信チャネルの使用期間の長さを検出する第３のステップと、
通信手段が、送信タイミングにおいて送信チャネルが空いているときパケットを送信チャネルで送信するとともにＡＣＫパケットを受信する第４のステップと、
学習器が、待機期間の長さ、送信チャネルの使用期間の長さおよびパケットの送信動作結果を受け、その受けた待機期間の長さ、送信チャネルの使用期間の長さおよびパケットの送信動作結果に基づいて第１の時点における即時報酬を算出する第１の処理と、即時報酬の累積値を平均した報酬であり、かつ、第１の時点の後の第２の時点における報酬である平均報酬を第１の処理において算出した即時報酬を用いて算出する第２の処理と、待機期間の長さの選択肢と、待機期間の長さと、平均報酬とを対応付けた対応表を作成するとともに第２の処理において算出した平均報酬によって第１の時点において設定手段へ出力した待機期間の長さに対応付けられた平均報酬を更新することによって対応表を更新し、その作成または更新した対応表に基づいて最大の平均報酬が得られるときの待機期間の長さを第２の時点で所定の確率で選択し、その選択した待機期間の長さを設定手段へ出力する第３の処理とを待機期間の長さ、送信チャネルの使用期間の長さおよびパケットの送信動作結果を受ける毎に実行する第５のステップとをコンピュータに実行させ、
設定手段は、第２のステップにおいて、第２の時点において学習器から待機期間の長さを受けると、待機期間を設定するともに、送信タイミングを通信手段へ出力し、
通信手段は、第４のステップにおいて、第２の時点において設定手段から送信タイミングを受けると、その受けた送信タイミングにおいて送信チャネルが空いているときパケットを送信チャネルで送信するとともにパケットの送信結果を受信し、
検出手段は、第３のステップにおいて、第２の時点において設定された待機期間において送信チャネルの使用期間の長さを検出する、コンピュータに実行させるためのプログラムである。

（構成９）
構成８において、待機期間は、設定手段が待機期間の長さを学習器から受けた時点から零またはパケットのパケット長の正の整数倍に相当する時間が経過した時点までの期間に設定される。

（構成１０）
構成８または構成９において、設定手段は、第２のステップにおいて、キャリアセンスの結果が、送信チャネルが空いていることを示すアイドル状態であるか、キャリアセンスの結果が、送信チャネルが空いていないことを示すビジー状態であるかに拘わらず、待機期間の長さを学習器から受けた時点から待機期間の長さだけ経過した時点までの期間を待機期間として設定する。

（構成１１）
構成８から構成１０のいずれかにおいて、学習器は、第５のステップの第１の処理において、パケットの送信結果がパケットの送信の失敗であるとき、即時報酬を負の値と算出し、パケットの送信結果がパケットの送信の成功であるとき、待機期間の長さをパケットのパケット長で除算した除算結果に第１の所定値を加算した加算結果の逆数に送信チャネルの使用期間の長さをパケット長で除算した除算結果を乗算し、その乗算した乗算結果に第２の所定値を加算した加算結果を第１の時点における即時報酬として算出し、待機期間においてパケットが送信されなかったとき、乗算結果を第１の時点における即時報酬として算出する。

（構成１２）
構成８から構成１１のいずれかにおいて、学習器は、第５のステップの第２の処理において、第１の時点ｔにおける即時報酬をＲ_ｔとし、第１の時点ｔにおける平均報酬をＶ_ｔとし、待機期間の長さの選択回数をｎとしたとき、以下の式（１）によって、第１の時点ｔの後の第２の時点ｔ＋１における平均報酬Ｖ_ｔ＋１を算出することによって平均報酬を更新する。

Ｖ_ｔ＋１＝Ｖ_ｔ＋（Ｒ_ｔ－Ｖ_ｔ）／ｎ・・・（１）
（構成１３）
構成８から構成１２のいずれかにおいて、学習器は、第５のステップの第３の処理において、確率（１－ε）（εは、０～１の範囲の実数である。）で第２の時点における平均報酬が最大である待機期間の長さを選択する。

（構成１４）
構成８から構成１３のいずれかにおいて、待機期間を設定せずに、キャリアセンスの結果に基づいて送信チャネルが空いていると判定したときパケットを送信チャネルで送信し、キャリアセンスの結果に基づいて送信チャネルが空いていないと判定したときパケットを送信チャネルで送信しない通信方法によってパケットを送信するとともにパケットの送信結果を受信する第２の通信ユニットが、パケットの再送率がしきい値以下である場合、キャリアセンスの結果に基づいて送信チャネルが空いていると判定したとき、パケットを送信チャネルで送信するとともにＡＣＫパケットを受信する第６のステップを更にコンピュータに実行させ、
キャリアセンス手段、設定手段、検出手段、通信手段および学習器を含む第１の通信ユニットは、パケットの再送率がしきい値よりも大きい場合、第１のステップから第５のステップを実行して、送信タイミングにおいて送信チャネルが空いているとき、パケットを送信チャネルで送信するとともにＡＣＫパケットを受信する。

（構成１５）
更に、この発明の実施の形態によれば、記録媒体は、構成８から構成１４のいずれかに記載のプログラムを記録したコンピュータ読み取り可能な記録媒体である。

周波数の有効利用を促進できる。

この発明の実施の形態における通信システムの概略図である。図１に示す端末装置１の概略図である。待機期間を決定する方法を説明するための図である。送信チャネルＣｈの使用期間の長さを検出する方法を説明するための図である。対応表ＴＢＬの概略図である。対応表ＴＢＬの変遷を示す第１の概略図である。対応表ＴＢＬの変遷を示す第２の概略図である。対応表ＴＢＬの変遷を示す第３の概略図である。対応表ＴＢＬの変遷を示す第４の概略図である。対応表ＴＢＬの変遷を示す第５の概略図である。対応表ＴＢＬの変遷を示す第６の概略図である。対応表ＴＢＬの変遷を示す第７の概略図である。対応表ＴＢＬの変遷を示す第８の概略図である。図２に示す端末装置の動作を説明するためのフローチャートである。図１４のステップＳ２の詳細な動作を説明するためのフローチャートである。制御手段１３と学習器１４との動作関係を説明するためのフローチャートである。この発明の実施の形態による別の端末装置の概略図である。図１７に示す通信ユニット２０の概略図である。図１７に示す通信ユニット３０の概略図である。図１７に示す端末装置の動作を説明するためのフローチャートである。図２０のステップＳ５７の詳細な動作を説明するためのフローチャートである。非特許文献１における衝突回避方法を説明するための図である。

本発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰返さない。

図１は、この発明の実施の形態における通信システムの概略図である。図１を参照して、無線通信システム１００は、端末装置１～３と、基地局１０とを備える。端末装置１～３および基地局１０は、無線通信空間に配置される。

基地局１０は、通信範囲ＲＥＧ１を有する。端末装置１～３は、通信範囲ＲＥＧ１内に配置される。端末装置１は、後述する通信方式によってパケットを基地局１０へ送信する。端末装置２，３の各々は、端末装置１の通信方式と異なる通信方式でパケットを基地局１０へ送信する。より具体的には、端末装置２，３の各々は、ＣＳＭＡ／ＣＡ方式によってパケットを基地局１０へ送信する。

この発明の実施の形態においては、端末装置１～３の各々は、送信チャネルＣｈでパケットＰＫＴを基地局１０との間で送受信する。そして、パケットＰＫＴは、パケット長Ｔを有する。端末装置１における送信チャネルＣｈおよびパケット長Ｔは、固定である。パケット長Ｔは、例えば、２４μｓである。

端末装置１は、パケットＰＫＴを送信するとき、待機期間Ｗ＿ｐｒｄの長さＡを選択すると、待機期間Ｗ＿ｐｒｄを設定する。

そして、端末装置１は、待機期間Ｗ＿ｐｒｄの間、パケットＰＫＴを送信しないことによって、パケットＰＫＴの送信機会を他の端末装置（端末装置２，３のいずれか）に与える。

端末装置１は、待機期間Ｗ＿ｐｒｄを設定すると、送信タイミングカウンタｃをｃ＝０に設定して送信タイミングカウンタｃをカウントアップする。つまり、端末装置１は、送信タイミングカウンタｃ＝０をｃ＝Ａまでカウントアップすることによって待機期間Ｗ＿ｐｒｄの終了時を検出する。

端末装置１は、送信タイミングカウンタｃのカウントアップを開始すると、送信チャネルＣｈでキャリアセンスを実行し、キャリアセンスの結果ＲＳＬＴ＿ｃａｒｒｉｅｒに基づいて、待機期間Ｗ＿ｐｒｄにおいて、他の端末装置（端末装置２，３の少なくとも１つ）による送信チャネルＣｈの使用の有無を検出する。

端末装置１は、待機期間Ｗ＿ｐｒｄにおいて、キャリアセンスの結果ＲＳＬＴ＿ｃａｒｒｉｅｒに基づいて、他の端末装置（端末装置２，３の少なくとも１つ）による送信チャネルＣｈにおけるパケットＰＫＴの送信を検出すると、送信チャネルＣｈがビジー状態ＢＳＹである送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢを検出する。

待機期間Ｗ＿ｐｒｄにおいて、他の端末装置（端末装置２，３の少なくとも１つ）による送信チャネルＣｈでのパケットＰＫＴの送信を検出しなかったとき、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢは、零（＝０）である。

このように、端末装置１は、待機期間Ｗ＿ｐｒｄ中における他の端末装置（端末装置２，３の少なくとも１つ）による送信チャネルＣｈの利用状況を検出する。

端末装置１は、送信タイミングカウンタｃのカウントアップの結果、送信タイミングカウンタｃがｃ＝Ａになると、送信チャネルＣｈでキャリアセンスを実行し、キャリアセンスの結果ＲＳＬＴ＿ｃａｒｒｉｅｒに基づいて送信チャネルＣｈがアイドル状態ＩＤＬであると判定すると、パケットＰＫＴを送信する。

そして、端末装置１は、送信先からＡＣＫ（Acknowledgement）パケットを受信したとき、パケットＰＫＴの送信に成功したと判定する。

一方、端末装置１は、一定期間ＣＰＤ＿１において、送信先からＡＣＫパケットを受信しなかったとき、パケットＰＫＴの送信に失敗したと判定する。

また、端末装置１は、送信タイミングカウンタｃのカウントアップの結果、送信タイミングカウンタｃがｃ＝Ａになった時点で実行したキャリアセンスの結果ＲＳＬＴ＿ｃａｒｒｉｅｒに基づいて、送信チャネルＣｈがビジー状態ＢＳＹであると判定すると、パケットＰＫＴを送信しない。

そうすると、端末装置１は、待機期間Ｗ＿ｐｒｄの長さＡ、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢ、およびパケットＰＫＴの送信動作結果（送信成功、送信失敗および送信不可のいずれか）に基づいて、後述する方法によって、時点ｔにおける即時報酬Ｒ_ｔを算出する。なお、送信不可は、送信チャネルＣｈがビジー状態ＢＳＹであることに起因してパケットＰＫＴを送信しなかったことを表わす。

また、端末装置１は、即時報酬Ｒ_ｔを算出すると、後述する方法によって、即時報酬Ｒ_ｔの累積値を平均した報酬であり、かつ、時点ｔの後の時点ｔ＋１における報酬である平均報酬Ｖ_ｔ＋１を算出して時点ｔにおける平均報酬Ｖ_ｔを平均報酬Ｖ_ｔ＋１に更新する。

図２は、図１に示す端末装置１の概略図である。図２を参照して、端末装置１は、アンテナ１１と、通信手段１２と、制御手段１３と、学習器１４と、アプリケーション１５とを備える。

通信手段１２は、送信チャネルＣｈを保持する。通信手段１２は、送信チャネルＣｈにおいてキャリアセンスを実行することを指示する指示信号Ｓ_{ＩＮＳＴ＿ｃａｒｒｉｅｒ}を制御手段１３から受けると、アンテナ１１を介して、送信チャネルＣｈでキャリアセンスを実行し、キャリアセンスの結果ＲＳＬＴ＿ｃａｒｒｉｅｒを制御手段１３へ出力する。

キャリアセンスの結果ＲＳＬＴ＿ｃａｒｒｉｅｒは、受信信号強度ＲＳＳＩのタイミングチャートからなる。そして、キャリアセンスの結果ＲＳＬＴ＿ｃａｒｒｉｅｒにおいて、受信信号強度ＲＳＳＩがしきい値ＲＳＳＩ＿ｔｈ（＝例えば、－８０ｄＢｍ）以下であれば、送信チャネルＣｈがアイドル状態ＩＤＬであると判定され、受信信号強度ＲＳＳＩがしきい値ＲＳＳＩ＿ｔｈよりも大きいとき、送信チャネルＣｈがビジー状態ＢＳＹであると判定される。

通信手段１２は、パケットＰＫＴを制御手段１３から受けると、送信チャネルＣｈでキャリアセンスを実行し、キャリアセンスの結果ＲＳＬＴ＿ｃａｒｒｉｅｒに基づいて送信チャネルＣｈがアイドル状態ＩＤＬであると判定すると、アンテナ１１を介して、送信チャネルＣｈでパケットＰＫＴを送信する。

そして、通信手段１２は、アンテナ１１を介して、ＡＣＫパケットを受信すると、その受信したＡＣＫパケットを制御手段１３へ出力する。

一方、通信手段１２は、キャリアセンスの結果ＲＳＬＴ＿ｃａｒｒｉｅｒに基づいて送信チャネルＣｈがビジー状態ＢＳＹであると判定すると、送信チャネルＣｈでパケットＰＫＴを送信しない。そして、通信手段１２は、送信チャネルＣｈでパケットＰＫＴを送信しなかったことを示す不送信信号Ｓ_{＿ＮＯ＿ＴＲ}を生成し、その生成した不送信信号Ｓ_{＿ＮＯ＿ＴＲ}を制御手段１３へ出力する。

制御手段１３は、アプリケーション１５から送信データを受けると、その受けた送信データを含むパケットＰＫＴを生成する。そして、指示信号Ｓ_{ＩＮＳＴ＿ｃａｒｒｉｅｒ}を生成し、その生成した指示信号Ｓ_{ＩＮＳＴ＿ｃａｒｒｉｅｒ}を通信手段１２へ出力する。

制御手段１３は、通信手段１２からキャリアセンスの結果ＲＳＬＴ＿ｃａｒｒｉｅｒを受け、学習器１４から待機期間Ｗ＿ｐｒｄの長さＡを受ける。そして、制御手段１３は、待機期間Ｗ＿ｐｒｄの長さＡを受けた時点ｔを起点として待機期間Ｗ＿ｐｒｄを設定するとともに時点ｔから待機期間Ｗ＿ｐｒｄの長さＡだけ経過した時点を送信タイミングｔ＿ＴＲとして設定する。そして、制御手段１３は、送信タイミングカウンタｃのカウントアップを開始する。

また、制御手段１３は、送信タイミングカウンタｃのカウントアップを開始すると、指示信号Ｓ_{ＩＮＳＴ＿ｃａｒｒｉｅｒ}を生成して通信手段１２へ出力する。そして、制御手段１３は、通信手段１２から受けたキャリアセンスの結果ＲＳＬＴ＿ｃａｒｒｉｅｒに基づいて、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢを検出する。

制御手段１３は、待機期間Ｗ＿ｐｒｄが終了（ｃ＝Ａ）すると、パケットＰＫＴを通信手段１２へ出力する。その後、制御手段１３は、ＡＣＫパケットを通信手段１２から受けると、送信チャネルＣｈでのパケットＰＫＴの送信が成功したと判定する。

一方、制御手段１３は、パケットＰＫＴを通信手段１２へ出力した後、一定期間ＣＰＤ＿１が経過してもＡＣＫパケットを通信手段１２から受けないとき、送信チャネルＣｈでのパケットＰＫＴの送信が失敗したと判定する。

また、制御手段１３は、パケットＰＫＴを通信手段１２へ出力した後、不送信信号Ｓ_{＿ＮＯ＿ＴＲ}を通信手段１２から受けると、送信チャネルＣｈでパケットＰＫＴを送信できなかったと判定する。

そうすると、制御手段１３は、送信チャネルＣｈでのパケットＰＫＴの送信が成功したと判定したとき、パケットＰＫＴの送信結果が成功であることを示す送信成功信号Ｓ_{＿ＳＵＣＣＥＳＳ}を生成する。

また、制御手段１３は、送信チャネルＣｈでのパケットＰＫＴの送信が失敗したと判定したとき、パケットＰＫＴの送信結果が失敗であることを示す送信失敗信号Ｓ_{＿ＦＡＩＬＵＲＥ}を生成する。

更に、制御手段１３は、送信チャネルＣｈでパケットＰＫＴを送信できなかったと判定したとき（即ち、不送信信号Ｓ_{＿ＮＯ＿ＴＲ}を通信手段１２から受けたとき）、送信チャネルＣｈでパケットＰＫＴを送信できなかったことを示す送信不可信号Ｓ_{＿ＵＮ＿ＴＲ}を生成する。

そして、制御手段１３は、待機期間Ｗ＿ｐｒｄの長さＡと、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢと、パケットＰＫＴの送信動作結果（送信成功信号Ｓ_{＿ＳＵＣＣＥＳＳ}、送信失敗信号Ｓ_{＿ＦＡＩＬＵＲＥ}および送信不可信号Ｓ_{＿ＵＮ＿ＴＲ}のいずれかからなる）とを学習器１４へ出力する。

学習器１４は、待機期間Ｗ＿ｐｒｄの長さＡと、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢと、パケットＰＫＴの送信動作結果（送信成功信号Ｓ_{＿ＳＵＣＣＥＳＳ}、送信失敗信号Ｓ_{＿ＦＡＩＬＵＲＥ}および送信不可信号Ｓ_{＿ＵＮ＿ＴＲ}のいずれかからなる）とを制御手段１３から受ける。

そして、学習器１４は、待機期間Ｗ＿ｐｒｄの長さＡと、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢと、パケットＰＫＴの送信動作結果（送信成功信号Ｓ_{＿ＳＵＣＣＥＳＳ}、送信失敗信号Ｓ_{＿ＦＡＩＬＵＲＥ}および送信不可信号Ｓ_{＿ＵＮ＿ＴＲ}のいずれかからなる）とに基づいて、例えば、多腕バンディット法を用いて、後述する方法によって時点ｔにおける即時報酬Ｒ_ｔを算出し、その算出した即時報酬Ｒ_ｔと時点ｔにおける平均報酬Ｖ_ｔとを用いて時点ｔ＋１における平均報酬Ｖ_ｔ＋１を算出する。

学習器１４は、待機期間Ｗ＿ｐｒｄの長さＡと平均報酬Ｖ_ｔとの対応表ＴＢＬを作成し、その作成した対応表ＴＢＬを保持する。学習器１４は、平均報酬Ｖ_ｔ＋１を算出すると、対応表ＴＢＬにおいて、制御手段１３から受けた待機期間Ｗ＿ｐｒｄの長さＡに対応する平均報酬Ｖ_ｔを平均報酬Ｖ_ｔ＋１に更新する。

そして、学習器１４は、対応表ＴＢＬを参照して、例えば、ε－ｇｒｅｅｄｙ法によって、最大の平均報酬Ｖ_ｔ＋１が得られるときの待機期間Ｗ＿ｐｒｄの長さＡを所定の確率（１－ε）で選択し、その選択した待機期間Ｗ＿ｐｒｄの長さＡを制御手段１３へ出力する。

学習器１４は、待機期間Ｗ＿ｐｒｄの長さＡと、送信チャネルの使用期間ＵＳＥ＿ｐｒｄの長さＢと、パケットＰＫＴの送信動作結果（送信成功信号Ｓ_{＿ＳＵＣＣＥＳＳ}、送信失敗信号Ｓ_{＿ＦＡＩＬＵＲＥ}および送信不可信号Ｓ_{＿ＵＮ＿ＴＲ}のいずれかからなる）とを制御手段１３から受ける毎に、上述した動作を繰り返し実行する。

アプリケーション１５は、送信データを生成し、その生成した送信データを制御手段１３へ出力する。

図３は、待機期間Ｗ＿ｐｒｄを決定する方法を説明するための図である。図３の（ａ）を参照して、端末装置１の制御手段１３は、学習器１４から待機期間Ｗ＿ｐｒｄの長さＡを受け、アプリケーション１５から送信データを受ける。そして、制御手段１３は、アプリケーション１５から受けた送信データを含むパケットＰＫＴを生成すると、指示信号Ｓ_{ＩＮＳＴ＿ｃａｒｒｉｅｒ}を生成して通信手段１２へ出力する。

通信手段１２は、制御手段１３から指示信号Ｓ_{ＩＮＳＴ＿ｃａｒｒｉｅｒ}を受けると、送信チャネルＣｈでキャリアセンスを実行し、キャリアセンスの結果ＲＳＬＴ＿ｃａｒｒｉｅｒを制御手段１３へ出力する。

制御手段１３は、通信手段１２から受けたキャリアセンスの結果ＲＳＬＴ＿ｃａｒｒｉｅｒに基づいて、タイミングｔ１において、送信チャネルＣｈがアイドル状態ＩＤＬであると判定したとき、タイミングｔ１から待機期間Ｗ＿ｐｒｄの長さＡだけ経過した送信タイミングｔ＿ＴＲまでの期間を待機期間Ｗ＿ｐｒｄとして決定する。

図３の（ｂ）を参照して、制御手段１３は、キャリアセンスの結果ＲＳＬＴ＿ｃａｒｒｉｅｒに基づいて、タイミングｔ１において、他の端末装置の信号によって送信チャネルＣｈがビジー状態ＢＳＹであると判定したとき、タイミングｔ１から待機期間Ｗ＿ｐｒｄの長さＡだけ経過した送信タイミングｔ＿ＴＲまでの期間を待機期間Ｗ＿ｐｒｄとして決定する。

このように、制御手段１３は、パケットＰＫＴを生成した後、送信チャネルＣｈがアイドル状態ＩＤＬであるかビジー状態ＢＳＹであるかに拘わらず、待機期間Ｗ＿ｐｒｄの長さＡを学習器４から受けたタイミングｔ１から待機期間Ｗ＿ｐｒｄの長さＡだけ経過した送信タイミングｔ＿ＴＲまでの期間を待機期間Ｗ＿ｐｒｄとして決定する。そして、待機期間Ｗ＿ｐｒｄは、送信チャネルＣｈでのパケットＰＫＴの送信を待機する期間である。

図４は、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢを検出する方法を説明するための図である。図４を参照して、制御手段１３は、上述した方法によって決定した待機期間Ｗ＿ｐｒｄを設定すると、指示信号Ｓ_{ＩＮＳＴ＿ｃａｒｒｉｅｒ}を生成して通信手段１２へ出力する。

そして、制御手段１３は、通信手段１２からキャリアセンスの結果ＲＳＬＴ＿ｃａｒｒｉｅｒを受けると、キャリアセンスの結果ＲＳＬＴ＿ｃａｒｒｉｅｒに基づいて、タイミングｔ３からタイミングｔ４までの期間、他の端末装置の信号によって送信チャネルＣｈがビジー状態ＢＳＹであることを検出し、送信チャネルＣｈが他の端末装置（端末装置２，３のいずれか）によって使用されていると判定する。

そうすると、制御手段１３は、タイミングｔ３からタイミングｔ４までの期間を、待機期間Ｗ＿ｐｒｄにおける送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢとして検出する。

一方、制御手段１３は、キャリアセンスの結果ＲＳＬＴ＿ｃａｒｒｉｅｒに基づいて、待機期間Ｗ＿ｐｒｄの全期間において、送信チャネルＣｈがアイドル状態ＩＤＬであると判定したとき、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢが零（＝０）であることを検出する。

また、制御手段１３は、キャリアセンスの結果ＲＳＬＴ＿ｃａｒｒｉｅｒに基づいて、待機期間Ｗ＿ｐｒｄの全期間において、送信チャネルＣｈがビジー状態ＢＳＹであると判定したとき、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢが待機期間Ｗ＿ｐｒｄの長さＡに等しいことを検出する。

従って、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢは、０≦Ｂ≦Ａを満たす。

このように、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄは、待機期間Ｗ＿ｐｒｄ中における他の端末装置（端末装置２，３のいずれか）による送信チャネルＣｈの利用状況を示すものである。その結果は、制御手段１３が送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄを検出することは、制御手段１３が待機期間Ｗ＿ｐｒｄ中における他の端末装置（端末装置２，３のいずれか）による送信チャネルＣｈの利用状況を観測することに相当する。

図５は、対応表ＴＢＬの概略図である。図５を参照して、対応表ＴＢＬは、アーム番号ａと、待機期間Ｗ＿ｐｒｄの長さＡと、平均報酬とを含む。アーム番号ａ、待機期間Ｗ＿ｐｒｄの長さＡおよび平均報酬は、相互に対応付けられる。

アーム番号ａは、多腕バンディット法における選択肢を示すアームの番号からなる。そして、アーム番号ａは、０以上の整数である。

待機期間Ｗ＿ｐｒｄの長さＡは、０，Ｔ，２Ｔ，３Ｔ，４Ｔ，５Ｔ，６Ｔからなる。即ち、待機期間Ｗ＿ｐｒｄの長さＡは、０～（パケット長Ｔの整数倍）の範囲である。Ｔは、パケットＰＫＴのパケット長である。パケット長Ｔの単位は、時間である。待機期間Ｗ＿ｐｒｄの長さＡが零（＝０）であることは、待機期間Ｗ＿ｐｒｄを設定しないことに相当する。待機期間Ｗ＿ｐｒｄの終了時点が送信タイミングｔ＿ＴＲに一致するからである。

平均報酬は、ｘ_０，ｘ_１，ｘ_２，ｘ_３，ｘ_４，ｘ_５，ｘ_６からなる。そして、平均報酬ｘ_０，ｘ_１，ｘ_２，ｘ_３，ｘ_４，ｘ_５，ｘ_６の初期値は、零（＝０）である。

待機期間Ｗ＿ｐｒｄの長さＡ：０～６Ｔは、それぞれ、アーム番号０～６に対応付けられる。平均報酬ｘ_０～ｘ_６は、それぞれ、待機期間Ｗ＿ｐｒｄの長さＡ：０～６Ｔに対応付けられる。

なお、対応表ＴＢＬにおいては、アーム番号ａ、待機期間Ｗ＿ｐｒｄの長さＡおよび平均報酬の各々の個数は、７個であるが、この発明の実施の形態においては、アーム番号ａ、待機期間Ｗ＿ｐｒｄの長さＡおよび平均報酬の各々の個数は、７個以上であってもよく、一般的には、２個以上であればよい。

学習器１４は、図５に示す対応表ＴＢＬを作成し、その作成した対応表ＴＢＬを保持する。

学習器１４における待機期間Ｗ＿ｐｒｄの長さＡの学習について説明する。学習器１４は、対応表ＴＢＬを保持する。

そして、学習器１４は、待機期間Ｗ＿ｐｒｄの長さＡ、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢおよびパケットＰＫＴの送信動作結果（送信成功信号Ｓ_{＿ＳＵＣＣＥＳＳ}、送信失敗信号Ｓ_{＿ＦＡＩＬＵＲＥ}および送信不可信号Ｓ_{＿ＵＮ＿ＴＲ}のいずれかからなる）に基づいて、式（１）によって、時点ｔにおける即時報酬Ｒ_ｔを算出する。

式（１）において、αは、無次元の正の実数であり、例えば、０．１である。また、βは、無次元の正の整数であり、例えば、１である。更に、式（１）において、γは、無次元の正の実数であり、例えば、１である。

なお、式（１Ａ）および式（１Ｂ）によって即時報酬Ｒ_ｔを算出する場合、待機期間Ｗ＿ｐｒｄの長さＡおよび送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢがパケット長Ｔによって規格化される。その結果、パケット長Ｔは、時間の単位を有し、待機期間Ｗ＿ｐｒｄの長さＡは、パケット長Ｔの整数倍であるので、Ａ／Ｔは、無次元の整数からなり、Ｂ／Ｔは、無次元の実数からなる。従って、式（１）によって算出される即時報酬Ｒ_ｔは、無次元の値からなる。

また、式（１Ａ），（１Ｂ）の分母がαを含むのは、待機期間Ｗ＿ｐｒｄの長さＡが零（＝０）であっても、即時報酬Ｒ_ｔを算出できるようにするためである。、
学習器１４は、待機期間Ｗ＿ｐｒｄの長さＡ、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢおよび送信成功信号Ｓ_{＿ｓｕｃｃｅｓｓ}を制御手段１３から受けたとき、送信成功信号Ｓ_{＿ｓｕｃｃｅｓｓ}に基づいてＡＣＫパケットを受信した（Receiving ACK）と判定し、式（１Ａ）によって即時報酬Ｒ_ｔを算出する。

また、学習器１４は、待機期間Ｗ＿ｐｒｄの長さＡ、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢおよび送信不可信号Ｓ_{＿ＵＮ＿ＴＲ}を制御手段１３から受けたとき、送信不可信号Ｓ_{＿ＵＮ＿ＴＲ}に基づいて、送信チャネルＣｈがビジー状態ＢＳＹ（Channel: Busy）であると判定し、式（１Ｂ）によって即時報酬Ｒ_ｔを算出する。

更に、学習器１４は、待機期間Ｗ＿ｐｒｄの長さＡ、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢおよび送信失敗信号Ｓ_{＿ＦＡＩＬＵＲＥ}を制御手段１３から受けたとき、送信失敗信号Ｓ_{＿ＦＡＩＬＵＲＥ}に基づいてＡＣＫパケットを受信しなかった（NO Receiving ACK）と判定し、式（１Ｃ）によって即時報酬Ｒ_ｔを算出する。

図３において説明したように、待機期間Ｗ＿ｐｒｄの長さＡを学習器４から受けたタイミングｔ１において、送信チャネルＣｈがアイドル状態ＩＤＬであるかビジー状態ＢＳＹであるかに拘わらず、待機期間Ｗ＿ｐｒｄの長さＡを学習器４から受けたタイミングｔ１から待機期間Ｗ＿ｐｒｄの長さＡだけ経過した送信タイミングｔ＿ＴＲまでの期間を待機期間Ｗ＿ｐｒｄとして決定する。

その結果、待機期間Ｗ＿ｐｒｄの長さＡを学習器４から受けたタイミングｔ１において、他の端末装置（端末装置２，３のいずれか）が送信チャネルＣｈでパケットＰＫＴを送信している場合、端末装置１が他の端末装置（端末装置２，３のいずれか）によるパケットＰＫＴの送信期間を送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄとして検出でき、端末装置１が送信タイミングｔ＿ＴＲにおいて送信チャネルＣｈでパケットＰＫＴを送信した場合、パケットＰＫＴの送信に成功すれば、式（１Ａ）によって算出される即時報酬Ｒ_ｔを得ることができ、送信タイミングｔ＿ＴＲにおいて送信チャネルＣｈがビジー状態ＢＳＹであるためにパケットＰＫＴを送信できなかった場合でも、式（１Ｂ）によって算出される即時報酬Ｒ_ｔを得ることができる。従って、端末装置１は、パケットＰＫＴの送信に失敗しない限り、正の即時報酬Ｒ_ｔを得ることができる。

学習器１４は、即時報酬Ｒ_ｔを算出すると、その算出した即時報酬Ｒ_ｔと、時点ｔにおける平均報酬Ｖ_ｔとを式（２）に代入して時点ｔ＋１における平均報酬Ｖ_ｔ＋１を算出する。

式（２）において、ｎは、対応表ＴＢＬのアーム番号ａを選択した回数であり、１以上の整数からなる。また、平均報酬Ｖ_ｔ＋１は、即時報酬Ｒ_ｔの累積値を平均した報酬であり、かつ、時点ｔの後の時点ｔ＋１における報酬である。その結果、平均報酬Ｖ_ｔ，Ｖ_ｔ＋１は、無次元の実数からなる。

学習器１４は、待機期間Ｗ＿ｐｒｄの長さＡを選択するとき、対応表ＴＢＬを参照して、ε－ｇｒｅｅｄｙ法によって１つのアーム番号ａを選択し、その選択した１つのアーム番号ａに対応付けられた１つの待機期間Ｗ＿ｐｒｄの長さＡを選択する。

ε－ｇｒｅｅｄｙ法は、ある一定の小さい数ε（例えば、０．３）を決定しておき、０～１の範囲の実数からなる乱数ｐを発生させ、その発生させた乱数ｐがε以下であるとき、アーム番号０～６からランダムに１つのアーム番号ａを選択し、発生した乱数ｐがε以下でないとき、最大の平均報酬Ｖ_ｔが得られるときの１つのアーム番号ａをアーム番号０～６から選択する方法である。

なお、１つのアーム番号ａがε－ｇｒｅｅｄｙ法によって選択され、その後、その選択された１つのアーム番号ａに対応付けられた１つの待機期間Ｗ＿ｐｒｄの長さＡが選択されるので、式（２）における“ｎ”は、待機期間Ｗ＿ｐｒｄの長さＡの選択回数を表わすことになる。

図６から図１３は、それぞれ、対応表ＴＢＬの変遷を示す第１から第８の概略図である。なお、図６において、アーム番号０～６に対応付けられた７個の平均報酬は、全て、初期値（＝０）に設定されている。

図６を参照して、学習器１４は、対応表ＴＢＬを参照して、ε－ｇｒｅｅｄｙ法によって、発生した乱数ｐがε以下であるとして、アーム番号ａ＝３をランダムに選択することによって待機期間Ｗ＿ｐｒｄの長さＡ＝３Ｔを選択し、その選択した待機期間Ｗ＿ｐｒｄの長さＡ＝３Ｔを制御手段１３へ出力する。

その後、学習器１４は、待機期間Ｗ＿ｐｒｄの長さＡ（＝３Ｔ）、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢおよび送信成功信号Ｓ_{＿ｓｕｃｃｅｓｓ}を制御手段１３から受ける。そして、学習器１４は、送信成功信号Ｓ_{＿ｓｕｃｃｅｓｓ}に基づいてＡＣＫパケットを受信したと判定し、式（１Ａ）によって即時報酬Ｒ_ｔ＝［（Ｂ／Ｔ）／（３＋α）＋β］を算出する。

図６に示す対応表ＴＢＬにおいて、待機期間Ｗ＿ｐｒｄの長さＡ＝３Ｔに対応付けられた平均報酬Ｖ_ｔは、零（＝０）であり、ｎ＝１であるので、学習器１４は、式（２）によって平均報酬Ｖ_ｔ＋１＝Ｖ_ｔ＋（Ｒ_ｔ－Ｖ_ｔ）／ｎ＝０＋（［（Ｂ／Ｔ）／（３＋α）＋β］－０）／１＝［（Ｂ／Ｔ）／（３＋α）＋β］を算出する。

そうすると、学習器１４は、対応表ＴＢＬにおいて、待機期間Ｗ＿ｐｒｄの長さＡ＝３Ｔに対応付けられた平均報酬を零（＝０）から［（Ｂ／Ｔ）／（３＋α）＋β］に更新する（図７参照）。

引き続いて、学習器１４は、対応表ＴＢＬ（図７に示す対応表ＴＢＬ）を参照して、ε－ｇｒｅｅｄｙ法によって、発生した乱数ｐがεよりも大きいとして、最大の平均報酬（［（Ｂ／Ｔ）／（３＋α）＋β］）が得られるアーム番号ａ＝３を選択することによって待機期間Ｗ＿ｐｒｄの長さＡ＝３Ｔを選択し、その選択した待機期間Ｗ＿ｐｒｄの長さＡ＝３Ｔを制御手段１３へ出力する。

図７に示す対応表ＴＢＬにおいて、待機期間Ｗ＿ｐｒｄの長さＡ＝３Ｔに対応付けられた平均報酬Ｖ_ｔは、［（Ｂ／Ｔ）／（３＋α）＋β］であり、ｎ＝２であるので、学習器１４は、式（２）によって平均報酬Ｖ_ｔ＋１＝Ｖ_ｔ＋（Ｒ_ｔ－Ｖ_ｔ）／ｎ＝［（Ｂ／Ｔ）／（３＋α）＋β］＋（［（Ｂ／Ｔ）／（３＋α）＋β］－［（Ｂ／Ｔ）／（３＋α）＋β］）／２＝［（Ｂ／Ｔ）／（３＋α）＋β］を算出する。

そうすると、学習器１４は、対応表ＴＢＬにおいて、待機期間Ｗ＿ｐｒｄの長さＡ＝３Ｔに対応付けられた平均報酬を［（Ｂ／Ｔ）／（３＋α）＋β］から［（Ｂ／Ｔ）／（３＋α）＋β］に更新する（図８参照）。即ち、待機期間Ｗ＿ｐｒｄの長さＡ＝３Ｔに対応付けられた平均報酬は、変化しない（図７および図８参照）。

なお、図７および図８においては、使用期間ＵＳＥ＿ｐｒｄの長さＢが同じであるとして、即時報酬Ｒ_ｔおよび平均報酬Ｖ_ｔ＋１が算出されている。

次に、図６に示す対応表ＴＢＬを参照して、学習器１４がε－ｇｒｅｅｄｙ法によって、発生した乱数ｐがε以下であるとして、アーム番号ａ＝３をランダムに選択することによって待機期間Ｗ＿ｐｒｄの長さＡ＝３Ｔを選択して制御手段１３へ出力し、制御手段１３から待機期間Ｗ＿ｐｒｄの長さＡ（＝３Ｔ）、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢおよび送信不可信号Ｓ_{＿ＵＮ＿ＴＲ}を受けた場合について説明する。

学習器１４は、待機期間Ｗ＿ｐｒｄの長さＡ＝３Ｔを制御手段１３へ出力した後、待機期間Ｗ＿ｐｒｄの長さＡ（＝３Ｔ）、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢおよび送信不可信号Ｓ_{＿ＵＮ＿ＴＲ}を受け、その受けた送信不可信号Ｓ_{＿ＵＮ＿ＴＲ}に基づいて、パケットＰＫＴを送信できなかったと判定する。

そして、学習器１４は、式（１Ｂ）によって即時報酬Ｒ_ｔ＝（Ｂ／Ｔ）／（３＋α）を算出する。

また、平均報酬Ｖ_ｔ＝０およびｎ＝１であるので、学習器１４は、式（２）によって、平均報酬Ｖ_ｔ＋１＝Ｖ_ｔ＋（Ｒ_ｔ－Ｖ_ｔ）／ｎ＝０＋（（Ｂ／Ｔ）／（３＋α）－０）／１＝（Ｂ／Ｔ）／（３＋α）を算出する。

そうすると、学習器１４は、対応表ＴＢＬ（図６に示す対応表ＴＢＬ）を参照して、待機期間Ｗ＿ｐｒｄの長さＡ＝３Ｔに対応付けられた平均報酬を零（＝０）から（Ｂ／Ｔ）／（３＋α）に更新する（図９参照）。

その後、学習器１４は、対応表ＴＢＬ（図９に示す対応表ＴＢＬ）を参照して、ε－ｇｒｅｅｄｙ法によって、発生した乱数ｐがεよりも大きいとして、最大の平均報酬（［（Ｂ／Ｔ）／（３＋α）］）が得られるアーム番号ａ＝３を選択することによって待機期間Ｗ＿ｐｒｄの長さＡ＝３Ｔを選択し、その選択した待機期間Ｗ＿ｐｒｄの長さＡ＝３Ｔを制御手段１３へ出力する。

その後、学習器１４は、待機期間Ｗ＿ｐｒｄの長さＡ（＝３Ｔ）、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢおよび送信不可信号Ｓ_{＿ＵＮ＿ＴＲ}を受け、その受けた送信不可信号Ｓ_{＿ＵＮ＿ＴＲ}に基づいて、パケットＰＫＴを送信できなかったと判定する。

また、平均報酬Ｖ_ｔ＝（Ｂ／Ｔ）／（３＋α）およびｎ＝２であるので、学習器１４は、式（２）によって、平均報酬Ｖ_ｔ＋１＝Ｖ_ｔ＋（Ｒ_ｔ－Ｖ_ｔ）／ｎ＝（Ｂ／Ｔ）／（３＋α）＋（［（Ｂ／Ｔ）／（３＋α）］－［（Ｂ／Ｔ）／（３＋α）］）／２＝（Ｂ／Ｔ）／［（３＋α）］を算出する。

そうすると、学習器１４は、対応表ＴＢＬ（図９に示す対応表ＴＢＬ）を参照して、待機期間Ｗ＿ｐｒｄの長さＡ＝３Ｔに対応付けられた平均報酬を（Ｂ／Ｔ）／（３＋α）から（Ｂ／Ｔ）／［２（３＋α）］に更新する（図１０参照）。即ち、待機期間Ｗ＿ｐｒｄの長さＡ＝３Ｔに対応付けられた平均報酬は、変化しない（図９および図１０参照）。

なお、図９および図１０においては、使用期間ＵＳＥ＿ｐｒｄの長さＢが同じであるとして、即時報酬Ｒ_ｔおよび平均報酬Ｖ_ｔ＋１が算出されている。

引き続いて、図６に示す対応表ＴＢＬを参照して、学習器１４がε－ｇｒｅｅｄｙ法によって、発生した乱数ｐがε以下であるとして、アーム番号ａ＝３をランダムに選択することによって待機期間Ｗ＿ｐｒｄの長さＡ＝３Ｔを選択して制御手段１３へ出力し、制御手段１３から待機期間Ｗ＿ｐｒｄの長さＡ（＝３Ｔ）、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢおよび送信失敗信号Ｓ_{＿ＦＡＩＬＵＲＥ}を受けた場合について説明する。

学習器１４は、待機期間Ｗ＿ｐｒｄの長さＡ＝３Ｔを制御手段１３へ出力した後、待機期間Ｗ＿ｐｒｄの長さＡ（＝３Ｔ）、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢおよび送信失敗信号Ｓ_{＿ＦＡＩＬＵＲＥ}を受け、その受けた送信失敗信号Ｓ_{＿ＦＡＩＬＵＲＥ}に基づいて、パケットＰＫＴの送信に失敗したと判定する。

そして、学習器１４は、式（１Ｃ）によって即時報酬Ｒ_ｔ＝－γを算出する。

また、平均報酬Ｖ_ｔ＝０およびｎ＝１であるので、学習器１４は、式（２）によって、平均報酬Ｖ_ｔ＋１＝Ｖ_ｔ＋（Ｒ_ｔ－Ｖ_ｔ）／ｎ＝０＋（－γ－０）／１＝－γを算出する。

そうすると、学習器１４は、対応表ＴＢＬ（図６に示す対応表ＴＢＬ）を参照して、待機期間Ｗ＿ｐｒｄの長さＡ＝３Ｔに対応付けられた平均報酬を零（＝０）から－γに更新する（図１１参照）。

その後、学習器１４は、対応表ＴＢＬ（図１１に示す対応表ＴＢＬ）を参照して、ε－ｇｒｅｅｄｙ法によって、発生した乱数ｐがε以下であるとして、アーム番号ａ＝３をランダムに選択することによって待機期間Ｗ＿ｐｒｄの長さＡ＝３Ｔを選択し、その選択した待機期間Ｗ＿ｐｒｄの長さＡ＝３Ｔを制御手段１３へ出力する。

そして、学習器１４は、制御手段１３から待機期間Ｗ＿ｐｒｄの長さＡ（＝３Ｔ）、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢおよび送信失敗信号Ｓ_{＿ＦＡＩＬＵＲＥ}を受け、その受けた送信失敗信号Ｓ_{＿ＦＡＩＬＵＲＥ}に基づいてパケットＰＫＴの送信に失敗したと判定する。

また、平均報酬Ｖ_ｔ＝－γおよびｎ＝２であるので、学習器１４は、式（２）によって、平均報酬Ｖ_ｔ＋１＝Ｖ_ｔ＋（Ｒ_ｔ－Ｖ_ｔ）／ｎ＝－γ＋（－γ－（－γ））／２＝－γを算出する。

そうすると、学習器１４は、対応表ＴＢＬ（図１１に示す対応表ＴＢＬ）を参照して、待機期間Ｗ＿ｐｒｄの長さＡ＝３Ｔに対応付けられた平均報酬を“－γ”から“－γ”に更新する（図１２参照）。即ち、待機期間Ｗ＿ｐｒｄの長さＡ＝３Ｔに対応付けられた平均報酬は、変化しない（図１１および図１２参照）。

なお、図１１および図１２においては、使用期間ＵＳＥ＿ｐｒｄの長さＢが同じであるとして、即時報酬Ｒ_ｔおよび平均報酬Ｖ_ｔ＋１が算出されている。

図６から図１２に示すように、同じ待機期間Ｗ＿ｐｒｄの長さＡ＝３Ｔを選択した場合において、パケットＰＫＴの送信に成功した場合（図６から図８参照）、パケットＰＫＴを送信できなかった場合（図６、図９および図１０参照）、およびパケットＰＫＴの送信に失敗した場合（図６，図１１および図１２参照）について対応表ＴＢＬの変遷を説明した。

その結果、得られる平均報酬Ｖ_ｔ＋１は、最初に算出された即時報酬Ｒ_ｔに等しい。従って、得られる平均報酬Ｖ_ｔ＋１は、パケットＰＫＴの送信に成功した場合（図６から図８参照）の即時報酬Ｒ_ｔ、パケットＰＫＴを送信できなかった場合（図６、図９および図１０参照）の即時報酬Ｒ_ｔ、およびパケットＰＫＴの送信に失敗した場合（図６，図１１および図１２参照）の即時報酬Ｒ_ｔの順序と同じ順序に従って低くなる。

なお、この発明の実施の形態においては、以下の表１に示すように、２回目の平均報酬が１回目の平均報酬から変化することもある。

図６から図１２においては、同じ待機期間Ｗ＿ｐｒｄの長さＡ＝３Ｔを連続して選択する場合についての平均報酬Ｖ_ｔ＋１の変遷について説明した。

そこで、対応表ＴＢＬが図６に示す対応表ＴＢＬから図７に示す対応表ＴＢＬに変遷した後に、待機期間Ｗ＿ｐｒｄの長さＡ＝３Ｔと異なる待機期間Ｗ＿ｐｒｄの長さＡを選択する場合について説明する。

学習器１４は、図７に示す対応表ＴＢＬを参照して、ε－ｇｒｅｅｄｙ法によって、発生した乱数ｐがε以下であるとして、アーム番号ａ＝５をランダムに選択することによって待機期間Ｗ＿ｐｒｄの長さＡ＝５Ｔを選択し、その選択した待機期間Ｗ＿ｐｒｄの長さＡ＝５Ｔを制御手段１３へ出力する。

その後、学習器１４は、待機期間Ｗ＿ｐｒｄの長さＡ（＝５Ｔ）、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢおよび送信成功信号Ｓ_{＿ＳＵＣＣＥＳＳ}を制御手段１３から受け、その受けた送信成功信号Ｓ_{＿ＳＵＣＣＥＳＳ}に基づいてＡＣＫパケットを受信したと判定する。

そして、学習器１４は、式（１Ａ）によって即時報酬Ｒ_ｔ＝（Ｂ／Ｔ）／（５＋α）＋βを算出する。

そうすると、待機期間Ｗ＿ｐｒｄの長さＡ＝５Ｔに対応付けられた平均報酬Ｖ_ｔが零（＝０）であり、ｎ＝１であるので、学習器１４は、式（２）によって、平均報酬Ｖ_ｔ＋１＝Ｖ_ｔ＋（Ｒ_ｔ－Ｖ_ｔ）／ｎ＝０＋（［（Ｂ／Ｔ）／（５＋α）＋β］－０）／１＝｛（Ｂ／Ｔ）／［（５＋α）］＋β｝を算出する。なお、待機期間Ｗ＿ｐｒｄの長さＡ＝５Ｔは、初めて選択されたので、ｎ＝１である。

そして、学習器１４は、図７に示す対応表ＴＢＬを参照して、待機期間Ｗ＿ｐｒｄの長さＡ＝５Ｔに対応付けられた平均報酬Ｖ_ｔ＝零（＝０）を平均報酬Ｖ_ｔ＋１＝｛（Ｂ／Ｔ）／［（５＋α）］＋β｝に更新する（図１３参照）。

なお、図７および図１３においては、使用期間ＵＳＥ＿ｐｒｄの長さＢが同じであるとして、即時報酬Ｒ_ｔおよび平均報酬Ｖ_ｔ＋１が算出されている。

図１３に示す対応表ＴＢＬにおいては、待機期間Ｗ＿ｐｒｄの長さＡ＝３Ｔに対応付けられた平均報酬［（Ｂ／Ｔ）／（３＋α）＋β］は、待機期間Ｗ＿ｐｒｄの長さＡ＝５Ｔに対応付けられた平均報酬｛（Ｂ／Ｔ）／［（５＋α）＋β｝よりも大きい。待機期間Ｗ＿ｐｒｄの長さＡの値（式（１Ａ）の“Ｔ”）が大きくなるほど、式（１Ａ）の即時報酬Ｒ_ｔが小さくなるからである。

待機期間Ｗ＿ｐｒｄの長さＡが同じである場合について、１回目と２回目との平均報酬Ｖ_ｔ＋１が異なる例を表１に示す。

表１は、１回目と２回目とにおける待機期間Ｗ＿ｐｒｄの長さＡが同じであり、１回目と２回目とにおける使用期間ＵＳＥ＿ｐｒｄの長さＢが異なる場合について、パターンＩ～ＶＩを示す。パターンＩ，ＩＩは、１回目の送信動作結果が“送信成功”である場合について１回目および２回目の平均報酬Ｖ_ｔ＋１を示し、パターンＩＩＩ，ＩＶは、１回目の送信動作結果が“送信不可”である場合について１回目および２回目の平均報酬Ｖ_ｔ＋１を示し、パターンＶ，ＶＩは、１回目の送信動作結果が“送信失敗”である場合について１回目および２回目の平均報酬Ｖ_ｔ＋１を示す。

表１に示すように、パターンＩ～ＶＩのいずれにおいても、２回目の平均報酬Ｖ_ｔ＋１は、１回目の平均報酬Ｖ_ｔ＋１と異なる。

パターンＩにおいては、１回目の平均報酬Ｖ_ｔ＋１から２回目の平均報酬Ｖ_ｔ＋１を減算した減算結果は、［β（３＋α）－１］／［２（３＋α）］である。α＝０．１であり、β＝１であるので、減算結果は、正の値になる。その結果、２回目の平均報酬Ｖ_ｔ＋１が１回目の平均報酬Ｖ_ｔ＋１よりも減少する。従って、１回目において、パケットＰＫＴの送信に成功しても、２回目において、パケットＰＫＴの送信ができなかったとき、平均報酬Ｖ_ｔ＋１が減少する。

パターンＩＩにおいては、１回目の平均報酬Ｖ_ｔ＋１から２回目の平均報酬Ｖ_ｔ＋１を減算した減算結果が正の値になるので、２回目の平均報酬Ｖ_ｔ＋１は、１回目の平均報酬Ｖ_ｔ＋１よりも減少する。従って、１回目において、パケットＰＫＴの送信に成功しても、２回目において、パケットＰＫＴの送信に失敗すると、平均報酬Ｖ_ｔ＋１が減少する。

パターンＩＩＩにおいては、１回目の平均報酬Ｖ_ｔ＋１から２回目の平均報酬Ｖ_ｔ＋１を減算した減算結果が負の値になるので、２回目の平均報酬Ｖ_ｔ＋１は、１回目の平均報酬Ｖ_ｔ＋１よりも増加する。従って、１回目において、パケットＰＫＴの送信ができなくても、２回目において、パケットＰＫＴの送信に成功すると、平均報酬Ｖ_ｔ＋１が増加する。

パターンＩＶにおいては、１回目の平均報酬Ｖ_ｔ＋１から２回目の平均報酬Ｖ_ｔ＋１を減算した減算結果が正の値になるので、２回目の平均報酬Ｖ_ｔ＋１は、１回目の平均報酬Ｖ_ｔ＋１よりも減少する。従って、「パケットＰＫＴの送信ができなかったこと」に続いてパケットＰＫＴの送信に失敗すると、平均報酬Ｖ_ｔ＋１が減少する。

パターンＶにおいては、１回目の平均報酬Ｖ_ｔ＋１から２回目の平均報酬Ｖ_ｔ＋１を減算した減算結果が負の値になるので、２回目の平均報酬Ｖ_ｔ＋１は、１回目の平均報酬Ｖ_ｔ＋１よりも増加する。従って、１回目において、パケットＰＫＴの送信に失敗しても、２回目において、パケットＰＫＴの送信に成功すれば、平均報酬Ｖ_ｔ＋１が増加する。

パターンＶＩにおいては、１回目の平均報酬Ｖ_ｔ＋１から２回目の平均報酬Ｖ_ｔ＋１を減算した減算結果が負の値になるので、２回目の平均報酬Ｖ_ｔ＋１は、１回目の平均報酬Ｖ_ｔ＋１よりも増加する。従って、１回目において、パケットＰＫＴの送信に失敗し、２回目において、パケットＰＫＴの送信ができなくても、平均報酬Ｖ_ｔ＋１が増加する。これは、パケットＰＫＴの送信に失敗したとき、即時報酬Ｒ_ｔが負の値（－γ）になるのに対し、パケットＰＫＴの送信ができない場合は、他の端末装置（端末装置２，３のいずれか）による送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢに比例する即時報酬Ｒ_ｔが付与されるからである。

ε－ｇｒｅｅｄｙ法によってアーム番号ａ＝３，５以外のアーム番号ａが選択されて待機期間Ｗ＿ｐｒｄの長さＡとして３Ｔ，５Ｔ以外が選択され、送信動作結果が送信成功信号Ｓ_{＿ＳＵＣＣＥＳＳ}、送信失敗信号Ｓ_{＿ＳＵＣＣＥＳＳ}および送信不可信号Ｓ_{＿ＵＮ＿ＴＲ}のいずれかである場合についても、図６から図１３において説明した方法および表１に示す平均報酬Ｖ_ｔ＋１と同様にして、対応表ＴＢＬの平均報酬を更新することができる。

なお、対応表ＴＢＬは、待機期間Ｗ＿ｐｒｄの長さＡ＝０を含むので、待機期間Ｗ＿ｐｒｄが設定されない場合もあるが、“０”でない待機期間Ｗ＿ｐｒｄの長さＡが選択される場合もあるので、ε－ｇｒｅｅｄｙ法によって“０”でない待機期間Ｗ＿ｐｒｄの長さＡが選択されれば、待機期間Ｗ＿ｐｒｄが設定され、他の端末装置（端末装置２，３のいずれか）にパケットＰＫＴの送信機会を与えることができ、待機期間Ｗ＿ｐｒｄが終了すると、端末装置１は、パケットＰＫＴを送信する。従って、対応表ＴＢＬが待機期間Ｗ＿ｐｒｄの長さＡ＝０（即ち、待機期間Ａ＝０）を含んでいても、周波数の有効利用を促進できる。

図１４は、図２に示す端末装置１の動作を説明するためのフローチャートである。図１４を参照して、端末装置１の動作が開始されると、端末装置１の制御手段１３は、アプリケーション１５から送信データを受けたか否かを判定することによって送信パケットがあるか否かを判定する（ステップＳ１）。

この場合、制御手段１３は、アプリケーション１５から送信データを受けたとき、送信パケットがあると判定し、アプリケーション１５から送信データを受けなかったとき、送信データが無いと判定する。

ステップＳ１において、送信データがあると判定されると、制御手段１３は、待機期間Ｗ＿ｐｒｄの長さＡを学習器１４から受け、待機期間Ｗ＿ｐｒｄを設定するとともに送信タイミングｔ＿ＴＲを設定する（ステップＳ２）。

そして、制御手段１３は、ビジーカウンタｂおよび送信タイミングカウンタｃを保持しており、その保持しているビジーカウンタｂをｂ＝０に設定し、送信タイミングカウンタｃをｃ＝０に設定して送信タイミングカウンタｃをカウントアップする（ステップＳ３）。

その後、制御手段１３は、指示信号Ｓ_{ＩＮＳＴ＿ｃａｒｒｉｅｒ}を生成して通信手段１２へ出力し、通信手段１２は、制御手段１３からの指示信号Ｓ_{ＩＮＳＴ＿ｃａｒｒｉｅｒ}に応じて、送信チャネルＣｈでキャリアセンスを実行し（ステップＳ４）、キャリアセンスの結果ＲＳＬＴ＿ｃａｒｒｉｅｒを制御手段１３へ出力する。

制御手段１３は、通信手段１２からのキャリアセンスの結果ＲＳＬＴ＿ｃａｒｒｉｅｒに基づいて、上述した方法によって、送信チャネルＣｈがアイドル状態ＩＤＬであるか否かを判定する（ステップＳ５）。

ステップＳ５において、送信チャネルＣｈがアイドル状態ＩＤＬであると判定されたとき、制御手段１３は、送信タイミングカウンタｃがｃ＝Ａであるか否かを判定する（ステップＳ６）。

ステップＳ６において、送信タイミングカウンタｃがｃ＝Ａであると判定されたとき、制御手段１３は、送信データを含むパケットＰＫＴを通信手段１２へ出力し、通信手段１２は、送信チャネルＣｈでパケットＰＫＴを送信する（ステップＳ７）。

そして、制御手段１３は、通信手段１２からＡＣＫパケットを受けたか否かによってＡＣＫパケットを受信したか否かを判定する（ステップＳ８）。

この場合、制御手段１３は、通信手段１２からＡＣＫパケットを受けたとき、ＡＣＫパケットを受信したと判定し、通信手段１２からＡＣＫパケットを受けなかったとき、ＡＣＫパケットを受信しなかったと判定する。

ステップＳ８において、ＡＣＫパケットを受信したと判定されたとき、制御手段１３は、待機期間Ｗ＿ｐｒｄの長さＡ、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢ（＝０）、および送信成功信号Ｓ_{＿ＳＵＣＣＥＳＳ}を学習器１４へ出力する。

学習器１４は、待機期間Ｗ＿ｐｒｄの長さＡ、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢ（＝０）、および送信成功信号Ｓ_{＿ＳＵＣＣＥＳＳ}を制御手段１３から受け、その受けた待機期間Ｗ＿ｐｒｄの長さＡ、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢ（＝０）、および送信成功信号Ｓ_{＿ＳＵＣＣＥＳＳ}に基づいて、式（１Ａ）によって即時報酬Ｒ_ｔを算出する（ステップＳ９）。

この場合、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢが“０”であるのは、ステップＳ３において、送信タイミングカウンタｃのカウントアップが開始された後に、ステップＳ５において送信チャネルＣｈがアイドル状態ＩＤＬであると判定されたときに、ステップＳ６の“ＹＥＳ”→ステップＳ７→ステップＳ８の“ＹＥＳ”→ステップＳ９が順次実行され、ステップＳ５の“ＹＥＳ”からステップＳ９までの間において、送信チャネルＣｈがビジー状態ＢＳＹであると判定されていないからである（即ち、ステップＳ５の“ＹＥＳ”からステップＳ９までの間、アイドル状態ＩＤＬが維持されているからである）。

また、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢが“０”であるので、ステップＳ９において算出される即時報酬Ｒ_ｔは、Ｒ_ｔ＝βである（式（１Ａ）参照）。

一方、ステップＳ５において、送信チャネルＣｈがアイドル状態ＩＤＬでないと判定されたとき、制御手段１３は、ビジーカウンタｂをカウントアップする（ステップＳ１０）。

その後、制御手段１３は、送信タイミングカウンタｃがｃ＝Ａであるか否かを判定する（ステップＳ１１）。

そして、ステップＳ６において、またはステップＳ１１において、送信タイミングカウンタｃがｃ＝Ａでないと判定されたとき、制御手段１３は、送信タイミングカウンタｃをカウントアップする（ステップＳ１２）。その後、端末装置１の動作は、ステップＳ４へ移行する。そして、ステップＳ６において、送信タイミングカウンタｃがｃ＝Ａであると判定されるまで、ステップＳ４，Ｓ５，Ｓ６，Ｓ１２が繰り返し実行され、またはステップＳ１１において、送信タイミングカウンタｃがｃ＝Ａであると判定されるまで、ステップＳ４，Ｓ５，Ｓ１０，Ｓ１１，Ｓ１２が繰り返し実行される。

そして、ステップＳ６において、送信タイミングカウンタｃがｃ＝Ａであると判定されると、上述したステップＳ７～Ｓ９が順次実行される。

一方、ステップＳ８において、ＡＣＫパケットを受信しなかったと判定されたとき、制御手段１３は、待機期間Ｗ＿ｐｒｄの長さＡ、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢ、および送信失敗信号Ｓ_{＿ＦＡＩＬＵＲＥ}を学習器１４へ出力し、学習器１４は、制御手段１３から受けた待機期間Ｗ＿ｐｒｄの長さＡ、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢ、および送信失敗信号Ｓ_{＿ＦＡＩＬＵＲＥ}に基づいて、式（１Ｃ）によって即時報酬Ｒ_ｔ（＝－γ）を算出する（ステップＳ１３）。

一方、ステップＳ１１において、送信タイミングカウンタｃがｃ＝Ａであると判定されると、制御手段１３は、待機期間Ｗ＿ｐｒｄの長さＡ、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢ、および送信不可信号Ｓ_{＿ＵＮ＿ＴＲ}を学習器１４へ出力し、学習器１４は、制御手段１３から受けた待機期間Ｗ＿ｐｒｄの長さＡ、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢ、および送信不可信号Ｓ_{＿ＵＮ＿ＴＲ}に基づいて、式（１Ｂ）によって即時報酬Ｒ_ｔを算出する（ステップＳ１４）。

そして、ステップＳ９、ステップＳ１３およびステップＳ１４のいずれかの後、学習器１４は、待機期間Ｗ＿ｐｒｄの長さＡに対応付けられた平均報酬を更新する（ステップＳ１５）。

その後、制御手段１３は、送信パケットがあるか否かを判定する（ステップＳ１６）。ステップＳ１６において、送信パケットがあると判定されたとき、端末装置１の動作は、ステップＳ２へ移行し、ステップＳ１６において、送信パケットが無いと判定されるまで、ステップＳ２～ステップＳ１６が繰り返し実行される。

そして、ステップＳ１６において、送信パケットが無いと判定されると、端末装置１の動作は、終了する。

図１５は、図１４のステップＳ２の詳細な動作を説明するためのフローチャートである。

図１５を参照して、図１４のステップＳ１において、送信パケットがあると判定されたとき、制御手段１３は、待機期間Ｗ＿ｐｒｄの長さＡを学習器１４から受ける（ステップＳ２１）。

そして、制御手段１３は、学習器１４から待機期間Ｗ＿ｐｒｄの長さＡを受けた時点ｔを検出する（ステップＳ２２）。

その後、制御手段１３は、時点ｔから待機期間Ｗ＿ｐｒｄの長さＡだけ経過した時点ｔ＋Ａまでの期間を待機期間Ｗ＿ｐｒｄとして設定する（ステップＳ２３）。

引き続いて、制御手段１３は、時点ｔ＋Ａを送信タイミングｔ＿ＴＲとして設定する（ステップＳ２４）。そして、端末装置１の動作は、図１４のステップＳ３へ移行する。

図１４に示すフローチャートにおいては、ステップＳ５において、送信チャネルＣｈがアイドル状態ＩＤＬでないと判定されたとき（即ち、送信チャネルＣｈがビジー状態ＢＳＹであると判定されたとき）、ステップＳ１１において、送信タイミングカウンタｃがｃ＝Ａであると判定されるまで、ステップＳ１０において、制御手段１３は、ビジーカウンタｂをカウントアップすることを繰り返し実行する。

その結果、図４に示すタイミングｔ３からタイミングｔ４までの期間が送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢとして検出されるので、パケットＰＫＴの送信に成功したときの即時報酬Ｒ_ｔ（式（１Ａ）参照）、またはパケットＰＫＴを送信できなかったときの即時報酬Ｒ_ｔ（式（１Ｂ）参照）を、待機期間Ｗ＿ｐｒｄ中に他の端末装置（端末装置２，３のいずれか）によるパケットＰＫＴの送信が無い場合よりも大きくできる。

これは、端末装置１が図４に示すタイミングｔ１から送信タイミングｔ＿ＴＲまでの待機期間Ｗ＿ｐｒｄを設定することによって、「待機期間Ｗ＿ｐｒｄ中に他の端末装置（端末装置２，３のいずれか）にパケットＰＫＴの送信の機会を与える」という待機期間Ｗ＿ｐｒｄを設定することによる他の端末装置（端末装置２，３のいずれか）に与える効果を考慮したものである。

このように、端末装置１が待機期間Ｗ＿ｐｒｄを設定することによって、他の端末装置（端末装置２，３のいずれか）が待機期間Ｗ＿ｐｒｄにパケットＰＫＴを送信することが可能になるので、パケットＰＫＴの衝突を回避した上で周波数の有効利用を促進できる。

図１６は、制御手段１３と学習器１４との動作関係を説明するためのフローチャートである。

図１６を参照して、制御手段１３および学習器１４の動作が開始されると、学習器１４は、対応表ＴＢＬを参照して、ε－ｇｒｅｅｄｙ法によってアーム０～６から１つのアームａを選択する（ステップＳ３１）。

この場合、学習器１４は、ステップＳ３１を１回目に実行するとき、ε－ｇｒｅｅｄｙ法によって１つのアーム番号ａをランダムに選択する。初期状態において、対応表ＴＢＬにおける全ての平均報酬は、零（＝０）であるので、学習器１４は、発生させた乱数ｐがεよりも大きいとき、アーム番号０～６から１つのアーム番号ａをランダムに選択する。また、学習器１４は、発生させた乱数ｐがε以下であるとき、アーム番号０～６から１つのアーム番号ａをランダムに選択する。従って、学習器１４は、ステップＳ３１を１回目に実行するとき、発生させた乱数ｐがε以下であるか否かに拘わらず、アーム番号０～６から１つのアーム番号ａをランダムに選択する。

また、学習器１４は、ステップＳ３１を２回目以降に実行するとき、発生させた乱数ｐがεよりも大きければ、最大の平均報酬が得られる１つのアーム番号ａを選択し、発生させた乱数ｐがε以下であれば、アーム番号０～６から１つのアーム番号ａをランダムに選択する。

なお、学習器１４は、ステップＳ３１を２回目以降に実行する場合において、発生させた乱数ｐがεよりも大きいとき、複数の最大の平均報酬があれば、複数の最大の平均報酬のうちの任意の１つの最大の平均報酬が得られる１つのアーム番号ａを選択する。

ステップＳ３１の後、学習器１４は、１つのアームａに対応付けられた待機期間Ｗ＿ｐｒｄの長さＡを選択する（ステップＳ３２）。

そうすると、学習器１４は、待機期間Ｗ＿ｐｒｄの長さＡを制御手段１３へ出力する（ステップＳ３３）。

制御手段１３は、待機期間Ｗ＿ｐｒｄの長さＡを学習器１４から受ける（ステップＳ３４）。そして、制御手段１３は、待機期間Ｗ＿ｐｒｄを設定し、その設定した待機期間Ｗ＿ｐｒｄに基づいて送信タイミングｔ＿ＴＲを設定する（ステップＳ３５）。

その後、制御手段１３は、キャリアセンスの結果ＲＳＬＴ＿ｃａｒｒｉｅｒに基づいて待機期間Ｗ＿ｐｒｄにおける送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢを検出する（ステップＳ３６）。

この場合、制御手段１３は、ビジーカウンタｂをｂ＝０に設定し、送信チャネルＣｈがビジー状態ＢＳＹである間、その設定したビジーカウンタｂをカウントアップすることによって送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢを検出する。

ステップＳ３６の後、制御手段１３は、パケットＰＫＴの送信動作結果を生成する（ステップＳ３７）。

ここで、パケットＰＫＴの送信動作結果は、送信成功信号Ｓ_{＿ＳＵＣＣＥＳＳ}、送信失敗信号Ｓ_{＿ＦＡＩＬＵＲＥ}および送信不可信号Ｓ_{＿ＵＮ＿ＴＲ}のいずれかからなる。そして、制御手段１３は、通信手段１２からＡＣＫパケットを受けたとき、送信成功信号Ｓ_{＿ＳＵＣＣＥＳＳ}を生成し、一定期間ＣＰＤ＿１において、通信手段１２からＡＣＫパケットを受けなかったとき、送信失敗信号Ｓ_{＿ＦＡＩＬＵＲＥ}を生成し、通信手段１２から不送信信号Ｓ_{＿ＮＯ＿ＴＲ}を受けたとき、送信不可信号Ｓ_{＿ＵＮ＿ＴＲ}を生成する。

ステップＳ３７の後、制御手段１３は、待機期間Ｗ＿ｐｒｄの長さＡ、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢおよびパケットＰＫＴの送信動作結果（送信成功信号Ｓ_{＿ＳＵＣＣＥＳＳ}、送信失敗信号Ｓ_{＿ＦＡＩＬＵＲＥ}および送信不可信号Ｓ_{＿ＵＮ＿ＴＲ}のいずれか）を学習器１４へ出力する（ステップＳ３８）。

学習器１４は、待機期間Ｗ＿ｐｒｄの長さＡ、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢおよびパケットＰＫＴの送信動作結果（送信成功信号Ｓ_{＿ＳＵＣＣＥＳＳ}、送信失敗信号Ｓ_{＿ＦＡＩＬＵＲＥ}および送信不可信号Ｓ_{＿ＵＮ＿ＴＲ}のいずれか）を制御手段１３から受ける（ステップＳ３９）。

そして、学習器１４は、待機期間Ｗ＿ｐｒｄの長さＡ、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢおよびパケットＰＫＴの送信動作結果（送信成功信号Ｓ_{＿ＳＵＣＣＥＳＳ}、送信失敗信号Ｓ_{＿ＦＡＩＬＵＲＥ}および送信不可信号Ｓ_{＿ＵＮ＿ＴＲ}のいずれか）に基づいて、時点ｔにおける即時報酬Ｒ_ｔを式（１）によって算出する（ステップＳ４０）。

この場合、学習器１４は、パケットＰＫＴの送信動作結果が送信成功信号Ｓ_{＿ＳＵＣＣＥＳＳ}からなるとき、式（１Ａ）によって即時報酬Ｒ_ｔを算出し、パケットＰＫＴの送信動作結果が送信不可信号Ｓ_{＿ＵＮ＿ＴＲ}からなるとき、式（１Ｂ）によって即時報酬Ｒ_ｔを算出し、パケットＰＫＴの送信動作結果が送信失敗信号Ｓ_{＿ＦＡＩＬＵＲＥ}からなるとき、式（１Ｃ）によって即時報酬Ｒ_ｔを算出する。

ステップＳ４０の後、学習器１４は、即時報酬Ｒ_ｔを用いて、時点ｔ＋１における平均報酬Ｖ_ｔ＋１を式（２）によって算出する（ステップＳ４１）。

そして、学習器１４は、算出した平均報酬Ｖ_ｔ＋１によって、待機期間Ｗ＿ｐｒｄの長さＡ（ステップＳ３２において選択された待機期間Ｗ＿ｐｒｄの長さＡ）に対応付けられた平均報酬を更新する（ステップＳ４２）。

ステップＳ４２の後、学習器１４の動作は、ステップＳ３１へ移行する。以後、上述したステップＳ３１～ステップＳ４２が繰り返し実行される。

図１６に示すフローチャートにおいては、制御手段１３は、ステップＳ３５において、図１５に示すフローチャートに従って、待機期間Ｗ＿ｐｒｄを設定し、送信タイミングｔ＿ＴＲを設定する。

また、制御手段１３は、ステップＳ３６において、図４において説明した方法によって送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢを検出する。

図１６に示すフローチャートによれば、ステップＳ３１～ステップＳ４２が繰り返し実行されるので、学習器１４は、待機期間Ｗ＿ｐｒｄの長さＡ、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢおよびパケットＰＫＴの送信動作結果（送信成功信号Ｓ_{＿ＳＵＣＣＥＳＳ}、送信失敗信号Ｓ_{＿ＦＡＩＬＵＲＥ}および送信不可信号Ｓ_{＿ＵＮ＿ＴＲ}のいずれか）を制御手段１３から受ける毎に、待機期間Ｗ＿ｐｒｄの長さＡ、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢおよびパケットＰＫＴの送信動作結果（送信成功信号Ｓ_{＿ＳＵＣＣＥＳＳ}、送信失敗信号Ｓ_{＿ＦＡＩＬＵＲＥ}および送信不可信号Ｓ_{＿ＵＮ＿ＴＲ}のいずれか）に基づいて、時点ｔにおける即時報酬Ｒ_ｔを算出する第１の処理（ステップＳ４０参照）と、即時報酬Ｒ_ｔの累積値を平均した報酬（即時報酬Ｒ_ｔの累積値をアームａの選択回数ｎで平均した報酬）であり、かつ、時点ｔの後の時点ｔ＋１における平均報酬Ｖ_ｔ＋１を第１の処理において算出した即時報酬Ｒ_ｔを用いて算出する第２の処理（ステップＳ４１）と、待機期間Ｗ＿ｐｒｄの長さＡの選択肢（＝アームａ）と、待機期間Ｗ＿ｐｒｄの長さＡと、平均報酬とを対応付けた対応表ＴＢＬを作成するとともに第２の処理において算出した平均報酬Ｖ_ｔ＋１によって時点ｔにおいて制御手段１３へ出力した待機期間Ｗ＿ｐｒｄの長さＡに対応付けられた平均報酬を更新することによって対応表ＴＢＬを更新し、その作成または更新した対応表ＴＢＬに基づいて最大の平均報酬が得られるときの待機期間Ｗ＿ｐｒｄの長さＡを時点ｔ＋１で所定の確率（＝（１－ε）の確率）で選択し、その選択した待機期間Ｗ＿ｐｒｄの長さＡを制御手段１３へ出力する第３の処理とを実行する。

このように、学習器１４は、待機期間Ｗ＿ｐｒｄの長さＡ、送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢおよびパケットＰＫＴの送信動作結果（送信成功信号Ｓ_{＿ＳＵＣＣＥＳＳ}、送信失敗信号Ｓ_{＿ＦＡＩＬＵＲＥ}および送信不可信号Ｓ_{＿ＵＮ＿ＴＲ}のいずれか）を制御手段１３から受ける毎に、図１６のステップＳ３１～Ｓ３３，Ｓ３９～Ｓ４２を実行することによって、より多くの平均報酬が得られる待機期間Ｗ＿ｐｒｄの長さＡを学習し、その学習した待機期間Ｗ＿ｐｒｄの長さＡからε－ｇｒｅｅｄｙ法によって１つの待機期間Ｗ＿ｐｒｄの長さＡを選択して制御手段１３へ出力する。

そして、学習器１４から待機期間Ｗ＿ｐｒｄの長さＡを受けると、待機期間Ｗ＿ｐｒｄの長さＡを受けた時点ｔから待機期間Ｗ＿ｐｒｄの長さＡだけ経過した時点ｔ＋Ａまでの期間を待機期間Ｗ＿ｐｒｄとして設定するとともに待機期間Ｗ＿ｐｒｄの終了時をパケットの送信タイミングとして設定する制御手段１３は、「設定手段」を構成する。

また、待機期間Ｗ＿ｐｒｄにおいて、キャリアセンスの結果ＲＳＬＴ＿ｃａｒｒｉｅｒに基づいて送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢを検出する制御手段１３は、「検出手段」を構成する。

図１６に示すフローチャートは、図１４に示すフローチャート（図１５に示すフローチャートを含む）と並行して実行される。そして、学習器１４は、図１６のステップＳ３１～ステップＳ３３を順次実行して、図１４に示すフローチャート（図１５に示すフローチャートを含む）のステップＳ２（図１５のステップＳ２１）において、待機期間Ｗ＿ｐｒｄの長さＡを制御手段１３へ出力する。

この発明の実施の形態においては、端末装置１の動作は、ソフトウェアによって実現されてもよい。この場合、端末装置１は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）およびＲＡＭ（Random Access Memory）を備える。そして、ＲＯＭは、図１４に示すフローチャート（図１５に示すフローチャートを含む）の各ステップからなるプログラムＰｒｏｇ＿Ａを記憶する。

ＣＰＵは、ＲＯＭからプログラムＰｒｏｇ＿Ａを読み出し、その読み出したプログラムＰｒｏｇ＿Ａを実行し、待機期間Ｗ＿ｐｒｄを設定して待機期間Ｗ＿ｐｒｄの終了時点の送信タイミングｔ＿ＴＲでパケットを送信する。ＲＡＭは、対応表ＴＢＬ、および算出された即時報酬Ｒ_ｔ等を一時的に記憶する。

また、プログラムＰｒｏｇ＿Ａは、ＣＤ，ＤＶＤ等の記録媒体に記録されて流通してもよい。プログラムＰｒｏｇ＿Ａを記録した記録媒体がコンピュータに装着されると、コンピュータは、記録媒体からプログラムＰｒｏｇ＿Ａを読み出して実行し、待機期間Ｗ＿ｐｒｄを設定して待機期間Ｗ＿ｐｒｄの終了時点の送信タイミングｔ＿ＴＲでパケットを送信する。

従って、プログラムＰｒｏｇ＿Ａを記録した記録媒体は、コンピュータ読み取り可能な記録媒体である。

また、この発明の実施の形態においては、学習器１４の動作は、ソフトウェアによって実現されてもよい。この場合、学習器１４は、ＣＰＵ、ＲＯＭおよびＲＡＭを備える。そして、ＲＯＭは、図１６に示すフローチャートのステップＳ３１，Ｓ３２，Ｓ３３，Ｓ３９，Ｓ４０，Ｓ４１，Ｓ４２からなるプログラムＰｒｏｇ＿Ｂを記憶する。

ＣＰＵは、ＲＯＭからプログラムＰｒｏｇ＿Ｂを読み出し、その読み出したプログラムＰｒｏｇ＿Ｂを実行し、待機期間Ｗ＿ｐｒｄの長さＡを学習するとともに、その学習した待機期間Ｗ＿ｐｒｄの長さＡをε－ｇｒｅｅｄｙ法によって選択して制御手段１３へ出力する。ＲＡＭは、対応表ＴＢＬを一時的に記憶する。

また、プログラムＰｒｏｇ＿Ｂは、ＣＤ，ＤＶＤ等の記録媒体に記録されて流通してもよい。プログラムＰｒｏｇ＿Ｂを記録した記録媒体がコンピュータに装着されると、コンピュータは、記録媒体からプログラムＰｒｏｇ＿Ｂを読み出して実行し、待機期間Ｗ＿ｐｒｄの長さＡを学習するとともに、その学習した待機期間Ｗ＿ｐｒｄの長さＡをε－ｇｒｅｅｄｙ法によって選択して制御手段１３へ出力する。

従って、プログラムＰｒｏｇ＿Ｂを記録した記録媒体は、コンピュータ読み取り可能な記録媒体である。

図１７は、この発明の実施の形態による別の端末装置の概略図である。この発明の実施の形態による端末装置は、図１７に示す端末装置１Ａであってもよい。

図１７を参照して、端末装置１Ａは、図２に示す端末装置１の通信手段１２，制御手段１３および学習器１４を通信ユニット２０，３０および選択手段４０に変えたものであり、その他は、端末装置１と同じである。

通信ユニット２０は、上述した端末装置１の通信手段１２、制御手段１３および学習器１４によるパケットＰＫＴの送信方法に従ってパケットＰＫＴを送信する。

通信ユニット３０は、上述した待機期間Ｗ＿ｐｒｄおよび送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄを設定せずに、ＣＳＭＡ／ＣＡ方式に従って、送信チャネルＣｈがビジー状態ＢＳＹであるとき、パケットＰＫＴを送信せず、送信チャネルＣｈがアイドル状態ＩＤＬであるとき、パケットＰＫＴを送信するとともに、一定期間ＣＰＤ＿２におけるパケットＰＫＴの再送率ＲＴＲを算出し、その算出したパケットＰＫＴの再送率ＲＴＲを選択手段４０へ出力する。

選択手段４０は、通信ユニット３０からパケットＰＫＴの再送率ＲＴＲを受け、アプリケーション１５から送信データを受ける。

選択手段４０は、パケットＰＫＴの再送率ＲＴＲのしきい値ＲＴＲ＿ｔｈを保持する。しきい値ＲＴＲ＿ｔｈは、パケットＰＫＴの衝突を回避または許容できる再送率に設定され、例えば、１０％である。選択手段４０は、アプリケーション１５から送信データを受けると、パケットＰＫＴの再送率ＲＴＲがしきい値ＲＴＲ＿ｔｈ以下であるか否かを判定する。

選択手段４０は、パケットＰＫＴの再送率ＲＴＲがしきい値ＲＴＲ＿ｔｈ以下であると判定したとき、送信データを通信ユニット３０へ出力する。

一方、選択手段４０は、パケットＰＫＴの再送率ＲＴＲがしきい値ＲＴＲ＿ｔｈよりも大きいと判定したとき、送信データを通信ユニット２０へ出力する。

図１８は、図１７に示す通信ユニット２０の概略図である。図１８を参照して、通信ユニット２０は、通信手段１２と、制御手段１３と、学習器１４とを備える。通信ユニット２０においては、制御手段１３は、選択手段４０から送信データを受ける。

通信ユニット２０は、通信手段１２と制御手段１３と学習器１４とを備えるので、学習器１４が学習して選択した待機期間Ｗ＿ｐｒｄ中における他の端末装置（端末装置２，３のいずれか）による送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄの長さＢを検出し、送信タイミングｔ＿ＴＲになると、パケットＰＫＴを送信する。

図１９は、図１７に示す通信ユニット３０の概略図である。図１９を参照して、通信ユニット３０は、通信手段３１と、制御手段３２とを備える。

通信手段３１は、制御手段３２からパケットＰＫＴを受けると、バックオフ時間を設定する。そして、バックオフ時間が終了すると、通信手段３１は、アンテナ１１を介して、送信チャネルＣｈでキャリアセンスを行う。その後、通信手段３１は、キャリアセンスの結果ＲＳＬＴ＿ｃａｒｒｉｅｒに基づいて送信チャネルＣｈがアイドル状態ＩＤＬであると判定したとき、アンテナ１１を介してパケットＰＫＴを送信し、キャリアセンスの結果ＲＳＬＴ＿ｃａｒｒｉｅｒに基づいて送信チャネルＣｈがビジー状態ＢＳＹであると判定したとき、パケットＰＫＴを送信しない。

通信手段３１は、パケットＰＫＴの送信後、アンテナ１１を介してＡＣＫパケットを受信し、その受信したＡＣＫパケットを制御手段３２へ出力する。

制御手段３２は、選択手段４０から送信データを受けると、送信データを含むパケットＰＫＴを生成し、その生成したパケットＰＫＴを通信手段３１へ出力する。

制御手段３２は、パケットＰＫＴを通信手段３１へ出力した後、ＡＣＫパケットを通信手段３１から受ける。制御手段３２は、ＡＣＫパケットを受けると、パケットＰＫＴの送信が成功したと判定する。

一方、制御手段３２は、パケットＰＫＴを通信手段３１へ出力した後、一定期間ＣＰＤ＿１内にＡＣＫパケットを通信手段３１から受けないとき、パケットＰＫＴの送信に失敗したと判定する。

制御手段３２は、一定期間ＣＰＤ＿２において、通信手段３１によってパケットＰＫＴを送信した送信回数Ｎ＿ＴＲと、パケットＰＫＴの送信に失敗したと判定する判定回数Ｎ＿ＮＯ＿ＴＲとを計測する。そして、制御手段３２は、判定回数Ｎ＿ＮＯ＿ＴＲを送信回数Ｎ＿ＴＲで除算してパケットＰＫＴの再送率ＲＴＲを算出し、その算出したパケットＰＫＴの再送率ＲＴＲを選択手段４０へ出力する。

図２０は、図１７に示す端末装置１Ａの動作を説明するためのフローチャートである。図２０を参照して、端末装置１Ａの動作が開始されると、端末装置１Ａの選択手段４０は、アプリケーション１５から送信データを受けたか否かを判定することによって送信パケットがあるか否かを判定する（ステップＳ５１）。

この場合、選択手段４０は、アプリケーション１５から送信データを受けたと判定したとき、送信パケットがあると判定し、アプリケーション１５から送信データを受けなかったと判定したとき、送信パケットが無いと判定する。

ステップＳ５１において、送信データが有ると判定されると、選択手段４０は、送信データを通信ユニット３０へ出力し、通信ユニット３０は、選択手段４０から受けた送信データを含むパケットＰＫＴを生成し、その生成したパケットＰＫＴをＣＳＭＡ／ＣＡ方式に従って送信する（ステップＳ５２）。

そして、通信ユニット３０の制御手段３２は、一定期間ＣＰＤ＿２において、パケットＰＫＴの送信回数Ｎ＿ＴＲと、判定回数Ｎ＿ＮＯ＿ＴＲとを計測する（ステップＳ５３）。

その後、制御手段３２は、判定回数Ｎ＿ＮＯ＿ＴＲを送信回数Ｎ＿ＴＲで除算してパケットＰＫＴの再送率ＲＴＲを算出し（ステップＳ５４）、その算出したパケットＰＫＴの再送率ＲＴＲを選択手段４０へ出力する。

選択手段４０は、パケットＰＫＴの再送率ＲＴＲを制御手段３２から受けると、パケットＰＫＴの再送率ＲＴＲがしきい値ＲＴＲ＿ｔｈ以下であるか否かを判定する（ステップＳ５５）。

ステップＳ５５において、パケットＰＫＴの再送率ＲＴＲがしきい値ＲＴＲ＿ｔｈ以下であると判定されたとき、選択手段４０は、通信ユニット３０を選択する（ステップＳ５６）。

そして、選択手段４０は、アプリケーション１５から送信データを受けると、送信データを通信ユニット３０へ出力する。

通信ユニット３０は、選択手段４０から送信データを受けると、送信データを含むパケットＰＫＴを生成し、その生成したパケットＰＫＴをＣＳＭＡ／ＣＡ方式に従って送信する（ステップＳ５７）。

一方、ステップＳ５５において、パケットＰＫＴの再送率ＲＴＲがしきい値ＲＴＲ＿ｔｈよりも大きいと判定されたとき、選択手段４０は、通信ユニット２０を選択する（ステップＳ５８）。

そして、選択手段４０は、アプリケーション１５から送信データを受けると、送信データを通信ユニット２０へ出力する。

通信ユニット２０は、選択手段４０から送信データを受けると、図１４に示すフローチャート（図１５に示すフローチャートを含む）に従ってパケットＰＫＴを送信する（ステップＳ５９）。

そして、ステップＳ５７またはステップＳ５９の後、端末装置１Ａの動作が終了する。

図２１は、図２０のステップＳ５７の詳細な動作を説明するためのフローチャートである。

図２１を参照して、図２０のステップＳ３６の後、通信ユニット３０の制御手段３２は、選択手段４０から送信データを受けたか否かを判定することによって送信データがあるか否かを判定する（ステップＳ５７１）。

この場合、制御手段３２は、選択手段４０から送信データを受けたと判定したとき、送信データがあると判定し、選択手段４０から送信データを受けなかったと判定したとき、送信データが無いと判定する。

ステップＳ５７１において、送信データがあると判定されたとき、制御手段３２は、送信データを含むパケットＰＫＴを生成し、その生成したパケットＰＫＴを通信手段３１へ出力する。

通信手段３１は、制御手段３２からパケットＰＫＴを受けると、バックオフ時間を設定する（ステップＳ５７２）。

そして、通信手段３１は、バックオフ時間が終了すると（Ｓ５７３のＹＥＳ）、送信チャネルＣｈでキャリアセンスを実行する（ステップＳ５７４）。

そして、通信手段３１は、キャリアセンスの結果ＲＳＬＴ＿ｃａｒｒｉｅｒに基づいて、送信チャネルＣｈがアイドル状態ＩＤＬであるか否かを判定する（ステップＳ５７５）。

ステップＳ５７５において、送信チャネルＣｈがアイドル状態ＩＤＬであると判定されたとき、通信手段３１は、送信チャネルＣｈでパケットＰＫＴを送信する（ステップＳ５７６）。

一方、ステップＳ５７５において、送信チャネルＣｈがアイドル状態ＩＤＬでないと判定されたとき、通信手段３１は、パケットＰＫＴの送信を停止する（ステップＳ５７７）。

そして、ステップＳ５７６またはステップＳ５７７の後、端末装置１Ａの動作は、図２０の“終了”へ移行する。

なお、図２０のステップＳ５２の詳細な動作も、図２１に示すフローチャートによって実行される。この場合、図２１のステップＳ５７６またはステップＳ５７７の後、端末装置１Ａの動作は、図２０のステップＳ５３へ移行する。

図２０に示すフローチャート（図１４に示すフローチャート（図１５に示すフローチャートを含む）および図２１に示すフローチャートを含む）によれば、通信ユニット３０によってＣＳＭＡ／ＣＡ方式に従ってパケットＰＫＴを送信したときのパケットＰＫＴの再送率ＲＴＲがしきい値ＲＴＲ＿ｔｈ以下であるとき、通信ユニット３０を選択し、その選択した通信ユニット３０によってＣＳＭＡ／ＣＡ方式に従ってパケットＰＫＴを送信し（ステップＳ５５の“ＹＥＳ”，Ｓ５６，Ｓ５７参照）、パケットＰＫＴの再送率ＲＴＲがしきい値ＲＴＲ＿ｔｈ以下でないとき（即ち、再送率ＲＴＲがしきい値ＲＴＲ＿ｔｈよりも大きいとき）、通信ユニット２０を選択し、その選択した通信ユニット２０によって図１４に示すフローチャート（図１５に示すフローチャートを含む）に従ってパケットＰＫＴを送信する（ステップＳ５５の“ＮＯ”，Ｓ５８，Ｓ５９参照）。

その結果、ステップＳ５７は、パケットＰＫＴの再送率ＲＴＲがしきい値ＲＴＲ＿ｔｈ以下であるときに実行されるので（ステップＳ５５の“ＹＥＳ”参照）、端末装置１Ａ，２，３は、パケットＰＫＴの衝突を回避してパケットＰＫＴを送信していることになる。しきい値ＲＴＲ＿ｔｈがパケットＰＫＴの衝突が生じるときの再送率よりも低い値に設定されているからである。従って、パケットＰＫＴの衝突を回避または許容した上で、端末装置１Ａ，２，３による周波数の有効利用を促進できる。

一方、ステップＳ５９は、パケットＰＫＴの再送率ＲＴＲがしきい値ＲＴＲ＿ｔｈよりも大きいときに実行されるので（ステップＳ５５の“ＮＯ”参照）、端末装置１Ａは、上述した待機期間Ｗ＿ｐｒｄを設定して他の端末装置（端末装置２，３のいずれか）にパケットＰＫＴの送信機会（他の端末装置（端末装置２，３のいずれか）による送信チャネルＣｈの使用期間ＵＳＥ＿ｐｒｄ）を与え、他の端末装置（端末装置２，３のいずれか）がパケットＰＫＴを送信していないときに、パケットＰＫＴを送信する。従って、端末装置１Ａ，２，３による周波数の有効利用を促進できる。

この発明の実施の形態においては、端末装置１Ａの動作は、ソフトウェアによって実現されてもよい。この場合、端末装置１Ａは、ＣＰＵ、ＲＯＭおよびＲＡＭを備える。そして、ＲＯＭは、図２０に示すフローチャート（図１４に示すフローチャート（図１５に示すフローチャートを含む）および図２１に示すフローチャートを含む）の各ステップからなるプログラムＰｒｏｇ＿Ｃを記憶する。

ＣＰＵは、ＲＯＭからプログラムＰｒｏｇ＿Ｃを読み出し、その読み出したプログラムＰｒｏｇ＿Ｃを実行し、待機期間Ｗ＿ｐｒｄを設定せずにパケットを送信し、または待機期間Ｗ＿ｐｒｄを設定して待機期間Ｗ＿ｐｒｄの終了時点でパケットを送信する。ＲＡＭは、算出された即時報酬Ｒ_ｔ等を一時的に記憶する。

また、プログラムＰｒｏｇ＿Ｃは、ＣＤ，ＤＶＤ等の記録媒体に記録されて流通してもよい。プログラムＰｒｏｇ＿Ｃを記録した記録媒体がコンピュータに装着されると、コンピュータは、記録媒体からプログラムＰｒｏｇ＿Ｃを読み出して実行し、待機期間Ｗ＿ｐｒｄを設定せずにパケットを送信し、または待機期間Ｗ＿ｐｒｄを設定して待機期間Ｗ＿ｐｒｄの終了時点でパケットを送信する。

従って、プログラムＰｒｏｇ＿Ｃを記録した記録媒体は、コンピュータ読み取り可能な記録媒体である。

上述した実施の形態によれば、この発明の実施の形態による端末装置は、
パケットを送信するチャネルである送信チャネルにおいてキャリアセンスを実行するキャリアセンス手段と、
送信チャネルでのパケットの送信を待機する期間である待機期間を設定するとともに待機期間の終了時をパケットの送信タイミングとして設定する設定手段と、
待機期間におけるキャリアセンス手段によるキャリアセンスの結果に基づいて送信チャネルが使用されている期間である送信チャネルの使用期間の長さを検出する検出手段と、
送信タイミングにおいて送信チャネルが空いているときパケットを送信チャネルで送信するとともにＡＣＫパケットを受信する通信手段と、
待機期間の長さ、送信チャネルの使用期間の長さおよびパケットの送信動作結果を受け、その受けた待機期間の長さ、送信チャネルの使用期間の長さおよびパケットの送信動作結果に基づいて第１の時点における即時報酬を算出する第１の処理と、即時報酬の累積値を平均した報酬であり、かつ、第１の時点の後の第２の時点における報酬である平均報酬を第１の処理において算出した即時報酬を用いて算出する第２の処理と、待機期間の長さの選択肢と、待機期間の長さと、平均報酬とを対応付けた対応表を作成するとともに第２の処理において算出した平均報酬によって第１の時点において設定手段へ出力した待機期間の長さに対応付けられた平均報酬を更新することによって対応表を更新し、その作成または更新した対応表に基づいて最大の平均報酬が得られるときの待機期間の長さを第２の時点で所定の確率で選択し、その選択した待機期間の長さを設定手段へ出力する第３の処理とを待機期間の長さ、送信チャネルの使用期間の長さおよびパケットの送信動作結果を受ける毎に実行する学習器とを備え、
設定手段は、第２の時点において学習器から待機期間の長さを受けると、待機期間を設定するともに、送信タイミングを通信手段へ出力し、
通信手段は、第２の時点において設定手段から送信タイミングを受けると、その受けた送信タイミングにおいて送信チャネルが空いているときパケットを送信チャネルで送信するとともにパケットの送信結果を受信し、
検出手段は、第２の時点において設定された待機期間において送信チャネルの使用期間の長さを検出すればよい。

端末装置がキャリアセンス手段、設定手段、検出手段、通信手段および学習器を備えていれば、待機期間を設定して他の端末装置にパケットＰＫＴの送信機会を与え、待機期間の終了時点における送信タイミングでパケットＰＫＴを送信することによって、パケットＰＫＴの衝突を回避して周波数の有効利用を促進できるからである。

また、上述した実施の形態によれば、この発明の実施の形態によるプログラムは、
キャリアセンス手段が、パケットを送信するチャネルである送信チャネルにおいてキャリアセンスを実行する第１のステップと、
設定手段が、送信チャネルでのパケットの送信を待機する期間である待機期間を設定するとともに待機期間の終了時をパケットの送信タイミングとして設定する第２のステップと、
検出手段が、待機期間におけるキャリアセンスの結果に基づいて送信チャネルが使用されている期間である送信チャネルの使用期間の長さを検出する第３のステップと、
通信手段が、送信タイミングにおいて送信チャネルが空いているときパケットを送信チャネルで送信するとともにＡＣＫパケットを受信する第４のステップと、
学習器が、待機期間の長さ、送信チャネルの使用期間の長さおよびパケットの送信動作結果を受け、その受けた待機期間の長さ、送信チャネルの使用期間の長さおよびパケットの送信動作結果に基づいて第１の時点における即時報酬を算出する第１の処理と、即時報酬の累積値を平均した報酬であり、かつ、第１の時点の後の第２の時点における報酬である平均報酬を第１の処理において算出した即時報酬を用いて算出する第２の処理と、待機期間の長さの選択肢と、待機期間の長さと、平均報酬とを対応付けた対応表を作成するとともに第２の処理において算出した平均報酬によって第１の時点において設定手段へ出力した待機期間の長さに対応付けられた平均報酬を更新することによって対応表を更新し、その作成または更新した対応表に基づいて最大の平均報酬が得られるときの待機期間の長さを第２の時点で所定の確率で選択し、その選択した待機期間の長さを設定手段へ出力する第３の処理とを待機期間の長さ、送信チャネルの使用期間の長さおよびパケットの送信動作結果を受ける毎に実行する第５のステップとをコンピュータに実行させ、
設定手段は、第２のステップにおいて、第２の時点において学習器から待機期間の長さを受けると、待機期間を設定するともに、送信タイミングを通信手段へ出力し、
通信手段は、第４のステップにおいて、第２の時点において設定手段から送信タイミングを受けると、その受けた送信タイミングにおいて送信チャネルが空いているときパケットを送信チャネルで送信するとともにパケットの送信結果を受信し、
検出手段は、第３のステップにおいて、第２の時点において設定された待機期間において送信チャネルの使用期間の長さを検出すればよい。

プログラムが第１のステップから第５のステップをコンピュータに実行させれば、待機期間を設定して他の端末装置にパケットＰＫＴの送信機会を与え、待機期間の終了時点における送信タイミングでパケットＰＫＴを送信することによって、パケットＰＫＴの衝突を回避して周波数の有効利用を促進できるからである。

この発明の実施の形態においては、キャリアセンスを実行する通信手段１２は、「キャリアセンス手段」を構成する。

また、この発明の実施の形態においては、αは、「第１の所定値」を構成し、βは、「第２の所定値」を構成する。

更に、この発明の実施の形態においては、無線通信システム１００は、端末装置２，３以外にも端末装置２，３と同じ通信方式に従って基地局１０と無線通信を行う端末装置を備えていてもよい。

更に、この発明の実施の形態においては、対応表ＴＢＬから１つのアームａを選択する方法は、ε－ｇｒｅｅｄｙ以外の方法であってもよく、例えば、ＵＣＢ（Upper Confidence Bound）またはThompson Samplingであってもよい。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

この発明は、端末装置、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体に適用される。

１～３，１Ａ端末装置、１０基地局、１１アンテナ、１２，３１通信手段、１３，３２制御手段、１４学習器、１５アプリケーション、２０，３０通信ユニット、４０選択手段、１００無線通信システム。

Claims

パケットを送信するチャネルである送信チャネルにおいてキャリアセンスを実行するキャリアセンス手段と、
前記送信チャネルでのパケットの送信を待機する期間である待機期間を設定するとともに前記待機期間の終了時を前記パケットの送信タイミングとして設定する設定手段と、
前記待機期間における前記キャリアセンス手段によるキャリアセンスの結果に基づいて前記送信チャネルが使用されている期間である前記送信チャネルの使用期間の長さを検出する検出手段と、
前記送信タイミングにおいて前記送信チャネルが空いているとき前記パケットを前記送信チャネルで送信するとともにＡＣＫパケットを受信する通信手段と、
前記待機期間の長さ、前記送信チャネルの使用期間の長さおよび前記パケットの送信動作結果を受け、その受けた前記待機期間の長さ、前記送信チャネルの使用期間の長さおよび前記パケットの送信動作結果に基づいて第１の時点における即時報酬を算出する第１の処理と、前記即時報酬の累積値を平均した報酬であり、かつ、前記第１の時点の後の第２の時点における報酬である平均報酬を前記第１の処理において算出した即時報酬を用いて算出する第２の処理と、前記待機期間の長さの選択肢と、前記待機期間の長さと、前記平均報酬とを対応付けた対応表を作成するとともに前記第２の処理において算出した平均報酬によって前記第１の時点において前記設定手段へ出力した前記待機期間の長さに対応付けられた平均報酬を更新することによって前記対応表を更新し、その作成または更新した対応表に基づいて最大の前記平均報酬が得られるときの前記待機期間の長さを前記第２の時点で所定の確率で選択し、その選択した待機期間の長さを前記設定手段へ出力する第３の処理とを前記待機期間の長さ、前記送信チャネルの使用期間の長さおよび前記パケットの送信動作結果を受ける毎に実行する学習器とを備え、
前記設定手段は、前記第２の時点において前記学習器から前記待機期間の長さを受けると、前記待機期間を設定するともに、前記送信タイミングを前記通信手段へ出力し、
前記通信手段は、前記第２の時点において前記設定手段から前記送信タイミングを受けると、その受けた送信タイミングにおいて前記送信チャネルが空いているとき前記パケットを前記送信チャネルで送信するとともに前記パケットの送信結果を受信し、
前記検出手段は、前記第２の時点において設定された待機期間において前記送信チャネルの使用期間の長さを検出する、端末装置。
前記待機期間は、前記設定手段が前記待機期間の長さを前記学習器から受けた時点から零または前記パケットのパケット長の正の整数倍に相当する時間が経過した時点までの期間に設定される、請求項１に記載の端末装置。
前記設定手段は、前記キャリアセンスの結果が、前記送信チャネルが空いていることを示すアイドル状態であるか、前記キャリアセンスの結果が、前記送信チャネルが空いていないことを示すビジー状態であるかに拘わらず、前記待機期間の長さを前記学習器から受けた時点から前記待機期間の長さだけ経過した時点までの期間を前記待機期間として設定する、請求項１または請求項２に記載の端末装置。
前記学習器は、前記第１の処理において、前記パケットの送信結果が前記パケットの送信の失敗であるとき、前記即時報酬を負の値と算出し、前記パケットの送信結果が前記パケットの送信の成功であるとき、前記待機期間の長さを前記パケットのパケット長で除算した除算結果に第１の所定値を加算した加算結果の逆数に前記送信チャネルの使用期間の長さを前記パケット長で除算した除算結果を乗算し、その乗算した乗算結果に第２の所定値を加算した加算結果を前記第１の時点における即時報酬として算出し、前記待機期間において前記パケットが送信されなかったとき、前記乗算結果を前記第１の時点における即時報酬として算出する、請求項１から請求項３のいずれか１項に記載の端末装置。
前記学習器は、前記第２の処理において、前記第１の時点ｔにおける即時報酬をＲ_ｔとし、前記第１の時点ｔにおける平均報酬をＶ_ｔとし、前記待機期間の長さの選択回数をｎとしたとき、以下の式（１）によって、前記第１の時点ｔの後の前記第２の時点ｔ＋１における平均報酬Ｖ_ｔ＋１を算出することによって前記平均報酬を更新する、請求項１から請求項４のいずれか１項に記載の端末装置。
Ｖ_ｔ＋１＝Ｖ_ｔ＋（Ｒ_ｔ－Ｖ_ｔ）／ｎ・・・（１）
前記学習器は、前記第３の処理において、確率（１－ε）（εは、０～１の範囲の実数である。）で前記第２の時点における平均報酬が最大である前記待機期間の長さを選択する、請求項１から請求項５のいずれか１項に記載の端末装置。
前記待機期間を設定せずに、前記キャリアセンスの結果に基づいて前記送信チャネルが空いていると判定したとき前記パケットを前記送信チャネルで送信し、前記キャリアセンスの結果に基づいて前記送信チャネルが空いていないと判定したとき前記パケットを前記送信チャネルで送信しない通信方法によって前記パケットを送信するとともに前記パケットの送信結果を受信する第２の通信ユニットを更に備え、
前記キャリアセンス手段、前記設定手段、前記検出手段、前記通信手段および前記学習器は、第１の通信ユニットを構成し、
前記第１の通信ユニットは、前記パケットの再送率がしきい値よりも大きい場合、前記送信タイミングにおいて前記送信チャネルが空いているとき、前記パケットを前記送信チャネルで送信するとともに前記ＡＣＫパケットを受信し、
前記第２の通信ユニットは、前記パケットの再送率がしきい値以下である場合、前記キャリアセンスの結果に基づいて前記送信チャネルが空いていると判定したとき、前記パケットを前記送信チャネルで送信するとともに前記ＡＣＫパケットを受信する、請求項１から請求項６のいずれか１項に記載の端末装置。
キャリアセンス手段が、パケットを送信するチャネルである送信チャネルにおいてキャリアセンスを実行する第１のステップと、
設定手段が、前記送信チャネルでのパケットの送信を待機する期間である待機期間を設定するとともに前記待機期間の終了時を前記パケットの送信タイミングとして設定する第２のステップと、
検出手段が、前記待機期間における前記キャリアセンスの結果に基づいて前記送信チャネルが使用されている期間である前記送信チャネルの使用期間の長さを検出する第３のステップと、
通信手段が、前記送信タイミングにおいて前記送信チャネルが空いているとき前記パケットを前記送信チャネルで送信するとともにＡＣＫパケットを受信する第４のステップと、
学習器が、前記待機期間の長さ、前記送信チャネルの使用期間の長さおよび前記パケットの送信動作結果を受け、その受けた前記待機期間の長さ、前記送信チャネルの使用期間の長さおよび前記パケットの送信動作結果に基づいて第１の時点における即時報酬を算出する第１の処理と、前記即時報酬の累積値を平均した報酬であり、かつ、前記第１の時点の後の第２の時点における報酬である平均報酬を前記第１の処理において算出した即時報酬を用いて算出する第２の処理と、前記待機期間の長さの選択肢と、前記待機期間の長さと、前記平均報酬とを対応付けた対応表を作成するとともに前記第２の処理において算出した平均報酬によって前記第１の時点において前記設定手段へ出力した前記待機期間の長さに対応付けられた平均報酬を更新することによって前記対応表を更新し、その作成または更新した対応表に基づいて最大の前記平均報酬が得られるときの前記待機期間の長さを前記第２の時点で所定の確率で選択し、その選択した待機期間の長さを前記設定手段へ出力する第３の処理とを前記待機期間の長さ、前記送信チャネルの使用期間の長さおよび前記パケットの送信動作結果を受ける毎に実行する第５のステップとをコンピュータに実行させ、
前記設定手段は、前記第２のステップにおいて、前記第２の時点において前記学習器から前記待機期間の長さを受けると、前記待機期間を設定するともに、前記送信タイミングを前記通信手段へ出力し、
前記通信手段は、前記第４のステップにおいて、前記第２の時点において前記設定手段から前記送信タイミングを受けると、その受けた送信タイミングにおいて前記送信チャネルが空いているとき前記パケットを前記送信チャネルで送信するとともに前記パケットの送信結果を受信し、
前記検出手段は、前記第３のステップにおいて、前記第２の時点において設定された待機期間において前記送信チャネルの使用期間の長さを検出する、コンピュータに実行させるためのプログラム。
前記待機期間は、前記設定手段が前記待機期間の長さを前記学習器から受けた時点から零または前記パケットのパケット長の正の整数倍に相当する時間が経過した時点までの期間に設定される、請求項８に記載のコンピュータに実行させるためのプログラム。
前記設定手段は、前記第２のステップにおいて、前記キャリアセンスの結果が、前記送信チャネルが空いていることを示すアイドル状態であるか、前記キャリアセンスの結果が、前記送信チャネルが空いていないことを示すビジー状態であるかに拘わらず、前記待機期間の長さを前記学習器から受けた時点から前記待機期間の長さだけ経過した時点までの期間を前記待機期間として設定する、請求項８または請求項９に記載のコンピュータに実行させるためのプログラム。
前記学習器は、前記第５のステップの前記第１の処理において、前記パケットの送信結果が前記パケットの送信の失敗であるとき、前記即時報酬を負の値と算出し、前記パケットの送信結果が前記パケットの送信の成功であるとき、前記待機期間の長さを前記パケットのパケット長で除算した除算結果に第１の所定値を加算した加算結果の逆数に前記送信チャネルの使用期間の長さを前記パケット長で除算した除算結果を乗算し、その乗算した乗算結果に第２の所定値を加算した加算結果を前記第１の時点における即時報酬として算出し、前記待機期間において前記パケットが送信されなかったとき、前記乗算結果を前記第１の時点における即時報酬として算出する、請求項８から請求項１０のいずれか１項に記載のコンピュータに実行させるためのプログラム。
前記学習器は、前記第５のステップの前記第２の処理において、前記第１の時点ｔにおける即時報酬をＲ_ｔとし、前記第１の時点ｔにおける平均報酬をＶ_ｔとし、前記待機期間の長さの選択回数をｎとしたとき、以下の式（１）によって、前記第１の時点ｔの後の前記第２の時点ｔ＋１における平均報酬Ｖ_ｔ＋１を算出することによって前記平均報酬を更新する、請求項８から請求項１１のいずれか１項に記載のコンピュータに実行させるためのプログラム。
Ｖ_ｔ＋１＝Ｖ_ｔ＋（Ｒ_ｔ－Ｖ_ｔ）／ｎ・・・（１）
前記学習器は、前記第５のステップの前記第３の処理において、確率（１－ε）（εは、０～１の範囲の実数である。）で前記第２の時点における平均報酬が最大である前記待機期間の長さを選択する、請求項８から請求項１２のいずれか１項に記載のコンピュータに実行させるためのプログラム。
前記待機期間を設定せずに、前記キャリアセンスの結果に基づいて前記送信チャネルが空いていると判定したとき前記パケットを前記送信チャネルで送信し、前記キャリアセンスの結果に基づいて前記送信チャネルが空いていないと判定したとき前記パケットを前記送信チャネルで送信しない通信方法によって前記パケットを送信するとともに前記パケットの送信結果を受信する第２の通信ユニットが、前記パケットの再送率がしきい値以下である場合、前記キャリアセンスの結果に基づいて前記送信チャネルが空いていると判定したとき、前記パケットを前記送信チャネルで送信するとともに前記ＡＣＫパケットを受信する第６のステップを更にコンピュータに実行させ、
前記キャリアセンス手段、前記設定手段、前記検出手段、前記通信手段および前記学習器を含む第１の通信ユニットは、前記パケットの再送率がしきい値よりも大きい場合、前記第１のステップから前記第５のステップを実行して、前記送信タイミングにおいて前記送信チャネルが空いているとき、前記パケットを前記送信チャネルで送信するとともに前記ＡＣＫパケットを受信する、請求項８から請求項１３のいずれか１項に記載のコンピュータに実行させるためのプログラム。
請求項８から請求項１４のいずれか１項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。