「Eji」的全部文章

4K Video Downloader

Youtubeはメインの動画ソースになりつつあります。

「最高解像度」のYoutubeの動画をダウンロードするには現状、ツールを借りるのが一番手軽い。そうではないと、スクリプト経由などの場合、実解像度と関係なく、非HDの480p程度が最高解像度の動画でも、360p以下がMP4としてダウンロード可能という仕様でした。

正直自力だとばかばかしく見えるようになったので、ツールを使うようになりました。
最近だとスマホだとTubemate、PCだと4K Video Downloaderがメインとなります。

https://www.4kdownload.com/products/product-videodownloader/?r=free_license

ソフト自体有料だったので、フリーのまま運用すると制限がかけられます。例えばリストダウンロードは便利機能ですが、全部やり放題させるとさすがに有料できなくなるから、25個とかの制限がありますが、単体ダウンロードの場合1440Pなとはちゃんと解析してダウンロードするので、大量ダウンロードめったにない自分にとって運用自体問題なかった。

あとは、なぜかYoutubeの動画がそこまでダウンロードが困難というと、投稿動画の最高解像度限って、画像と音声が別々に配送されてるから、そこでツールを経由すると、単体のオーディオダウンロードも可能となってます。4K Video DownloaderはオリジナルのM4Aをコンバートする機能もあるが、そこから高いビットレートへコンバートするのは意味がなかったので警告文がほしいかも(Foobar2000だとありましたし)

ちなみにダウンロード自体はYoutubeのライセンスを違反してるので、大声でするものではなかったな。

PS4 Pro正式発表

個人の感想:ミクさんカバー使えない…..T_T これは予想外だった。

CPU:アーキテクチャ据え置きだが1.6GHzから2.1GHz メモリー GDDR5 8GB同じですがクロック高くなり176GB/sから218GB/s GPU:規模が倍になりクロックも。18 CUs 800MHzから 36 CUs 911MHz。4.2TFLOPS。

CPUは多少強くなったところでGPUが2倍以上で大幅増強。これは今後問題になりそうですが、発売日は今年内で十分攻めの姿勢を見せた。PSVRとほぼ同時発売はよく頑張ったな。

ScorpioはCPU、GPUともに1.5倍程度という違いが出てるけど、丸々一年遅くなることになりそうで痛い。

以下、ニュースリリース転載

閱讀全文 PS4 Pro正式発表

Moresampler の現状まとめ (~0.7.x)

Moresamplerの開発が始まった当初で書いた
「利点、欠点、導入など」の記事

http://ch.nicovideo.jp/ejiwarp/blomaga/ar891612
Moresamplerの説明:利点、欠点、導入など

はツイッターで時々引用されることは嬉しい話ではある。

が、流石にアップデート重ねていて、変更点が多数増えたし、編集するのも混乱になるから、近況報告の意味でもまとめし直すかと思います。

—-
Moresampler 0.7.0と0.7.1をメインにすると、現状Moresamplerの利点は以下となります。

● 新発想の音声モデリングによるVOCODERシステム、LLSMの導入で高精度&高速な再合成
● 周波数領域でクロスフェードを行うWAVTOOLモードで位相ズレを原理上解消、同時にモーフィング機能を有し、VOCALOIDのいわゆるクロスシンセシスが可能
● WORLD系同等のループモードで音源の柔らかさ持たせる同時に、高精度のストレッチモードも活用可能、特に男性声にピッチシフトするとき、劣化の少なさは特出
● 任意入力フォーマット音声の混在、入出力共に8bit 16KHz~32bit 192KHzの間任意出力フォーマットへ指定
● 多彩な独自フラグを備える上に、Growl機能も内蔵
● OpenMPマルチスレッドの実装で分析&再合成の並列高速化
● 音源フォルダーをD&Dすることで自動原音設定する機能

そして上記機能由来のこともあり、現状の欠点は

● モーフィング機能備えるといっても等価機能ではない。UTAUエディターでの活用が困難。
現状で活用できる箇所は「モジュレーション100調音」がメインになってると予想。
● 繊細な音声モデリング由来の不安定さ、F0エラーへの敏感、異音雑音を生む確率は高い
● PresampなどUTAUに特化する多様な実行モードを内蔵するためにバグが潜む可能性(時々構造再整理するのもこのため)

● 自らマルチスレッド高速化機能内蔵するため、複数Resamplerを1つのUSTに並存させるResampler Wrapperと互換性が悪い
● 出音の良さは音声モデリングと周波数領域処理に依存するため、内蔵WAVTOOL機能を使わないと良さが生かされない

*:意図的ではないため見落としました。direct$=true実装のためWAV入力混在が可能となりました。
Moresamplerをtool2に使うとwavtoolと準する機能があって、以上の二点は解消されてる。(….編集で混乱されるのに変更点加えて申し訳ない)

など、UTAU界隈との評価軸の乖離が感じさせる。

—-
最近の問題点は、0.7.xは0.6.4と比べて性能が低下。

比較対象は
a. 0.6.4 legacy
b. 0.6.4 msvc64
c. 0.7.1

使用なのは以下のタスク
1. frqeditor で闇音レンリの全原音LLSM再生成時間を測る
2. 再生成したLLSMでEnd of Rainの合成時間を測る

タスク1
legacyはmsvc64バージョンより 生成速度が 25%前後と遅く(4分15秒 対して 3分27秒)、0.7.1だとは更に4.30秒と遅くなってる。

タスク2,合成時間の場合、
0.6.4 msvc64は42秒、0.6.4 legacyは75秒、0.7.1は90秒と減速した。
UTAUのバッチファイル生成時間約5秒が含むため、正味35/70/85秒前後となる。

この計算だと、60%前後の速度低減が考えられます。

上記の場合、以下の想定となります
1. MSVCでのコンパイルはminigwより有効が明らか(分析速度25%、合成速度50%差)
2. 0.7.xは原音設定部のコードザイズ分でローディングが遅くなってる

よって、全体の速度自体は以前より悪化したことは認められます。

ただ、minigwよりMSVCを使用することで開発者は負担が増えてると自認してるとは一つ、それをlegacy/32/64など複数バージョンで分けることで、ユーザー側もわかり辛くなったこともある。

当時コンパイルにMSVC採用したのは、OpenMP統合にアルゴリズム上の高速化がだいぶ辛くなってきたところが大きかった。開発リソース(個人なのでほぼ時間)を分析精度、音響モデリング、派生技術などの集中にしたいところもあって、モチベーション維持上で、MSVC使用はネガティブかと。

次に、内部計測を上げると、0.6.4と0.7.1では実際エンジン内で仕事する時間は50ms程度に対して、0.7.1でのOS側計測が200ms程度。すなわちプログラムローディングが全体の3/4くらいかかってること。MSVCで改善しているのはこの箇所です。マルチスレッド対応でパイプライン処理が出来てる時点で、全体の仕事率は変わらないから、そりぁモチベーションにならないよね。

よって、弱音を上げるところはちょっと恥ずかしいかも知れないが。
「遅くなったぞ」「はい、そうです。すみません。」
ということで、しばらくはこうなることになりそうです。

—-
以降、現状のあるMoresampler関連記事のリストアップとなります。
まとめ上げたのは ちていこさん と まいこはーんさん、ありがとうございました。

http://ch.nicovideo.jp/ejiwarp/blomaga/ar1013792
Moresampler 0.6.4 以降の導入について

http://ch.nicovideo.jp/ejiwarp/blomaga/ar1013800
Moresampler mrq関連

http://ch.nicovideo.jp/ejiwarp/blomaga/ar1013816
Moresampler ができること(0.6.3準拠)

http://togetter.com/li/985175
Moresamplerの自動原音設定への意見・評判まとめ

http://togetter.com/li/966241
【UTAU】Moresamplerを使う時のための参考情報

http://togetter.com/li/924265
【UTAU】MoresamplerについてEjiさんに教えていただいた

Moresampler 0.7.1

二ヶ月ぶりの再開。

本家
Bowlroll

呼びかけとなりますが、「よくわからない」から、反応せず古いバージョンとか使うのは開発側もユーザー側も損になりますので、ぜひコメントとか、ツイッターとか、メールでも、連絡してくれるとありがたい。

現状よく問題されてるのはResampler Wrapperとの連携がうまくできないこと、それだとWAV互換機能の有効(LLSMの他にwavも書き出す)と内蔵の合成加速機能を無効化(マルチスレッド化をオフ)が必要。

使用するにはmoreconfig.txtのなかで
 resampler-compatibility on(デフォルトはoff)
 multithread-synthesis off (デフォルトはon)
にする必要があります。

Moresampler単体運用だと、加速機能内蔵のため、Resampler Wrapper必要ありません。

==
以下、本バージョンの変更点。

0.7.1 (2016年8月22日)
* 本バージョンは一部の数学演算関連機能を再構成しました
* 問題修正:辺界連結時たまに雑音が発生する問題
* 問題修正:Mrフラグがマイナスの場合で爆音が発生する問題
* 問題修正:uフラグ使用時ノートの偏移量の誤り
* 機能改善:テクスト-スピーチ辺界識別モデルの設定を改善。oto生成精度が高まれる。
* 機能改善:uフラグ使用時非正規化数を使用すると合成速度が大幅(1000%)に低下する問題を回避
* 新機能:oto生成機能においてローマ字が使用可能となりました

原文:

0.7.1 (Aug. 22, 2016)

* This version has undergone some code refactoring on math-related functions.
* Bug fix: occasional glitches at concatenation boundaries.
* Bug fix: pops caused by setting Mr flag to a negative value.
* Bug fix: wrong offset of notes with ‘u’ flag enabled.
* Improved feature: retrained the text-speech alignment model with better configuration. Oto generation accuracy has been improved.
* Improved feature: avoid denormal floating point numbers which may slow down synthesis by 1000% when ‘u’ flag is on.
* New feature: oto generation mode now supports romaji voicebanks.

「聞きましたよ。」

「VSQ未調整」による表現は、音源購入者にとっては
「スタートラインを立つ状態」を確認する行為だった。

ミクV4Xは、空前の長い熟成期間を通してました。
ルカV4Xを買えば、ほぼ自由的使用させるβプログラムを約一年前後で使えるようにしてました。
ルカさんの勢いをプッシュするのもありながら、必勝を期するために大規模で意見を吸い上げるためでもあった。

その結果でもあるが、デモ曲のラインアップがこれでもかくらい豪華だった。
ミクV4Xβを手にした中堅Pさんたちの新曲がそのまま「初音ミク V4X ベータ使用楽曲
」として使われて、プロダクトページがすごいこととなりました。

っていうか、

「そんな数十万再生のデモ曲どこにあるかー!」
「ひー (;´>ω<)」

なんで、思わず突っ込みたくなる。

むろん、V4Xβの入手条件ってやはりある程度難しい。
販路、対応リソースが必要な行為でした。

そもそもクリプトンにとって、
試用版を配ることはむしろ他所よりは大いに得意で、
いつもすごい気合入れていた。

当初、初代無印のV2ミクさんは2007年DTMマガジンの11月号を三日に売り切れさせ、中古市場でプレミアム価格に追い込め、その後の特集までも入手難とさせました。

そして、DTMマガジンからAppend Solidを配るのもあるし、ミクV3の英語の体験版もいまでもSonicwireで配布中でした。

これくらいで分かるように、体験版を配る行為は、
クリプトンはいつも丁寧に行いました。
そして、配るあとのフォロー。

発売後の販促用宣伝と体験版とは別で、結局発売前の意見を無限に吸い上げる自体ありえなかったし、その意見を有意義な改善工程へ変換する猶予は必要なので、限界はあります。

それを労力を払って、ギリギリまでやり続け、完成度を追い込んでいく。

—–
なので、いつも変化を求めてるクリプトンではあるので、もしかして今回は「無調整デモ曲はなしか」という推測もしました。

なぜかいうと、ミクAppend、V3とミクV4Xの時、ちょっとWatさんの発言の雰囲気が変わりました。

戦略的よりキーとなってるPさんへ注力するというか、「伸びしろのある時期」と「守成に入る時期」の戦略変換など、「VOCALOID3以降、どうやってボカロを売りに行くかが悩む」(ミクV3発表会、MikXperience e.p.)とミクV4X関連で「確実にキーとなってるPがいる」などがうかがってます。

けれど、これで杞憂で終わりました。
正統な無調整デモ曲はやはり用意していた。

AppendとV3でやってきたデモ曲ラインアップは、前回あった傾向を今回も踏襲していた。

「ボイスカラーは敘情曲で繊細な表現を行う同時に、コアとなるノーマルで(これから購入する)ユーザーに訴求する曲を」

V3だと、「ペイメント」がありました。
この粋は私にとっては

大きな意味がありました。

https://www.youtube.com/watch?v=5B6CrCOdIik
【初音ミクV4X】 ヒアミー 【歌声デモ】

「わたしを、聞いて」

Moresampler 0.7.0

Resampler から、更なる先へ….


全機能内蔵解決しました。もう迷わない。

Moresampler 0.7.0
公式
BowlRoll

0.7.0 (2016年 6月7日)

* 改良:Mtフラグの効果(シャープさ、緊張さ)を改良した。
* 改良:Wavtoolモードにおけるノート辺界で時々生むグリッチ音を低減
* 新機能:音源フォルダーをMoresampler.exeにドラッグアンドドロップして、原音を分析して自動的oto.iniを生成する。
本機能は実験性的であり、またまた改良が必要。
現状は「連続的発話した」「日本語」「ひらかな/カタカナのファイル名」の原音がサポートされます。
サブフォルダはサポートされおりません。フォルダーの中に .wavを置いてください。
現状サポートされたのは連続音(VCV)スタイルだけ。使う前に元のoto.iniを別途バックアップしてく下さい。

* 新機能:Mr フラグ, 「シンガーのフォルマント」を3KHzのところで生成します。
範囲は[-100, 100](負は位相反転)、整数、デフォルト値0。
* 新機能: Moresamplerは .aiff/.aifファイルの入力をサポートしました。

* 設定可能新機能

meta-flag-1/2/3/4 ….
この機能はカスタマイズするフラグを作れます。
複数のフラグを一つのメタフラグへ組み合わせられます。入力の労力低減につなげるかと。
メタフラグはM+数字、M1、M2などで有効します。
うしろに.と数字をつけると、%として有効範囲を調整します。(元フラグの最大値に制限される)
例:
meta-flag-1 MG50MD30MC20Mb30Mt50
ノートで「eMo20M1.50」を入力する場合、eMo20MG25MD15MC10Mb15Mt25と等価します。
(メタフラグの効果は50%にしました)

analysis-suppress-subharmonics on/off
有効すると、自動的低調波を入力音声から取り除く(存在していた場合)。
叫び声ではありがちな気音成分が損なわれた部分に対して有効かと。

====

0.7.0 (Jun. 7, 2016)
* Improved feature: the effect of ‘Mt’ flag is improved on sharp/intense voices.
* Improved feature: prevent glitches at note boundaries introduced in wavtool mode.
* New feature: drag a voicebank folder onto moresampler.exe to automatically analyze the audio and generate oto.ini.
This is an experimental feature which still has lots of things to improve. Currently only continuous-speech Japanese voicebanks with filenames written in Hiragana and/or Katakana are supported. The folder shouldcontain .wav files and those in the subfolders won’t be loaded. The output is VCV-style oto.ini. Please backup the oto.ini file before using this feature.
* New feature: added ‘Mr’ flag which creates a “singer’s formant” around 3kHz.
Range: [-100, 100], real number; default: 0.
* New feature: Moresampler now supports .aiff/.aif files as input.
* New configuration & feature:
meta-flag-1/2/3/4/… This feature allows customization of flags. Multiple flags can be combined into one meta flag which saves effort when typing flag sequences in UTAU’s note settings panel. Meta flags are activatived in the format M+number (e.g. M1, M2, M3). By putting dot and a number after a meta flag, the effectiveness can be scaled by the number (as long as the result of scaling is still within the allowed range of each flag). For example, the following configuration
meta-flag-1 MG50MD30MC20Mb30Mt50
and flag sequence ‘eMo20M1.50’ expands to ‘eMo20MG25MD15MC10Mb15Mt25’.

analysis-suppress-subharmonics on/off

When set to “on”, automatically remove the subharmonics (if there are any) from input speech during analysis. This might be helpful for screamy voices but slightly degrades the quality of breathy voices.

Moresampler 0.6.4

まずは謝罪ですが、結局DLL内蔵は失敗したので、0.6.4でもMoresampler32にvcomp140d.dll、Moresampler64にvcomp140.dllを一緒にコピーする必要があります。
なんか難しいとか思うと、引き続き-legacyの方を使うことにオススメします。

公式

Bowlrollでミラー

更新履歴:
0.6.4 (2016年5月)
* 問題修正: “load-frq on/strict”のオプションでよくクラッシュしてしまう問題
* 問題修正: ライブラリーの呼び出しの仕方でピッチ推定性能が悪化してしまう問題
* 問題修正: デフォルトのwavtoolに“$direct=true”と”u”フラグの出力結果が一致しない問題

0.6.4 (May. 5, 2016)
* Bug fix: occasional crashes with “load-frq on/strict” option.
* Bug fix: pitch estimation errors caused by an improper library call.
* Bug fix: “$direct=true” and ‘u’ flag give results inconsistent with the default
wavtool.

Moresampler ができること(0.6.3準拠)

Moresamplerが出来るのは

1. wavtoolも兼ねることで、原理的位相最適化を自動的行う。
2. moreconfig.txtの設定で
*「44100Hz~192000Hz、8/16/24/32bit」の出力選択が可能
*全域伸縮もしくはループを強制(通常はオート、ノートにあるフラグが優先)
*同時にWAVも出力出来るが、他所のWAVTOOLの性能を超える場合も
*ログファイルを有効して、問題箇所を探せる(この場合開発元に送ろうね)
*分析機能を最適化して、困難な原音を挑める(玄人向け、ここでは無視する)
**例えば音源の中のフォルダーごとにmoreconfig.txtを置いてそれぞれ最適化する高等技術も

3.多彩なフラグ

やっていたうちにMoresamplerのフラグ群はしばらくResamplerの中に一番多彩となった、だと自負してます。

現在サポートしていたのは以下のフラグ:

>既存互換フラグ:g,t,P、A、b、e
gフラグ:レンジは-100~100、デフォルト0、+で男性/オトナ的、-で女性/ロリっぽく
tフラグ:レンジは-1200~1200、デフォルト0、音程微調整、1=半音の1/100
Pフラグ:レンジは0~100、デフォルト86、ピークコンプレサー、本家Resampler.exe準拠
Aフラグ:レンジは-100~100、デフォルト0、音量モジュレーション。リアルなビブラート作成に有用
bフラグ:レンジは-20~100、デフォルト0、無声音成分を強調/低減する
eフラグ:強制伸縮フラグ、(なお、Meと:eの場合が強制ループ。)

>Moresampler 拡張独自フラグ。二文字、Me以外使い所は音作りに集中する。
>Mt、Mb、Mo、Md、Ms、Mm、ME、Me
Mt:緊張感の有る/なしの声に。レンジは-100~100
Mb:息成分を増減する。100にするとウィスキーボイスに。レンジは-100~100
Mo:発音時の口開け具合を増減する。レンジは-100~100
Md:ドライさ、このフラグの効果はかなり微妙で。高周波(6KHz帯域)の方が使えられそう。
Ms:安定感。レンジは0~10。デフォルトは0
ノートの出音がちょっとした雑音のある場合は増やして安定させることが可能。**機能自体はanalysis-anti-distortionと一緒なので、雑音が頻発する場合moreconfig.txtでこの項目を有効するのも手です。
Mm:旧来の発音モデルと行き渡りする。0.3.0以前で使用されたモデルとそれ以降で使用された最新のモデルの間で補間する。レンジは0~100、デフォルトは100。
ME:フォルマントを強調する。マイナスすると声がボケる。レンジは0~100、デフォルトは0。
Me:強制ループフラグ。前述通り。

なお、本家サイトにサンプル音声が上げられるためオススメです。

Moresampler mrq関連

アップデート重ねたら、Moresamplerが現在もっとも豐富な機能群、フラグ群を提供していたが、逆に言うと一番わかり辛くなっていたかも知れない。

どうしてこうなったというと、高音質の「可能性を求めて」導入した構造が、ヒイキでもあるから良くなるも悪くなるもある。今まで他のUTAU向けResamplerで多少にいい加減な設定で行けるのも、Moresamplerでは行けなくなって、雑音とか、クラッシュとか、わかりやすい不具合として出てしまう。

よって、いわゆる周波数表、Resampler向けのfrqと相当するmrqファイルは、Moresamplerでは極めて重要となります。出音に問題があればまずこちらを疑え。

幸い、周波数表自体長い間頼れるツール、Frqeditorがすでに存在してますが、mrqも対応してもらっていた。
Frqeditorで選べる手法は、「すでに手作りで、問題ないと考えていた周波数表」があるかどうかで分岐する。

ここで闇音レンリさんを借りて説明しよう。

これは「表示→スペクトラム→スペクトラムを表示」を有効して、Mrqが未作成の場合です。
「ツール→オプション→合成エンジン」では、すでにMoresamplerが選ばられて、mrqを編集する予定でした。

眺めると、レンリさんは周波数表としてfrqすでに同時に配布したようです。
「ツール→オプション→合成エンジン」をResampler.exeに変更すると、以下のようになります。
明るい原音のスペクトラムに、音階を表する赤い水平線と、有声音(濁音)を表する青い線が描いてる。
一部青い線が暗い部分まではみ出してますが、この場合問題ありません。
(ここでの意味は「無声箇所を有声音(清音)へ誤認する」が、そもそも周期成分なかったので無声のままとなります)

1. 既存FRQは問題ないと判断する場合、コピーする。
編集→周波数表を変換

とこの画面に

FRQからMRQへ変換出力されます。

で、これは「必ずも問題ない」というわけではなく、そもそも周波数表自体作っていなかった場合、Resamplerが生成したFRQをそのまま入っていたやつをMoresamplerに食わせると普通に暴走するから確認をしてねー

2. 自力で分析させる
元々Moresamplerは精度辺り他を上回ってるし、上位ライブラリーも試してますので、自力で分析するのはかなりオススメしてます。

「編集→すべての周波数表を再作成→よろしいですか?YES」でここに入ります。

通常は「両方初期化する」を選んで、MRQとLLSM両方Moresamplerが一括生成します。
*:この手順をやってからUTAUで既存UST使うと、凄い速さで出力されます。

で、問題になりそうはこういう状況:

(緑でピックアップした箇所のように)基本周波数赤線はあってますが、有声音の部分に一部青い線が引いてない場合、有声音を無声音を誤認するため、そのままモデリングすると、致命な雑音(しゃー)が出ています。

この件だと、現在(0.6.3)はこの通りで正しく検出されます。

未だにF0と有声/無声音検出(voiced/unvoiced、V/U辺界検出)を改良する余地はあって、開発側は引き続き努力しますが、基本的どこか限界があって、どんな原音でも大丈夫、というのはなかなか無いとおもいます。
なんの問題もなかった、というのは人様が作った上位ライブラリーで、他人の努力があった、ということが多い。

自分が作ったモノだと、相当の可能性でMoresamplerが声上がってしまうと思います。

で、最新版使ってるけどどうする?
残念ながら….自分で描くしかないぞ…..

描く場合、こちら画力ないので説明出来ない!(え

Moresampler 0.6.4 以降の導入について

自分:「シアトルが、シアトルが私を待ってる….」
ミクさん:「仕事しろ」

====
というわけで、まずはMoresamplerの導入について。
1. ファイル


(**画像差し替えました)
moreconfig.txtと、moresampler-legacy /moresampler32 /moresampler64 3つの中に、
一つを選んでUTAUのフォルダーへコピーしてください。

(0.6.3まで、moresampler32にvcomp140.dll、moresampler64にvcomp140d.dllついてにコピーする必要ありますが、今後廃止する予定)
(*逆だった! 64-140, 32-140d
(**内蔵できないと判明しました。

迷ったらLegacy使って下さい。XPなどを含めて最低限動けます。

あと、特にリネームする必要もないですが、リネームする場合これからの導入ステップに反映して下さい。

2.ツール設定。

ツール1とツール2両方をmoresampler.exeにする。
*:リネームしてなかったらこの場合moresampler-legacy.exeとなります。

なお、ツール1をwavtool.exeとか使いたい場合、moreconfig.txtの

“resampler-compatibility”をonに変更して下さい。
WAVファイルが1kbとかではなくちゃんと生成します。
ただ音質悪化しますので基本的非推奨です。

3. 他のUTAU設定


以上の通りに設定して下さい。

以上でMoresamplerが最低限動けると思います